Document type

Bachelor thesis

Publication date

Publication license

memòria: cc by-nc-nd (c) Enrique Chueca Negre, 2026
Please use this identifier to cite or link to this item: https://hdl.handle.net/2445/228502

A comparison of machine learning methods for biomedical named entity recognition

Journal Title

Journal ISSN

Volume Title

Related resource

Abstract

[en] This thesis presents a comparative analysis of machine learning methods for Named Entity Recognition (NER) in biomedical text. Three approaches were implemented and evaluated on the JNLPBA dataset: a statistical baseline using Conditional Random Fields (CRF), and two Transformer-based models (BERT and BioBERT). Results demonstrate that domain-specific pre-training significantly improves performance, with BioBERT achieving the highest Micro F1-Score of 0.7422, compared to 0.7195 for BERT and 0.6575 for CRF. Error analysis reveals that boundary detection and semantic similarity between entity types (CELL_TYPE vs. CELL_LINE, DNA vs. PROTEIN) are the main sources of errors across all models. The findings confirm the importance of transfer learning and domain adaptation for specialized NLP tasks, while also highlighting the continued challenges in biomedical entity recognition. [es] Este trabajo de fin de grado presenta un análisis comparativo de métodos de aprendizaje automático para el Reconocimiento de Entidades Nombradas (NER) en texto biomédico. Se implementaron y evaluaron tres enfoques utilizando el dataset JNLPBA: un modelo estadístico basado en Campos Aleatorios Condicionales (CRF) como línea base, y dos modelos basados en Transformers (BERT y BioBERT). Los resultados demuestran que el pre-entrenamiento específico de dominio mejora significativamente el rendimiento. BioBERT alcanzó la puntuación F1 Micro más alta (0,7422), en comparación con 0,7195 de BERT y 0,6575 del CRF. El análisis de errores revela que la detección de límites de entidades y la similitud semántica entre tipos de entidades (CELL_TYPE vs. CELL_LINE, DNA vs. PROTEIN) son las principales fuentes de error en todos los modelos. Los hallazgos confirman la importancia del aprendizaje por transferencia y la adaptación de dominio para tareas especializadas de PLN, al tiempo que destacan los desafíos persistentes en el reconocimiento de entidades biomédicas. [ca] Aquest treball de fi de grau presenta una anàlisi comparativa de mètodes d’aprenentatge automàtic per al Reconeixement d’Entitats Anomenades (NER) en text biomèdic. S’han implementat i avaluat tres enfocaments utilitzant el dataset JNLPBA: un model estadístic basat en Camps Aleatoris Condicionals (CRF) com a línia base, i dos models basats en Transformers (BERT i BioBERT). Els resultats demostren que el pre-entrenament específic de domini millora significativament el rendiment. BioBERT va assolir la puntuació F1 Micro més alta (0,7422), en comparació amb 0,7195 de BERT i 0,6575 del CRF. L’anàlisi d’errors revela que la detecció de límits d’entitats i la similitud semàntica entre tipus d’entitats (CELL_TYPE vs. CELL_LINE, DNA vs. PROTEIN) són les principals fonts d’error en tots els models. Les troballes confirmen la importància de l’aprenentatge per transferència i l’adaptació de domini per a tasques especialitzades de PLN, alhora que destaquen els reptes persistents en el reconeixement d’entitats biomèdiques.

Description

Treballs Finals de Grau d'Enginyeria Informàtica, Facultat de Matemàtiques, Universitat de Barcelona, Any: 2026, Director: Daniel Ortiz Martínez

Citation

Citation

CHUECA NEGRE, Enrique. A comparison of machine learning methods for biomedical named entity recognition. [consulted: 6 of June of 2026]. Available at: https://hdl.handle.net/2445/228502

Export metadata

JSON - METS

Share record