Tipus de document

Tesi

Versió

Versió publicada

Data de publicació

Llicència de publicació

cc by (c) Corvi, Javier, 2025
Si us plau utilitzeu sempre aquest identificador per citar o enllaçar aquest document: https://hdl.handle.net/2445/229746

Reaching a modular, generic and containerised development in Biomedical Natural Language Processing systems

Títol de la revista

ISSN de la revista

Títol del volum

Recurs relacionat

Resum

[eng] The last century saw an exponential increase in scientific publications in the biomedical domain, generating a vast corpus of knowledge on different subfields. Despite the potential value of this knowledge, most of this data is only available as unstructured textual literature with variable degrees of digitisation, which have limited their systematic access, use and exploitation. This limitation can be avoided, or at least mitigated, by relying on text mining techniques to automatically extract relevant data and structure it from textual documents. Among the different alternatives for the automated processing of available texts, Natural Language Processing (NLP) workflows occupy a fundamental role. Biomedical Natural Language Processing (BioNLP) has been widely used to enhance the extraction, analysis, and interpretation of biomedical data from unstructured text, helping to streamline research, improve patient care, and support decision-making in healthcare. Applications range from mining vast corpora of scientific literature for drug discovery and gene-disease associations to processing clinical records for automating medical coding and extracting patient data for personalised medicine. Nowadays, there are still uncovered biomedical areas that require comprehensive analysis and research in order to develop appropriate text mining resources and systems. In the clinical domain, efforts have been made to generate annotated corpora and text mining tools focused on extracting diseases and drug-related adverse effects in humans for pharmacovigilance activities. However, in the preclinical phase of the drug development process, there are no text mining resources developed for analysing the growing number of existing toxicological studies. eTRANSAFE was a research project funded within the Innovative Medicines Initiative (IMI), which aimed at developing integrated databases and computational tools that support the translational safety assessment of new drugs. One of the milestones of eTRANSAFE was the development of a text mining framework designed to automatically extract treatment-related findings from preclinical toxicology reports. A treatment-related finding refers to any observable effect, outcome, or manifestation that occurs in a test subject as a direct or indirect result of a treatment or compound administration. Another field that currently lacks in terms of resources and tools for unstructured text analysis is the biomaterials domain. Biomaterials are natural or synthetic materials used for constructing artificial organs, fabricating prostheses, or replacing tissues. The effective use of biomaterials is critical for advancements in medical and dental applications, tissue engineering, and regenerative medicine. Developing advanced text mining and NLP tools tailored for the biomaterials domain could enhance data accessibility and usability. Such tools would enable researchers to systematically analyse existing literature, identify trends, and uncover relationships between different biomaterials and their applications. By bridging this gap, we can accelerate innovation and improve outcomes in biomaterials research and its applications in healthcare. A significant challenge for scientific software applications, including NLP systems, is the ability to share, distribute, and run these systems in a simple and efficient manner. Software containers provide a robust technological foundation to address this challenge. Containers encapsulate the application’s dependencies and auxiliary tools, ensuring isolation from the host environment, which enhances portability and reproducibility. Additionally, workflow managers can be employed to automate the orchestration and execution of text mining pipelines, streamlining the entire process and ensuring efficient, scalable execution. This thesis focuses on developing modular, flexible software components that utilise NLP techniques, allowing for their reuse and adaptation across various domains. In particular, this thesis addressed two BioNLP use cases; the main one is the development of PretoxTM, a text mining system for extracting treatment-related findings from preclinical toxicology reports, developed in the context of the eTRANSAFE project. A second use case is the development of DEBBIE (Database of Biomaterials and their Biological Effect), which aims to integrate metadata extracted from biomaterials publications by storing in its database indexed articles with relevant concepts. The introduction reviews the state of the art in NLP, offering historical context to illustrate the evolution of modern techniques that are currently transforming the field. It also addresses the challenge of modularising the developed components in isolation, utilising virtualisation and automating their execution through workflow managers. Additionally, it examines the current landscape of BioNLP, its diverse applications, and the motivations driving the use cases presented in this thesis. This thesis comprises three published articles: The first article describes the development of the Biomaterials Annotator: a system for ontology-based concept annotation of biomaterials text. This work represents a preliminary phase of the DEBBIE project. The second article encompasses the work undertaken within DEBBIE: The Open Access Database of Experimental Scaffolds and Biomaterials Built Using an Automated Text Mining Pipeline. It describes a novel text mining pipeline that optimises the acquisition, filtering, concept recognition, and storage of annotated biomaterials publications. Additionally, the article highlights the development of a user-friendly web application that allows users to access DEBBIE through keyword searches, displaying results in an intuitive format. The third article provides a comprehensive overview of the principal use case addressed in the thesis, the development of PretoxTM: a text mining system for extracting treatment-related findings from preclinical toxicology reports. It details the creation of the three core components, the PretoxTM Corpus, a gold-standard dataset of preclinical findings annotated by toxicology experts; the PretoxTM Pipeline, which automates the extraction of these findings from preclinical study reports; and the PretoxTM Web App, which facilitates expert review, visualisation, and validation of the extracted information. Finally, the General Discussion section highlights the overall achievements of this thesis, addresses the limitations of the developed systems, and proposes directions for future work to enhance the systems and adapt them to evolving requirements. Additionally, it examines the challenges faced, particularly those arising from the rapid advances in the field of NLP.
[cat] En els darrers anys, el canvi climàtic s'ha convertit en una preocupació central de la comunitat científica, causat principalment per les emissions de gasos d'efecte hivernacle; on el diòxid de carboni (CO2) destaca per ser un dels majors contribuents. Entre les estratègies proposades per mitigar-ne l'impacte, els materials porosos han sorgit com una potencial solució per capturar aquests gasos nocius, els quals presenten un risc tant per a la societat com per al medi ambient. Entre aquests, els Metal Organic Frameworcs (MOF) destaquen per les seves propietats excepcionals, com l'estabilitat tèrmica, la gran superfície específica, l'elevada porositat i la seva funcionalitat, totes elles crucials per a processos eficients d'adsorció de gasos. D’altra banda, la bibliografia exhibeix una notable diversitat en les condicions de mesura de l’adsorció de CO₂ mitjançant MOF, que generalment es realitzen a baixa temperatura i/o altes pressions (on la majoria dels materials porosos funcionen millor). Aquestes condicions no són habituals en les fonts d'emissió més comunes, com ara les xemeneies industrials o els gasos d'escapament de vehicles. Per aquest motiu, aquest estudi es centra en millorar el rendiment d'adsorció de CO2 i analitzar les propietats dels materials MOF, concretament a 25ᵒC i fins a 1,3 atmosferes. La present tesi explora el desenvolupament, caracterització i l’eficiència d’adsorció de CO2 del HKUST-1 i la seva combinació amb materials basats en grafè, específicament òxid de grafè (GO) i òxid de grafè reduït (rGO). Aquesta investigació pretén donar resposta a les preocupacions ambientals urgents mitjançant la fabricació de materials adsorbents capaços de capturar CO₂. En primer lloc, aquest treball es centra en la síntesi de materials híbrids HKUST-1/GO mitjançant la introducció de diferents concentracions de GO, que van des del 0,15% fins al 9% w/w de GO. Aquest estudi identifica el contingut òptim de GO que millora el rendiment d’adsorció de CO2 a 25ᵒC i fins a 1.3 atmosferes de pressió. D’aquesta manera, el material es sintetitza inicialment fent servir un mètode de síntesis que utilitza barreges de dissolvents, Mixed-Solvent Method (MSM), i que s’utilitza habitualment per a la obtenció de HKUST-1. A més, una nova metodologia, anomenada en aquest treball com a Reverse Quantification (RQ) es desenvolupa per quantificar el contingut experimental de GO en els híbrids, abordant les inconsistències que sovint es troben a la literatura amb respecte la quantitat òptima de GO que millora les propietats adsorbents del MOF. Com a resultat, es determina que la quantitat teòrica de GO utilitzada durant la síntesi no s'acaba d’incorporar completament a les mostres de HKUST-1/GO. S'observa una desviació de la idealitat en un rang de 0 a 9% de GO, que generalment resulta en un contingut experimental de GO inferior al que s'afegeix teòricament. La RQ s'utilitza en totes les síntesis de la present tesi i demostra, a través de diferents tendències, que aquesta desviació del comportament ideal es troba present en tots els casos. En el cas de les mostres sintetitzades fent servir el mètode MSM, la mostra que presenta més capacitat de captura de CO2 conté un 0,25% w/w de GO experimental, i aconsegueix fins a un 80% més d'adsorció de CO2 en comparació amb el HKUST-1 pur, amb un valor de 5,33 ± 0,16 mmol CO2/g a 1.3 atm. D’altra banda, l’optimització del mètode de síntesi esdevé un dels principals reptes d’aquesta tesi, amb l’objectiu de desenvolupar procediments més respectuosos amb el medi ambient. Els materials HKUST-1 es sintetitzen habitualment amb dissolvents nocius i eco-tòxics, com la dimetilformamida (DMF), fent servir altes temperatures als processos d’obtenció (85ᵒC). En conseqüència, s'explora la síntesi mecano- química mitjançant el mètode de molturació amb molí de boles facilitada en medi líquid (liquid-assisted grinding, LAG). Els resultats confirmen que aquest mètode ofereix una alternativa més sostenible alhora que manté les propietats adsorbents del material. A través d’aquest mètode de síntesi s'investiguen dues escales de producció: petita escala (sBM) i a escala mitjana (bBM), amb concentracions de GO entre el 0,15 i el 2,5% w/w. En aquest cas, els rangs de concentracions de GO utilitzats en sBM i bBM es basen es en els resultats obtinguts per les mostres sintetitzades fent servir el mètode inicial MSM . D’aquesta manera, els resultats de les mostres obtingudes amb sBM van aconseguir una adsorció de CO₂ de fins a 4,93 ± 0,28 mmol CO2/g amb un contingut experimental de GO en el rang de 0,48-0,55% w/w GO, comparable als resultats de les mostres de MSM. En canvi, les mostres de bBM van assolir 3,77 ± 0,07 mmol CO2/g en les mostres amb un contingut experimental de GO comprès entre 0,25-0,30% w/w. Tot i això, es va observar una menor correlació entre el contingut de GO i l’eficiència de captura de CO2. Com a resultat, la síntesi mecano-química mitjançant el molí de boles resulta eficaç, potencialment escalable i és respectuosa amb el medi ambient. Un altre aspecte important és la ciclabilitat del material, i en aquest cas el material híbrid HKUST-1/GO presenta una notable capacitat de regeneració durant múltiples cicles d'adsorció-desorció. A més, s'investiga la incorporació d'òxid de grafè reduït (rGO) a la síntesi HKUST-1. Com que rGO ofereix una potencial desorció de CO₂ mitjançant calefacció elèctrica, l'objectiu és sintetitzar HKUST-1/rGO i HKUST-1 híbrids amb barreges dels materials basats en grafè de rGO i GO (GM), HKUST-1/GM; per comprovar les seves propietats d'adsorció de CO2 amb les noves formulacions. Com a resultat, les mostres HK-rGO mostren una adsorció de CO₂ lleugerament menor que les basades en GO, amb un màxim de 5,10 mmol CO2/g amb un contingut experimental de 0,80% w/w de rGO. En canvi, les mostres HK-GM (mescles de rGO/GO) exposen una capacitat de captura de CO2 superior, arribant fins a 6,00 mmol CO2/g amb el millor resultat obtingut per la mostra que conté una proporció experimental de GM del 0,60% w/w (proporció 1:3 de mescles rGO/GO, respectivament). Aquests resultats suggereixen que la combinació de rGO i GO pot millorar l'adsorció de materials HKUST-1 combinats amb en GO, convertint-los en un candidat prometedor per a processos d'adsorció ciclables, amb desorció de CO2 potencialment facilitada mitjançant l’escalfament elèctric. Finalment, aquesta tesi també explora la interacció entre l'aigua (humitat) i el CO₂ durant els processos d'adsorció quan s'utilitzen mostres de materials HKUST-1/GO, obtingudes tant pel mètode mecano-químic com per el mètode que fa servir dissolvents. En aquest sentit, es porten a terme una sèrie d’experiments que exploren la competència de l'H₂O amb el CO₂ durant els processos d'adsorció en condicions de postcombustió, utilitzant específicament concentracions d'un 15% de CO2 i un 50% d’humitat relativa (RH). Concretament, aquesta part de la investigació se centra en el comportament dels processos d'adsorció d'H2O i CO2 mitjançant l'ús de diferents tècniques de caracterització, com ara l'espectroscòpia d'infrarojos (IR), l'adsorció dinàmica de vapor (DVS), breaktrhough analysis (BTA) i la ressonància magnètica nuclear 13C d'estat sòlid (RMN 13C). S'observa una competència entre H₂O i CO2 pels llocs d'adsorció del material, amb les molècules d'H2O que presenten una afinitat més alta. Els resultats suggereixen que l'adsorció d'H2O es produeix principalment en grups funcionals carboxilats i aromàtics, mentre que les molècules de CO2 només mostren una preferència pels grups funcionals aromàtics. Els experiments també confirmen que el CO2 presenta una cinètica d'adsorció més alta que l'H2O, d'acord amb els experiments de RMN 13C i IR. També es va determinar que la incorporació de GO augmenta el nombre de llocs d'adsorció favorables per al CO2, com l’anell aromàtic, i bloqueja parcialment l'adsorció d'H2O prop dels nuclis de coure, reduint així la degradació de la mostra. Com a resultat d’aquesta part experimental, les mostres òptimes de HKUST-1/GO que tenen la major capacitat de captació de CO₂, també tenen un millor comportament de ciclabilitat adsorció- desorció respecte el HKUST-1 pur. Per contra, l’adsorció de CO2 en condicions humides es veu significativament reduïda, fet que posa de manifest que els materials HKUST-1/GO són més efectius en ambients secs. A més, la interacció amb l'aigua s'estudia mitjançant sensors colorimètrics, ja que el color tan del HKUST-1 com del HKUST-1/GO canvia de blau clar a blau fosc durant el procés d’activació (assecat del material). Això indica canvis estructurals relacionats amb el contingut d’aigua adsorbit, confirmats per difracció de raigs X. D’altra banda, els resultats indiquen que l'exposició al CO2 també indueix canvis de color que es correlacionen amb el comportament d'adsorció del gas. Aquests resultats preliminars posen de manifest una relació entre els canvis colorimètrics i l'adsorció de CO2, fet que permetria la detecció de CO2 adsorbit en condicions seques. En conjunt, aquest treball contribueix al camp dels materials sostenibles per a la captura de CO2, combinant tècniques de síntesi avançades, alineades amb la química verda, amb sistemes híbrids emergents. Les dades obtingudes corroboren el potencial dels compostos HKUST-1-materials basats en grafè com a adsorbents de CO2 efectius i versàtils.

Citació

Citació

CORVI, Javier. Reaching a modular, generic and containerised development in Biomedical Natural Language Processing systems. [consulted: 24 of June of 2026]. Available at: https://hdl.handle.net/2445/229746

Exportar metadades

JSON - METS

Compartir registre