Embargament
Document embargat fins el 2026-07-30Tipus de document
TesiVersió
Versió publicadaData de publicació
Llicència de publicació
Si us plau utilitzeu sempre aquest identificador per citar o enllaçar aquest document: https://hdl.handle.net/2445/228818
Advances in Fairness Analysis in Artificial Intelligence for Healthcare
Títol de la revista
Autors
Director/Tutor
ISSN de la revista
Títol del volum
Recurs relacionat
Resum
[eng] The expanding role of artificial intelligence (AI) in healthcare promises earlier diagnosis, more personalized treatment, and consistent decision-making. Yet, models developed from observational data may inadvertently embed and amplify long-standing inequities in healthcare delivery. This dissertation investigates fairness challenges in AI for both tabular clinical data and medical imaging, proposing new diagnostic frameworks and methods to mitigate bias and advance equitable and trustworthy healthcare AI. The dissertation begins by establishing a theoretical foundation, outlining supervised classification, formal definitions of fairness notions, and trade-offs between fairness and predictive performance. Building on this foundation, six core studies address fairness from complementary perspectives. The first three studies, focusing on tabular clinical data, show that algorithmic bias in healthcare seems to be systematic. The first study, on depression risk prediction, observed disparities by sex, ethnicity, socioeconomic status, and comorbidity. To address these inequities, the Population Sensitivity-Guided Threshold Adjustment (PSTA) method was introduced, a post-hoc approach that adapts decision thresholds to improve early risk detection in underserved groups while maintaining reliable overall performance. The second study conducted a systematic evaluation of seven post-processing methods, spanning calibration-based, threshold-adjustment, and decision-boundary techniques. The evaluation showed that their effectiveness strongly depends on dataset characteristics and fairness criteria, with no single technique performing best across all settings. Beyond algorithmic adjust-ments, the third study highlighted the value of richer data: incorporating early-life factors significantly improved multimorbidity risk prediction, especially for comorbid patients, thereby narrowing subgroup disparities without sacrificing accuracy. Together, these findings emphasize that fairness requires a careful alignment of debiasing strategies, data representativeness, and clinical objectives. Shifting focus to medical imaging, the next set of studies addresses fair-ness challenges in Alzheimer’s disease diagnosis with T1-weighted MRI. Audits of convolutional neural networks (CNNs) revealed pronounced disparities, including higher underdiagnosis rates for women, ethnic minorities, and APOE4 carriers, as well as overdiagnosis in elderly populations. These age-related biases motivated the development of the Calibration and Group Threshold Optimization (C-GTOP) method, which combines probability calibration with group-specific thresholds to reduce overdiagnosis among older adults while preserving overall diagnostic accuracy. Beyond group-level corrections, a layer-wise diagnostic evaluation framework was introduced to analyze how sensitive attributes such as age and scanner type are encoded across two different architectures like CNNs and Vision Transformers (ViTs), and how this encoding influences fairness. This framework showed that CNNs tend to entangle bias-inducing signals with disease features, while ViTs preserve sensitive in-formation in a more disentangled form, leading to fairer subgroup predictions and reducing shortcut learning. Together, these studies show that achieving fairness in clinical neuroimaging depends not only on correcting subgroup disparities but also on understanding how bias is represented within model architectures. In conclusion, this dissertation demonstrates that fairness in healthcare AI requires not only algorithmic adjustments but also principled choices of fairness criteria, representative data collection, and architecture-aware model auditing that examines how different neural network designs encode and prop-agate bias. By proposing new debiasing methods as well as diagnostic evaluation frameworks, this work advances strategies to reduce subgroup disparities and offers tools for systematic fairness auditing. These advances pave the way for fairer clinical AI applications that better serve diverse patient populations and enhance trust in healthcare innovation.
[cat] El paper creixent de la intel·ligència artificial (IA) en salut promet diagnòstics més precoços, tractaments més personalitzats i una presa de decisions més consistent. Tanmateix, els models entrenats amb dades observacionals poden incorporar i amplificar desigualtats històriques en l’atenció sanitària. Aquesta tesi doctoral estudia els reptes de l’equitat en la IA aplicada a dades clíniques estructurades i imatges mèdiques, proposant nous mètodes de desbiaix i marcs d’avaluació per avançar cap a una IA mèdica més fiable. La recerca s’inicia amb una base teòrica que descriu la classificació supervisada, les nocions d’equitat i els equilibris entre criteris d’equitat i rendiment predictiu. Sis estudis aborden l’equitat des de perspectives complementàries. Els tres primers tracten dades clíniques. En la predicció del risc de depressió es van detectar desigualtats per sexe, ètnia, nivell socioeconòmic i comorbiditat. Per reduir-les es va introduir el mètode PSTA, que ajusta llindars de decisió per millorar la detecció precoç en grups infrarepresentats mantenint la fiabilitat. Una avaluació de set mètodes de postprocessament va mostrar que l’eficàcia depèn de les característiques de les dades i dels criteris d’equitat. A més, la incorporació de factors de vida primerenca va millorar la predicció de multimorbiditat en pacients amb comorbiditats, reduint desigualtats sense perdre precisió. Els següents estudis es concentren en imatge mèdica. Les auditories de xarxes neuronals convolucionals (CNN) per al diagnòstic d’Alzheimer van revelar infradiagnòstic en dones, minories ètniques i portadors d’APOE4, i sobrediagnòstic en poblacions grans. Per afrontar-ho es va desenvolupar C-GTOP, que combina calibratge de probabilitat amb llindars específics per reduir biaixos d’edat mantenint l’exactitud. També es va introduir un marc capa per capa per analitzar com atributs sensibles com l’edat i el tipus d’escàner són codificats en CNN i Vision Transformers. Els resultats mostren que les CNN barregen senyals de biaix amb característiques de la malaltia, mentre que els ViT preserven la informació de manera més desentrellada, afavorint prediccions més justes. En conclusió, aquesta tesi mostra que l’equitat en la IA per a la medicina requereix criteris clars, dades representatives i auditories sensibles a l’arquitectura del model. Amb nous mètodes de desbiaix i marcs d’avaluació, contribueix a desenvolupar aplicacions d’IA clínica més justes i fiables.
[spa] El papel creciente de la inteligencia artificial (IA) en salud promete diagnósticos más tempranos, tratamientos personalizados y una toma de decisiones más consistente. Sin embargo, los modelos entrenados con datos observacionales pueden incorporar y amplificar desigualdades históricas en la atención sanitaria. Esta tesis doctoral analiza los retos de la equidad en la IA aplicada a datos clínicos estructurados e imágenes médicas, proponiendo nuevos métodos antisesgo y marcos de evaluación para avanzar hacia una IA más fiable. La investigación comienza con una base teórica que describe la clasificación supervisada, nociones de equidad y los equilibrios entre criterios de equidad y rendimiento predictivo. Seis estudios abordan la equidad desde perspectivas complementarias. Los tres primeros tratan datos clínicos. En predicción del riesgo de depresión se detectaron desigualdades por sexo, etnia, nivel socioeconómico y comorbilidad. Para reducirlas se introdujo el método PSTA, que ajusta umbrales de decisión y mejora la detección temprana en grupos infrarepresentados manteniendo fiabilidad. Una evaluación de siete métodos de postprocesamiento mostró que la eficacia depende de características de los datos y criterios de equidad. Además, la incorporación de factores de vida temprana mejoró la predicción de multimorbilidad en pacientes con comorbilidades, reduciendo desigualdades sin perder precisión. Los siguientes estudios se centran en imagen médica. Auditorías de redes neuronales convolucionales (CNN) para el diagnóstico de Alzheimer revelaron infradiagnóstico en mujeres, minorías étnicas y portadores de APOE4, y sobrediagnóstico en poblaciones mayores. Para afrontarlo se desarrolló C-GTOP, que combina calibración de probabilidad con umbrales específicos y reduce sesgos de edad manteniendo exactitud. También se introdujo un marco capa por capa para analizar cómo atributos sensibles como edad y tipo de escáner se codifican en CNN y Vision Transformers. Los resultados muestran que las CNN mezclan señales de sesgo con características de la enfermedad, mientras que los ViT preservan la información de forma más desentrelazada, favoreciendo predicciones más justas. En conclusión, esta tesis demuestra que la equidad en la IA sanitaria requiere criterios claros, datos representativos y auditorías sensibles a la arquitectura del modelo. Con nuevos métodos antisesgo y marcos de evaluación, contribuye a desarrollar aplicaciones de IA clínica más justas y fiables.
[cat] El paper creixent de la intel·ligència artificial (IA) en salut promet diagnòstics més precoços, tractaments més personalitzats i una presa de decisions més consistent. Tanmateix, els models entrenats amb dades observacionals poden incorporar i amplificar desigualtats històriques en l’atenció sanitària. Aquesta tesi doctoral estudia els reptes de l’equitat en la IA aplicada a dades clíniques estructurades i imatges mèdiques, proposant nous mètodes de desbiaix i marcs d’avaluació per avançar cap a una IA mèdica més fiable. La recerca s’inicia amb una base teòrica que descriu la classificació supervisada, les nocions d’equitat i els equilibris entre criteris d’equitat i rendiment predictiu. Sis estudis aborden l’equitat des de perspectives complementàries. Els tres primers tracten dades clíniques. En la predicció del risc de depressió es van detectar desigualtats per sexe, ètnia, nivell socioeconòmic i comorbiditat. Per reduir-les es va introduir el mètode PSTA, que ajusta llindars de decisió per millorar la detecció precoç en grups infrarepresentats mantenint la fiabilitat. Una avaluació de set mètodes de postprocessament va mostrar que l’eficàcia depèn de les característiques de les dades i dels criteris d’equitat. A més, la incorporació de factors de vida primerenca va millorar la predicció de multimorbiditat en pacients amb comorbiditats, reduint desigualtats sense perdre precisió. Els següents estudis es concentren en imatge mèdica. Les auditories de xarxes neuronals convolucionals (CNN) per al diagnòstic d’Alzheimer van revelar infradiagnòstic en dones, minories ètniques i portadors d’APOE4, i sobrediagnòstic en poblacions grans. Per afrontar-ho es va desenvolupar C-GTOP, que combina calibratge de probabilitat amb llindars específics per reduir biaixos d’edat mantenint l’exactitud. També es va introduir un marc capa per capa per analitzar com atributs sensibles com l’edat i el tipus d’escàner són codificats en CNN i Vision Transformers. Els resultats mostren que les CNN barregen senyals de biaix amb característiques de la malaltia, mentre que els ViT preserven la informació de manera més desentrellada, afavorint prediccions més justes. En conclusió, aquesta tesi mostra que l’equitat en la IA per a la medicina requereix criteris clars, dades representatives i auditories sensibles a l’arquitectura del model. Amb nous mètodes de desbiaix i marcs d’avaluació, contribueix a desenvolupar aplicacions d’IA clínica més justes i fiables.
[spa] El papel creciente de la inteligencia artificial (IA) en salud promete diagnósticos más tempranos, tratamientos personalizados y una toma de decisiones más consistente. Sin embargo, los modelos entrenados con datos observacionales pueden incorporar y amplificar desigualdades históricas en la atención sanitaria. Esta tesis doctoral analiza los retos de la equidad en la IA aplicada a datos clínicos estructurados e imágenes médicas, proponiendo nuevos métodos antisesgo y marcos de evaluación para avanzar hacia una IA más fiable. La investigación comienza con una base teórica que describe la clasificación supervisada, nociones de equidad y los equilibrios entre criterios de equidad y rendimiento predictivo. Seis estudios abordan la equidad desde perspectivas complementarias. Los tres primeros tratan datos clínicos. En predicción del riesgo de depresión se detectaron desigualdades por sexo, etnia, nivel socioeconómico y comorbilidad. Para reducirlas se introdujo el método PSTA, que ajusta umbrales de decisión y mejora la detección temprana en grupos infrarepresentados manteniendo fiabilidad. Una evaluación de siete métodos de postprocesamiento mostró que la eficacia depende de características de los datos y criterios de equidad. Además, la incorporación de factores de vida temprana mejoró la predicción de multimorbilidad en pacientes con comorbilidades, reduciendo desigualdades sin perder precisión. Los siguientes estudios se centran en imagen médica. Auditorías de redes neuronales convolucionales (CNN) para el diagnóstico de Alzheimer revelaron infradiagnóstico en mujeres, minorías étnicas y portadores de APOE4, y sobrediagnóstico en poblaciones mayores. Para afrontarlo se desarrolló C-GTOP, que combina calibración de probabilidad con umbrales específicos y reduce sesgos de edad manteniendo exactitud. También se introdujo un marco capa por capa para analizar cómo atributos sensibles como edad y tipo de escáner se codifican en CNN y Vision Transformers. Los resultados muestran que las CNN mezclan señales de sesgo con características de la enfermedad, mientras que los ViT preservan la información de forma más desentrelazada, favoreciendo predicciones más justas. En conclusión, esta tesis demuestra que la equidad en la IA sanitaria requiere criterios claros, datos representativos y auditorías sensibles a la arquitectura del modelo. Con nuevos métodos antisesgo y marcos de evaluación, contribuye a desarrollar aplicaciones de IA clínica más justas y fiables.
Matèries (anglès)
Citació
Citació
DANG, Ngoc Vien. Advances in Fairness Analysis in Artificial Intelligence for Healthcare. [consulted: 23 of May of 2026]. Available at: https://hdl.handle.net/2445/228818