Exploring a multimodal foundation model on breast cancer visual question answering

Iglesias Murrieta, José Javier

Exploring a multimodal foundation model on breast cancer visual question answering

dc.contributor.advisor	Díaz, Oliver
dc.contributor.author	Iglesias Murrieta, José Javier
dc.date.accessioned	2025-10-22T10:35:11Z
dc.date.available	2025-10-22T10:35:11Z
dc.date.issued	2025-06-10
dc.description	Treballs Finals de Grau d'Enginyeria Informàtica, Facultat de Matemàtiques, Universitat de Barcelona, Any: 2025, Director: Oliver Díaz	ca
dc.description.abstract	Cancer remains a leading cause of mortality worldwide, with breast cancer being the most frequently diagnosed. Early and accurate detection is critical to improving patient outcomes, and recent advances in artificial intelligence (AI) have demonstrated significant potential in supporting this goal. Machine learning (ML) and deep learning (DL) techniques have been widely applied to medical imaging tasks enhancing diagnostic accuracy across modalities such as mammography, ultrasound, and magnetic resonance imaging (MRI). However, most models require task-specific training and large annotated datasets, limiting their scalability and generalizability. In response to these limitations, foundation models (FMs) have emerged as a promising shift in AI research. These large scale models are pre-trained on diverse data and can be adapted to a wide range of downstream tasks, including multimodal medical applications. Their capacity for zero-shot and few-shot learning presents opportunities for improving diagnostic support in data constrained settings. This research explores the application of FMs in breast cancer analysis, specifically assessing their ability to perform visual question answering (VQA) on the BCDR-F01 and BreakHis breast imaging datasets. The study involves selecting a suitable vision-language FM and evaluating zero-shot and fine-tuning strategies to breast imaging data. Results demonstrate that while FMs show promising zero-shot performance and flexibility, their effectiveness depends heavily on model scale, fine-tuning approach, and task formulation, especially in complex multimodal tasks such as VQA. Instruction tuning and multimodal alignment emerged as critical factors for improving clinical relevance. This research highlights the potential of FMs to serve as integrative tools for breast cancer analysis, leveraging multimodal data with minimal retraining. Nonetheless, challenges remain in optimizing performance for clinical deployment, particularly around interpretability, domain-specific adaptation, and computational cost.	en
dc.format.extent	65 p.
dc.format.mimetype	application/pdf
dc.identifier.uri	https://hdl.handle.net/2445/223822
dc.language.iso	eng	ca
dc.rights	memòria: cc-nc-nd (c) José Javier Iglesias Murrieta, 2025
dc.rights	codi: GPL (c) José Javier Iglesias Murrieta, 2025
dc.rights.accessRights	info:eu-repo/semantics/openAccess	ca
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/es/
dc.rights.uri	http://www.gnu.org/licenses/gpl-3.0.ca.html	*
dc.source	Treballs Finals de Grau (TFG) - Enginyeria Informàtica
dc.subject.classification	Càncer de mama	ca
dc.subject.classification	Diagnòstic per la imatge	ca
dc.subject.classification	Aprenentatge automàtic	ca
dc.subject.classification	Imatges mèdiques	ca
dc.subject.classification	Programari	ca
dc.subject.classification	Treballs de fi de grau	ca
dc.subject.other	Breast cancer	en
dc.subject.other	Diagnostic imaging	en
dc.subject.other	Machine learning	en
dc.subject.other	Imaging systems in medicine	en
dc.subject.other	Computer software	en
dc.subject.other	Bachelor's theses	en
dc.title	Exploring a multimodal foundation model on breast cancer visual question answering	ca
dc.type	info:eu-repo/semantics/bachelorThesis	ca

Fitxers

Paquet original

Mostrant 1 - 2 de 2

Nom:: TFG_Iglesias_Murrieta_José_Javier.pdf
Mida:: 12.93 MB
Format:: Adobe Portable Document Format
Descripció:: Memòria

Descarregar

Nom:: codi.zip
Mida:: 1.17 MB
Format:: ZIP file
Descripció:: Codi font

Descarregar

Col·leccions

Treballs Finals de Grau (TFG) - Enginyeria Informàtica
Programari - Treballs de l'alumnat

El Dipòsit Digital ha actualitzat el programari. Qualsevol incidència que trobeu si us plau contacteu amb dipositdigital@ub.edu.

Exploring a multimodal foundation model on breast cancer visual question answering

Fitxers

Paquet original

Col·leccions