Mastering the Triad of Data, Models and Tasks in Deep Learning for Image Understanding

Nagarajan, Bhalaji

Fitxers

NAGARAJAN_PhD_THESIS.pdf (86.81 MB)

Tipus de document

Tesi

Data de publicació

2024-06-27

Tots els drets reservats

Si us plau utilitzeu sempre aquest identificador per citar o enllaçar aquest document: https://hdl.handle.net/2445/217107

Mastering the Triad of Data, Models and Tasks in Deep Learning for Image Understanding

Autors

Nagarajan, Bhalaji

Director/Tutor

Radeva, Petia

Aguilar, Eduardo

Resum

[eng] Deep learning's rapid growth brings vast application potential across diverse domains. Achieving optimal performance hinges on a critical interplay between three key elements: powerful model architectures, vast amounts of data, and a deep understanding of the target domain. Each element presents unique challenges. This thesis tackles these challenges to unlock the full potential of models, exploring solutions for data, models, and task understanding. The first part of this thesis tackles the fundamental challenges associated with data used in deep learning. Acquiring large-scale data is a significant challenge, often limited by factors like annotation costs and label errors. Data within a dataset frequently exhibits significant diversity. We address these challenges with a multifaceted approach. We investigate the development of noise-robust sample-selection-based deep learning models to handle the presence of label errors. To leverage the large volumes of unlabeled data available, we explore contrastive self- supervised learning strategies. To address the heterogeneity within datasets, we propose a sample importance strategy to prioritize samples that present learning challenges. These solutions address the various data-related challenges that hinder deep learning models. The second part of the thesis covers the critical role of understanding model behaviour. We use uncertainty quantification metrics to gain valuable insights into the capabilities of the models in making predictions. By understanding these metrics, we identify areas where the model’s predictions might be less reliable. We extend our exploration by applying these uncertainty metrics across various tasks to improve the decision-making process of the models. The final part of this thesis explores the importance of task understanding. We utilize the challenging domain of food recognition as a case study. Food recognition presents unique challenges due to the visual complexity of food images. We address the domain-specific challenges of fine- grained and multi-label classification by strategically designing and modifying deep learning models to improve their performances. Our research during this thesis yielded significant advancements in several key areas of model development. We achieved state-of-the-art results on several benchmarks across various tasks, demonstrating the effectiveness of our proposed solutions. This highlights the potential of our work to contribute to the broader field of deep learning.
[spa] El rápido crecimiento del aprendizaje profundo ofrece un gran potencial de aplicación en diversos dominios. Lograr un rendimiento óptimo depende de una interacción crítica entre tres elementos clave: arquitecturas de modelos potentes, grandes cantidades de datos y una comprensión profunda del dominio de destino. Cada elemento presenta desafíos únicos. Esta tesis aborda estos desafíos para desbloquear todo el potencial de los modelos, explorando soluciones para los datos, los modelos y la comprensión de tareas. La primera parte de esta tesis aborda los retos fundamentales asociados a los datos utilizados en el aprendizaje profundo. La adquisición de datos a gran escala es un desafío importante, a menudo limitado por factores como los costos de anotación y los errores de etiqueta. Los datos dentro de un conjunto de datos con frecuencia exhiben una diversidad significativa. Abordamos estos desafíos con un enfoque multifacético. Investigamos el desarrollo de modelos de aprendizaje profundo basados en la selección de muestras robustos al ruido para manejar la presencia de errores de etiqueta. Para aprovechar los grandes volúmenes de datos no etiquetados disponibles, exploramos estrategias contrastivas de aprendizaje autosupervisado. Para abordar la heterogeneidad dentro de los conjuntos de datos, proponemos una estrategia de importancia de la muestra para priorizar las muestras que presentan desafíos de aprendizaje. Estas soluciones abordan los diversos desafíos relacionados con los datos que obstaculizan los modelos de aprendizaje profundo. La segunda parte de la tesis aborda el papel fundamental de la comprensión del comportamiento del modelo. Utilizamos métricas de cuantificación de incertidumbre para obtener información valiosa sobre las capacidades de los modelos para hacer predicciones. Al comprender estas métricas, identificamos áreas en las que las predicciones del modelo podrían ser menos fiables. Ampliamos nuestra exploración aplicando estas métricas de incertidumbre en varias tareas para mejorar el proceso de toma de decisiones de los modelos. La parte final de esta tesis explora la importancia de la comprensión de tareas. Utilizamos el desafiante dominio del reconocimiento de alimentos como estudio de caso. El reconocimiento de alimentos presenta desafíos únicos debido a la complejidad visual de las imágenes de alimentos. Abordamos los desafíos específicos del dominio de la clasificación detallada y multietiqueta mediante el diseño y la modificación estratégicos de modelos de aprendizaje profundo para mejorar su rendimiento. Nuestra investigación durante esta tesis produjo avances significativos en varias áreas clave del desarrollo de modelos. Logramos resultados de vanguardia en varios puntos de referencia en diversas tareas, lo que demuestra la efectividad de nuestras soluciones propuestas. Esto pone de manifiesto el potencial de nuestro trabajo para contribuir al campo más amplio del aprendizaje profundo.

Matèries

Processament d'imatges, Visió per ordinador, Xarxes neuronals convolucionals, Aprenentatge automàtic

Matèries (anglès)

Image processing, Computer vision, Convolutional neural networks, Machine learning

Col·leccions

Tesis Doctorals - Departament - Matemàtiques i Informàtica

Pàgina completa de l'ítem

Citació

NAGARAJAN, Bhalaji. Mastering the Triad of Data, Models and Tasks in Deep Learning for Image Understanding. [consulta: 25 de febrer de 2026]. [Disponible a: https://hdl.handle.net/2445/217107]

Estadístiques

Exportar metadades

JSON - METS

Fitxers

Tipus de document

Data de publicació

Tots els drets reservats

Mastering the Triad of Data, Models and Tasks in Deep Learning for Image Understanding

Títol de la revista

Autors

Director/Tutor

ISSN de la revista

Títol del volum

Recurs relacionat

Resum

Matèries

Matèries (anglès)

Citació

Col·leccions

Citació

Exportar metadades

Fitxers

Tipus de document

Data de publicació

Tots els drets reservats

Mastering the Triad of Data, Models and Tasks in Deep Learning for Image Understanding

Títol de la revista

Autors

Director/Tutor

ISSN de la revista

Títol del volum

Recurs relacionat

Resum

Matèries

Matèries (anglès)

Citació

Col·leccions

Citació

Exportar metadades

Compartir registre