Gaze Estimation with Spatiotemporal and Multimodal Deep Learning

[eng] lt is often said that the eyes are the window to the soul. The eyes and their behavior have sparked interest for centuries, and have been widely studied due to their link with multiple developmental, neurological, behavioral, cognitive, and clinical factors. Furthermore, the ability to accurately detect the fine of sight has enabled many possibilities for consumer applications, such as human-computer interaction and gaze-contingent displays. Eye-tracking technology has evolved to the point where noninvasive, sufficiently accurate, and cost-effective camera-based approaches are becoming increasingly available, driven by the progressive miniaturization of electronics and breakthroughs in computer vision and deep learning: However, achieving universal applicability in eye tracking remains a challenge, primarily due to the influence of individual factors, varying environmental conditions, and the impact of sensor viewpoint or head pose shifts. Recent remate and portable eye-tracking·devices often sacrifice robustness and accuracy when used in uncontrolled scenarios. In addition, they grapple with the need for rapid eye signa! capture, a crucial requirement for specific applications. The promising potential of eye tracking motivates us to further enhance existing methods, striving for greater reliability, accuracy, and speed. In turn, as eye tracking becomes more ubiquitous, it encourages us to explore innovative applications that leverage its expanding capabilities. This thesis approaches eye tracking from a computer vision and deep learning perspective, with the goal of: 1) increasing the accuracy and sampling rate of current gaze estimation approaches across different scenarios and devices; and 2} promoting the use of gaze input in emerging applications. For the first goal, we investigate the contribution of spatiotemporal and multimodal/multisensor cues for gaze estimation, both for remote cameras (e.g., desktop setting) and infrared, near-eye devices (e.g.,·head-mounted displays), across different sources of variability. To do so, we rely on the combination of convolutional-recurrent deep neural networks and feature-based and hybrid multimodal fusion. In. particular, we address multimodality from two different angles. First, by combining appearance and shape cues (i.e., 3D facial landmarks) extracted from RGB face images to increase accuracy. And second, by combining the signa·! obtained by two different sensors (camera and photosensors) operating at the same or different sampling rates, to increase the accuracy and the effective sampling rate of the estimated gaze signa!. We then move on to the second goal, for which we explore the use of gaze-related features along with other modalities, such as speech and facial expressions, for emotion expression recognition in a conversational human-machine interaction scenario. More concretely, we focus on the interaction between a simulated virtual coach and older adults, delving into the nuances of affective computing in this context.
[spa] El seguimiento ocular tiene una amplia relevancia en diferentes campos relacionados con la investigación, así como en aplicaciones clínicas y de consumo. Los métodos de seguimiento ocular no invasivos, suficientemente precisos y rentables, normalmente basados en cámaras de video, se están volviendo cada vez más accesibles, impulsados por la miniaturización progresiva de la electrónica y los avances en la visión por ordenador y el aprendizaje profundo. Sin embargo, lograr una aplicabilidad universal en el seguimiento ocular sigue siendo un desafío, principalmente debido a la influencia de factores individuales, las diferentes condiciones ambientales y diferencias en apariencia debido a movimientos de la cámara. En particular, los dispositivos de seguimiento ocular remotos y portátiles recientes ven a menudo comprometida su robustez y exactitud en escenarios no controlados. También tienen dificultades para capturar rápidamente la señal ocular, algo crucial para algunas aplicaciones. El potencial prometedor del seguimiento ocular nos motiva a mejorar los métodos existentes, buscando una mayor fiabilidad, exactitud y velocidad, al mismo tiempo que se exploran nuevas aplicaciones que aprovechen las capacidades en expansión de esta tecnología. Esta tesis adopta un enfoque de visión por ordenador y aprendizaje profundo para abordar dos objetivos principales: en primer lugar, mejorar la exactitud y la frecuencia de muestreo de la estimación de la mirada en diversos escenarios y dispositivos; y en segundo lugar, promover el uso del seguimiento ocular en aplicaciones emergentes. Para el primer objetivo, investigamos la contribución de la información espaciotemporal y multimodal para la estimación de la mirada, utilizando redes neuronales profundas convolucionales-recurrentes y técnicas de fusión multimodal. Esto incluye co111binar señales de apariencia y geometría extraídas de imágenes faciales, así como integrar señales de diferentes sensores, para mejorar la exactitud y la tasa de muestreo efectiva. El segundo objetivo explora la integración de características relacionadas con la mirada con otras modalidades, tomo el habla y las expresiones faciales, para el reconocimiento de emociones en interacciones hombre máquina. En concreto, nos centramos en la interacción entre un asistente virtual y personas mayores, profundizando en los matices de la computación afectiva en este contexto.
[cat] El seguiment d'ulls té una amplia rellevància en diferents camps relacionats amb la investigació, així com en aplicacions clíniques i de consum. Els mètodes de seguiment d'ulls no invasius, suficientment precisos i rendibles, normalment basats en càmeres de vídeo, s'estan tornant cada cop més accessibles, impulsats per la miniaturització progressiva de l'electrònica i els avenços en la visió per ordinador i l'aprenentatge profund. No obstant aixo, assolir una aplicabilitat universal en el seguiment d'ulls continua sent un repte, principalment a causa de la influència de factors individuaIs, les diferents condicions ambientals i diferencies en aparença a causa de moviments de la càmera. En particular, els dispositius de seguiment d'ulls remots i portàtils recents veuen sovint compromesa la seva robustesa i exactitud en escenaris no controlats. També tenen dificultats per capturar ràpidament el senyal ocular, un aspecte crucial pera algunes aplicacions. El potencial prometedor del seguiment d'ulls ens motiva a millorar els mètodes existents, buscant més fiabilitat, exactitud i velocitat, alhora que s'exploren noves aplicacions que aprofitin les capacitats en expansió d'aquesta tecnologia. Aquesta tesi adopta un enfocament de visió per ordinador i aprenentatge profund per abordar dos objectius principals: en primer lloc, millorar l'exactitud i la freqüencia de mostreig de l'estimació de la mirada a diversos escenaris i dispositius; i en segon lloc, promoure l'ús del seguiment d'ulls en aplicacions emergents. Per al primer objectiu, investiguem la contribució de informació espaciotemporal i multimodal per a l'estimació de la mirada, utilitzant xarxes neuronals profundes convolucionals-recurrents i tècniques de fusió multimodal. Això inclou combinar senyals d'aparença i geometria extretes d'imatges facials,.així com integrar senyals de diferents sensors, per millorar l'exactitud i la taxa de mostreig efectiva. El segon objectiu explora la integració de característiques relacionades amb la mirada amb altres modalítats, com ara la parla i les expressions facials, per al reconeixement d'emocions en interaccions home-màquina. En concret, ens centrem en la interacció entre un assistent virtual i gent gran, aprofundint en els matisos de la computació afectiva en aquest context.

Matèries

Visió per ordinador, Aprenentatge automàtic, Seguiment de la mirada, Intel·ligència artificial, Multimodalitat

Matèries (anglès)

Computer vision, Machine learning, Eye tracking, Artificial intelligence, Multimodality

Col·leccions

Tesis Doctorals - Departament - Matemàtiques i Informàtica

Pàgina completa de l'ítem

Citació

PALMERO CANTARIÑO, Cristina. Gaze Estimation with Spatiotemporal and Multimodal Deep Learning. [consulta: 26 de febrer de 2026]. [Disponible a: https://hdl.handle.net/2445/217179]

Estadístiques

Exportar metadades

JSON - METS

Fitxers

Tipus de document

Versió

Data de publicació

Tots els drets reservats

Gaze Estimation with Spatiotemporal and Multimodal Deep Learning

Títol de la revista

Autors

Director/Tutor

ISSN de la revista

Títol del volum

Recurs relacionat

Resum

Matèries

Matèries (anglès)

Citació

Col·leccions

Citació

Exportar metadades

Fitxers

Tipus de document

Versió

Data de publicació

Tots els drets reservats

Gaze Estimation with Spatiotemporal and Multimodal Deep Learning

Títol de la revista

Autors

Director/Tutor

ISSN de la revista

Títol del volum

Recurs relacionat

Resum

Matèries

Matèries (anglès)

Citació

Col·leccions

Citació

Exportar metadades

Compartir registre