Please use this identifier to cite or link to this item: https://hdl.handle.net/2445/223497
Title: Deep Learning Approaches for Human Activity Understanding
Author: Zhang, Zejian
Director/Tutor: Escalera Guerrero, Sergio
Palmero Cantariño, Cristina
Keywords: Intel·ligència artificial
Aprenentatge automàtic
Visió per ordinador
Artificial intelligence
Machine learning
Computer vision
Issue Date: 12-Jun-2025
Publisher: Universitat de Barcelona
Abstract: [eng] Understanding human activities is crucial for developing practical applications that benefit society. Temporal action localization (TAL) in untrimmed videos is one of the most challenging tasks in this field. While significant progress has been made over the years, the methods developed are still far from being suitable for real-world use, and TAL remains an ongoing challenge. This thesis aims to address this challenge task through three contributions. First, we propose a dual hierarchical model capable of extracting and fusing both local, fine-grained boundary details and broader, high-level semantic contexts for TAL. In this method, the second hierarchical design enables the model to uncover actions of varying durations, leveraging the features learned from the first hierarchy. Our findings show that fusing temporal contexts at different scales is essential for precise TAL. In this approach, the model utilizes the self-attention mechanism in Transformer encoders. However, due to the quadratic complexity of self-attention, methods relying on it may struggle to handle real-world-length videos. Next, we present a comprehensive experimental comparison to determine which temporal feature encoder should be selected under different conditions. We analyzed 12 models, equipped with pure Transformer encoders, pure Mamba Blocks, and combinations of both into a unified encoder for TAL. The experimental results suggest that the choice of encoder depends heavily on the specific dataset. Nevertheless, the pure Mamba Block emerges as the preferred option for unknown datasets due to its performance and lower complexity. Finally, we introduce UDIVA-HHOI, a novel large-scale audio-visual dyadic human-human-object interaction dataset. This dataset provides rich, extremely short-duration and concurrent actions, featuring both low-level physical actions and high-level goal-oriented actions and the objects involved in these actions—elements not typically represented in commonly used TAL benchmarks. UDIVA-HHOI opens up new possibilities for addressing the detection of complex interactive actions in real-world scenarios. Our preliminary study confirms its potential, and our analysis also offers recommendations for selecting an appropriate feature encoder for future research on this new benchmark, with the Mamba Block being the preferred choice.
[cat] Entendre les activitats humanes és crucial per desenvolupar aplicacions pràctiques que beneficiïn la societat. La localització d’acció temporal (TAL) en vídeos sense retallar és una de les tasques més difícils en aquest camp. Tot i que s’han fet avenços significatius al llarg dels anys, els mètodes desenvolupats encara estan lluny de ser adequats per al món real, i TAL continua sent un repte permanent. Aquesta tesi pretén abordar aquest repte a través de tres aportacions. En primer lloc, proposem un model jeràrquic dual capaç d’extreure i fusionar tant detalls de límits locals de gra fi com contextos semàntics més amplis i d’alt nivell per a TAL. En aquest mètode, el segon disseny jeràrquic per met que el model destaqui accions de durada variable, aprofitant les característiques apreses de la primera jerarquia. Els nostres resultats mostren que la fusió de contextos temporals a diferents escales és essencial per a un TAL precís. En aquest enfocament, el model utilitza el mecanisme d’autoatenció als codificadors de transformadors. Tanmateix, a causa de la complexitat quadràtica de l’autoatenció, els mètodes que s’hi basen poden tenir problemes per gestionar vídeos de llargada real. A continuació, presentem una comparació experimental exhaustiva per determinar quin codificador de característiques temporals s’ha de seleccionar en diferents condicions. Hem analitzat 12 models, equipats amb codificadors Transformer purs, blocs Mamba purs i combinacions d’ambdós en un codificador unificat per a TAL. Els resultats experimentals suggereixen que l’elecció del codificador depèn en gran mesura del conjunt de dades específic. No obstant això, el bloc Mamba pur emergeix com l’opció preferida per a conjunts de dades desconeguts a causa del seu rendiment i menor complexitat. Finalment, presentem UDIVA-HHOI, un nou conjunt de dades d’interacció diàdica diàdica humà-humà-objecte a gran escala. Aquest conjunt de dades proporciona accions concurrents i riques, de durada extremadament curta, que in clou tant accions físiques de baix nivell com accions orientades a objectius d’alt nivell i els objectes implicats en aquestes accions, elements que normalment no es representen en els punts de referència de TAL d’ús habitual. UDIVA-HHOI obre noves possibilitats per abordar la detecció d’accions interactives complexes en escenaris del món real. El nostre estudi preliminar confirma el seu potencial i la nostra anàlisi també ofereix recomanacions per seleccionar un codificador de funcions adequat per a futures investigacions sobre aquest nou punt de referència, sent el bloc Mamba l’opció preferida.
[spa] Comprender las actividades humanas es crucial para desarrollar aplicaciones prácticas que beneficien a la sociedad. La localización temporal de la acción (TAL) en videos sin recortar es una de las tareas más desafiantes en este campo. Si bien se han logrado avances significativos a lo largo de los años, los métodos desarrollados aún están lejos de ser adecuados para el uso en el mundo real, y la TAL sigue siendo un desafío en curso. Esta tesis tiene como objetivo abordar esta tarea desafiante a través de tres contribuciones. Primero, proponemos un modelo jerárquico dual capaz de extraer y fusionar tanto detalles de límites locales de grano fino como contextos semánticos más amplios y de alto nivel para TAL. En este método, el segundo diseño jerárquico permite que el modelo descubra acciones de diferentes duraciones, aprovechando las características aprendidas de la primera jerarquía. Nuestros hallazgos muestran que la fusión de contextos temporales a diferentes escales es esencial para una TAL precisa. En este enfoque, el modelo utiliza el mecanismo de autoatención en los codificadores Transformer. Sin embargo, debido a la complejidad cuadrática de la autoatención, los métodos que dependen de ella pueden tener dificultades para manejar videos de duración del mundo real. A continuación, presentamos una comparación experimental exhaustiva para determinar qué codificador de características temporales se debe seleccionar en diferentes condiciones. Analizamos 12 modelos, equipados con codificadores Transformer puros, Mamba Blocks puros y combinaciones de ambos en un codificador unificado para TAL. Los resultados experimentales sugieren que la elección del codificador depende en gran medida del conjunto de datos específico. Sin embargo, el Mamba Block puro surge como la opción preferida para conjuntos de datos desconocidos debido a su rendimiento y menor complejidad. Finalmente, presentamos UDIVA-HHOI, un nuevo conjunto de datos de interacción diádica humano-humano-objeto audiovisual a gran escala. Este conjunto de datos proporciona acciones ricas, de duración extremadamente corta y concurrentes, que presentan tanto acciones físicas de bajo nivel como acciones orientadas a objetivos de alto nivel y los objetos involucrados en estas acciones, elementos que normalmente no se representan en los puntos de referencia TAL de uso común. UDIVA-HHOI abre nuevas posibilidades para abordar la detección de acciones interactivas complejas en escenarios del mundo real. Nuestro estudio preliminar confirma su potencial y nuestro análisis también ofrece recomendaciones para seleccionar un codificador de características apropiado para futuras investigaciones sobre este nuevo punto de referencia, siendo el Mamba Block la opción preferida.
URI: https://hdl.handle.net/2445/223497
Appears in Collections:Tesis Doctorals - Departament - Matemàtiques i Informàtica

Files in This Item:
File Description SizeFormat 
ZZ_PhD_THESIS.pdf29.12 MBAdobe PDFView/Open    Request a copy


Embargat   Document embargat fins el 12-6-2026


This item is licensed under a Creative Commons License Creative Commons