Document type
Doctoral thesisVersion
Published versionPublication date
Publication license
Please use this identifier to cite or link to this item: https://hdl.handle.net/2445/228711
On the Move: Towards Realistic and Controllable Human Motion Generation
Journal Title
Authors
Director/Tutor
Journal ISSN
Volume Title
Related resource
Abstract
[eng] In recent years, we have witnessed the arrival of algorithms capable of understanding human behavior and generating the motion that drives virtual human-like avatars or robots. This ability, known as human motion generation, has emerged thanks to major advances in deep learning, parameterized human body models, and large-scale motion capture datasets. Together, these developments have enabled the synthesis of lifelike movement from minimal or abstract input such as natural language descriptions, or short clips of prior motion. These generative capabilities are unlocking new applications in animation, extended reality, robotics, and behavior-aware autonomous systems, helping to design digital humans or humanoids that both look and behave in a human-like way. Such advances represent an essential step towards developing fully immersive, human-centric experiences.
This thesis focuses on enhancing human motion generation along two key axes: realism and control. Specifically, I make progress in three important topics. First, in human motion prediction, I show that the prevailing focus of maximizing coordinate-level diversity encourages unrealistic predictions. I overturn this status quo by proposing a model that delivers behavioral diversity and state-of-the-art realism. Second, I improve the controllability of motion generation models by enabling users to specify both the description and duration of consecutive actions within arbitrarily long motion sequences. For this, I propose a new technique that eliminates the need for post-processing, and promotes smooth and realistic transitions between actions. Finally, I address the challenge of real-time full-body motion synthesis from head-mounted sensors and vision-based hand-tracking inputs, which are often noisy and unreliable. In particular, I present the first method able to preserve motion continuity and realism through signal losses. I complement it with the release of the first dataset with paired headset-captured tracking and ground-truth motion capture during real virtual-reality interactions. I use it to reveal the performance gap when deploying existing methods trained on synthetic data in real-life conditions. In addition to these three core contributions, this thesis also introduces novel evaluation metrics that improve the way motion quality is assessed. I propose two smoothness metrics that correlate with perceptual quality in motion prediction, and jerk-based transition metrics that quantify motion discontinuities during action transitions. Collectively, these contributions push the boundaries of human motion generation in realism and controllability and provide a toolkit for next-generation systems that must generate lifelike human movement on demand.
[cat] En els darrers anys, hem presenciat el sorgiment d 'algoritmes capaços d'entendre el comportament humà i fer que els avatars virtuals i els robots repliquin el moviment dels humans. Aquesta habilitat, coneguda com a generació de moviment humà, ha sorgit grades als avenços significatius en aprenentatge profund, models del cos humà i grans conjunts de dades de moviment. Conjuntament, aquests avenços han permès sintetitzar moviments realistes a partir de senyals mínimes o abstractes com descripcions en llenguatge natural, o petits clips de moviment previ. Aquestes capacitats permeten desenvolupar noves aplicacions en animació, realitat virtual, robòtica i sistemes autònoms, ajudant a dissenyar humans digitals o humanoides que tant en aparença com en comportament siguin similars als humans. Aquests avenços representen un pas essencial cap al desenvolupament d'experiències plenament immersives i centrades en les persones. Aquesta tesi se centra en millorar la generació de moviment humà en dues dimensions: el realisme i el control. Específicament, faig avenços en tres temes importants. En primer lloc, en la predicció de moviment humà, mostro que l'enfocament predominant de maximitzar la diversitat a nivell de coordenades fomenta prediccions poc realistes. Canvio aquesta perspectiva proposant un model que proporciona diversitat conductual i un realisme d'avantguarda. En segon lloc, milloro la controlabilitat deis models de generació de moviment, permetent als usuaris especificar tant la descripció com la durada d'accions consecutives dins de seqüencies de moviment arbitràriament llargues. Per a això, proposo una nova tècnica que elimina la necessitat de postprocessat i promou transicions suaus i realistes entre accions. Finalment, abordo el repte de la síntesi en temps real de moviment del cos a partir de sensors muntats al cap i seguiment visual de les mans, sovint sorollosos. En particular, presento el primer mètode capaç de mantenir la continuïtat i el realisme del moviment malgrat les interrupcions del senyal. Completo aquest treball amb la publicació del primer conjunt de dades que combina seguiment capturat per dispositius muntats al cap amb captura de moviment precisa durant interaccions reals en realitat virtual. Aquest conjunt serveix per revelar la bretxa de rendiment existent quan es despleguen mètodes entrenats amb dades sintètiques en condicions reals. A més d'aquestes tres contribucions principals, aquesta tesi també introdueix noves mètriques d'avaluació que milloren la manera com s'avalua la qualitat del moviment. Proposo dues mètriques de continuïtat que es correlacionen amb la qualitat perceptiva en predicció de moviment, així com mètriques de transició basades en la sobreacceleració que quantifiquen discontinuïtats durant les transicions entre accions. Col·lectivament, aquestes contribucions amplien els límits de la generació de moviment humà en realisme i controlabilitat, proporcionant eines per als sistemes de propera generació que han de generar moviment humà realista sota demanda.
[spa] En los últimos años, hemos visto el surgimiento de algoritmos capaces de entender el comportamiento humano y hacer que los avatares virtuales y los robots repliquen el movimiento humano. Esta habilidad, conocida como generación de movimiento humano, ha surgido gracias a los avances en aprendizaje profundo, modelos del cuerpo humano y grandes conjuntos de datos de movimiento. Estos avances han permi-ido sintetizar movimientos realistas a partir de señales mínimas o abstractas como descripciones en lenguaje natural, o clips de movimiento previo. Estas capacidades permiten desarrollar nuevas aplicaciones en animación, realidad virtual, robótica y sistemas autónomos, ayudando a diseñar humanos digitales o humanoides que, tanto en apariencia como en comportamiento, sean similares a los humanos. Dichos avances son un paso esencial hacia experiencias plenamente inmersivas. Esta tesis se centra en mejorar la generación de movimiento humano en dos dimensiones clave: el realismo y el control. Específicamente, realizo avances en tres temas importantes. Primero, en la predicción de movimiento humano, demuestro que el enfoque predominante de maximizar la diversidad a nivel de coordenadas fomenta predicciones poco realistas. Cambio esta perspectiva proponiendo un modelo que proporciona diversidad conductual y un realismo de vanguardia. Segundo, mejoro la controlabilidad de los modelos de generación de movimiento, permitiendo a los usuarios especificar tanto la descripción como la duración de acciones consecutivas dentro de secuencias de movimiento arbitrariamente largas. Para ello, propongo una nueva técnica que elimina la necesidad de posprocesado y favorece transiciones suaves y realistas entre acciones. Finalmente, abordo el reto de la síntesis en tiempo real de movimiento del cuerpo a partir de sensores montados en la cabeza y seguimiento visual de las manos, que suelen ser ruidosos. En particular, presento el primer método capaz de mantener la continuidad y el realismo del movimiento a pesar de las interrupciones de la señal. Complemento este trabajo con la publicación del primer conjunto de datos que combina el seguimiento capturado por dispositivos montados en la cabeza con captura de movimiento precisa durante interacciones reales en realidad virtual. Este conjunto sirve para revelar la brecha de rendimiento existente al desplegar métodos entrenados con datos sintéticos en condiciones reales. Además, esta tesis también introduce nuevas métricas de evaluación que mejoran la manera en que se valora la calidad del movimiento. Propongo dos métricas de continuidad que se correlacionan con la calidad perceptiva en la predicción de movimiento, así como métricas de transición basadas en la sobreaceleración que cuantifican discontinuidades durante transiciones. En conjunto, estas contribuciones amplían los límites de la generación de movimiento humano en realismo y controlabilidad, proporcionando herramientas para sistemas de próxima generación que deben generar movimiento humano realista bajo demanda.
[cat] En els darrers anys, hem presenciat el sorgiment d 'algoritmes capaços d'entendre el comportament humà i fer que els avatars virtuals i els robots repliquin el moviment dels humans. Aquesta habilitat, coneguda com a generació de moviment humà, ha sorgit grades als avenços significatius en aprenentatge profund, models del cos humà i grans conjunts de dades de moviment. Conjuntament, aquests avenços han permès sintetitzar moviments realistes a partir de senyals mínimes o abstractes com descripcions en llenguatge natural, o petits clips de moviment previ. Aquestes capacitats permeten desenvolupar noves aplicacions en animació, realitat virtual, robòtica i sistemes autònoms, ajudant a dissenyar humans digitals o humanoides que tant en aparença com en comportament siguin similars als humans. Aquests avenços representen un pas essencial cap al desenvolupament d'experiències plenament immersives i centrades en les persones. Aquesta tesi se centra en millorar la generació de moviment humà en dues dimensions: el realisme i el control. Específicament, faig avenços en tres temes importants. En primer lloc, en la predicció de moviment humà, mostro que l'enfocament predominant de maximitzar la diversitat a nivell de coordenades fomenta prediccions poc realistes. Canvio aquesta perspectiva proposant un model que proporciona diversitat conductual i un realisme d'avantguarda. En segon lloc, milloro la controlabilitat deis models de generació de moviment, permetent als usuaris especificar tant la descripció com la durada d'accions consecutives dins de seqüencies de moviment arbitràriament llargues. Per a això, proposo una nova tècnica que elimina la necessitat de postprocessat i promou transicions suaus i realistes entre accions. Finalment, abordo el repte de la síntesi en temps real de moviment del cos a partir de sensors muntats al cap i seguiment visual de les mans, sovint sorollosos. En particular, presento el primer mètode capaç de mantenir la continuïtat i el realisme del moviment malgrat les interrupcions del senyal. Completo aquest treball amb la publicació del primer conjunt de dades que combina seguiment capturat per dispositius muntats al cap amb captura de moviment precisa durant interaccions reals en realitat virtual. Aquest conjunt serveix per revelar la bretxa de rendiment existent quan es despleguen mètodes entrenats amb dades sintètiques en condicions reals. A més d'aquestes tres contribucions principals, aquesta tesi també introdueix noves mètriques d'avaluació que milloren la manera com s'avalua la qualitat del moviment. Proposo dues mètriques de continuïtat que es correlacionen amb la qualitat perceptiva en predicció de moviment, així com mètriques de transició basades en la sobreacceleració que quantifiquen discontinuïtats durant les transicions entre accions. Col·lectivament, aquestes contribucions amplien els límits de la generació de moviment humà en realisme i controlabilitat, proporcionant eines per als sistemes de propera generació que han de generar moviment humà realista sota demanda.
[spa] En los últimos años, hemos visto el surgimiento de algoritmos capaces de entender el comportamiento humano y hacer que los avatares virtuales y los robots repliquen el movimiento humano. Esta habilidad, conocida como generación de movimiento humano, ha surgido gracias a los avances en aprendizaje profundo, modelos del cuerpo humano y grandes conjuntos de datos de movimiento. Estos avances han permi-ido sintetizar movimientos realistas a partir de señales mínimas o abstractas como descripciones en lenguaje natural, o clips de movimiento previo. Estas capacidades permiten desarrollar nuevas aplicaciones en animación, realidad virtual, robótica y sistemas autónomos, ayudando a diseñar humanos digitales o humanoides que, tanto en apariencia como en comportamiento, sean similares a los humanos. Dichos avances son un paso esencial hacia experiencias plenamente inmersivas. Esta tesis se centra en mejorar la generación de movimiento humano en dos dimensiones clave: el realismo y el control. Específicamente, realizo avances en tres temas importantes. Primero, en la predicción de movimiento humano, demuestro que el enfoque predominante de maximizar la diversidad a nivel de coordenadas fomenta predicciones poco realistas. Cambio esta perspectiva proponiendo un modelo que proporciona diversidad conductual y un realismo de vanguardia. Segundo, mejoro la controlabilidad de los modelos de generación de movimiento, permitiendo a los usuarios especificar tanto la descripción como la duración de acciones consecutivas dentro de secuencias de movimiento arbitrariamente largas. Para ello, propongo una nueva técnica que elimina la necesidad de posprocesado y favorece transiciones suaves y realistas entre acciones. Finalmente, abordo el reto de la síntesis en tiempo real de movimiento del cuerpo a partir de sensores montados en la cabeza y seguimiento visual de las manos, que suelen ser ruidosos. En particular, presento el primer método capaz de mantener la continuidad y el realismo del movimiento a pesar de las interrupciones de la señal. Complemento este trabajo con la publicación del primer conjunto de datos que combina el seguimiento capturado por dispositivos montados en la cabeza con captura de movimiento precisa durante interacciones reales en realidad virtual. Este conjunto sirve para revelar la brecha de rendimiento existente al desplegar métodos entrenados con datos sintéticos en condiciones reales. Además, esta tesis también introduce nuevas métricas de evaluación que mejoran la manera en que se valora la calidad del movimiento. Propongo dos métricas de continuidad que se correlacionan con la calidad perceptiva en la predicción de movimiento, así como métricas de transición basadas en la sobreaceleración que cuantifican discontinuidades durante transiciones. En conjunto, estas contribuciones amplían los límites de la generación de movimiento humano en realismo y controlabilidad, proporcionando herramientas para sistemas de próxima generación que deben generar movimiento humano realista bajo demanda.
Subject (English)
Citation
Citation
BARQUERO GARCIA, German. On the Move: Towards Realistic and Controllable Human Motion Generation. [consulted: 15 of June of 2026]. Available at: https://hdl.handle.net/2445/228711