Découvrez BeLFusion Une approche de l’espace latent comportemental pour une prédiction réaliste et diversifiée des mouvements humains stochastiques à l’aide de la diffusion latente.

Découvrez BeLFusion une approche de l'espace latent comportemental pour prédire les mouvements humains stochastiques de manière réaliste et diversifiée grâce à la diffusion latente.

Alors que l’intelligence artificielle (IA) continue de captiver le monde, une application remarquable émerge à l’intersection de la vision par ordinateur et de l’IA sous la forme de la prédiction du mouvement humain (HMP). Cette tâche captivante consiste à prévoir le mouvement ou les actions futures des sujets humains en se basant sur des séquences de mouvement observées. L’objectif est de prédire l’évolution des postures corporelles ou des mouvements d’une personne. HMP trouve des applications dans divers domaines, notamment la robotique, les avatars virtuels, les véhicules autonomes et l’interaction homme-machine.

Le HMP stochastique est une extension du HMP traditionnel qui se concentre sur la prédiction de la distribution des mouvements futurs possibles plutôt que sur un seul futur déterministe. Cette approche reconnaît la spontanéité et l’imprévisibilité inhérentes au comportement humain, dans le but de capturer l’incertitude associée aux actions ou aux mouvements futurs. Le HMP stochastique prend en compte la variabilité et la diversité du comportement humain en considérant la distribution des mouvements futurs possibles, ce qui permet des prédictions plus réalistes et flexibles. Il est particulièrement utile lorsque l’anticipation de plusieurs comportements possibles est cruciale, comme dans les applications de robotique d’assistance ou de surveillance.

Le HMP stochastique a souvent été abordé à l’aide de modèles génératifs tels que GAN ou VAE pour prédire plusieurs mouvements futurs pour chaque séquence observée. Cependant, cet accent mis sur la génération de mouvements diversifiés dans l’espace des coordonnées a conduit à des prédictions irréalistes et à une divergence rapide des mouvements qui peuvent nécessiter une meilleure alignement avec le mouvement observé. De plus, ces méthodes négligent souvent l’anticipation de comportements diversifiés à faible amplitude avec des déplacements articulaires subtils. Il est donc nécessaire de trouver de nouvelles approches qui tiennent compte de la diversité comportementale et produisent des prédictions plus réalistes dans les tâches de HMP stochastique. Pour remédier aux limites des méthodes existantes de HMP stochastique, les chercheurs de l’Université de Barcelone et du Centre de vision par ordinateur proposent BeLFusion. Cette nouvelle approche introduit un espace latent comportemental pour générer des séquences de mouvement humain réalistes et diversifiées.

Mouvements rapides et divergents dans les modèles génératifs.

L’objectif principal de BeLFusion est de dissocier le comportement du mouvement, ce qui permet des transitions plus fluides entre les poses observées et prédites. Cela est réalisé grâce à un VAE comportemental composé d’un encodeur de comportement, d’un coupleur de comportement, d’un encodeur de contexte et d’un décodeur auxiliaire. L’encodeur de comportement combine une unité récurrente à portes (GRU) et des couches de convolution 2D pour mapper les coordonnées articulaires vers une distribution latente. Le coupleur de comportement transfère ensuite le comportement échantillonné au mouvement en cours, générant des mouvements diversifiés et contextuellement appropriés. BeLFusion intègre également un modèle de diffusion latente conditionnelle (LDM) pour coder avec précision les dynamiques comportementales et les transférer efficacement aux mouvements en cours tout en minimisant les erreurs latentes et de reconstruction pour améliorer la diversité dans les séquences de mouvement générées.

L’architecture innovante de BeLFusion se poursuit avec un encodeur d’observation, un autoencodeur qui génère des états cachés à partir des coordonnées articulaires. Le modèle utilise le modèle de diffusion latente (LDM), qui utilise un U-Net avec des mécanismes d’attention croisée et des blocs résiduels pour échantillonner à partir d’un espace latent où le comportement est dissocié de la pose et du mouvement. En favorisant la diversité du point de vue comportemental et en maintenant la cohérence avec le passé immédiat, BeLFusion produit des prédictions de mouvement significativement plus réalistes et cohérentes que les méthodes de pointe en HMP stochastique. Grâce à sa combinaison unique de désentrelacement comportemental et de diffusion latente, BeLFusion représente une avancée prometteuse dans la prédiction du mouvement humain. Il offre la possibilité de générer des mouvements plus naturels et contextuellement appropriés pour une large gamme d’applications.

L’évaluation expérimentale démontre les impressionnantes capacités de généralisation de BeLFusion, car il performe bien dans les scénarios connus et inconnus. Il surpasse les méthodes de pointe dans diverses métriques lors d’une évaluation inter-ensembles en utilisant les résultats difficiles sur les ensembles de données Human3.6M et AMASS. Sur H36M, BeLFusion démontre une Erreur de Déplacement Moyenne (ADE) d’environ 0.372 et une Erreur de Déplacement Finale (FDE) d’environ 0.474. En même temps, sur AMASS, il atteint une ADE d’environ 1.977 et une FDE d’environ 0.513. Les résultats indiquent la capacité supérieure de BeLFusion à générer des prédictions précises et diversifiées, mettant en évidence son efficacité et ses capacités de généralisation pour la prédiction réaliste du mouvement humain sur différents ensembles de données et classes d’actions.

En général, BeLFusion est une nouvelle méthode de prédiction du mouvement humain qui atteint des performances de pointe dans les métriques de précision pour les ensembles de données Human3.6M et AMASS. Il utilise des espaces latents comportementaux et des modèles de diffusion latente pour générer des prédictions diversifiées et adaptatives au contexte. La capacité de la méthode à capturer et transférer des comportements d’une séquence à une autre la rend robuste aux variations de domaine et améliore ses capacités de généralisation. De plus, l’évaluation qualitative montre que les prédictions de BeLFusion sont plus réalistes que celles des autres méthodes de pointe. Il offre une solution prometteuse pour la prédiction du mouvement humain, avec des applications potentielles dans l’animation, la réalité virtuelle et la robotique.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Apprentissage automatique

Rencontrez vLLM une bibliothèque open-source d'inférence et de service LLM qui accélère HuggingFace Transformers de 24x.

Les grands modèles de langage, ou LLM en abrégé, ont émergé comme une avancée révolutionnaire dans le domaine de l...

AI

5 cours gratuits pour maîtriser l'IA générative

L'IA générative est un domaine passionnant et en évolution rapide de la recherche et de l'application. Découvrez ces ...

Apprentissage automatique

Qu'est-ce que le Machine Learning en tant que Service ? Avantages et principales plateformes MLaaS

Le Machine Learning utilise l’analyse statistique pour générer une sortie de prédiction sans nécessiter de prog...

AI

Palo Alto Networks présente la plateforme Cortex XSIAM 2.0 dotée d'un cadre de Machine Learning Vous Apportez Votre Propre Machine Learning (BYOML) unique.

En cybersécurité, les organisations font face au défi de gérer efficacement le renseignement et l’automatisatio...