Des chercheurs de la CMU et de l’Institut Max Planck dévoilent WHAM une approche révolutionnaire de l’IA pour une estimation précise et efficace du mouvement humain en 3D à partir de vidéos.
Des chercheurs de la CMU et de l'Institut Max Planck révolutionnent l'estimation du mouvement humain en 3D à partir de vidéos avec WHAM, une approche révolutionnaire de l'IA.
La reconstruction du mouvement humain en 3D est un processus complexe qui nécessite de capturer et de modéliser avec précision les mouvements d’un sujet humain en trois dimensions. Ce travail devient encore plus difficile lorsqu’il s’agit de vidéos capturées par une caméra en mouvement dans des environnements réels, car elles présentent souvent des problèmes tels que le glissement des pieds. Cependant, une équipe de chercheurs de l’Université Carnegie Mellon et de l’Institut Max Planck pour les systèmes intelligents ont mis au point une méthode appelée WHAM (World-grounded Humans with Accurate Motion) qui aborde ces défis et parvient à une reconstruction précise du mouvement humain en 3D.
L’étude examine deux méthodes de récupération de la pose et de la forme du corps humain en 3D à partir d’images : sans modèle et basées sur un modèle. Elle met en évidence l’utilisation des techniques d’apprentissage profond dans les méthodes basées sur un modèle pour estimer les paramètres d’un modèle de corps statistique. Les méthodes existantes de HPS 3D basées sur la vidéo intègrent les informations temporelles grâce à différentes architectures de réseaux neuronaux. Certaines utilisent des capteurs supplémentaires, tels que des capteurs inertiels, mais ils peuvent être intrusifs. WHAM se distingue en combinant efficacement le mouvement humain en 3D et le contexte vidéo, en exploitant les connaissances préalables et en reconstruisant avec précision l’activité humaine en 3D dans des coordonnées globales.
La recherche aborde les défis posés par l’estimation précise de la pose et de la forme du corps humain en 3D à partir de vidéos monoscopiques, en mettant l’accent sur la cohérence des coordonnées globales, l’efficacité computationnelle et le contact réaliste entre le pied et le sol. En s’appuyant sur les ensembles de données de capture de mouvement et de vidéos AMASS, WHAM combine les réseaux encodeurs-décodeurs de mouvement pour convertir les points clés 2D en poses 3D, un intégrateur de caractéristiques pour les indices temporels, et un réseau de raffinement de trajectoire pour l’estimation du mouvement global en tenant compte du contact du pied, améliorant ainsi la précision sur les surfaces non planes.
- Boostez votre productivité sur Amazon SageMaker Studio Découvrez JupyterLab Spaces et les outils d’IA générative
- Implémentation de la chaîne de vérification à l’aide du langage d’expression LangChain et de LLM
- Les chercheurs de l’Université de New York (NYU) et de Google AI explorent les frontières de l’apprentissage automatique dans le raisonnement déductif avancé.
WHAM utilise un RNN unidirectionnel pour l’inférence en ligne et la reconstruction précise du mouvement 3D, avec un encodeur de mouvement pour l’extraction du contexte et un décodeur de mouvement pour les paramètres SMPL, la traduction de la caméra et la probabilité de contact du pied avec le sol. L’utilisation d’une technique de normalisation de la boîte englobante facilite l’extraction du contexte de mouvement. L’encodeur d’image, pré-entraîné sur la récupération de maillage humain, capture et intègre les caractéristiques de l’image avec les caractéristiques de mouvement grâce à un réseau intégrateur de caractéristiques. Un décodeur de trajectoire prédit l’orientation globale et un processus de raffinement minimise le glissement des pieds. Entraîné sur des données AMASS synthétiques, WHAM surpasse les méthodes existantes lors des évaluations.
WHAM dépasse les méthodes actuelles de pointe, en présentant une précision supérieure dans l’estimation de la pose et de la forme humaine en 3D, que ce soit au niveau des images ou des vidéos. WHAM parvient à une estimation précise de la trajectoire globale en exploitant le contexte de mouvement et les informations de contact du pied, en minimisant le glissement des pieds et en améliorant la coordination internationale. La méthode intègre les caractéristiques des points clés en 2D et des pixels, améliorant ainsi la précision de la reconstruction du mouvement humain en 3D. L’évaluation des références in situ démontre les performances supérieures de WHAM en termes de métriques telles que MPJPE, PA-MPJPE et PVE. La technique de raffinement de la trajectoire perfectionne également l’estimation de la trajectoire globale et réduit le glissement des pieds, comme en témoigne l’amélioration des métriques d’erreur.
En conclusion, les principaux enseignements de l’étude peuvent être résumés comme suit:
- WHAM a introduit une méthode novatrice qui combine le mouvement humain en 3D et le contexte vidéo.
- La technique améliore la régression de la pose et de la forme humaine en 3D.
- Le processus utilise une structure d’estimation de la trajectoire globale intégrant le contexte de mouvement et le contact du pied.
- La méthode aborde les défis liés au glissement des pieds et garantit un suivi précis en 3D sur les surfaces non planes.
- L’approche de WHAM donne de bons résultats sur divers ensembles de données de référence, notamment 3DPW, RICH et EMDB.
- La méthode excelle dans l’estimation efficace de la pose et de la forme humaine dans des coordonnées globales.
- L’intégration des caractéristiques de la méthode et le raffinement de la trajectoire améliorent considérablement la précision du mouvement et de la trajectoire globale.
- L’exactitude de la méthode a été validée grâce à des études d’ablation éclairantes.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Affinez votre propre LLM Open-Source en utilisant les dernières techniques
- Mixtral-8x7B Comprendre et gérer le Mélange Épars d’Experts
- Faites attention lorsque vous utilisez NOT IN en SQL
- Qu’est-ce que LangChain? Cas d’utilisation et avantages
- Les chercheurs de Stanford et Salesforce AI dévoilent UniControl un modèle de diffusion unifié pour un contrôle avancé dans la génération d’images d’IA.
- Vers l’explicabilité de LLM Pourquoi mon modèle a-t-il produit cette sortie ?
- Le tunnel de données non structurées