Des chercheurs chinois présentent un ensemble de données multi-vues à grande échelle et en conditions réelles appelé ‘FreeMan’.

Les chercheurs chinois présentent FreeMan, un ensemble de données multi-vues à grande échelle et en conditions réelles.

Estimer la structure 3D du corps humain à partir de scènes du monde réel est une tâche difficile avec des implications significatives dans des domaines tels que l’intelligence artificielle, les graphiques et l’interaction homme-robot. Les ensembles de données existants pour l’estimation de la pose humaine 3D sont limités car ils sont souvent collectés dans des conditions contrôlées avec des arrière-plans statiques, ce qui ne représente pas la variabilité des scénarios du monde réel. Cette limitation entrave le développement de modèles précis pour les applications du monde réel.

Des ensembles de données existants tels que Human3.6M et HuMMan sont largement utilisés pour l’estimation de la pose humaine 3D, mais ils sont collectés dans des environnements de laboratoire contrôlés qui ne capturent pas adéquatement la complexité des environnements du monde réel. Ces ensembles de données sont limités en termes de diversité de scènes, d’actions humaines et de scalabilité. Les chercheurs ont proposé divers modèles pour l’estimation de la pose humaine 3D, mais leur efficacité est souvent entravée lorsqu’ils sont appliqués à des scénarios du monde réel en raison des limitations des ensembles de données existants.

Une équipe de chercheurs chinois a introduit “FreeMan”, un nouvel ensemble de données multi-vues à grande échelle conçu pour remédier aux limitations des ensembles de données existants pour l’estimation de la pose humaine 3D dans des scénarios du monde réel. FreeMan est une contribution importante qui vise à faciliter le développement de modèles plus précis et robustes pour cette tâche cruciale.

FreeMan est un ensemble de données complet qui comprend 11 millions d’images de 8 000 séquences, capturées à l’aide de 8 smartphones synchronisés dans des scénarios divers. Il couvre 40 sujets dans 10 scènes différentes, comprenant à la fois des environnements intérieurs et extérieurs avec des conditions d’éclairage variables. Notamment, FreeMan introduit une variabilité dans les paramètres de la caméra et les échelles du corps humain, ce qui le rend plus représentatif des scénarios du monde réel. Le groupe de recherche a développé un pipeline d’annotation automatisé pour créer cet ensemble de données, qui génère efficacement des annotations 3D précises à partir des données collectées. Ce pipeline implique la détection humaine, la détection des points clés 2D, l’estimation de la pose 3D et l’annotation de maillage. L’ensemble de données résultant est précieux pour plusieurs tâches, notamment l’estimation 3D monoculaire, l’élévation 2D vers 3D, l’estimation 3D multi-vues et le rendu neuronal de sujets humains.

Les chercheurs ont fourni des lignes directrices complètes d’évaluation pour diverses tâches à l’aide de FreeMan. Ils ont comparé les performances des modèles entraînés sur FreeMan à celles des modèles entraînés sur des ensembles de données existants tels que Human3.6M et HuMMan. Notamment, les modèles entraînés sur FreeMan ont présenté des performances significativement meilleures lorsqu’ils ont été testés sur l’ensemble de données 3DPW, soulignant la généralisabilité supérieure de FreeMan aux scénarios du monde réel.

Lors des expériences d’estimation de la pose humaine 3D multi-vues, les modèles entraînés sur FreeMan ont démontré de meilleures capacités de généralisation par rapport à ceux entraînés sur Human3.6M lorsqu’ils ont été testés sur des ensembles de données de domaine croisé. Les résultats ont systématiquement montré les avantages de la diversité et de l’échelle de FreeMan.

Lors des expériences d’élévation de la pose 2D vers 3D, le défi de FreeMan était évident, car les modèles entraînés sur cet ensemble de données étaient confrontés à un niveau de difficulté plus élevé que ceux entraînés sur d’autres ensembles de données. Cependant, lorsque les modèles ont été entraînés sur l’ensemble de données d’entraînement complet de FreeMan, leurs performances se sont améliorées, démontrant le potentiel de l’ensemble de données à améliorer les performances du modèle avec un entraînement à plus grande échelle.

En conclusion, le groupe de recherche a introduit FreeMan, un ensemble de données révolutionnaire pour l’estimation de la pose humaine 3D dans des scénarios du monde réel. Ils ont résolu plusieurs limitations des ensembles de données existants en fournissant de la diversité dans les scènes, les actions humaines, les paramètres de la caméra et les échelles du corps humain. Le pipeline d’annotation automatisé de FreeMan et son processus de collecte de données à grande échelle en font une ressource précieuse pour le développement d’algorithmes plus précis et robustes pour l’estimation de la pose humaine 3D. L’article de recherche met en évidence les capacités de généralisation supérieures de FreeMan par rapport aux ensembles de données existants, montrant ainsi son potentiel pour améliorer les performances des modèles dans les applications du monde réel. La disponibilité de FreeMan devrait favoriser les avancées dans la modélisation humaine, la vision par ordinateur et l’interaction homme-robot, comblant ainsi le fossé entre les conditions de laboratoire contrôlées et les scénarios du monde réel.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Comment l’anonymisation des images impacte-t-elle les performances de la vision par ordinateur ? Exploration des techniques d’anonymisation traditionnelles vs réalistes

Des chercheurs chinois présentent un ensemble de données multi-vues à grande échelle et en conditions réelles appelé ‘FreeMan’.

Les chercheurs chinois présentent FreeMan, un ensemble de données multi-vues à grande échelle et en conditions réelles.

Was this article helpful?

TikTok présente un outil d’étiquetage AI pour le contenu généré par l’IA

Comment l’anonymisation des images impacte-t-elle les performances de la vision par ordinateur ? Exploration des techniques d’anonymisation traditionnelles vs réalistes

AI

Dropbox dévoile des outils révolutionnaires alimentés par l'IA une nouvelle ère de productivité et de collaboration

Cet article sur l'IA présente une méthode révolutionnaire pour modéliser la dynamique des scènes 3D en utilisant des vidéos multi-vues.

Présentation d'OpenLLM Bibliothèque Open Source pour LLMs

Rencontrez le concurrent de ChatGPT d'Alibaba, Tongyi Qianwen un modèle de langage puissant qui sera intégré dans les enceintes intelligentes Tmall Genie et la plateforme de messagerie professionnelle DingTalk.

Les médecins utilisent des chatbots d'une manière inattendue

OpenAI's ChatGPT dévoile des capacités vocales et d'image un bond révolutionnaire dans l'interaction en intelligence artificielle