Des chercheurs chinois présentent un ensemble de données multi-vues à grande échelle et en conditions réelles appelé ‘FreeMan’.
Les chercheurs chinois présentent FreeMan, un ensemble de données multi-vues à grande échelle et en conditions réelles.
Estimer la structure 3D du corps humain à partir de scènes du monde réel est une tâche difficile avec des implications significatives dans des domaines tels que l’intelligence artificielle, les graphiques et l’interaction homme-robot. Les ensembles de données existants pour l’estimation de la pose humaine 3D sont limités car ils sont souvent collectés dans des conditions contrôlées avec des arrière-plans statiques, ce qui ne représente pas la variabilité des scénarios du monde réel. Cette limitation entrave le développement de modèles précis pour les applications du monde réel.
Des ensembles de données existants tels que Human3.6M et HuMMan sont largement utilisés pour l’estimation de la pose humaine 3D, mais ils sont collectés dans des environnements de laboratoire contrôlés qui ne capturent pas adéquatement la complexité des environnements du monde réel. Ces ensembles de données sont limités en termes de diversité de scènes, d’actions humaines et de scalabilité. Les chercheurs ont proposé divers modèles pour l’estimation de la pose humaine 3D, mais leur efficacité est souvent entravée lorsqu’ils sont appliqués à des scénarios du monde réel en raison des limitations des ensembles de données existants.
Une équipe de chercheurs chinois a introduit “FreeMan”, un nouvel ensemble de données multi-vues à grande échelle conçu pour remédier aux limitations des ensembles de données existants pour l’estimation de la pose humaine 3D dans des scénarios du monde réel. FreeMan est une contribution importante qui vise à faciliter le développement de modèles plus précis et robustes pour cette tâche cruciale.
- TikTok présente un outil d’étiquetage AI pour le contenu généré par l’IA
- Deci AI dévoile DeciDiffusion 1.0 un modèle de diffusion latente texte-image de 820 millions de paramètres et 3 fois plus rapide que la diffusion stable.
- Comment les grands modèles de langage se comportent-ils dans la réponse aux questions longues ? Une plongée en profondeur des chercheurs de Salesforce dans la robustesse et les capacités des LLM.
FreeMan est un ensemble de données complet qui comprend 11 millions d’images de 8 000 séquences, capturées à l’aide de 8 smartphones synchronisés dans des scénarios divers. Il couvre 40 sujets dans 10 scènes différentes, comprenant à la fois des environnements intérieurs et extérieurs avec des conditions d’éclairage variables. Notamment, FreeMan introduit une variabilité dans les paramètres de la caméra et les échelles du corps humain, ce qui le rend plus représentatif des scénarios du monde réel. Le groupe de recherche a développé un pipeline d’annotation automatisé pour créer cet ensemble de données, qui génère efficacement des annotations 3D précises à partir des données collectées. Ce pipeline implique la détection humaine, la détection des points clés 2D, l’estimation de la pose 3D et l’annotation de maillage. L’ensemble de données résultant est précieux pour plusieurs tâches, notamment l’estimation 3D monoculaire, l’élévation 2D vers 3D, l’estimation 3D multi-vues et le rendu neuronal de sujets humains.
Les chercheurs ont fourni des lignes directrices complètes d’évaluation pour diverses tâches à l’aide de FreeMan. Ils ont comparé les performances des modèles entraînés sur FreeMan à celles des modèles entraînés sur des ensembles de données existants tels que Human3.6M et HuMMan. Notamment, les modèles entraînés sur FreeMan ont présenté des performances significativement meilleures lorsqu’ils ont été testés sur l’ensemble de données 3DPW, soulignant la généralisabilité supérieure de FreeMan aux scénarios du monde réel.
Lors des expériences d’estimation de la pose humaine 3D multi-vues, les modèles entraînés sur FreeMan ont démontré de meilleures capacités de généralisation par rapport à ceux entraînés sur Human3.6M lorsqu’ils ont été testés sur des ensembles de données de domaine croisé. Les résultats ont systématiquement montré les avantages de la diversité et de l’échelle de FreeMan.
Lors des expériences d’élévation de la pose 2D vers 3D, le défi de FreeMan était évident, car les modèles entraînés sur cet ensemble de données étaient confrontés à un niveau de difficulté plus élevé que ceux entraînés sur d’autres ensembles de données. Cependant, lorsque les modèles ont été entraînés sur l’ensemble de données d’entraînement complet de FreeMan, leurs performances se sont améliorées, démontrant le potentiel de l’ensemble de données à améliorer les performances du modèle avec un entraînement à plus grande échelle.
En conclusion, le groupe de recherche a introduit FreeMan, un ensemble de données révolutionnaire pour l’estimation de la pose humaine 3D dans des scénarios du monde réel. Ils ont résolu plusieurs limitations des ensembles de données existants en fournissant de la diversité dans les scènes, les actions humaines, les paramètres de la caméra et les échelles du corps humain. Le pipeline d’annotation automatisé de FreeMan et son processus de collecte de données à grande échelle en font une ressource précieuse pour le développement d’algorithmes plus précis et robustes pour l’estimation de la pose humaine 3D. L’article de recherche met en évidence les capacités de généralisation supérieures de FreeMan par rapport aux ensembles de données existants, montrant ainsi son potentiel pour améliorer les performances des modèles dans les applications du monde réel. La disponibilité de FreeMan devrait favoriser les avancées dans la modélisation humaine, la vision par ordinateur et l’interaction homme-robot, comblant ainsi le fossé entre les conditions de laboratoire contrôlées et les scénarios du monde réel.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Les chercheurs de l’UCSD ouvrent le code source de Graphologue une technique d’IA unique qui transforme en temps réel les réponses de grands modèles linguistiques tels que GPT-4 en diagrammes interactifs.
- Hugging Face est le nouveau GitHub pour les LLMs
- Détection d’anomalies dans TensorFlow et Keras en utilisant la méthode de l’autoencodeur
- Optimisation des LLM avec C, et exécution de GPT, Lama, Whisper sur votre ordinateur portable
- Comment programmer un réseau neuronal
- Apprentissage par différence temporelle et l’importance de l’exploration un guide illustré
- Une taxonomie du traitement du langage naturel