Des chercheurs de Microsoft et de ETH Zurich présentent HoloAssist un ensemble de données multimodal pour les copilotes d’IA de nouvelle génération pour le monde physique.
Des chercheurs de Microsoft et de l'ETH Zurich dévoilent HoloAssist, un ensemble de données multimodal pour les copilotes d'IA nouvelle génération dans le monde réel.
“`html
Dans le domaine de l’intelligence artificielle, un défi persistant a été de développer des assistants IA interactifs capables de naviguer efficacement et d’aider dans des tâches réelles. Bien que des progrès significatifs aient été réalisés dans le domaine numérique, tels que les modèles de langage, le monde physique présente des obstacles uniques pour les systèmes d’IA.
Le principal obstacle auquel les chercheurs sont souvent confrontés est le manque d’expérience de première main des assistants IA dans le monde physique, les empêchant de percevoir, de raisonner et d’aider activement dans des scénarios réels. Cette limitation est attribuée à la nécessité de données spécifiques pour former les modèles d’IA aux tâches physiques.
Pour résoudre ce problème, une équipe de chercheurs de Microsoft et de l’ETH Zurich a introduit un ensemble de données révolutionnaire appelé “HoloAssist”. Cet ensemble de données est conçu pour des scénarios d’interaction humaine à la première personne et égocentriques dans le monde réel. Il implique deux participants collaborant à des tâches de manipulation physique : un exécutant de tâches portant un casque de réalité mixte et un instructeur de tâches qui observe et fournit des instructions verbales en temps réel.
- L’ère de Gen AI Un Nouveau Départ
- Les chercheurs de Google et de l’Université John Hopkins révèlent une méthode de distillation plus rapide et plus efficace pour la génération de texte en image surmonter les limitations du modèle de diffusion.
- Modélisation des caractéristiques saisonnières variables avec la transformation de Fourier
HoloAssist dispose d’une vaste collection de données, comprenant 166 heures d’enregistrements avec 222 participants divers, formant 350 paires uniques d’instructeurs-exécutants accomplissant 20 tâches de manipulation centrées sur les objets. Ces tâches englobent un large éventail d’objets, des appareils électroniques de tous les jours aux articles industriels spécialisés. L’ensemble de données capture sept modalités de capteurs synchronisées : RVB, profondeur, position de la tête, position de la main en 3D, regard des yeux, audio et IMU, offrant une compréhension globale des actions et des intentions humaines. De plus, il propose des annotations manuelles à la troisième personne, comprenant des résumés textuels, des types d’intervention, des annotations d’erreur et des segments d’action.
Contrairement aux ensembles de données précédents, la caractéristique distinctive de HoloAssist réside dans son environnement d’exécution de tâches interactives multi-personnes, permettant le développement d’assistants IA anticipatifs et proactifs. Ces assistants peuvent offrir des instructions opportunes ancrées dans l’environnement, améliorant le modèle traditionnel d’assistant IA “basé sur la conversation”.
L’équipe de recherche a évalué les performances de l’ensemble de données dans les tâches de classification et d’anticipation des actions, fournissant des résultats empiriques qui mettent en lumière l’importance des différentes modalités dans différentes tâches. De plus, ils ont introduit de nouveaux benchmarks axés sur la détection d’erreurs, la prédiction des types d’intervention et la prévision de la position de la main en 3D, des éléments essentiels pour le développement d’assistants intelligents.
En conclusion, ce travail représente une première étape vers l’exploration de la collaboration entre agents intelligents et humains dans des tâches réelles. L’ensemble de données HoloAssist, ainsi que les benchmarks et les outils associés, devraient contribuer à la recherche sur la création d’assistants IA puissants pour les tâches réelles de la vie quotidienne, ouvrant la voie à de nombreuses futures orientations de recherche.
“`
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Des chercheurs de Stanford proposent des DDBMs une extension simple et évolutive des modèles de diffusion adaptée aux problèmes de traduction de distribution.
- Leadership basée sur les données Construire une organisation axée sur les données avec Srikanth Velamakanni
- Cette recherche en intelligence artificielle propose Kosmos-G un modèle d’intelligence artificielle qui réalise une génération d’images de haute fidélité sans apprentissage à partir d’une entrée de vision-langage généralisée en exploitant la propriété
- Cette recherche en IA dévoile ‘Kandinsky1’ une nouvelle approche dans la génération de texte vers image par diffusion latente, avec des scores FID exceptionnels sur COCO-30K.
- GPT-4V(ision) d’OpenAI une percée dans la frontière multimodale de l’IA
- LangChain 101 Partie 2d. Ajuster finement les modèles de langage avec les commentaires humains
- Un guide complet sur ZenML pour les débutants simplifiant MLOps.