Des chercheurs de Microsoft et de ETH Zurich présentent HoloAssist un ensemble de données multimodal pour les copilotes d’IA de nouvelle génération pour le monde physique.

Des chercheurs de Microsoft et de l'ETH Zurich dévoilent HoloAssist, un ensemble de données multimodal pour les copilotes d'IA nouvelle génération dans le monde réel.

“`html

Dans le domaine de l’intelligence artificielle, un défi persistant a été de développer des assistants IA interactifs capables de naviguer efficacement et d’aider dans des tâches réelles. Bien que des progrès significatifs aient été réalisés dans le domaine numérique, tels que les modèles de langage, le monde physique présente des obstacles uniques pour les systèmes d’IA.

Le principal obstacle auquel les chercheurs sont souvent confrontés est le manque d’expérience de première main des assistants IA dans le monde physique, les empêchant de percevoir, de raisonner et d’aider activement dans des scénarios réels. Cette limitation est attribuée à la nécessité de données spécifiques pour former les modèles d’IA aux tâches physiques.

Pour résoudre ce problème, une équipe de chercheurs de Microsoft et de l’ETH Zurich a introduit un ensemble de données révolutionnaire appelé “HoloAssist”. Cet ensemble de données est conçu pour des scénarios d’interaction humaine à la première personne et égocentriques dans le monde réel. Il implique deux participants collaborant à des tâches de manipulation physique : un exécutant de tâches portant un casque de réalité mixte et un instructeur de tâches qui observe et fournit des instructions verbales en temps réel.

HoloAssist dispose d’une vaste collection de données, comprenant 166 heures d’enregistrements avec 222 participants divers, formant 350 paires uniques d’instructeurs-exécutants accomplissant 20 tâches de manipulation centrées sur les objets. Ces tâches englobent un large éventail d’objets, des appareils électroniques de tous les jours aux articles industriels spécialisés. L’ensemble de données capture sept modalités de capteurs synchronisées : RVB, profondeur, position de la tête, position de la main en 3D, regard des yeux, audio et IMU, offrant une compréhension globale des actions et des intentions humaines. De plus, il propose des annotations manuelles à la troisième personne, comprenant des résumés textuels, des types d’intervention, des annotations d’erreur et des segments d’action.

Contrairement aux ensembles de données précédents, la caractéristique distinctive de HoloAssist réside dans son environnement d’exécution de tâches interactives multi-personnes, permettant le développement d’assistants IA anticipatifs et proactifs. Ces assistants peuvent offrir des instructions opportunes ancrées dans l’environnement, améliorant le modèle traditionnel d’assistant IA “basé sur la conversation”.

L’équipe de recherche a évalué les performances de l’ensemble de données dans les tâches de classification et d’anticipation des actions, fournissant des résultats empiriques qui mettent en lumière l’importance des différentes modalités dans différentes tâches. De plus, ils ont introduit de nouveaux benchmarks axés sur la détection d’erreurs, la prédiction des types d’intervention et la prévision de la position de la main en 3D, des éléments essentiels pour le développement d’assistants intelligents.

En conclusion, ce travail représente une première étape vers l’exploration de la collaboration entre agents intelligents et humains dans des tâches réelles. L’ensemble de données HoloAssist, ainsi que les benchmarks et les outils associés, devraient contribuer à la recherche sur la création d’assistants IA puissants pour les tâches réelles de la vie quotidienne, ouvrant la voie à de nombreuses futures orientations de recherche.

“`

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Nouvelle recherche en IA de l'Université du Maryland étudie le défi du cramming pour l'entraînement d'un modèle de langage sur un seul GPU en une journée

Dans de nombreux domaines du traitement du langage naturel, y compris l’interprétation du langage et la synthès...

AI

« Découvrez Slope TransFormer un Grand Modèle de Langage (GML) spécialement entraîné pour comprendre le langage des banques. »

Dans les paiements, comprendre les transactions est crucial pour évaluer les risques dans les entreprises. Cependant,...

Recherche en IA

Des chercheurs de Princeton présentent MeZO un optimiseur du zéroème ordre efficace en mémoire qui peut affiner les modèles de langage larges (LLM)

Les modèles de langage volumineux (LLMs) avancent rapidement avec le grand succès de l’Intelligence Artificiell...

AI

IBM et META forment une alliance en intelligence artificielle pour une innovation responsable

Dans une avancée significative vers une innovation AI responsable, IBM et Meta ont conjointement lancé l’AI All...

AI

10 façons d'automatiser vos tâches en utilisant des agents autónomes d'IA

Introduction Dans le paysage dynamique de la technologie, des agents autonomes d’IA ont émergé en tant qu’...