Évaluation des agents interactifs multimodaux
Evaluation of multimodal interactive agents.
Pour former des agents à interagir correctement avec les humains, nous devons être en mesure de mesurer les progrès. Mais l’interaction humaine est complexe et mesurer les progrès est difficile. Dans ce travail, nous avons développé une méthode, appelée Standardised Test Suite (STS), pour évaluer les agents dans des interactions temporellement étendues et multimodales. Nous avons examiné des interactions dans lesquelles les participants humains demandent aux agents d’effectuer des tâches et de répondre à des questions dans un environnement simulé en 3D.
La méthodologie STS place les agents dans un ensemble de scénarios comportementaux extraits de données réelles d’interaction humaine. Les agents voient un contexte de scénario rejoué, reçoivent une instruction, puis ont le contrôle pour terminer l’interaction hors ligne. Ces continuations d’agent sont enregistrées puis envoyées à des évaluateurs humains pour les annoter comme étant un succès ou un échec. Les agents sont ensuite classés en fonction de la proportion de scénarios dans lesquels ils réussissent.

De nombreux comportements qui sont innés pour les humains dans nos interactions quotidiennes sont difficiles à exprimer par des mots, voire impossibles à formaliser. Ainsi, le mécanisme utilisé pour résoudre les jeux (comme Atari, Go, DotA et Starcraft) avec l’apprentissage par renforcement ne fonctionnera pas lorsque nous essaierons d’enseigner aux agents à avoir des interactions fluides et réussies avec les humains. Par exemple, pensez à la différence entre ces deux questions : “Qui a gagné cette partie de Go ?” versus “Qu’est-ce que tu regardes ?” Dans le premier cas, nous pouvons écrire un morceau de code informatique qui compte les pierres sur le plateau à la fin du jeu et détermine le gagnant avec certitude. Dans le deuxième cas, nous ne savons pas comment coder cela : la réponse peut dépendre des interlocuteurs, de la taille et de la forme des objets impliqués, de la plaisanterie de l’interlocuteur et d’autres aspects du contexte dans lequel l’énoncé est donné. Les humains comprennent intuitivement la myriade de facteurs pertinents impliqués dans la réponse à cette question en apparence banale.
L’évaluation interactive par des participants humains peut servir de référence pour comprendre la performance des agents, mais cela est bruyant et coûteux. Il est difficile de contrôler les instructions exactes que les humains donnent aux agents lorsqu’ils interagissent avec eux pour l’évaluation. Ce type d’évaluation est également en temps réel, donc trop lent pour permettre des progrès rapides. Les travaux précédents ont utilisé des substituts pour l’évaluation interactive. Les substituts, tels que les pertes et les tâches de sondage scriptées (par exemple, “soulevez le x” où x est sélectionné au hasard dans l’environnement et la fonction de succès est laborieusement conçue), sont utiles pour obtenir rapidement des informations sur les agents, mais ne corroborent pas vraiment bien avec l’évaluation interactive. Notre nouvelle méthode présente des avantages, offrant principalement un contrôle et une rapidité à une métrique qui est étroitement alignée avec notre objectif ultime – créer des agents qui interagissent bien avec les humains.
- Promouvoir la communauté LGBTQ+ dans la recherche en IA
- Relier les recherches de DeepMind aux produits d’Alphabet
- Déverrouillage d’une classification d’image différentiellement privée de haute précision grâce à l’échelle

Le développement de MNIST, ImageNet et d’autres ensembles de données annotés par des humains a été essentiel pour les progrès de l’apprentissage automatique. Ces ensembles de données ont permis aux chercheurs de former et d’évaluer des modèles de classification pour un coût unique en entrées humaines. La méthodologie STS vise à faire de même pour la recherche sur l’interaction humain-agent. Cette méthode d’évaluation nécessite encore que les humains annotent les continuations d’agent ; cependant, des expériences préliminaires suggèrent que l’automatisation de ces annotations pourrait être possible, ce qui permettrait une évaluation automatisée rapide et efficace des agents interactifs. En attendant, nous espérons que d’autres chercheurs pourront utiliser la méthodologie et la conception du système pour accélérer leurs propres recherches dans ce domaine.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- BYOL-Explore Exploration avec Prédiction Bootstrap
- Mener un mouvement visant à renforcer l’apprentissage automatique en Afrique
- Conception de mécanisme centrée sur l’humain avec une IA démocratique
- Apprentissage de la physique intuitive dans un modèle d’apprentissage profond inspiré de la psychologie du développement
- Travailler en collaboration avec YouTube
- Les dernières recherches de DeepMind à ICML 2022
- Perceiver AR génération autoregressive à long contexte polyvalente