Évaluation des agents interactifs multimodaux

Evaluation of multimodal interactive agents.

Pour former des agents à interagir correctement avec les humains, nous devons être en mesure de mesurer les progrès. Mais l’interaction humaine est complexe et mesurer les progrès est difficile. Dans ce travail, nous avons développé une méthode, appelée Standardised Test Suite (STS), pour évaluer les agents dans des interactions temporellement étendues et multimodales. Nous avons examiné des interactions dans lesquelles les participants humains demandent aux agents d’effectuer des tâches et de répondre à des questions dans un environnement simulé en 3D.

La méthodologie STS place les agents dans un ensemble de scénarios comportementaux extraits de données réelles d’interaction humaine. Les agents voient un contexte de scénario rejoué, reçoivent une instruction, puis ont le contrôle pour terminer l’interaction hors ligne. Ces continuations d’agent sont enregistrées puis envoyées à des évaluateurs humains pour les annoter comme étant un succès ou un échec. Les agents sont ensuite classés en fonction de la proportion de scénarios dans lesquels ils réussissent.

Figure 1: Exemple d'un scénario original pris à partir de deux interactions humaines aux côtés de continuations d'agent réussies et infructueuses.

De nombreux comportements qui sont innés pour les humains dans nos interactions quotidiennes sont difficiles à exprimer par des mots, voire impossibles à formaliser. Ainsi, le mécanisme utilisé pour résoudre les jeux (comme Atari, Go, DotA et Starcraft) avec l’apprentissage par renforcement ne fonctionnera pas lorsque nous essaierons d’enseigner aux agents à avoir des interactions fluides et réussies avec les humains. Par exemple, pensez à la différence entre ces deux questions : “Qui a gagné cette partie de Go ?” versus “Qu’est-ce que tu regardes ?” Dans le premier cas, nous pouvons écrire un morceau de code informatique qui compte les pierres sur le plateau à la fin du jeu et détermine le gagnant avec certitude. Dans le deuxième cas, nous ne savons pas comment coder cela : la réponse peut dépendre des interlocuteurs, de la taille et de la forme des objets impliqués, de la plaisanterie de l’interlocuteur et d’autres aspects du contexte dans lequel l’énoncé est donné. Les humains comprennent intuitivement la myriade de facteurs pertinents impliqués dans la réponse à cette question en apparence banale.

L’évaluation interactive par des participants humains peut servir de référence pour comprendre la performance des agents, mais cela est bruyant et coûteux. Il est difficile de contrôler les instructions exactes que les humains donnent aux agents lorsqu’ils interagissent avec eux pour l’évaluation. Ce type d’évaluation est également en temps réel, donc trop lent pour permettre des progrès rapides. Les travaux précédents ont utilisé des substituts pour l’évaluation interactive. Les substituts, tels que les pertes et les tâches de sondage scriptées (par exemple, “soulevez le x” où x est sélectionné au hasard dans l’environnement et la fonction de succès est laborieusement conçue), sont utiles pour obtenir rapidement des informations sur les agents, mais ne corroborent pas vraiment bien avec l’évaluation interactive. Notre nouvelle méthode présente des avantages, offrant principalement un contrôle et une rapidité à une métrique qui est étroitement alignée avec notre objectif ultime – créer des agents qui interagissent bien avec les humains.

Figure 2: Évaluation STS comparée à d'autres métriques d'évaluation utilisées pour évaluer des agents interactifs. L'Évaluation STS est la mieux corrélée avec l'évaluation interactive par rapport aux substituts précédemment utilisés.

Le développement de MNIST, ImageNet et d’autres ensembles de données annotés par des humains a été essentiel pour les progrès de l’apprentissage automatique. Ces ensembles de données ont permis aux chercheurs de former et d’évaluer des modèles de classification pour un coût unique en entrées humaines. La méthodologie STS vise à faire de même pour la recherche sur l’interaction humain-agent. Cette méthode d’évaluation nécessite encore que les humains annotent les continuations d’agent ; cependant, des expériences préliminaires suggèrent que l’automatisation de ces annotations pourrait être possible, ce qui permettrait une évaluation automatisée rapide et efficace des agents interactifs. En attendant, nous espérons que d’autres chercheurs pourront utiliser la méthodologie et la conception du système pour accélérer leurs propres recherches dans ce domaine.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Dévoiler Retrieval Augmented Generation (RAG) | Où l'IA rencontre la connaissance humaine

Introduction Dans notre monde numérique rapide, l’intelligence artificielle ne cesse de nous étonner par ses re...

AI

Cycle de vie du projet d'IA générative

Découvrez le cycle de vie détaillé d'un projet d'IA générative. Ce blog offre des informations sur la manière dont vo...

Actualités sur l'IA

À quel point les systèmes d'authentification vocale sont-ils sécurisés ?

Les informaticiens ont développé une attaque capable de contourner les systèmes de sécurité d'authentification vocale...

AI

8 emplois que l'IA ne pourra pas remplacer de sitôt

Tout le monde parle des emplois que l'IA remplacera, mais nous ne regardons pas l'autre face de la médaille, c'est-à-...

AI

GenAI dans la mode | Une approche Stable Diffusion XL 1.0 de Segmind

Introduction L’industrie de la mode n’a pas été en reste et cherche des moyens de rester à la pointe de l...

AI

Empoisonnement des données et effondrement du modèle Le cataclysme de l'IA à venir

La présence de contenu généré par l'IA se répandra comme la peste, empoisonnant les résultats de recherche ainsi que ...