Des chercheurs de l’Université du Michigan tracent de nouveaux territoires dans la théorie de l’esprit de l’IA Découverte d’une taxonomie et de protocoles rigoureux pour l’évaluation.

Des chercheurs de l'Université du Michigan révolutionnent la théorie de l'esprit de l'IA Découverte d'une nouvelle taxonomie et de protocoles d'évaluation rigoureux.

Une équipe de chercheurs de l’Université du Michigan préconise le développement de nouveaux référentiels et protocoles d’évaluation pour évaluer la capacité de la théorie de l’esprit (ToM) des grands modèles linguistiques (LLMs). Il suggère une approche d’évaluation holistique et située qui catégorise la ToM des machines en sept catégories d’états mentaux. L’étude souligne le besoin d’une évaluation complète des états mentaux dans les LLMs, les considérant comme des agents dans des contextes physiques et sociaux.

L’étude aborde l’absence de ToM robuste dans les LLMs et la nécessité de meilleurs référentiels et méthodes d’évaluation. Elle identifie les lacunes des référentiels existants, proposant une approche d’évaluation holistique où les LLMs sont considérés comme des agents dans des contextes variés. Elle met en évidence les débats en cours sur la ToM des machines, en soulignant les limites et la nécessité de méthodes d’évaluation plus robustes. Son objectif est de guider les futures recherches dans l’intégration de la ToM avec les LLMs et d’améliorer le paysage de l’évaluation.

La ToM est essentielle pour la cognition humaine et le raisonnement social, ainsi que pour son importance en IA pour permettre les interactions sociales. La question est de savoir si les LLMs tels que Chat-GPT et GPT-4 possèdent une ToM des machines, en mettant en évidence leurs limites dans les tâches complexes de raisonnement social et de croyance. Les protocoles d’évaluation existants doivent être révisés, ce qui nécessite une enquête globale. Elle préconise une taxonomie de la ToM des machines et une approche d’évaluation située, traitant les LLMs comme des agents dans des contextes réels.

La recherche introduit une taxonomie de la ToM des machines et préconise une approche d’évaluation située pour les LLMs. Elle passe en revue les référentiels existants et réalise une enquête littéraire sur la prise de perspective perceptuelle. Une étude pilote dans un monde en grille est présentée à titre de preuve de concept. Les chercheurs soulignent l’importance d’une conception minutieuse des référentiels pour éviter les raccourcis et les fuites de données, mettant en évidence les limites des référentiels actuels en raison d’un accès limité aux jeux de données.

L’approche propose une taxonomie de la ToM des machines avec sept catégories d’états mentaux. Elle préconise une approche d’évaluation holistique et située pour les LLMs afin d’évaluer de manière exhaustive les états mentaux et d’éviter les raccourcis et les fuites de données. Elle présente une étude pilote dans un monde en grille à titre de preuve de concept. Elle met en évidence les limites des référentiels actuels de ToM, en soulignant la nécessité de nouvelles normes évolutives avec des annotations de haute qualité et des ensembles d’évaluation privés. Elle recommande des pratiques d’évaluation équitables et prévoit un barème plus étendu.

En conclusion, la recherche met en évidence la nécessité de nouveaux référentiels pour évaluer la ToM des machines dans les LLMs. Une approche d’évaluation globale et située qui considère les LLMs comme des agents dans des contextes réels est préconisée, ainsi que l’importance d’une curation minutieuse des référentiels pour éviter les raccourcis et les fuites de données. La recherche met l’accent sur le développement de référentiels à plus grande échelle avec des annotations de haute qualité et des ensembles d’évaluation privés et prévoit des plans pour le développement futur d’un référentiel systématique.

En tant que travail futur, il est nécessaire de développer de nouveaux référentiels de ToM des machines qui abordent des aspects inexplorés, découragent les raccourcis et garantissent l’évolutivité avec des annotations de qualité. L’accent doit être mis sur des évaluations équitables qui documentent les sollicitations et proposent une évaluation de la ToM située où les modèles sont traités comme des agents dans différents contextes. Il est recommandé de mettre en place des protocoles d’évaluation complexes dans un cadre situé. Malgré la reconnaissance des limites d’une étude pilote, l’objectif est de réaliser un référentiel systématique et à plus grande échelle à l’avenir.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Découvrez Jupyter AI un nouveau projet open-source qui apporte l'intelligence artificielle générative aux cahiers Jupyter avec des commandes magiques et une interface de chat.

Jupyter AI, un sous-projet officiel de Project Jupyter, apporte l’intelligence artificielle générative aux note...

AI

Recueil augmenté de génération (RAG) de la théorie à l'implémentation de LangChain

Exemple d'implémentation de Retrieval-Augmented Generation (RAG) en Python avec LangChain, OpenAI et Weaviate

AI

Imprimante 3D permet une livraison rapide et abordable des bureaux de poste

Un nouveau bureau de poste à Bengaluru, en Inde, est le premier au monde à être construit à l'aide d'une imprimante t...