Évaluation des grands modèles de langage Découvrez AgentSims, un cadre d’intelligence artificielle basé sur les tâches pour des tests complets et objectifs.
Évaluation des grands modèles de langage découvrez AgentSims, un cadre d'intelligence artificielle pour des tests complets et objectifs.
Les LLM ont changé la façon dont le traitement du langage (NLP) est perçu, mais le problème de leur évaluation persiste. Les anciennes normes deviennent finalement obsolètes, étant donné que les LLM peuvent effectuer des NLU et NLG à des niveaux humains (OpenAI, 2023) en utilisant des données linguistiques.
En réponse au besoin urgent de nouveaux critères dans des domaines tels que les tests de connaissances basés sur des questions-réponses (QA) à livre fermé, les examens normalisés centrés sur l’humain, le dialogue à plusieurs tours, le raisonnement et l’évaluation de la sécurité, la communauté NLP a mis au point de nouvelles tâches d’évaluation et des ensembles de données couvrant un large éventail de compétences.
Cependant, les problèmes suivants persistent avec ces normes mises à jour:
- Apprentissage incrémental avantages, mise en œuvre et défis
- De l’idée à une entreprise alimentée par l’IA 5 étapes clés pour les petites entreprises utilisant l’IA et l’automatisation
- Des chercheurs du MIT ont développé une technique d’intelligence artificielle (IA) qui permet à un robot de développer des plans complexes pour manipuler un objet en utilisant toute sa main.
- Les formats de tâche imposent des contraintes sur les capacités évaluables. La plupart de ces activités utilisent un style de questions-réponses en un seul tour, ce qui les rend inadaptées pour évaluer la polyvalence des LLM dans leur ensemble.
- Il est facile de manipuler les critères d’évaluation. Lors de la détermination de l’efficacité d’un modèle, il est crucial que l’ensemble de tests ne soit en aucun cas compromis. Cependant, avec autant d’informations déjà entraînées sur les LLM, il est de plus en plus probable que des cas de test soient mélangés avec les données d’entraînement.
- Les métriques actuellement disponibles pour les questions-réponses ouvertes sont subjectives. Les mesures traditionnelles de questions-réponses ouvertes ont inclus une évaluation humaine à la fois objective et subjective. À l’ère des LLM, les mesures basées sur la correspondance de segments de texte ne sont plus pertinentes.
Les chercheurs utilisent actuellement des évaluateurs automatiques basés sur des LLM bien alignés tels que GPT4 pour réduire le coût élevé de l’évaluation humaine. Bien que les LLM soient biaisés envers certaines caractéristiques, le plus gros problème avec cette méthode est qu’elle ne peut pas analyser les modèles de niveau supérieur à GPT4.
Des études récentes menées par PTA Studio, la Pennsylvania State University, l’Université de Beihang, l’Université Sun Yat-sen, l’Université de Zhejiang et l’Université normale de Chine de l’Est présentent AgentSims, une architecture pour la création de tâches d’évaluation pour les LLM interactives, attrayantes visuellement et basées sur la programmation. L’objectif principal d’AgentSims est de faciliter le processus de conception des tâches en éliminant les obstacles auxquels peuvent être confrontés les chercheurs ayant des niveaux d’expertise en programmation variables.
Les chercheurs dans le domaine des LLM peuvent tirer parti de l’extensibilité et de la combinabilité d’AgentSims pour examiner les effets de la combinaison de plusieurs plans, systèmes de mémoire et systèmes d’apprentissage. L’interface conviviale d’AgentSims pour la génération de cartes et la gestion des agents le rend accessible aux spécialistes de domaines aussi divers que l’économie comportementale et la psychologie sociale. Une conception conviviale comme celle-ci est essentielle à la croissance et au développement continu du secteur des LLM.
L’article de recherche indique qu’AgentSims est supérieur aux critères d’évaluation actuels des LLM, qui ne testent qu’un petit nombre de compétences et utilisent des données et des critères de test sujets à interprétation. Les scientifiques sociaux et autres utilisateurs non techniques peuvent rapidement créer des environnements et concevoir des tâches à l’aide des menus et des fonctionnalités de glisser-déposer de l’interface graphique. En modifiant les classes abstraites d’agent, de planification, de mémoire et d’utilisation d’outils du code, les professionnels et les développeurs en IA peuvent expérimenter différents systèmes de soutien aux LLM. Le taux de réussite de la tâche objective peut être déterminé par une évaluation axée sur les objectifs. En résumé, AgentSims facilite le développement communautaire interdisciplinaire de critères robustes pour les LLM basés sur des simulations sociales variées avec des objectifs explicites.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Meta AI publie Code Llama Un modèle de langage de pointe pour la programmation.
- Détection des lignes et des colonnes de table dans les images à l’aide de Transformers
- Déverrouiller la précision dans l’édition d’images guidées par le texte et de scènes 3D Découvrez ‘Watch Your Steps
- Meta publie Code Llama Le dernier outil d’IA pour la programmation
- La mode avant-gardiste avec l’IA générative
- Prompt Engineering Comment tromper l’IA pour résoudre vos problèmes
- Cet article sur l’IA de l’Université technologique de Nanyang à Singapour présente MeVIS une référence à grande échelle pour la segmentation vidéo avec des expressions de mouvement.