Les chercheurs de la CMU présentent WebArena un environnement web réaliste et reproductible avec plus de 4 applications web du monde réel pour l’évaluation d’agents utiles.

Les chercheurs de la CMU ont développé WebArena, un environnement web réaliste et reproductible pour évaluer des agents utiles avec plus de 4 applications web réelles.

Étant donné le potentiel d’efficacité accrue et d’accessibilité plus large, les agents autonomes capables d’effectuer des tâches courantes via des instructions en langage naturel humain pourraient compléter considérablement les compétences humaines. Pour exploiter pleinement le potentiel de ces agents indépendants, il est essentiel de comprendre leur comportement dans un environnement authentique et reproductible.

Les paramètres actuels ont tendance à simplifier à l’excès les problèmes complexes. Par conséquent, les caractéristiques de nombreux environnements sont des versions simplifiées de leurs équivalents réels, ce qui entraîne une pénurie de diversité des tâches. Dans d’autres cas, l’environnement est présenté comme une ressource statique, limitant la capacité des agents à explorer uniquement les états mis en cache lors de la collecte de données.

Une nouvelle recherche de l’Université Carnegie Mellon et de Inspired Cognition présente WebArena, un environnement web simulé avec des conditions reproductibles pouvant être utilisé pour former des agents autonomes à effectuer certaines tâches. L’environnement comprend quatre applications web en direct, auto-hébergées, une pour le commerce électronique, les forums de discussion en ligne, le développement de logiciels collaboratifs et la gestion de contenu d’entreprise. WebArena comprend également plusieurs outils utiles, tels qu’une carte, une calculatrice et un bloc-notes, pour faciliter l’exécution des tâches de la manière la plus proche possible de celle d’un humain. Enfin, WebArena est soutenu par une multitude de documents supplémentaires, comprenant des guides d’utilisation de l’environnement de développement intégré et des sites plus spécialisés comme l’encyclopédie anglophone Wikipedia. Le contenu de ces sites web est directement extrait de leurs équivalents hors ligne, garantissant qu’il est précis et à jour. Des conteneurs Docker avec des API de gymnase fournissent des services d’hébergement, ce qui rend WebArena facile à utiliser et reproductible.

En plus de WebArena, ils ont également rendu open-source une référence entièrement opérationnelle de 812 tâches basées sur le web axées sur l’avenir. Chaque activité est modélisée d’après les modèles d’utilisation du langage abstrait généralement adoptés par les humains et décrits comme un objectif en langage naturel. Ils se concentrent sur l’analyse du bon fonctionnement de ces fonctions. En plus d’être plus précise que la comparaison des séquences d’actions simples, cette évaluation peut prendre en compte le fait qu’il existe parfois plusieurs chemins légitimes vers le même objectif (une situation universelle dans les tâches suffisamment complexes).

L’équipe utilise cette norme pour comparer les performances de nombreux agents capables d’effectuer des opérations basées sur le web en réponse à des commandes en langage naturel. De nombreuses méthodes différentes sont utilisées pour créer ces agents, depuis ceux qui prédisent les prochaines étapes en fonction des observations actuelles et de l’historique jusqu’à ceux qui utilisent des méthodes plus complexes telles que le raisonnement étape par étape. Des modèles de langage puissants (LLM) tels que GPT-3.5 et GPT-4 créent ces agents grâce à une approche d’apprentissage en contexte en quelques étapes. Les résultats montrent que le meilleur agent GPT-4 n’a réussi qu’un taux global de réussite des tâches de 10,59% lors des expériences. Ils émettent l’hypothèse que le manque de capacités clés des LLM actuels, notamment l’exploration active et la récupération d’échec, est la cause fondamentale de leur incapacité à accomplir efficacement des tâches complexes.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Science des données

Réinventer l'expérience des données Utilisez l'IA générative et l'architecture de données moderne pour débloquer les idées.

La mise en place d'une architecture de données moderne offre une méthode évolutive pour intégrer des données provenan...

AI

Annonce de nouveaux outils pour aider chaque entreprise à adopter l'IA générative

Des startups aux grandes entreprises, des organisations de toutes tailles se lancent dans l'IA générative. Elles veul...

AI

Mieux que GPT-4 pour les requêtes SQL NSQL (Entièrement Open Source)

Levez la main si vous avez essayé d'utiliser ChatGPT ou l'un des autres LLM pour générer des requêtes SQL. Je l'ai fa...