Des chercheurs de Google et de l’Université de Toronto présentent un agent révolutionnaire sans précédent pour l’apprentissage autonome et l’exécution de tâches dans les environnements informatiques en direct.

Des chercheurs de Google et de l'Université de Toronto dévoilent un agent d'apprentissage autonome révolutionnaire pour l'exécution de tâches dans des environnements informatiques en direct, une avancée sans précédent.

Les grands modèles de langage (LLMs) destinés à la production d’actions dans différents contextes en direct, tels que ALFWORLD et ALPHACODE, ont montré des résultats prometteurs dans les efforts précédents. Des exemples incluent SAYCAN, REACT, TOOLFORMER et SWIFTSAGE. Les LLM sont utilisés de manière similaire pour suivre les traces des experts, comprendre les changements environnementaux, planifier et réaliser des activités futures, et composer des requêtes API. Plusieurs études, dont REFLEXION et SELF-REFINE, ont démontré que l’exécution répétée d’une tâche avec de nombreuses étapes d’autoréflexion peut améliorer considérablement l’achèvement de la tâche. Les LLM sont invités à modifier un plan d’exécution précédent en fonction des commentaires de l’environnement. Ces ajustements sont incorporés dans la demande du générateur d’actions pour le tour suivant.

MINIWOB++ a récemment été utilisé comme banc d’essai pour évaluer les performances des LLM sur des charges de travail informatiques modulaires. L’utilisation d’exemples de traçage complets de la tâche pour la supervision directe (WebGUM), l’auto-supervision ou la sollicitation avec peu/beaucoup de coups de pouce (SYNAPSE) sont des méthodes standard pour apprendre une tâche. Ils ont effectué des dizaines de travaux informatiques avec un taux d’achèvement de la tâche supérieur à 90 %, résolvant apparemment le problème de contrôle de l’ordinateur. Cependant, la nécessité de traces d’experts limite la capacité de l’agent à apprendre de nouvelles tâches. Un agent peut-il connaître et améliorer indépendamment son contrôle sur un ordinateur sans utiliser de traces bien choisies comme guide ? Des chercheurs de Google Research et de l’université de Toronto suggèrent un agent à zéro tir pour répondre à cette question.

Leur agent est basé sur PaLM2, un LLM récent, et il utilise un seul ensemble d’instructions pour toutes les activités plutôt que des instructions spécifiques à la tâche. De plus, des efforts contemporains tels que RCI, ADAPLANNER et SYNAPSE utilisent des représentations à l’écran qui peuvent inclure beaucoup plus de données que ce qui est affiché à l’utilisateur sur l’écran. Par exemple, la figure 1 illustre des éléments qui sont contenus dans le HTML mais qui ne sont pas affichés à l’écran. Arbitrairement, l’utilisation de ces nouvelles connaissances facilite la réalisation de la tâche par l’agent. Cependant, dans des scénarios d’utilisation typiques, de telles informations pourraient ne pas être facilement accessibles et, en fonction d’elles, pourraient limiter la portée d’application de l’agent.

Figure 1 montre des affichages disparates sur les écrans. Fig. 1a-1c montre la tâche sur les réseaux sociaux avant et après avoir appuyé sur le bouton “plus” (seed=2). Le HTML a déjà rendu le contenu visible avant de cliquer. Fig. 1d-1e : le clic sur l’onglet 2 (seed=0) pose un problème similaire.

13 tâches plutôt difficiles sur MINIWOB++ qui sont censées s’étendre sur plusieurs écrans ont été soigneusement évaluées, et ils ont découvert que 5 d’entre elles comprenaient du HTML contenant de telles informations – des informations multi-écrans dans une seule observation. Voici les contributions qu’ils ont apportées : Tout d’abord, par rapport aux études précédentes, ils adoptent une représentation condensée de l’écran, ce qui rend l’environnement de test plus complet et réaliste. Deuxièmement, ils fournissent un planificateur d’actions simple mais efficace qui planifie de manière précise toutes les opérations exécutables sur un état en une seule passe. Ils démontrent qu’une telle approche “naïve” peut terminer presque toutes les tâches simples du benchmark MINIWOB++ en utilisant la capacité la plus récente des LLM.

Pour aider l’agent à apprendre avec succès à partir d’échecs exploratoires et à progresser dans des tâches plus difficiles, ils suggèrent une technique de gestion de la réflexion systématique qui s’inspire de Reflexion. Leur agent atteint des performances équivalentes à l’état de l’art précédent avec peu/beaucoup de coups de pouce après quelques essais. Selon les recherches, leur agent est le premier à être conçu pour la maîtrise des tâches de contrôle informatique sans besoin de préparation, selon leur connaissance.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

DeepMind AI stimule considérablement l'exposition de YouTube Shorts en générant automatiquement des descriptions pour des millions de vidéos

DeepMind, en collaboration avec YouTube, a dévoilé un modèle d’IA de pointe, Flamingo, conçu pour améliorer la ...

Science des données

Que faire après un B.Tech ?

Que faire après un Btech? Cette question courante préoccupe tous les étudiants de dernière année et récemment diplômé...

AI

Découvrez WavJourney un cadre AI pour la création audio compositionnelle avec de grands modèles de langage

Le domaine émergent de l’intelligence artificielle (IA) multimodale fusionne des données visuelles, auditives e...

AI

Déballage de poids, de biais, de perte se concentrer sur l'apprentissage approfondi

L'apprentissage profond est un type d'apprentissage automatique qui utilise des réseaux neuronaux en couches pour aid...

AI

Ce bulletin AI est tout ce dont vous avez besoin n°71

Cette semaine, le président Joe Biden a remis la régulation de l'intelligence artificielle sous les feux de la rampe ...

AI

Lancement dans Autogen Exploration des bases d'une architecture multi-agent

Introduction Embarquez pour un voyage palpitant dans le futur du développement de logiciels avec « Lancement dans Aut...