Des chercheurs de Google et de l’Université de Toronto présentent un agent révolutionnaire sans précédent pour l’apprentissage autonome et l’exécution de tâches dans les environnements informatiques en direct.
Des chercheurs de Google et de l'Université de Toronto dévoilent un agent d'apprentissage autonome révolutionnaire pour l'exécution de tâches dans des environnements informatiques en direct, une avancée sans précédent.
Les grands modèles de langage (LLMs) destinés à la production d’actions dans différents contextes en direct, tels que ALFWORLD et ALPHACODE, ont montré des résultats prometteurs dans les efforts précédents. Des exemples incluent SAYCAN, REACT, TOOLFORMER et SWIFTSAGE. Les LLM sont utilisés de manière similaire pour suivre les traces des experts, comprendre les changements environnementaux, planifier et réaliser des activités futures, et composer des requêtes API. Plusieurs études, dont REFLEXION et SELF-REFINE, ont démontré que l’exécution répétée d’une tâche avec de nombreuses étapes d’autoréflexion peut améliorer considérablement l’achèvement de la tâche. Les LLM sont invités à modifier un plan d’exécution précédent en fonction des commentaires de l’environnement. Ces ajustements sont incorporés dans la demande du générateur d’actions pour le tour suivant.
MINIWOB++ a récemment été utilisé comme banc d’essai pour évaluer les performances des LLM sur des charges de travail informatiques modulaires. L’utilisation d’exemples de traçage complets de la tâche pour la supervision directe (WebGUM), l’auto-supervision ou la sollicitation avec peu/beaucoup de coups de pouce (SYNAPSE) sont des méthodes standard pour apprendre une tâche. Ils ont effectué des dizaines de travaux informatiques avec un taux d’achèvement de la tâche supérieur à 90 %, résolvant apparemment le problème de contrôle de l’ordinateur. Cependant, la nécessité de traces d’experts limite la capacité de l’agent à apprendre de nouvelles tâches. Un agent peut-il connaître et améliorer indépendamment son contrôle sur un ordinateur sans utiliser de traces bien choisies comme guide ? Des chercheurs de Google Research et de l’université de Toronto suggèrent un agent à zéro tir pour répondre à cette question.
Leur agent est basé sur PaLM2, un LLM récent, et il utilise un seul ensemble d’instructions pour toutes les activités plutôt que des instructions spécifiques à la tâche. De plus, des efforts contemporains tels que RCI, ADAPLANNER et SYNAPSE utilisent des représentations à l’écran qui peuvent inclure beaucoup plus de données que ce qui est affiché à l’utilisateur sur l’écran. Par exemple, la figure 1 illustre des éléments qui sont contenus dans le HTML mais qui ne sont pas affichés à l’écran. Arbitrairement, l’utilisation de ces nouvelles connaissances facilite la réalisation de la tâche par l’agent. Cependant, dans des scénarios d’utilisation typiques, de telles informations pourraient ne pas être facilement accessibles et, en fonction d’elles, pourraient limiter la portée d’application de l’agent.
- Autonomisez plusieurs sites web avec la solution de chatbot de Langchain.
- Applications génératives d’IA avec Amazon Bedrock démarrage pour les développeurs Go
- Recherche d’image en 5 minutes
Figure 1 montre des affichages disparates sur les écrans. Fig. 1a-1c montre la tâche sur les réseaux sociaux avant et après avoir appuyé sur le bouton “plus” (seed=2). Le HTML a déjà rendu le contenu visible avant de cliquer. Fig. 1d-1e : le clic sur l’onglet 2 (seed=0) pose un problème similaire.
13 tâches plutôt difficiles sur MINIWOB++ qui sont censées s’étendre sur plusieurs écrans ont été soigneusement évaluées, et ils ont découvert que 5 d’entre elles comprenaient du HTML contenant de telles informations – des informations multi-écrans dans une seule observation. Voici les contributions qu’ils ont apportées : Tout d’abord, par rapport aux études précédentes, ils adoptent une représentation condensée de l’écran, ce qui rend l’environnement de test plus complet et réaliste. Deuxièmement, ils fournissent un planificateur d’actions simple mais efficace qui planifie de manière précise toutes les opérations exécutables sur un état en une seule passe. Ils démontrent qu’une telle approche “naïve” peut terminer presque toutes les tâches simples du benchmark MINIWOB++ en utilisant la capacité la plus récente des LLM.
Pour aider l’agent à apprendre avec succès à partir d’échecs exploratoires et à progresser dans des tâches plus difficiles, ils suggèrent une technique de gestion de la réflexion systématique qui s’inspire de Reflexion. Leur agent atteint des performances équivalentes à l’état de l’art précédent avec peu/beaucoup de coups de pouce après quelques essais. Selon les recherches, leur agent est le premier à être conçu pour la maîtrise des tâches de contrôle informatique sans besoin de préparation, selon leur connaissance.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Détection et suivi haute fréquence des sources d’émission de méthane à l’aide des capacités géospatiales d’Amazon SageMaker
- Participez gratuitement à ODSC West Virtual avec le pass Open
- Les réseaux neuronaux parviennent à une généralisation du langage similaire à l’humain
- Prochaines générations de réseaux neuronaux NVIDIA Research annonce une gamme de progrès en matière d’IA lors de la conférence NeurIPS.
- Comment ce chercheur récompensé par le prix Turing est devenu un légendaire conseiller académique
- Le président Biden honore les scientifiques, les technologistes et les innovateurs américains de premier plan.
- « L’accessoire pour smartphone pourrait augmenter l’équité raciale dans le dépistage neurologique »