Découvrez Retroformer un cadre d’IA élégant pour améliorer itérativement les grands agents de langage en apprenant un modèle rétrospectif plug-in.

Découvrez Retroformer, un cadre d'IA élégant pour améliorer les agents de langage en apprenant un modèle rétrospectif plug-in.

Une nouvelle tendance puissante a émergé, dans laquelle les grands modèles de langage (LM) sont améliorés pour devenir des agents de langage autonomes capables d’effectuer des activités de manière indépendante, éventuellement au service d’un objectif, au lieu de simplement répondre aux questions des utilisateurs. React, Toolformer, HuggingGPT, les agents génératifs, WebGPT, AutoGPT, BabyAGI et Langchain sont quelques-unes des recherches bien connues qui ont démontré de manière efficace la praticité du développement d’agents de prise de décision autonomes en utilisant des LM. Ces méthodes utilisent des LM pour produire des sorties textuelles et des actions qui peuvent ensuite être utilisées pour accéder à des API et effectuer des activités dans un contexte spécifique.

Cependant, la majorité des agents de langage actuels n’ont pas de comportements optimisés ou en accord avec les fonctions de récompense de l’environnement en raison de l’ampleur considérable des LM avec un grand nombre de paramètres. Reflexion, une architecture d’agent de langage assez récente, et de nombreux autres travaux dans le même sens, y compris Self-Refine et Generative Agent, sont une anomalie car ils utilisent des commentaires verbaux – spécifiquement, l’auto-réflexion – pour aider les agents à apprendre des échecs passés. Ces agents réfléchissants convertissent les récompenses binaires ou scalaires de l’environnement en une entrée vocale sous forme de résumé textuel, fournissant un contexte supplémentaire à la demande de l’agent de langage.

Les commentaires d’auto-réflexion servent de signal sémantique pour l’agent en lui donnant une zone spécifique sur laquelle se concentrer pour s’améliorer. Cela permet à l’agent d’apprendre des échecs passés et d’éviter de répéter les mêmes erreurs à plusieurs reprises afin de mieux faire la prochaine fois. Bien que l’affinement itératif soit rendu possible par l’opération d’auto-réflexion, il peut être difficile de générer des commentaires réfléchissants utiles à partir d’un LM pré-entraîné et figé, comme le montre la Figure 1. Cela est dû au fait que le LM doit être capable d’identifier les domaines dans lesquels l’agent a commis une erreur dans un environnement particulier, comme le problème de l’attribution des crédits, et de produire un résumé avec des suggestions pour s’améliorer.

La Figure 1 montre une illustration des auto-réflexions non informatives d’un LM figé. L’agent aurait dû répondre “Teen Titans Go” et non “Teen Titans”, ce qui est la principale raison de l’échec du dernier essai. Tout au long d’une série de réflexions, d’actes et d’observations approfondies, l’agent a perdu de vue son objectif. Cependant, les commentaires vocaux du LM figé se contentent de répéter les séquences d’actions précédentes comme nouveau plan suggéré, conduisant aux mêmes comportements incorrects lors de l’essai suivant.

Le modèle de langage figé doit être suffisamment ajusté pour se spécialiser dans les problèmes d’attribution des crédits pour les tâches dans des circonstances particulières afin d’optimiser le renforcement verbal. De plus, les agents de langage actuels ne raisonnent ni ne planifient de manière cohérente avec l’apprentissage différenciable basé sur les gradients en utilisant les nombreuses approches d’apprentissage par renforcement maintenant utilisées. Les chercheurs de Salesforce Research introduisent Retroformer, un cadre moral pour renforcer les agents de langage en apprenant un modèle rétrospectif à brancher pour résoudre les contraintes. Retroformer améliore automatiquement les demandes des agents de langage en se basant sur les informations de l’environnement par optimisation de la politique.

En particulier, l’architecture de l’agent proposée peut affiner de manière itérative un modèle de langage pré-entraîné en réfléchissant aux tentatives infructueuses et en attribuant des crédits aux actions prises par l’agent sur les récompenses futures. Cela se fait en apprenant à partir d’informations de récompense arbitraires dans plusieurs environnements et tâches. Ils effectuent des expériences sur des simulations open-source et des environnements réels, tels que HotPotQA, pour évaluer les compétences d’utilisation des outils d’un agent web qui doit contacter à plusieurs reprises les API de Wikipédia pour répondre aux questions. HotPotQA comprend des tâches de recherche-réponse basées sur la recherche. Les agents Retroformer, contrairement à la réflexion, qui n’utilise pas de gradient pour la réflexion et la planification, sont des apprenants plus rapides et de meilleurs décideurs. Plus précisément, les agents Retroformer augmentent le taux de réussite de HotPotQA dans les tâches de recherche-réponse basées sur la recherche de 18% en seulement quatre essais, prouvant ainsi la valeur de la planification et du raisonnement basés sur les gradients pour l’utilisation d’outils dans des environnements avec beaucoup d’états et d’actions.

En conclusion, voici ce qu’ils ont contribué :

• La recherche développe Retroformer, qui améliore la vitesse d’apprentissage et l’achèvement des tâches en affinant à plusieurs reprises les instructions fournies aux grands agents de langage en fonction de l’entrée contextuelle. La méthode proposée se concentre sur l’amélioration du modèle rétrospectif dans l’architecture de l’agent de langage sans accéder aux paramètres de l’Acteur LLM ni avoir besoin de propager les gradients.

• La méthode proposée permet d’apprendre à partir de divers signaux de récompense pour des tâches et des environnements variés. Retroformer est un module complémentaire adaptable pour de nombreux types de LLM basés sur le cloud, tels que GPT ou Bard, en raison de sa nature agnostique.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

C'est drôle, mais les modèles d'IA ne comprennent pas la blague

Une équipe multi-institutionnelle de scientifiques a testé la capacité des modèles d'intelligence artificielle à comp...

AI

Les cybercriminels utilisent WormGPT pour contourner la sécurité des emails

Le paysage en constante évolution de la cybercriminalité a donné lieu à de nouveaux outils dangereux. L’IA géné...

AI

L'IA amène l'acolyte robot dans le combat aérien

L'intelligence artificielle (IA) pilote l'avion expérimental XQ-58A Valkyrie sans pilote de l'US Air Force, que les m...

AI

ChatGPT se donne des lois pour se réguler lui-même

Le Costa Rica a franchi une étape intéressante dans la réglementation de l’intelligence artificielle (IA) en se...

Science des données

Maintien de la qualité des données dans les systèmes d'apprentissage automatique

Dans le monde éblouissant de l'apprentissage automatique (ML), il est assez facile de se laisser emporter par le fris...