Les chercheurs de l’UC Berkeley espèrent révolutionner les conversations axées sur les objectifs
Les chercheurs de l'UC Berkeley désirent transformer profondément les discussions centrées sur les objectifs
Dans un nouveau article, des chercheurs de l’UC Berkeley espèrent pouvoir révolutionner les conversations orientées vers un objectif avec des modèles LLM en exploitant l’apprentissage par renforcement (RL). Nous avons vu au cours de la dernière année comment les LLMs ont prouvé leur efficacité dans une grande variété de tâches de langage naturel, de la résumé de texte à la génération de code.
Cependant, ces modèles continuent de rencontrer des difficultés avec les conversations orientées vers un objectif. Cela représente un défi constant, notamment dans les scénarios où des réponses personnalisées et concises sont cruciales, comme agir en tant qu’agent de voyage compétent.
Le problème est que les modèles traditionnels sont souvent entraînés avec des techniques de fine-tuning supervisées ou de RL en une seule étape. Cela peut les empêcher d’obtenir des résultats de conversation optimaux sur plusieurs interactions. De plus, la prise en compte de l’incertitude dans ces dialogues représente un obstacle significatif.
- Optimiser les actions Github
- Créer un modèle GPT en utilisant l’API de puissance de la NASA
- Comprendre la maintenance prédictive – Données de vague Ingénierie des caractéristiques (Partie 1)
Dans cet article, l’équipe présente une nouvelle méthode, qui incorpore un algorithme optimisé sans entraînement préalable et un moteur d’imagination pour générer des questions diverses et pertinentes pour la tâche, d’une importance cruciale pour entraîner efficacement des agents aval.
Le moteur d’imagination, bien qu’il ne puisse pas produire indépendamment des agents efficaces, collabore avec un LLM pour générer des scénarios potentiels. Pour améliorer encore l’efficacité d’un agent pour atteindre les résultats souhaités, les chercheurs utilisent un RL à plusieurs étapes pour déterminer la stratégie optimale.
Ce qui rend cela intéressant, c’est que la formation du modèle par l’équipe s’éloigne des échantillons conventionnels « sur politique », utilisant un RL basé sur la valeur hors ligne pour apprendre une politique à partir de données synthétiques, réduisant ainsi les coûts de calcul.
Pour valider leur méthode, les chercheurs ont réalisé une étude comparative entre un agent GPT et IE+RL, en utilisant des évaluateurs humains dans deux conversations orientées vers un objectif basées sur des problèmes du monde réel.
L’utilisation du modèle GPT-3.5 dans l’IE pour la génération de données synthétiques et d’un modèle GPT-2 compact en tant qu’agent aval illustre la praticité de leur approche, minimisant les dépenses de calcul.
Jusqu’à présent, les résultats des expériences démontrent sans équivoque la supériorité de l’agent proposé par rapport au modèle GPT selon toutes les métriques, garantissant le naturel des dialogues résultants. L’agent IE+RL surpasse son homologue en générant des questions intelligemment conçues et faciles à répondre, ainsi que des questions de suivi pertinentes sur le plan contextuel.
Dans des scénarios de simulation, bien que les deux agents aient performé admirablement, les évaluations qualitatives ont favorisé l’agent IE+RL, soulignant son efficacité dans les applications du monde réel. Si elle se révèle être scalable, cette méthode pourrait promettre des améliorations futures dans les agents de dialogue sans entraînement préalable, ouvrant la voie à des interactions plus sophistiquées avec les systèmes d’IA.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Requêtes de langage naturel alimentées par l’IA pour la découverte des connaissances
- Démystifier le remplissage des données
- Est-il difficile d’adopter le Serverless?
- Les 5 piliers des tests LLM fiables
- Comment les détecteurs de contenu AI fonctionnent-ils ?
- Caractéristiques catégorielles Qu’est-ce qui ne va pas avec le codage par étiquettes ?
- Utilisez Amazon SageMaker Studio pour créer une solution de réponse à questions RAG avec Llama 2, LangChain, et Pinecone pour une expérimentation rapide.