Les chercheurs de l’UC Berkeley espèrent révolutionner les conversations axées sur les objectifs

Les chercheurs de l'UC Berkeley désirent transformer profondément les discussions centrées sur les objectifs

Dans un nouveau article, des chercheurs de l’UC Berkeley espèrent pouvoir révolutionner les conversations orientées vers un objectif avec des modèles LLM en exploitant l’apprentissage par renforcement (RL). Nous avons vu au cours de la dernière année comment les LLMs ont prouvé leur efficacité dans une grande variété de tâches de langage naturel, de la résumé de texte à la génération de code.

Cependant, ces modèles continuent de rencontrer des difficultés avec les conversations orientées vers un objectif. Cela représente un défi constant, notamment dans les scénarios où des réponses personnalisées et concises sont cruciales, comme agir en tant qu’agent de voyage compétent.

Le problème est que les modèles traditionnels sont souvent entraînés avec des techniques de fine-tuning supervisées ou de RL en une seule étape. Cela peut les empêcher d’obtenir des résultats de conversation optimaux sur plusieurs interactions. De plus, la prise en compte de l’incertitude dans ces dialogues représente un obstacle significatif.

Dans cet article, l’équipe présente une nouvelle méthode, qui incorpore un algorithme optimisé sans entraînement préalable et un moteur d’imagination pour générer des questions diverses et pertinentes pour la tâche, d’une importance cruciale pour entraîner efficacement des agents aval.

Le moteur d’imagination, bien qu’il ne puisse pas produire indépendamment des agents efficaces, collabore avec un LLM pour générer des scénarios potentiels. Pour améliorer encore l’efficacité d’un agent pour atteindre les résultats souhaités, les chercheurs utilisent un RL à plusieurs étapes pour déterminer la stratégie optimale.

Ce qui rend cela intéressant, c’est que la formation du modèle par l’équipe s’éloigne des échantillons conventionnels « sur politique », utilisant un RL basé sur la valeur hors ligne pour apprendre une politique à partir de données synthétiques, réduisant ainsi les coûts de calcul.

Pour valider leur méthode, les chercheurs ont réalisé une étude comparative entre un agent GPT et IE+RL, en utilisant des évaluateurs humains dans deux conversations orientées vers un objectif basées sur des problèmes du monde réel.

L’utilisation du modèle GPT-3.5 dans l’IE pour la génération de données synthétiques et d’un modèle GPT-2 compact en tant qu’agent aval illustre la praticité de leur approche, minimisant les dépenses de calcul.

Jusqu’à présent, les résultats des expériences démontrent sans équivoque la supériorité de l’agent proposé par rapport au modèle GPT selon toutes les métriques, garantissant le naturel des dialogues résultants. L’agent IE+RL surpasse son homologue en générant des questions intelligemment conçues et faciles à répondre, ainsi que des questions de suivi pertinentes sur le plan contextuel.

Dans des scénarios de simulation, bien que les deux agents aient performé admirablement, les évaluations qualitatives ont favorisé l’agent IE+RL, soulignant son efficacité dans les applications du monde réel. Si elle se révèle être scalable, cette méthode pourrait promettre des améliorations futures dans les agents de dialogue sans entraînement préalable, ouvrant la voie à des interactions plus sophistiquées avec les systèmes d’IA.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Cet article sur l'IA dévoile les secrets de l'optimisation des grands modèles de langage équilibrer les récompenses et prévenir la sur-optimisation.

Une équipe de chercheurs de l’UC Berkeley, de l’UCL, du CMU et de Google Deepmind relève le défi d’...

AI

Comment l'IA aide à combattre les incendies de forêt en Californie

La Californie dispose d’une nouvelle arme contre les incendies qui ont ravagé l’État : l’IA. Un sys...

Recherche en IA

Les chercheurs de Stanford présentent SequenceMatch Entraînement des LLMs avec une perte d'apprentissage par imitation.

Les modèles autorégressifs sont une classe de modèles statistiques basée sur l’intuition selon laquelle la vale...

AI

Une diffusion pour régner sur la diffusion modulation de modèles de diffusion pré-entrainés pour la synthèse d'images multimodales

Les modèles d’IA de génération d’images ont fait irruption dans le domaine au cours des derniers mois. Vo...

AI

La brillance stratégique de Meta Llama 2 pourrait être leur nouveau graphe social

Dans un mouvement qui a attiré l’attention de l’industrie technologique, Meta a récemment annoncé la sort...

AI

Réduction de l'empreinte carbone dans la formation de l'IA par optimisation

Des chercheurs de l’Université du Michigan ont créé un framework d’optimisation open-source appelé Zeus q...