Des chercheurs de l’Université de New York et de Meta AI étudient l’amélioration des agents de conversation sociale en apprenant du dialogue naturel entre les utilisateurs et un modèle déployé, sans annotations supplémentaires.
Des chercheurs de l'Université de New York et de Meta AI étudient l'amélioration des agents de conversation sociale en apprenant du dialogue naturel entre les utilisateurs et un modèle déployé, sans annotations supplémentaires.
La contribution humaine est une tactique clé pour améliorer les modèles de dialogue social. Dans l’apprentissage par renforcement avec rétroaction humaine, lorsqu’il est nécessaire de nombreuses annotations humaines pour garantir une fonction de récompense satisfaisante, il y a eu une amélioration considérable de l’apprentissage à partir des commentaires. Les sources de rétroaction comprennent des scores numériques, des classements ou des commentaires en langage naturel des utilisateurs sur un échange de dialogue ou un épisode de dialogue, ainsi que des évaluations binaires d’un échange avec un bot. La plupart des travaux rassemblent délibérément ces signaux en utilisant des travailleurs de foule, car les utilisateurs naturels pourraient éviter de le faire ou pourraient fournir des informations inexactes s’ils le font.
Dans cette étude, des chercheurs de l’Université de New York et de Meta AI examinent la situation où ils disposent de nombreux épisodes de dialogue au moment du déploiement qui présentent de véritables discussions entre le modèle et des utilisateurs organiques. Ils essaient de déterminer s’ils peuvent tirer des indications implicites de ces discussions avec des utilisateurs naturels et utiliser ces signaux pour améliorer le modèle de dialogue. Il y a deux raisons à cela. Premièrement, bien qu’ils ne contribuent pas explicitement aux annotations, les utilisateurs organiques se rapprochent le plus de la distribution des données pour un déploiement futur. Deuxièmement, l’utilisation de signaux implicites à partir d’épisodes de dialogue précédents permet d’économiser de l’argent qui aurait été dépensé pour la fouille de données.
Plus précisément, ils examinent s’ils peuvent ajuster le chatbot pour utiliser les meilleurs signaux implicites de rétroaction, tels que la quantité, la longueur, le sentiment ou la réactivité des réponses humaines à venir. Ils utilisent des données publiques disponibles et dépersonnalisées provenant du déploiement en ligne de BlenderBot pour étudier ce problème. À l’aide de ces données, ils entraînent des modèles d’échantillonnage et de réordonnancement, en comparant divers signaux de rétroaction implicite. Leurs nouveaux modèles se révèlent supérieurs aux réponses de référence tant du point de vue automatisé qu’humain. De plus, ils se demandent si le soutien de ces mesures entraînera des comportements indésirables, étant donné que leurs signaux de rétroaction implicite sont des indicateurs approximatifs de la qualité des générations.
- Une approche simple pour créer des transformateurs personnalisés en utilisant les classes de Scikit-Learn
- Utiliser les pipelines Scikit-Learn pour automatiser l’entraînement des modèles d’apprentissage automatique et les prédictions
- De nombreux à peu aborder les données de haute dimension avec la réduction de dimensionnalité en apprentissage automatique
Oui, en fonction du signal utilisé. En particulier, l’optimisation pour des longueurs de discussion plus longues pourrait amener le modèle à proposer des opinions controversées ou à répondre de manière hostile ou combative. En revanche, l’optimisation pour une réponse ou une humeur favorable réduit ces comportements par rapport à la référence. Ils concluent que la rétroaction implicite des humains est un signal d’entraînement utile qui peut améliorer les performances globales, mais le mouvement spécifique utilisé a des répercussions comportementales significatives.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Trouver le bon équilibre Comprendre le sous-ajustement et le surajustement dans les modèles d’apprentissage automatique
- Ayez confiance en vos modèles d’apprentissage automatique grâce à l’aide de la validation croisée
- Chatbot pour vos documents Google utilisant Langchain et OpenAI
- Découvrez l’Advanced Reasoning Benchmark (ARB) un nouveau benchmark pour évaluer les grands modèles de langage.
- Connaître les différentes mesures de performance pour le problème de classification en apprentissage automatique
- Explorez les métriques R2 et R2 ajusté de manière intuitive
- Les meilleurs outils de correction grammaticale AI en 2023