Des chercheurs de l’Université de New York et de Meta AI étudient l’amélioration des agents de conversation sociale en apprenant du dialogue naturel entre les utilisateurs et un modèle déployé, sans annotations supplémentaires.

Des chercheurs de l'Université de New York et de Meta AI étudient l'amélioration des agents de conversation sociale en apprenant du dialogue naturel entre les utilisateurs et un modèle déployé, sans annotations supplémentaires.

La contribution humaine est une tactique clé pour améliorer les modèles de dialogue social. Dans l’apprentissage par renforcement avec rétroaction humaine, lorsqu’il est nécessaire de nombreuses annotations humaines pour garantir une fonction de récompense satisfaisante, il y a eu une amélioration considérable de l’apprentissage à partir des commentaires. Les sources de rétroaction comprennent des scores numériques, des classements ou des commentaires en langage naturel des utilisateurs sur un échange de dialogue ou un épisode de dialogue, ainsi que des évaluations binaires d’un échange avec un bot. La plupart des travaux rassemblent délibérément ces signaux en utilisant des travailleurs de foule, car les utilisateurs naturels pourraient éviter de le faire ou pourraient fournir des informations inexactes s’ils le font. 

Dans cette étude, des chercheurs de l’Université de New York et de Meta AI examinent la situation où ils disposent de nombreux épisodes de dialogue au moment du déploiement qui présentent de véritables discussions entre le modèle et des utilisateurs organiques. Ils essaient de déterminer s’ils peuvent tirer des indications implicites de ces discussions avec des utilisateurs naturels et utiliser ces signaux pour améliorer le modèle de dialogue. Il y a deux raisons à cela. Premièrement, bien qu’ils ne contribuent pas explicitement aux annotations, les utilisateurs organiques se rapprochent le plus de la distribution des données pour un déploiement futur. Deuxièmement, l’utilisation de signaux implicites à partir d’épisodes de dialogue précédents permet d’économiser de l’argent qui aurait été dépensé pour la fouille de données. 

Figure 1 : Vue d’ensemble générale de l’approche. Des signaux implicites sont extraits des discussions entre humains et robots, tels que la longueur ou la brièveté des prochains échanges humains ou leur caractère joyeux ou non.

Plus précisément, ils examinent s’ils peuvent ajuster le chatbot pour utiliser les meilleurs signaux implicites de rétroaction, tels que la quantité, la longueur, le sentiment ou la réactivité des réponses humaines à venir. Ils utilisent des données publiques disponibles et dépersonnalisées provenant du déploiement en ligne de BlenderBot pour étudier ce problème. À l’aide de ces données, ils entraînent des modèles d’échantillonnage et de réordonnancement, en comparant divers signaux de rétroaction implicite. Leurs nouveaux modèles se révèlent supérieurs aux réponses de référence tant du point de vue automatisé qu’humain. De plus, ils se demandent si le soutien de ces mesures entraînera des comportements indésirables, étant donné que leurs signaux de rétroaction implicite sont des indicateurs approximatifs de la qualité des générations. 

Oui, en fonction du signal utilisé. En particulier, l’optimisation pour des longueurs de discussion plus longues pourrait amener le modèle à proposer des opinions controversées ou à répondre de manière hostile ou combative. En revanche, l’optimisation pour une réponse ou une humeur favorable réduit ces comportements par rapport à la référence. Ils concluent que la rétroaction implicite des humains est un signal d’entraînement utile qui peut améliorer les performances globales, mais le mouvement spécifique utilisé a des répercussions comportementales significatives.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more