Cet article sur l’IA dévoile les secrets de l’optimisation des grands modèles de langage équilibrer les récompenses et prévenir la sur-optimisation.

Cet article révèle les secrets de l'optimisation des grands modèles de langage de l'IA équilibre des récompenses et prévention de la sur-optimisation.

Une équipe de chercheurs de l’UC Berkeley, de l’UCL, du CMU et de Google Deepmind relève le défi d’optimiser de grands modèles de langage en utilisant des modèles de récompense composites dérivés de modèles de récompense plus simples. Ces modèles hybrides ont souvent besoin d’aide pour le pondérage approprié des modèles de composants, ce qui entraîne une sur-optimisation, où une récompense plus élevée est corrélée à de moins bonnes évaluations humaines. Leur méthode propose une solution utilisant l’apprentissage par renforcement contraint pour empêcher l’agent de dépasser le seuil d’utilité de chaque modèle de composant.

L’étude fait référence à une vaste histoire de recherche sur l’intégration de contraintes dans l’apprentissage par renforcement. Elle mentionne des études réalisées par des auteurs tels que Borkar, Padakandla, Cheung, Lecarpentier, et d’autres. L’étude souligne également l’importance de tenir compte de la non-stationnarité des fonctions de récompense et cite les travaux de Moskovitz, O’Donoghue et Tarbouriech. De plus, l’étude aborde l’utilisation de l’optimisation de politique régularisée.

Les LLM excellent dans le traitement du langage naturel, mais rencontrent des problèmes de déploiement sécurisé et d’alignement avec les préférences humaines. L’apprentissage par renforcement à partir de commentaires humains (RLHF) adapte les LLM en utilisant des modèles de récompense qui imitent les choix humains. Cependant, une sur-optimisation des RM peut entraîner une mauvaise qualité de texte. Leur travail propose une solution avec des modèles de récompenses composites, en abordant la sur-optimisation en identifiant des points de substitution et en utilisant une optimisation contrainte. Le poids dynamique contrôle l’influence de chaque RM sur le processus d’apprentissage.

L’analyse présente l’apprentissage par renforcement contraint en utilisant des multiplicateurs de Lagrange pour gérer la sur-optimisation dans les modèles de récompense composites. Elle applique des contraintes sur les modèles de récompense de composants, les maintenant dans la plage d’évaluation humaine effective. Une méthode d’optimisation adaptative sans gradients est présentée pour identifier et optimiser les points de substitution afin d’éviter une surutilisation des modèles de récompense. Différentes formulations de récompense de tâche et de seuil de contrainte, y compris la divergence de KL, sont considérées.

Leur approche mène la première étude sur la sur-optimisation dans les modèles de récompense composites, révélant l’impact significatif d’une corrélation sur les points de sur-optimisation. Une méthode d’optimisation adaptative sans gradients est utilisée pour empêcher de dépasser les seuils des modèles de récompense. Les algorithmes PPO, y compris PPO-SAT et All-PPO, sont discutés pour mettre en œuvre l’apprentissage par renforcement contraint. Un pseudo-code détaillé est fourni, couvrant différentes formulations de récompense de tâche et de seuil de contrainte.

La recherche se concentre sur la résolution des défis d’optimisation dans les modèles de récompense composites qui affectent l’évaluation de la qualité du langage. Une méthode d’optimisation adaptative sans gradients est utilisée pour identifier et optimiser les points de sur-optimisation. L’étude se penche sur la mise en œuvre d’algorithmes PPO tels que PPO-SAT et All-PPO. Elle insiste sur l’importance du pondérage approprié et de la considération de la corrélation entre les modèles de récompense de composants pour une évaluation efficace de la qualité du langage.

Les futures recherches devraient envisager d’appliquer des approches fiables telles que ReLOAD pour lutter contre la sur-optimisation dans les modèles de récompense composites. Explorer l’utilité des formulations CMDP pour éviter les problèmes de sortie du modèle dans les cas sans politiques optimales déterministes est essentiel. Des tests approfondis dans des domaines diversifiés et des modèles de récompense composites complexes sont justifiés. L’étude d’autres méthodes d’apprentissage par renforcement et l’évaluation de l’influence des stratégies de pondération et des mesures de corrélation sur les performances de l’approche proposée sont essentielles pour de nouvelles avancées.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Cette recherche en IA révolutionne la conception des modulateurs Mach-Zehnder en silicium grâce à l'apprentissage profond et aux algorithmes évolutifs.

Les exigences de capacité de transmission réseau ont augmenté en raison de la popularité de Netflix et de l’IoT...

AI

xAI lance PromptIDE une nouvelle frontière dans l'ingénierie rapide et l'intelligence artificielle, la transparence de l'IA

Dans une avancée révolutionnaire pour le développement de l’intelligence artificielle, xAI a dévoilé le PromptI...

AI

La technologie 6G pourrait faire double emploi pour surveiller le changement climatique

Des chercheurs de l'Université du Nord-Est ont déclaré que la spectroscopie par voie hertzienne pourrait permettre au...

AI

Les chercheurs de l'Université du Texas présentent la prédiction des complications de la reconstruction sur implants en utilisant l'apprentissage automatique.

L’intelligence artificielle (IA) a transformé presque tous les domaines aujourd’hui et a le potentiel d&#...