Des chercheurs de Stanford et de l’Université du Texas à Austin proposent l’apprentissage préférentiel contrastif (CPL) une méthode simple d’apprentissage par renforcement sans RL pour RLHF, qui fonctionne avec des PDM arbitraires et des données hors

Des chercheurs de Stanford et de l'Université du Texas à Austin ont développé l'apprentissage préférentiel contrastif (CPL) une méthode novatrice d'apprentissage par renforcement sans RL pour RLHF, compatible avec toutes les PDM et données externes

Le défi de correspondre aux préférences humaines aux grands modèles pré-entraînés a pris de l’importance dans l’étude car ces modèles ont augmenté en performance. Cette alignement devient particulièrement difficile lorsqu’il y a inévitablement de mauvais comportements dans des ensembles de données plus importants. Pour résoudre ce problème, l’apprentissage par renforcement à partir de l’entrée humaine, ou RLHF, est devenu populaire. Les approches RLHF utilisent les préférences humaines pour distinguer les comportements acceptables des mauvais comportements afin d’améliorer une politique connue. Cette approche a montré des résultats encourageants lorsqu’elle est utilisée pour ajuster les règles des robots, améliorer les modèles de génération d’images et affiner les grands modèles de langage (LM) en utilisant des données de moindre qualité. La plupart des algorithmes RLHF ont deux étapes dans cette procédure. 

Premièrement, les données de préférences utilisateur sont collectées pour former un modèle de récompense. Un algorithme d’apprentissage par renforcement (RL) hors étagère optimise ce modèle de récompense. Malheureusement, il doit y avoir une correction dans le fondement de ce paradigme en deux phases. Les préférences humaines doivent être attribuées par le total actualisé des récompenses ou le retour partiel de chaque segment de comportement pour que les algorithmes développent des modèles de récompense à partir de données de préférences. Des recherches récentes, cependant, remettent en question cette théorie, suggérant que les préférences humaines devraient être basées sur le regret de chaque action par rapport à la politique idéale de la fonction de récompense de l’expert. L’évaluation humaine est probablement centrée intuitivement sur l’optimalité plutôt que sur le fait que les situations et les comportements offrent de plus grandes récompenses. 

Par conséquent, la fonction d’avantage optimale, ou le regret négatif, peut être le nombre idéal pour apprendre à partir des commentaires plutôt que la récompense. Les algorithmes RLHF en deux phases utilisent le RL dans leur deuxième phase pour optimiser la fonction de récompense connue dans la première phase. Dans les applications du monde réel, l’attribution des crédits temporels présente une variété de difficultés d’optimisation pour les algorithmes RL, y compris l’instabilité de la programmation dynamique d’approximation et la grande variance des gradients de politique. Par conséquent, les travaux antérieurs limitent leur portée pour éviter ces problèmes. Par exemple, les approches RLHF pour les LM, supposent la formulation du bandit contextuel, où la politique reçoit une seule valeur de récompense en réponse à une question de l’utilisateur. 

L’hypothèse du bandit à une seule étape est rompue car les interactions utilisateur avec les LM sont multi-étapes et séquentielles, même si cela réduit le besoin d’une attribution du crédit à long terme et, par conséquent, la grande variation des gradients de politique. Un autre exemple est l’application du RLHF aux problèmes de robotique basée sur l’état de basse dimension, qui fonctionne bien pour la programmation dynamique d’approximation. Cependant, cela n’a pas encore été adapté aux domaines de contrôle continus de plus haute dimension avec des entrées d’images, ce qui est plus réaliste. En général, les approches RLHF nécessitent de réduire les contraintes d’optimisation du RL en faisant des hypothèses restreintes sur la nature séquentielle des problèmes ou sur la dimensionnalité. Ils croient généralement à tort que la fonction de récompense seule détermine les préférences humaines.

Contrairement au modèle de retour partiel largement utilisé, qui prend en compte les récompenses totales, des chercheurs de l’Université Stanford, UMass Amherst et UT Austin proposent une nouvelle famille d’algorithmes RLHF dans cette étude qui utilise un modèle de préférences basé sur le regret. Contrairement au modèle de retour partiel, l’approche basée sur le regret fournit des informations précises sur la meilleure action à prendre. Heureusement, cela élimine la nécessité du RL, nous permettant de traiter les problèmes RLHF avec des espaces d’états et d’actions de grande dimension dans le cadre générique MDP. Leur découverte fondamentale consiste à établir une bijection entre les fonctions d’avantage et les politiques en combinant le cadre de préférences basé sur le regret avec le principe de l’entropie maximale (MaxEnt). 

Ils peuvent établir un objectif d’apprentissage supervisé purement dont l’optimum est la meilleure politique selon la récompense de l’expert en échangeant l’optimisation des avantages pour l’optimisation des politiques. Parce que leur méthode ressemble aux objectifs d’apprentissage contrastif largement reconnus, ils l’appellent l’apprentissage de préférence contrastive – les trois principaux avantages de CPL par rapport aux efforts antérieurs. Tout d’abord, parce que CPL correspond exclusivement à l’avantage optimal en utilisant des objectifs supervisés – plutôt que d’utiliser une programmation dynamique ou des gradients de politique – elle peut se développer aussi bien que l’apprentissage supervisé. Deuxièmement, CPL est complètement hors politique, ce qui permet d’utiliser n’importe quelle source de données hors ligne et moins que l’idéal. Enfin, CPL permet des recherches de préférences sur des données séquentielles pour l’apprentissage sur des processus de décision de Markov arbitraires (MDP). 

Jusqu’à présent, ils savent que les techniques précédentes de RLHF n’ont pas encore satisfait simultanément ces trois exigences. Ils illustrent les performances de CPL sur les problèmes de prise de décision séquentielle en utilisant des entrées hors politique sub-optimales et de grande dimension pour prouver qu’il respecte les trois principes mentionnés ci-dessus. De manière intéressante, ils démontrent que CPL peut apprendre des règles de manipulation temporellement étendues dans le cadre de référence MetaWorld en utilisant efficacement le même processus de réglage fin RLHF que les modèles de dialogue. Pour être plus précis, ils utilisent l’apprentissage supervisé à partir d’observations d’images de grande dimension pour pré-entraîner les politiques, qu’ils affinent ensuite en utilisant des préférences. CPL peut atteindre les performances des techniques précédentes basées sur RL sans nécessiter une programmation dynamique ou des gradients de politique. Elle est également quatre fois plus efficace en termes de paramètres et 1,6 fois plus rapide simultanément. Sur cinq tâches sur six, CPL surpasse les lignes de base RL lors de l’utilisation de données de préférence plus denses. Les chercheurs peuvent éviter le besoin d’apprentissage par renforcement (RL) en utilisant le concept d’entropie maximale pour créer l’apprentissage de préférence contrastive (CPL), un algorithme pour apprendre des politiques optimales à partir de préférences sans apprendre de fonctions de récompense.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Elon Musk présente 'Grok' l'AI Chatbot impertinent avec une touche de rébellion

Le monde de la technologie est en effervescence. Elon Musk, le génie derrière des entreprises révolutionnaires comme ...

AI

Elon Musk's xAI entraîné sur le flux de Twitter

Elon Musk, le visionnaire derrière des entreprises telles que Tesla et SpaceX, a de nouveau fixé son attention sur le...

AI

Grok L'IA Chatbot de xAI d'Elon Musk

Plongez dans Grok d'Elon Musk par xAI, un chatbot IA avec une récupération d'informations en temps réel, de l'humour ...

AI

Elon Musk met en garde contre la montée de la superintelligence en Chine

L’entrepreneur renommé Elon Musk a récemment fait les gros titres avec sa déclaration audacieuse lors d’u...

AI

Restez en avance sur la courbe de confiance en IA la trousse à outils responsable en IA en open-source est dévoilée.

Dans le paysage technologique en évolution rapide d’aujourd’hui, l’intelligence artificielle (IA) e...

AI

Juliette Powell et Art Kleiner, auteurs de la série d'interviews Le dilemme de l'IA

Le dilemme de l'IA est écrit par Juliette Powell et Art Kleiner. Juliette Powell est auteure, créatrice de télévision...