Des chercheurs de Stanford et de l’Université du Texas à Austin proposent l’apprentissage préférentiel contrastif (CPL) une méthode simple d’apprentissage par renforcement sans RL pour RLHF, qui fonctionne avec des PDM arbitraires et des données hors
Des chercheurs de Stanford et de l'Université du Texas à Austin ont développé l'apprentissage préférentiel contrastif (CPL) une méthode novatrice d'apprentissage par renforcement sans RL pour RLHF, compatible avec toutes les PDM et données externes
Le défi de correspondre aux préférences humaines aux grands modèles pré-entraînés a pris de l’importance dans l’étude car ces modèles ont augmenté en performance. Cette alignement devient particulièrement difficile lorsqu’il y a inévitablement de mauvais comportements dans des ensembles de données plus importants. Pour résoudre ce problème, l’apprentissage par renforcement à partir de l’entrée humaine, ou RLHF, est devenu populaire. Les approches RLHF utilisent les préférences humaines pour distinguer les comportements acceptables des mauvais comportements afin d’améliorer une politique connue. Cette approche a montré des résultats encourageants lorsqu’elle est utilisée pour ajuster les règles des robots, améliorer les modèles de génération d’images et affiner les grands modèles de langage (LM) en utilisant des données de moindre qualité. La plupart des algorithmes RLHF ont deux étapes dans cette procédure.
Premièrement, les données de préférences utilisateur sont collectées pour former un modèle de récompense. Un algorithme d’apprentissage par renforcement (RL) hors étagère optimise ce modèle de récompense. Malheureusement, il doit y avoir une correction dans le fondement de ce paradigme en deux phases. Les préférences humaines doivent être attribuées par le total actualisé des récompenses ou le retour partiel de chaque segment de comportement pour que les algorithmes développent des modèles de récompense à partir de données de préférences. Des recherches récentes, cependant, remettent en question cette théorie, suggérant que les préférences humaines devraient être basées sur le regret de chaque action par rapport à la politique idéale de la fonction de récompense de l’expert. L’évaluation humaine est probablement centrée intuitivement sur l’optimalité plutôt que sur le fait que les situations et les comportements offrent de plus grandes récompenses.
Par conséquent, la fonction d’avantage optimale, ou le regret négatif, peut être le nombre idéal pour apprendre à partir des commentaires plutôt que la récompense. Les algorithmes RLHF en deux phases utilisent le RL dans leur deuxième phase pour optimiser la fonction de récompense connue dans la première phase. Dans les applications du monde réel, l’attribution des crédits temporels présente une variété de difficultés d’optimisation pour les algorithmes RL, y compris l’instabilité de la programmation dynamique d’approximation et la grande variance des gradients de politique. Par conséquent, les travaux antérieurs limitent leur portée pour éviter ces problèmes. Par exemple, les approches RLHF pour les LM, supposent la formulation du bandit contextuel, où la politique reçoit une seule valeur de récompense en réponse à une question de l’utilisateur.
- Impression à la demande et livraison directe Monétisez votre passion pour l’art
- À quel point les auto-explications des grands modèles de langage comme ChatGPT sont-elles efficaces dans l’analyse des sentiments ? Une plongée approfondie dans les performances, les coûts et l’interprétabilité.
- Rencontrez ULTRA un modèle de base pré-entraîné pour le raisonnement sur les graphes de connaissances qui fonctionne sur n’importe quel graphe et surpasse les modèles SOTA supervisés sur plus de 50 graphes.
L’hypothèse du bandit à une seule étape est rompue car les interactions utilisateur avec les LM sont multi-étapes et séquentielles, même si cela réduit le besoin d’une attribution du crédit à long terme et, par conséquent, la grande variation des gradients de politique. Un autre exemple est l’application du RLHF aux problèmes de robotique basée sur l’état de basse dimension, qui fonctionne bien pour la programmation dynamique d’approximation. Cependant, cela n’a pas encore été adapté aux domaines de contrôle continus de plus haute dimension avec des entrées d’images, ce qui est plus réaliste. En général, les approches RLHF nécessitent de réduire les contraintes d’optimisation du RL en faisant des hypothèses restreintes sur la nature séquentielle des problèmes ou sur la dimensionnalité. Ils croient généralement à tort que la fonction de récompense seule détermine les préférences humaines.
Contrairement au modèle de retour partiel largement utilisé, qui prend en compte les récompenses totales, des chercheurs de l’Université Stanford, UMass Amherst et UT Austin proposent une nouvelle famille d’algorithmes RLHF dans cette étude qui utilise un modèle de préférences basé sur le regret. Contrairement au modèle de retour partiel, l’approche basée sur le regret fournit des informations précises sur la meilleure action à prendre. Heureusement, cela élimine la nécessité du RL, nous permettant de traiter les problèmes RLHF avec des espaces d’états et d’actions de grande dimension dans le cadre générique MDP. Leur découverte fondamentale consiste à établir une bijection entre les fonctions d’avantage et les politiques en combinant le cadre de préférences basé sur le regret avec le principe de l’entropie maximale (MaxEnt).
Ils peuvent établir un objectif d’apprentissage supervisé purement dont l’optimum est la meilleure politique selon la récompense de l’expert en échangeant l’optimisation des avantages pour l’optimisation des politiques. Parce que leur méthode ressemble aux objectifs d’apprentissage contrastif largement reconnus, ils l’appellent l’apprentissage de préférence contrastive – les trois principaux avantages de CPL par rapport aux efforts antérieurs. Tout d’abord, parce que CPL correspond exclusivement à l’avantage optimal en utilisant des objectifs supervisés – plutôt que d’utiliser une programmation dynamique ou des gradients de politique – elle peut se développer aussi bien que l’apprentissage supervisé. Deuxièmement, CPL est complètement hors politique, ce qui permet d’utiliser n’importe quelle source de données hors ligne et moins que l’idéal. Enfin, CPL permet des recherches de préférences sur des données séquentielles pour l’apprentissage sur des processus de décision de Markov arbitraires (MDP).
Jusqu’à présent, ils savent que les techniques précédentes de RLHF n’ont pas encore satisfait simultanément ces trois exigences. Ils illustrent les performances de CPL sur les problèmes de prise de décision séquentielle en utilisant des entrées hors politique sub-optimales et de grande dimension pour prouver qu’il respecte les trois principes mentionnés ci-dessus. De manière intéressante, ils démontrent que CPL peut apprendre des règles de manipulation temporellement étendues dans le cadre de référence MetaWorld en utilisant efficacement le même processus de réglage fin RLHF que les modèles de dialogue. Pour être plus précis, ils utilisent l’apprentissage supervisé à partir d’observations d’images de grande dimension pour pré-entraîner les politiques, qu’ils affinent ensuite en utilisant des préférences. CPL peut atteindre les performances des techniques précédentes basées sur RL sans nécessiter une programmation dynamique ou des gradients de politique. Elle est également quatre fois plus efficace en termes de paramètres et 1,6 fois plus rapide simultanément. Sur cinq tâches sur six, CPL surpasse les lignes de base RL lors de l’utilisation de données de préférence plus denses. Les chercheurs peuvent éviter le besoin d’apprentissage par renforcement (RL) en utilisant le concept d’entropie maximale pour créer l’apprentissage de préférence contrastive (CPL), un algorithme pour apprendre des politiques optimales à partir de préférences sans apprendre de fonctions de récompense.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Déverrouiller la compositionnalité systématique dans les réseaux neuronaux Une percée avec l’approche de l’apprentissage méta pour la compositionnalité (MLC)
- Utilisation d’un classifieur à deux têtes
- Des chercheurs de CMU et NYU proposent LLMTime une méthode d’intelligence artificielle pour la prévision de séries temporelles avec des modèles de langage étendus (LLMs) en zero-shot.
- Déballage de l’ordonnance exécutive historique du président Biden sur l’IA
- Expérience de jeu réinventée La révolution de l’IA
- Déployez et ajustez les modèles de fondation sur Amazon SageMaker JumpStart avec seulement deux lignes de code.
- Utilisez AWS PrivateLink pour configurer un accès privé à Amazon Bedrock