Comment pouvons-nous élever la qualité des grands modèles de langage ? Découvrez PIT un cadre implicite d’amélioration de soi.

Comment améliorer la qualité des grands modèles linguistiques ? Découvrez PIT, un cadre implicite pour se perfectionner.

Les LLM ont obtenu des résultats de pointe dans diverses tâches complexes, telles que le raisonnement mathématique, la synthèse, les conversations, l’induction de schémas et la résolution de problèmes spécifiques à un domaine. Le succès des LLM repose sur leur capacité à suivre des instructions et à s’aligner sur les préférences humaines. Cependant, ils présentent des limitations et peuvent produire des informations incorrectes, des erreurs de raisonnement ou un contenu peu utile.

Diverses approches ont été proposées pour améliorer les performances des LLM, en mettant de plus en plus l’accent sur la possibilité pour les LLM de s’améliorer eux-mêmes en matière de qualité de réponse. L’amélioration des performances des LLM impliquait traditionnellement la collecte de données d’entraînement plus diverses et de meilleure qualité grâce à une annotation humaine, un processus très coûteux en ressources, notamment pour les domaines spécialisés. Les méthodes basées sur des instructions ont gagné en popularité en raison de leur efficacité, de leur efficience et de leur praticité. Cependant, ces méthodes nécessitent généralement des rubriques détaillées en tant qu’entrées, ce qui peut être difficile et coûteux à créer, en particulier pour des objectifs d’amélioration complexes.

En réponse à ce problème, des chercheurs de l’Université de l’Illinois à Urbana-Champaign et de Google proposent le “framework d’amélioration implicite (PIT)”, qui permet aux LLM d’apprendre les objectifs d’amélioration à partir de données de préférence humaine sans avoir besoin de rubriques explicites. PIT utilise les données de préférence pour former des modèles de récompense, éliminant ainsi le besoin de nouveaux efforts humains ou de collecte de données. L’idée centrale du PIT est de reformuler l’objectif d’entraînement de l’apprentissage par renforcement à partir de commentaires humains (RLHF). Au lieu de maximiser la qualité de la réponse pour une entrée donnée, le PIT vise à maximiser l’écart de qualité entre la réponse et une réponse de référence, s’alignant ainsi plus étroitement sur les préférences humaines.

Les chercheurs ont réalisé des expériences sur des ensembles de données réels et synthétiques pour évaluer les performances du PIT par rapport aux méthodes basées sur des instructions. Leurs résultats démontrent que le PIT surpasse significativement les stratégies de guidage dans l’amélioration de la qualité de la réponse.

La reformulation du PIT de l’objectif d’entraînement RLHF se concentre sur la réduction de l’écart de qualité entre la réponse du modèle et la réponse de référence. Cette approche permet au PIT d’améliorer de manière itérative les réponses sans rubriques explicites. Les expérimentations sur des ensembles de données réels et des données synthétiques démontrent la supériorité du PIT par rapport aux méthodes basées sur des instructions, mettant ainsi en évidence son efficacité pour améliorer la qualité de réponse des LLM.

Le PIT surpasse la méthode Self-Refine, qui s’appuie sur des instructions pour l’auto-amélioration. Bien que le degré d’amélioration par rapport à Self-Refine varie en fonction de la méthode d’évaluation (par exemple, l’évaluation humaine, les modèles de langage de tiers, les modèles de récompense), le PIT performe de manière constante mieux dans les expériences.

L’étude explore également l’impact des paramètres de température sur les méthodes d’auto-amélioration, indiquant que les basses températures donnent de meilleurs résultats avec le PIT. En revanche, les températures élevées conviennent mieux à la méthode Self-Refine. De plus, la recherche examine l’importance de l’apprentissage de renforcement par curriculum et du nombre d’itérations d’amélioration, soulignant la nécessité de prendre en compte attentivement les conditions d’arrêt dans les applications pratiques.

En conclusion, le framework PIT d’amélioration implicite offre une avenue prometteuse pour améliorer les performances des Large Language Models. En apprenant les objectifs d’amélioration à partir de données de préférence humaine, le PIT remédie aux limitations des méthodes d’instructions traditionnelles et démontre son efficacité dans l’amélioration de la qualité de réponse des LLM dans divers ensembles de données et conditions.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Google AI propose E3-TTS, une solution simple et efficace de texte à speech basée sur la diffusion

En apprentissage automatique, un modèle de diffusion est un modèle génératif couramment utilisé pour les tâches de gé...

AI

Écrivez une page d'atterrissage à fort taux de conversion avec ChatGPT

Nous avons analysé 100 pages d'atterrissage et avons extrait toutes les leçons dans une seule demande ChatGPT. Voyez ...

AI

Google's AI Red Team les hackers éthiques rendant l'IA plus sûre

Le mois dernier, nous avons introduit le Cadre d'Intelligence Artificielle Sécurisé (SAIF), conçu pour aider à résoud...

AI

Découvrez MPT-7B un nouveau modèle de langage ouvert et libre, entraîné sur 1T de jetons de texte et de code sélectionnés par MosaicML.

MosaicML a récemment lancé un outil révolutionnaire, MPT-7B, pour transformer la manière dont les entreprises et les ...

AI

Accélérer la transformation digitale grâce au Cloud

Oracle CloudWorld discours principal discutant des parcours de transformation numérique avec des leaders de l'industr...

AI

Cette recherche en IA d'Apple enquête sur un problème connu du comportement des LLMs en ce qui concerne les stéréotypes de genre.

Les grands modèles de langage (GML) ont fait d’énormes progrès au cours des derniers mois, écrasant les référen...