Comment pouvons-nous élever la qualité des grands modèles de langage ? Découvrez PIT un cadre implicite d’amélioration de soi.
Comment améliorer la qualité des grands modèles linguistiques ? Découvrez PIT, un cadre implicite pour se perfectionner.
Les LLM ont obtenu des résultats de pointe dans diverses tâches complexes, telles que le raisonnement mathématique, la synthèse, les conversations, l’induction de schémas et la résolution de problèmes spécifiques à un domaine. Le succès des LLM repose sur leur capacité à suivre des instructions et à s’aligner sur les préférences humaines. Cependant, ils présentent des limitations et peuvent produire des informations incorrectes, des erreurs de raisonnement ou un contenu peu utile.
Diverses approches ont été proposées pour améliorer les performances des LLM, en mettant de plus en plus l’accent sur la possibilité pour les LLM de s’améliorer eux-mêmes en matière de qualité de réponse. L’amélioration des performances des LLM impliquait traditionnellement la collecte de données d’entraînement plus diverses et de meilleure qualité grâce à une annotation humaine, un processus très coûteux en ressources, notamment pour les domaines spécialisés. Les méthodes basées sur des instructions ont gagné en popularité en raison de leur efficacité, de leur efficience et de leur praticité. Cependant, ces méthodes nécessitent généralement des rubriques détaillées en tant qu’entrées, ce qui peut être difficile et coûteux à créer, en particulier pour des objectifs d’amélioration complexes.
En réponse à ce problème, des chercheurs de l’Université de l’Illinois à Urbana-Champaign et de Google proposent le “framework d’amélioration implicite (PIT)”, qui permet aux LLM d’apprendre les objectifs d’amélioration à partir de données de préférence humaine sans avoir besoin de rubriques explicites. PIT utilise les données de préférence pour former des modèles de récompense, éliminant ainsi le besoin de nouveaux efforts humains ou de collecte de données. L’idée centrale du PIT est de reformuler l’objectif d’entraînement de l’apprentissage par renforcement à partir de commentaires humains (RLHF). Au lieu de maximiser la qualité de la réponse pour une entrée donnée, le PIT vise à maximiser l’écart de qualité entre la réponse et une réponse de référence, s’alignant ainsi plus étroitement sur les préférences humaines.
- 3 projets de science des données garantis pour décrocher ce poste
- Comparer des pommes à des oranges avec python
- Tenir une IA sur les tremblements de terre des chercheurs dévoilent un modèle d’apprentissage approfondi pour améliorer les prévisions
Les chercheurs ont réalisé des expériences sur des ensembles de données réels et synthétiques pour évaluer les performances du PIT par rapport aux méthodes basées sur des instructions. Leurs résultats démontrent que le PIT surpasse significativement les stratégies de guidage dans l’amélioration de la qualité de la réponse.
La reformulation du PIT de l’objectif d’entraînement RLHF se concentre sur la réduction de l’écart de qualité entre la réponse du modèle et la réponse de référence. Cette approche permet au PIT d’améliorer de manière itérative les réponses sans rubriques explicites. Les expérimentations sur des ensembles de données réels et des données synthétiques démontrent la supériorité du PIT par rapport aux méthodes basées sur des instructions, mettant ainsi en évidence son efficacité pour améliorer la qualité de réponse des LLM.
Le PIT surpasse la méthode Self-Refine, qui s’appuie sur des instructions pour l’auto-amélioration. Bien que le degré d’amélioration par rapport à Self-Refine varie en fonction de la méthode d’évaluation (par exemple, l’évaluation humaine, les modèles de langage de tiers, les modèles de récompense), le PIT performe de manière constante mieux dans les expériences.
L’étude explore également l’impact des paramètres de température sur les méthodes d’auto-amélioration, indiquant que les basses températures donnent de meilleurs résultats avec le PIT. En revanche, les températures élevées conviennent mieux à la méthode Self-Refine. De plus, la recherche examine l’importance de l’apprentissage de renforcement par curriculum et du nombre d’itérations d’amélioration, soulignant la nécessité de prendre en compte attentivement les conditions d’arrêt dans les applications pratiques.
En conclusion, le framework PIT d’amélioration implicite offre une avenue prometteuse pour améliorer les performances des Large Language Models. En apprenant les objectifs d’amélioration à partir de données de préférence humaine, le PIT remédie aux limitations des méthodes d’instructions traditionnelles et démontre son efficacité dans l’amélioration de la qualité de réponse des LLM dans divers ensembles de données et conditions.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Des chercheurs du MIT présentent PFGM++ une fusion révolutionnaire de la physique et de l’IA pour une génération avancée de motifs
- Des chercheurs de l’ETH Zurich et de Microsoft présentent SCREWS un cadre d’intelligence artificielle pour améliorer le raisonnement des grands modèles de langage.
- Android 14 Plus de personnalisation, de contrôle et de fonctionnalités d’accessibilité
- Mistral AI rend open-source Mistral 7B un petit mais puissant modèle de langage adaptable à de nombreux cas d’utilisation
- Apprentissage autonome en utilisant des têtes de projection
- Transformers – Expliqués de manière intuitive et exhaustive
- Utilisez Fréquemment Plus Fréquemment