Pythia Une suite de 16 LLM pour la recherche approfondie
Pythia - 16 LLM suite for in-depth research
Aujourd’hui, les grands modèles de langage et les chatbots alimentés par LLM tels que ChatGPT et GPT-4 sont bien intégrés dans notre vie quotidienne.
Cependant, les modèles de transformateurs auto-agressifs de type décodeur uniquement ont été largement utilisés pour les applications NLP génératives bien avant que les applications LLM ne deviennent courantes. Il peut être utile de comprendre comment ils évoluent pendant l’entraînement et comment leurs performances changent à mesure qu’ils se développent.
Pythia, un projet d’Eleuther AI, est une suite de 16 grands modèles de langage qui permettent la reproductibilité pour l’étude, l’analyse et la recherche ultérieure. Cet article est une introduction à Pythia.
- Transformer l’IA avec LangChain Un bouleversement du jeu de données textuelles
- Types d’assurances médicales et technologies modernes
- Prévention de la cécité oculaire en prédisant les stades de la rétinopathie diabétique
Que propose la suite Pythia ?
Comme mentionné précédemment, Pythia est une suite de 16 grands modèles de langage – des modèles de transformateurs auto-agressifs de type décodeur uniquement – entraînés sur un ensemble de données disponible publiquement. Les modèles de la suite ont des tailles allant de 70M à 12B de paramètres.
- L’ensemble de la suite a été entraîné sur les mêmes données dans le même ordre. Cela facilite la reproductibilité du processus d’entraînement. Nous pouvons donc non seulement reproduire le pipeline d’entraînement, mais aussi analyser les modèles de langage et étudier leur comportement en profondeur.
- Il fournit également des fonctionnalités pour télécharger les chargeurs de données d’entraînement et plus de 154 points de contrôle de modèle pour chacun des 16 modèles de langage.
Données d’entraînement et processus d’entraînement
Penchons-nous maintenant sur les détails de la suite Pythia LLM.
Ensemble de données d’entraînement
La suite Pythia LLM a été entraînée sur les ensembles de données suivants :
- Ensemble de données Pile avec 300B de jetons
- Ensemble de données Pile dédoublonnées avec 207B de jetons
Il existe 8 tailles de modèles différentes, les modèles les plus petits et les plus grands ayant respectivement 70M et 12B de paramètres. Les autres tailles de modèles comprennent 160M, 410M, 1B, 1.4B, 2.8B et 6.9B.
Chacun de ces modèles a été entraîné à la fois sur les ensembles de données Pile et Pile dupliqués, ce qui donne un total de 16 modèles. Le tableau suivant montre les tailles des modèles et un sous-ensemble d’hyperparamètres.
Pour plus de détails sur les hyperparamètres utilisés, consultez l’article Pythia : une suite pour l’analyse des grands modèles de langage lors de l’entraînement et de l’échelle.
Processus d’entraînement
Voici un aperçu de l’architecture et du processus d’entraînement :
- Tous les modèles ont des couches entièrement denses et utilisent une attention flash.
- Pour une interprétabilité plus facile, des matrices d’incorporation non liées sont utilisées.
- Une taille de lot de 1024 est utilisée avec une longueur de séquence de 2048. Cette grande taille de lot réduit considérablement le temps d’entraînement sur le mur.
- Le processus d’entraînement utilise également des techniques d’optimisation telles que la parallélisme des données et des tenseurs.
Pour le processus d’entraînement, la bibliothèque GPT-Neo-X (qui inclut des fonctionnalités de la bibliothèque DeepSpeed) développée par Eleuther AI est utilisée.
Points de contrôle du modèle
Il y a 154 points de contrôle pour chaque modèle. Il y a un point de contrôle tous les 1000 itérations. De plus, il y a des points de contrôle à des intervalles espacés logarithmiquement plus tôt dans le processus d’entraînement : 1, 2, 4, 8, 16, 32, 64, 128, 256 et 512.
Comment Pythia se compare-t-elle à d’autres modèles de langage ?
La suite Pythia LLM a été évaluée par rapport aux benchmarks disponibles de modélisation du langage, y compris la variante LAMBADA d’OpenAI. Il a été constaté que les performances de Pythia sont comparables aux modèles de langage OPT et BLOOM.
Avantages et Limitations
L’avantage clé de la suite Pythia LLM est la reproductibilité. Le jeu de données est accessible publiquement, les chargeurs de données pré-tokenisés et 154 checkpoints de modèles sont également accessibles publiquement. La liste complète des hyperparamètres a également été publiée. Cela rend la réplication de l’entraînement du modèle et l’analyse plus simples.
Dans [1], les auteurs expliquent leur raisonnement pour avoir choisi un jeu de données en anglais plutôt qu’un corpus de texte multilingue. Cependant, disposer de pipelines d’entraînement reproductibles pour des modèles de langage multilingues de grande taille peut être utile. Surtout pour encourager davantage de recherches et d’études sur la dynamique des modèles de langage multilingues de grande taille.
Un Aperçu des Études de Cas
La recherche présente également des études de cas intéressantes exploitant la reproductibilité du processus d’entraînement des modèles de langage de grande taille de la suite Pythia.
Biais de Genre
Tous les modèles de langage de grande taille sont sujets aux biais et à la désinformation. L’étude se concentre sur l’atténuation du biais de genre en modifiant les données d’entraînement de manière à ce qu’un pourcentage fixe contienne des pronoms d’un genre spécifique. Cet entraînement préliminaire est également reproductible.
Mémorisation
La mémorisation dans les modèles de langage de grande taille est également un autre domaine qui a été largement étudié. La mémorisation de séquence est modélisée comme un processus ponctuel de Poisson. L’étude vise à comprendre si l’emplacement de la séquence spécifique dans le jeu de données d’entraînement influence la mémorisation. Il a été observé que l’emplacement n’affecte pas la mémorisation.
Effet des Fréquences de Termes lors de l’Entraînement Préliminaire
Pour les modèles de langage avec 2,8 milliards de paramètres et plus, on a constaté que la présence de termes spécifiques à la tâche dans le corpus d’entraînement préliminaire améliorait les performances du modèle sur des tâches telles que la réponse aux questions.
Il existe également une corrélation entre la taille du modèle et les performances sur des tâches plus complexes telles que l’arithmétique et le raisonnement mathématique.
Résumé et Prochaines Étapes
Résumons les points clés de notre discussion.
- Pythia par Eleuther AI est une suite de 16 LLM entraînés sur les ensembles de données Pile et Pile dédupliqués disponibles publiquement.
- La taille des LLM varie de 70 millions à 12 milliards de paramètres.
- Les données d’entraînement et les checkpoints de modèles sont open-source et il est possible de reconstruire les chargeurs de données d’entraînement exacts. Ainsi, la suite LLM peut être utile pour mieux comprendre la dynamique d’entraînement des modèles de langage de grande taille.
Ensuite, vous pouvez explorer la suite de modèles Pythia et les checkpoints de modèles sur Hugging Face Hub.
Référence
[1] Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling, arXiv, 2023 Bala Priya C est une développeuse et rédactrice technique originaire de l’Inde. Elle aime travailler à l’intersection des mathématiques, de la programmation, de la science des données et de la création de contenu. Ses domaines d’intérêt et d’expertise incluent DevOps, la science des données et le traitement du langage naturel. Elle aime lire, écrire, coder et boire du café ! Actuellement, elle travaille sur l’apprentissage et le partage de ses connaissances avec la communauté de développeurs en rédigeant des tutoriels, des guides pratiques, des opinions et plus encore.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Un guide complet de l’architecture UNET | Maîtrise de la segmentation d’images
- Une approche systématique pour choisir la meilleure technologie/fournisseur version MLOps
- 4 façons dont vous ne pouvez pas utiliser l’interpréteur de code ChatGPT qui perturberont vos analyses
- Top 18 constructeurs de sites Web basés sur l’IA en 2023
- Implémentation de ParDo et DoFn dans Apache Beam en détails
- Révolutionner la robotique une pince imprimée en 3D qui fonctionne sans électronique
- Génération de données synthétiques avec Python