Des chercheurs de Princeton présentent MeZO un optimiseur du zéroème ordre efficace en mémoire qui peut affiner les modèles de langage larges (LLM)
Princeton researchers introduce MeZO, an efficient memory optimizer for refining Large Language Models (LLM).
Les modèles de langage volumineux (LLMs) avancent rapidement avec le grand succès de l’Intelligence Artificielle Générative au cours des derniers mois. Ces modèles contribuent à des transformations économiques et sociétales remarquables, dont le meilleur exemple est le célèbre ChatGPT développé par OpenAI, qui a eu des millions d’utilisateurs depuis sa sortie, avec un nombre qui augmente de manière exponentielle, sinon identique. Ce chatbot, basé sur le traitement du langage naturel (NLP) et la compréhension du langage naturel (NLU), permet aux utilisateurs de générer du texte significatif comme les humains. Il répond de manière significative aux questions, résume de longs paragraphes, complète des codes et des e-mails, etc. D’autres LLMs, comme PaLM, Chinchilla, BERT, etc., ont également montré de grandes performances dans le domaine de l’IA.
L’ajustement fin des modèles de langage pré-entraînés est une approche populaire pour de nombreuses tâches liées au langage. L’ajustement fin permet à ces modèles de s’adapter à des domaines spécialisés, d’incorporer des instructions humaines et de répondre aux préférences individuelles. Il ajuste essentiellement les paramètres d’un LLM déjà entraîné à l’aide d’un ensemble de données plus petit et spécifique au domaine. À mesure que les modèles de langage augmentent avec plus de paramètres, l’ajustement fin devient une demande informatique et une exigence de mémoire pour le processus de calcul des gradients lors de la rétropropagation. L’utilisation de la mémoire est nettement supérieure à celle nécessaire pour l’inférence en raison de l’implication du stockage en cache des activations, des gradients et de l’historique des gradients.
Récemment, une équipe de chercheurs de l’Université de Princeton a introduit une solution pour le problème de mémoire. Appelée MeZO, un optimiseur de zéro ordre efficace en mémoire, il s’agit d’une adaptation de la méthode ZO-SGD traditionnelle qui estime les gradients en utilisant uniquement les différences de valeurs de perte et fonctionne sur place, permettant l’ajustement fin des modèles de langage avec la même empreinte mémoire que l’inférence. L’équipe s’est concentrée sur les approches de zéro ordre dans MeZO car les méthodes ZO peuvent estimer les gradients en utilisant seulement deux passes avant, ce qui les rend efficaces en mémoire.
- Éditeur Magique dans Google Photos De nouvelles fonctionnalités d’édition d’IA pour réinventer vos photos.
- Recherche Google à I/O 2023
- Grands modèles de séquence pour les activités de développement de logiciels
L’algorithme MeZO a été spécialement conçu pour optimiser les modèles de langage volumineux avec des milliards de paramètres. Certaines des principales contributions mentionnées par l’équipe sont les suivantes –
- MeZO a été développé en modifiant la méthode ZO-SGD et quelques variations pour fonctionner sur place sur des modèles de taille arbitraire avec peu ou pas de surcharge de mémoire.
- MeZO s’est avéré compatible avec PEFT et des réglages de paramètres complets, tels que LoRA et le réglage de préfixe.
- MeZO peut améliorer les objectifs non différentiables tels que la précision ou le score F1 tout en utilisant toujours la même quantité de mémoire que l’inférence.
- Un pré-entraînement adéquat garantit que le taux d’optimisation par étape de MeZO et le taux de convergence global dépendent d’un nombre de condition spécifique du paysage, c’est-à-dire du rang local effectif plutôt que d’un grand nombre de paramètres, ce qui est contraire aux bornes inférieures ZO précédentes qui impliquent que le taux de convergence peut être lent en fonction du nombre de paramètres.
- Les expériences ont suggéré que lors de tests sur divers types de modèles tels que LM masqué et LM autoregressif, le modèle monte en puissance de 350M à 66B et les tâches en aval telles que la classification, le choix multiple et la génération.
- MeZO surpasse le zéro-shot, ICL et le sondage linéaire dans les expériences et performe même mieux ou de manière similaire à l’ajustement fin sur 7 des 11 tests avec OPT-13B, bien qu’il consomme environ 12 fois moins de mémoire que RoBERTa-large ou l’ajustement fin normal, respectivement.
Lors de l’évaluation, MeZO a pu entraîner un modèle de 30 milliards de paramètres à l’aide d’un seul GPU Nvidia A100 80 Go, tandis que la rétropropagation ne peut entraîner qu’un LM de 2,7 milliards de paramètres dans les mêmes contraintes de mémoire. En conclusion, MeZO est un optimiseur de zéro ordre efficace en mémoire qui peut ajuster finement de grands modèles de langage.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles