Découvrez QLORA une approche de fine-tuning efficace qui réduit suffisamment l’utilisation de la mémoire pour permettre de fine-tuner un modèle de 65 milliards de paramètres sur une seule GPU de 48 Go tout en préservant les performances complètes de fine-tuning en 16 bits.

Découvrez QLORA, une approche de fine-tuning efficace qui réduit l'utilisation de la mémoire pour fine-tuner un modèle de 65 milliards de paramètres sur une seule GPU de 48 Go tout en préservant les performances complètes en 16 bits.

Les grands modèles de langage (LLM) peuvent être améliorés grâce au fine-tuning, ce qui permet également d’ajouter ou de supprimer des comportements souhaités. Cependant, le fine-tuning des grands modèles est prohibitivement coûteux ; par exemple, un modèle de 65B paramètres LLaMA consomme plus de 780 Go de mémoire GPU lorsque l’on effectue un fine-tuning en mode 16 bits standard. Bien que les approches de quantification plus récentes puissent réduire l’empreinte mémoire des LLM, ces méthodes ne fonctionnent que pour l’inférence et échouent lors de l’entraînement. Des chercheurs de l’Université de Washington ont développé QLORA, qui quantifie un modèle pré-entraîné à l’aide d’un algorithme de haute précision de pointe à une résolution de 4 bits avant d’ajouter un ensemble épars de poids d’adaptateur à faible rang apprenables modifiés par la rétropropagation des gradients à travers les conséquences quantifiées. Ils montrent pour la première fois qu’un modèle quantifié à 4 bits peut être ajusté sans affecter les performances.

Comparé à une référence de baseline entièrement finetunée en 16 bits, QLORA réduit les besoins moyens en mémoire du fine-tuning d’un modèle de 65B paramètres de >780 Go de mémoire GPU à 48 Go sans sacrifier le temps d’exécution ou les performances prédictives. Les plus grands modèles accessibles au public à ce jour peuvent maintenant être finetunés sur un seul GPU, ce qui représente un changement considérable dans l’accessibilité du fine-tuning des LLM. Ils entraînent la famille de modèles Guanaco à l’aide de QLORA, et leur plus grand modèle atteint 99,3% en utilisant un seul GPU professionnel pendant 24 heures, ce qui permet de combler efficacement l’écart avec ChatGPT sur le benchmark Vicuna. Le deuxième meilleur modèle atteint 97,8% du niveau de performance de ChatGPT sur le benchmark Vicuna tout en pouvant être entraîné en moins de 12 heures sur un seul GPU grand public.

Les technologies suivantes de QLORA sont destinées à réduire l’utilisation de la mémoire sans compromettre les performances : (1) 4-bit NormalFloat, un type de données de quantification pour les données distribuées normalement qui est théoriquement optimal en termes d’information et produit des résultats empiriques supérieurs aux entiers 4 bits et aux flottants 4 bits. (2) Double Quantization, qui permet d’économiser en moyenne 0,37 bits par paramètre (soit environ 3 Go pour un modèle de 65B), quantifie les constantes de quantification. (3) Les optimiseurs paginés utilisent la mémoire unifiée NVIDIA pour éviter les pics de mémoire causés par la vérification des gradients lors du traitement d’un mini-batch avec une séquence longue. Lorsqu’ils sont utilisés, leur plus petit modèle Guanaco (7B paramètres) utilise moins de 5 Go de mémoire tout en surpassant un modèle Alpaca de 26 Go sur le test Vicuna de plus de 20 points de pourcentage.

Ils intègrent ces contributions dans une stratégie LoRA plus raffinée qui comprend des adaptateurs à chaque niveau du réseau et élimine ainsi presque totalement les compromis de précision identifiés dans les travaux précédents. Grâce à l’efficacité de QLORA, nous pouvons analyser le fine-tuning de l’instruction et les performances du chatbot sur des tailles de modèle avec plus de détails qu’avec un fine-tuning conventionnel en raison du coût de la mémoire. Par conséquent, ils entraînent plus d’un millier de modèles en utilisant différentes bases de données d’instruction, des topologies de modèle et des valeurs de paramètres allant de 80M à 65B. Ils démontrent que QLORA restaure les performances en 16 bits, entraîne Guanaco, un chatbot avancé, et examinent les modèles appris.

Tout d’abord, même si les deux sont destinés à fournir des instructions après généralisation, ils découvrent que la qualité des données est beaucoup plus importante que la taille de l’ensemble de données, avec un ensemble de données de 9 000 échantillons (OASST1) qui dépasse un ensemble de données de 450 000 échantillons (FLAN v2, sous-échantillonné) en termes de performances du chatbot. Deuxièmement, ils démontrent que de bonnes performances sur le benchmark Massive Multitask Language Understanding (MMLU) se traduisent seulement parfois par de bonnes performances sur le benchmark du chatbot Vicuna, et vice versa. En d’autres termes, l’adéquation de l’ensemble de données est plus importante que l’échelle pour une tâche donnée. Ils offrent également une évaluation approfondie des performances du chatbot en utilisant des évaluateurs humains et GPT-4.

Les modèles s’affrontent lors de matches en utilisant des benchmarks de style tournoi pour déterminer la meilleure réponse à un stimulus donné. GPT-4 ou des annotateurs humains décident quel joueur remporte une partie. Les scores Elo, qui sont créés en combinant les résultats des tournois, sont utilisés pour classer les performances des chatbots. En ce qui concerne le classement des performances des modèles dans les tournois, ils découvrent que les jugements de GPT-4 et des humains sont généralement d’accord, mais qu’il existe également des divergences marquées. Par conséquent, ils attirent l’attention sur le fait que l’évaluation basée sur les modèles comporte des incertitudes tout en étant une option moins coûteuse que l’annotation humaine.

Ils ajoutent une analyse qualitative des modèles Guanaco à leurs résultats de référence des chatbots. Leur étude identifie des cas de réussite et d’échec que les normes quantitatives n’ont pas pris en compte. Ils publient toutes les générations de modèles avec GPT-4 et des commentaires humains pour aider la recherche future. Ils intègrent leurs techniques dans la pile de transformateurs Hugging Face, rendent leur logiciel et leurs noyaux CUDA open source et les rendent largement disponibles. Pour 32 modèles améliorés distincts open-source, ils fournissent une collection d’adaptateurs pour des modèles de tailles 7/13/33/65B entraînés sur 8 jeux de données différents de suivi des instructions. Le référentiel de code est rendu public, ainsi qu’une démo pouvant être hébergée sur Colab.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Fortification des réseaux libérer le pouvoir de l'apprentissage automatique (ML), de l'intelligence artificielle (AI) et de l'apprentissage profond (DL) pour la détection d'anomalies

Découvrez comment les techniques d'apprentissage automatique, d'intelligence artificielle et d'apprentissage profond ...

AI

Le guide essentiel pour l'ingénierie des instructions dans ChatGPT

Plongez dans l''Ingénierie de prompts' avec notre guide approfondi, en mettant l'accent sur son impact sur la base d'...

AI

Créer et servir votre premier modèle d'apprentissage automatique

Bienvenue dans le monde de l'apprentissage automatique. Dans ce tutoriel, vous apprendrez comment créer, entraîner et...

Actualités sur l'IA

Bonne nouvelle ! La Chine et les États-Unis discutent des dangers de l'IA.

Les scientifiques des deux superpuissances mondiales sont préoccupés par les risques de l'IA - qui peut offrir un pon...

AI

Votre plugin ChatGPT du Conseil en IA Obtenez des conseils d'experts

Chaque fois que vous posez une question au plugin ChatGPT 'Your AI Council', il vous donne différents points de vue d...

AI

Création d'un modèle à partir de zéro pour générer du texte à partir de prompts

Introduction Dans le paysage en constante évolution de l’IA générative, une nouvelle ère est arrivée. Ce change...