Découvrez QLORA une approche de fine-tuning efficace qui réduit suffisamment l’utilisation de la mémoire pour permettre de fine-tuner un modèle de 65 milliards de paramètres sur une seule GPU de 48 Go tout en préservant les performances complètes de fine-tuning en 16 bits.
Découvrez QLORA, une approche de fine-tuning efficace qui réduit l'utilisation de la mémoire pour fine-tuner un modèle de 65 milliards de paramètres sur une seule GPU de 48 Go tout en préservant les performances complètes en 16 bits.
Les grands modèles de langage (LLM) peuvent être améliorés grâce au fine-tuning, ce qui permet également d’ajouter ou de supprimer des comportements souhaités. Cependant, le fine-tuning des grands modèles est prohibitivement coûteux ; par exemple, un modèle de 65B paramètres LLaMA consomme plus de 780 Go de mémoire GPU lorsque l’on effectue un fine-tuning en mode 16 bits standard. Bien que les approches de quantification plus récentes puissent réduire l’empreinte mémoire des LLM, ces méthodes ne fonctionnent que pour l’inférence et échouent lors de l’entraînement. Des chercheurs de l’Université de Washington ont développé QLORA, qui quantifie un modèle pré-entraîné à l’aide d’un algorithme de haute précision de pointe à une résolution de 4 bits avant d’ajouter un ensemble épars de poids d’adaptateur à faible rang apprenables modifiés par la rétropropagation des gradients à travers les conséquences quantifiées. Ils montrent pour la première fois qu’un modèle quantifié à 4 bits peut être ajusté sans affecter les performances.
Comparé à une référence de baseline entièrement finetunée en 16 bits, QLORA réduit les besoins moyens en mémoire du fine-tuning d’un modèle de 65B paramètres de >780 Go de mémoire GPU à 48 Go sans sacrifier le temps d’exécution ou les performances prédictives. Les plus grands modèles accessibles au public à ce jour peuvent maintenant être finetunés sur un seul GPU, ce qui représente un changement considérable dans l’accessibilité du fine-tuning des LLM. Ils entraînent la famille de modèles Guanaco à l’aide de QLORA, et leur plus grand modèle atteint 99,3% en utilisant un seul GPU professionnel pendant 24 heures, ce qui permet de combler efficacement l’écart avec ChatGPT sur le benchmark Vicuna. Le deuxième meilleur modèle atteint 97,8% du niveau de performance de ChatGPT sur le benchmark Vicuna tout en pouvant être entraîné en moins de 12 heures sur un seul GPU grand public.
Les technologies suivantes de QLORA sont destinées à réduire l’utilisation de la mémoire sans compromettre les performances : (1) 4-bit NormalFloat, un type de données de quantification pour les données distribuées normalement qui est théoriquement optimal en termes d’information et produit des résultats empiriques supérieurs aux entiers 4 bits et aux flottants 4 bits. (2) Double Quantization, qui permet d’économiser en moyenne 0,37 bits par paramètre (soit environ 3 Go pour un modèle de 65B), quantifie les constantes de quantification. (3) Les optimiseurs paginés utilisent la mémoire unifiée NVIDIA pour éviter les pics de mémoire causés par la vérification des gradients lors du traitement d’un mini-batch avec une séquence longue. Lorsqu’ils sont utilisés, leur plus petit modèle Guanaco (7B paramètres) utilise moins de 5 Go de mémoire tout en surpassant un modèle Alpaca de 26 Go sur le test Vicuna de plus de 20 points de pourcentage.
- Les LLM surpassent l’apprentissage par renforcement – Découvrez SPRING un cadre novateur de suggestion pour les LLM conçu pour permettre la planification et le raisonnement en chaîne dans le contexte.
- Des chercheurs de l’Université de technologie de Nanyang à Singapour ont introduit ResShift un nouveau modèle d’agrandissement d’image qui utilise le décalage résiduel et permet d’obtenir une super-résolution d’image plus rapidement que d’autres méthodes.
- Les chercheurs de l’UC Berkeley présentent Video Prediction Rewards (VIPER) un algorithme qui exploite les modèles de prédiction vidéo pré-entraînés en tant que signaux de récompense sans action pour l’apprentissage par renforcement.
Ils intègrent ces contributions dans une stratégie LoRA plus raffinée qui comprend des adaptateurs à chaque niveau du réseau et élimine ainsi presque totalement les compromis de précision identifiés dans les travaux précédents. Grâce à l’efficacité de QLORA, nous pouvons analyser le fine-tuning de l’instruction et les performances du chatbot sur des tailles de modèle avec plus de détails qu’avec un fine-tuning conventionnel en raison du coût de la mémoire. Par conséquent, ils entraînent plus d’un millier de modèles en utilisant différentes bases de données d’instruction, des topologies de modèle et des valeurs de paramètres allant de 80M à 65B. Ils démontrent que QLORA restaure les performances en 16 bits, entraîne Guanaco, un chatbot avancé, et examinent les modèles appris.
Tout d’abord, même si les deux sont destinés à fournir des instructions après généralisation, ils découvrent que la qualité des données est beaucoup plus importante que la taille de l’ensemble de données, avec un ensemble de données de 9 000 échantillons (OASST1) qui dépasse un ensemble de données de 450 000 échantillons (FLAN v2, sous-échantillonné) en termes de performances du chatbot. Deuxièmement, ils démontrent que de bonnes performances sur le benchmark Massive Multitask Language Understanding (MMLU) se traduisent seulement parfois par de bonnes performances sur le benchmark du chatbot Vicuna, et vice versa. En d’autres termes, l’adéquation de l’ensemble de données est plus importante que l’échelle pour une tâche donnée. Ils offrent également une évaluation approfondie des performances du chatbot en utilisant des évaluateurs humains et GPT-4.
Les modèles s’affrontent lors de matches en utilisant des benchmarks de style tournoi pour déterminer la meilleure réponse à un stimulus donné. GPT-4 ou des annotateurs humains décident quel joueur remporte une partie. Les scores Elo, qui sont créés en combinant les résultats des tournois, sont utilisés pour classer les performances des chatbots. En ce qui concerne le classement des performances des modèles dans les tournois, ils découvrent que les jugements de GPT-4 et des humains sont généralement d’accord, mais qu’il existe également des divergences marquées. Par conséquent, ils attirent l’attention sur le fait que l’évaluation basée sur les modèles comporte des incertitudes tout en étant une option moins coûteuse que l’annotation humaine.
Ils ajoutent une analyse qualitative des modèles Guanaco à leurs résultats de référence des chatbots. Leur étude identifie des cas de réussite et d’échec que les normes quantitatives n’ont pas pris en compte. Ils publient toutes les générations de modèles avec GPT-4 et des commentaires humains pour aider la recherche future. Ils intègrent leurs techniques dans la pile de transformateurs Hugging Face, rendent leur logiciel et leurs noyaux CUDA open source et les rendent largement disponibles. Pour 32 modèles améliorés distincts open-source, ils fournissent une collection d’adaptateurs pour des modèles de tailles 7/13/33/65B entraînés sur 8 jeux de données différents de suivi des instructions. Le référentiel de code est rendu public, ainsi qu’une démo pouvant être hébergée sur Colab.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- DeepMind AI stimule considérablement l’exposition de YouTube Shorts en générant automatiquement des descriptions pour des millions de vidéos
- Cette recherche en IA explore les limites et les capacités des modèles de langage à grande échelle (LLM) Transformer, de manière empirique et théorique, sur des tâches compositionnelles.
- Exploiter l’apprentissage automatique pour le développement d’une stratégie marketing efficace
- Optimisation du régulateur PID Une approche de descente de gradient
- Entrée vocale et langage naturel pour votre application mobile en utilisant LLMs
- Les embeddings de phrases de l’IA, démystifiés
- Optimisez votre LLM sans surcharger votre GPU