Rencontrez LQ-LoRA une variante de LoRA qui permet une décomposition de matrice quantifiée à faible rang pour un affinage efficace du modèle de langage.

Découvrez LQ-LoRA une variante de LoRA qui améliore efficacement le modèle de langage grâce à une décomposition de matrice quantifiée à faible rang.

Dans l’ère en constante évolution de l’intelligence artificielle, l’introduction des grands modèles de langage (LLM) a transformé la manière dont les machines et les humains interagissent les uns avec les autres. Ces derniers mois ont vu une augmentation exponentielle du nombre de LLM développés, avec des capacités incroyables et des algorithmes avancés. Des modèles tels que GPT 3.5, GPT 4, LLaMa, PaLM, etc., ont démontré des capacités exceptionnelles d’imitation humaine dans la compréhension du langage naturel, le traitement, la traduction, la synthèse et même la génération de contenu.

Ces LLM sont formés sur d’énormes quantités de données. Cependant, il y a un défi quand ces modèles doivent s’adapter à de nouveaux ensembles de données. Les chercheurs sont généralement confrontés à des problèmes lorsqu’ils adaptent ces LLM massifs à de nouveaux ensembles de données, car l’ajustement complet entraîne des dépenses conséquentes et des exigences de mémoire. Afin de résoudre le problème de l’efficacité de la mémoire dans l’ajustement fin des LLM, récemment, une équipe de chercheurs a présenté l’idée de méthodes d’ajustement fin à paramètres efficaces.

En apprenant une extension plus petite et ajustée du modèle pré-entraîné d’origine, ces techniques permettent de réduire la quantité de mémoire nécessaire pour l’ajustement fin. L’adaptation à faible rang (LoRA), qui est une stratégie appréciée pour une adaptation efficace des LLM, implique la re-paramétrisation de la matrice de poids du modèle pré-entraîné et l’ajustement fin de seulement deux de ses composants, c’est-à-dire L1 et L2. Les autres composants restent inchangés.

Les chercheurs ont amélioré l’efficacité de la mémoire de LoRA en l’appliquant à un modèle pré-entraîné quantifié. Afin de conserver la mémoire, la quantification diminue la précision des paramètres du modèle, et si la quantification est significative, une initialisation à zéro peut ne pas être optimale. Pour surmonter l’erreur de quantification, l’équipe a introduit une variante de LoRA appelée LQ-LoRA.

LQ-LoRA décompose la matrice de poids en une composante quantifiée, Q, et une composante de faible rang, L1L2, en utilisant une technique itérative inspirée de l’analyse en composantes principales (ACP). Dans LQ-LoRA, L1 et L2 sont affinés pendant l’adaptation, et les sous-espaces de grande variance de la matrice de poids initiale sont capturés.

L’équipe a partagé que ce travail utilise une programmation linéaire entière pour trouver une méthode de quantification mixte afin de résoudre le problème d’application de la même configuration de quantification à toutes les couches. Avec un taux global de bits souhaité, cette technique permet d’attribuer différentes configurations, y compris des bits et des tailles de blocs, à chaque matrice.

L’équipe a modifié les modèles RoBERTa et LLaMA-2 de différentes tailles, 7B et 70B, en utilisant LQ-LoRA. Les résultats ont montré que LQ-LoRA fonctionne mieux que les bases de référence GPTQ-LoRA et QLoRA solides. La capacité à entraîner un modèle LLaMA-2 de 2,5 bits sur le benchmark OpenAssistant, concurrentiel avec un modèle ajusté finement en utilisant QLoRA de 4 bits, a montré que l’approche proposée permet une quantification plus agressive.

LQ-LoRA a également montré de très bonnes performances en matière de compression du modèle après ajustement sur un modèle linguistique d’étalonnage de jeu de données. Malgré la diminution du taux de bits, l’équipe a été capable de produire un modèle LLaMA-2-70B de 2,75 bits compétitif avec le modèle original en termes de précision totale. Cela indique que la méthode proposée permet de réduire considérablement les besoins en mémoire des grands modèles de langage sans sacrifier les fonctionnalités pour des activités particulières.

En conclusion, LQ-LoRA marque un tournant significatif dans le développement des modèles de langage. Sa méthode d’adaptation efficace de la mémoire et ses considérations conscientes des données, ainsi que le réglage dynamique des paramètres de quantification, peuvent certainement conduire à un changement de paradigme dans le domaine de l’intelligence artificielle.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Découvrez Nous-Hermes-Llama2-70b un modèle de langage de pointe affiné sur plus de 300 000 instructions.

Le Hugging Face Transformer est une bibliothèque extrêmement populaire en Python, qui fournit des modèles pré-entraîn...

AI

La bataille pour l'IA open-source à la suite de l'IA générative

Découvrez l'évolution de la nature du débat sur l'IA open-source alors que les géants de la technologie et les pratic...

AI

La SEC donne aux entreprises quatre jours pour signaler les cyberattaques.

Les critiques se demandent si les nouvelles règles pourraient faire plus de mal que de bien.

AI

Les pantalons intelligents à fibres optiques offrent un moyen économique de surveiller les mouvements.

Les chercheurs ont mis au point des pantalons intelligents en fibre optique polymère qui peuvent suivre les mouvement...

AI

Déchiffrer la vérité à partir des données comment les grands modèles de langage utilisent les personas pour modéliser la sincérité

Avec l’introduction des modèles de langage volumineux (LLMs), le sous-domaine de l’intelligence artificie...

AI

Top 5 Alternatives gratuites à GPT-4

Pensez-vous que GPT-4 est une grande nouveauté? Ces nouveaux venus de l'IA générative volent déjà la vedette!