Rencontrez Wanda une approche simple et efficace de l’élagage pour les grands modèles de langage.

Meet Wanda, a simple and efficient approach to pruning for large language models.

La popularité et l’utilisation des grands modèles de langage (LLM) sont en constante croissance. Avec l’énorme succès dans le domaine de l’intelligence artificielle générative, ces modèles conduisent à d’importantes transformations économiques et sociétales. L’un des meilleurs exemples des LLMs tendance est le chatbot développé par OpenAI, appelé ChatGPT, qui imite les humains et compte des millions d’utilisateurs depuis sa sortie. Basé sur le traitement automatique du langage naturel et la compréhension automatique du langage naturel, il répond aux questions, génère un contenu unique et créatif, résume des textes longs, complète des codes et des e-mails, etc.

Les LLMs avec un grand nombre de paramètres demandent beaucoup de puissance de calcul, pour réduire laquelle des efforts ont été faits en utilisant des méthodes telles que la quantification du modèle et l’élagage du réseau. Alors que la quantification du modèle est un processus qui réduit la représentation au niveau des bits des paramètres des LLMs, l’élagage du réseau, quant à lui, vise à réduire la taille des réseaux neuronaux en supprimant certains poids, les mettant ainsi à zéro. Le manque de concentration sur l’élagage des LLMs est principalement dû aux importantes ressources de calcul nécessaires pour la réentraînement, la formation à partir de zéro ou les processus itératifs dans les approches actuelles.

Pour surmonter ces limitations, des chercheurs de l’Université Carnegie Mellon, de FAIR, de Meta AI et du Bosch Center for AI ont proposé une méthode d’élagage appelée Wanda (élagage par les poids ET les activations). Inspirée par la recherche selon laquelle les LLMs présentent des caractéristiques émergentes de grande magnitude, Wanda induit une sparsité dans les LLMs pré-entraînés sans avoir besoin d’être réentraînée ou de mettre à jour les poids. Les poids de plus petite magnitude dans Wanda sont élagués en fonction de la manière dont ils se multiplient avec les activations d’entrée appropriées, et les poids sont évalués indépendamment pour chaque sortie du modèle, car cet élagage est effectué sur une base sortie par sortie.

Wanda fonctionne bien sans avoir besoin d’être réentraînée ou de mettre à jour ses poids, et le LLM réduit a été appliqué immédiatement à l’inférence. L’étude a révélé qu’une infime fraction des caractéristiques de l’état caché des LLMs présente des magnitudes anormalement grandes, ce qui est une caractéristique particulière de ces modèles. En se basant sur cette découverte, l’équipe a découvert que l’ajout des activations d’entrée à la mesure classique d’élagage de la magnitude des poids permet d’évaluer de manière surprenamment précise l’importance des poids.

La famille de LLM open-source la plus réussie, LLaMA, a été utilisée par l’équipe pour évaluer empiriquement Wanda. Les résultats ont démontré que Wanda pouvait identifier avec succès des réseaux épars efficaces directement à partir de LLMs pré-entraînés sans avoir besoin d’être réentraînée ou de mettre à jour les poids. Il a dépassé l’élagage de magnitude de manière significative tout en nécessitant un coût de calcul inférieur et a également atteint ou dépassé les performances de SparseGPT, une méthode récemment proposée d’élagage des LLMs qui fonctionne avec précision sur les modèles massifs de la famille GPT.

En conclusion, Wanda semble être une approche prometteuse pour relever les défis de l’élagage des LLMs et offre une base pour de futures recherches dans ce domaine en encourageant une exploration plus approfondie de la sparsité dans les LLMs. En améliorant l’efficacité et l’accessibilité des LLMs grâce à des techniques d’élagage, il est possible de poursuivre les avancées dans le domaine du traitement automatique du langage naturel et de rendre ces modèles puissants plus pratiques et largement applicables.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Éthique de l'IA générative

Avec tout le tumulte entourant l'intelligence artificielle générative (IA), il y a de plus en plus de questions sans ...

AI

Utilisez l'intégration d'Amazon SageMaker et Salesforce Data Cloud pour alimenter vos applications Salesforce avec l'IA/ML.

Cet article est co-écrit par Daryl Martis, Directeur du Produit, Salesforce Einstein AI. C'est le deuxième article d'...

Science des données

Série d'apprentissage non supervisé Exploration du regroupement hiérarchique.

Dans mon dernier article de la série sur l'apprentissage non supervisé, nous avons exploré l'une des méthodes de clus...

Apprentissage automatique

Déployez un point d'extrémité d'inférence ML sans serveur de grands modèles de langage en utilisant FastAPI, AWS Lambda et AWS CDK.

Pour les scientifiques des données, passer des modèles d'apprentissage machine (ML) de la preuve de concept à la prod...

AI

Les contraintes physiques conduisent à l'évolution d'une IA semblable au cerveau

Dans une étude révolutionnaire, des chercheurs de Cambridge ont adopté une approche nouvelle de l'intelligence artifi...