Rencontrez MatFormer une architecture de transformer universellement imbriquée pour un déploiement flexible des modèles sur différentes plateformes.

Découvrez MatFormer une architecture de transformation universellement imbriquée pour une flexibilité optimale des modèles sur diverses plateformes.

Les modèles de transformation trouvent des applications dans divers domaines, allant des puissants clusters multi-accélérateurs aux appareils mobiles individuels. Les différentes exigences pour l’inférence dans ces paramètres font que les développeurs entraînent des modèles fondamentaux tels que PaLM 2, Llama et ViTs de différentes tailles. Cependant, les coûts plus élevés associés à la formation conduisent à un ensemble restreint de tailles de modèles pris en charge. 

Les grands modèles fondamentaux sont utilisés dans différentes situations, telles que l’obtention de réponses rapides sur les téléphones mobiles ou la gestion des lots sur les GPU multi-cluster pour les applications Web à grande échelle. Chaque modèle propose une sélection de modèles indépendamment entraînés de différentes tailles pour s’adapter à diverses circonstances. Pour répondre à un large éventail d’applications, ces tailles de modèle sont généralement regroupées sur une échelle logarithmique de manière approximativement linéaire.

En conséquence, un groupe de chercheurs de Google Research, de l’Université du Texas à Austin, de l’Université de Washington et de l’Université Harvard a introduit MatFormer – une architecture de transformation spécifiquement conçue pour l’adaptabilité, comme indiqué dans leur dernier article, intitulé MatFormer: Nested Transformer for Elastic Inference. MatFormer facilite la construction d’un modèle intégré capable de générer de nombreux sous-modèles plus petits sans formation supplémentaire.

Ils ont incorporé une sous-structure imbriquée dans le Transformateur standard et optimisé conjointement toutes les granularités pour produire un modèle élastique unique et universel.

Les chercheurs ont souligné qu’ils ont produit de nombreux sous-modèles précis sans avoir à supporter des coûts de formation supplémentaires en mélangeant délibérément différents niveaux d’information dans différentes couches d’un modèle MatFormer universel. Chaque bloc de réseau d’avance Feed Forward Network (FFN) dans l’architecture MatFormer est optimisé avec une collection de blocs FFN plus petits et imbriqués. Grâce à cette approche de formation, ils ont combiné et ajusté la complexité du modèle à travers différentes couches. 

La structure imbriquée est mise en œuvre sur les représentations cachées du bloc de réseau FFN, amplifiant les capacités du modèle en plaçant les têtes d’attention par ordre d’importance. Une sous-structure au sein des têtes d’attention est créée du plus au moins significatif. Comparativement à l’entraînement indépendant de sous-modèles équivalents basés sur le Transformateur, la formation est accélérée de 15% puisque les têtes les plus importantes sont réparties entre un plus grand nombre de sous-modèles. De plus, cette méthode s’aligne sur la courbe de sous-modèle spécifiquement optimisée et permet l’extraction de plusieurs sous-modèles plus petits tout en maintenant une précision.

Les chercheurs ont constaté qu’ils pouvaient produire un nombre considérable de modèles plus petits précis sans optimisation supplémentaire en choisissant différents niveaux de détail pour chaque couche MatFormer.

L’équipe a étudié l’efficacité sur une gamme de types de modèles (décodeurs et encodeurs), de modalités (langue et vision) et d’échelles (jusqu’à 2,6 milliards de paramètres). Les chercheurs ont souligné que la comparaison de ces modèles plus petits avec leurs homologues formés indépendamment révèle une perte de validation comparable et des performances en aval en un seul passage. De plus, MatFormer présente une généralisation robuste et fonctionne bien en tant qu’encodeurs de vision (MatViT) et modèles linguistiques uniquement pour le décodage (MatLM). En termes de précision et de fiabilité, il est comparable au Transformateur traditionnel. 

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Découvrez Cursive Un cadre universel et intuitif d'IA pour interagir avec les LLMs.

Dans le domaine de l’interfaçage avec les grands modèles de langage (LLMs), les développeurs se retrouvent souv...

Apprentissage automatique

Google AI dévoile Imagen Editor et EditBench pour améliorer et évaluer l'Inpainting d'image guidée par le texte.

Il y a eu récemment un regain de curiosité pour les convertisseurs de texte en image. Ces modèles génératifs sont éto...

AI

Acquérir une intuition sur les concepts derrière les LLM comme ChatGPT - Partie 1 Réseaux neuronaux, Transformateurs, Pré-entraînement et Ajustement fin

Je suis sûr que je ne suis pas le seul, mais si cela n'était pas trop évident dans mon tweet en janvier, mon esprit a...

AI

SQL pour la visualisation des données Comment préparer les données pour les graphiques et les diagrammes

Débloquez le pouvoir de SQL dans la visualisation des données maîtrisez l'art de préparer les données pour des graph...

AI

Imagerie d'Intelligence Artificielle Une étude universitaire des complexités et des mécanismes des GANs

Les GAN ont démontré leur savoir-faire dans la création de données réalistes. Ils offrent un potentiel dans divers do...