Rencontrez MatFormer une architecture de transformer universellement imbriquée pour un déploiement flexible des modèles sur différentes plateformes.

Découvrez MatFormer une architecture de transformation universellement imbriquée pour une flexibilité optimale des modèles sur diverses plateformes.

Les modèles de transformation trouvent des applications dans divers domaines, allant des puissants clusters multi-accélérateurs aux appareils mobiles individuels. Les différentes exigences pour l’inférence dans ces paramètres font que les développeurs entraînent des modèles fondamentaux tels que PaLM 2, Llama et ViTs de différentes tailles. Cependant, les coûts plus élevés associés à la formation conduisent à un ensemble restreint de tailles de modèles pris en charge. 

Les grands modèles fondamentaux sont utilisés dans différentes situations, telles que l’obtention de réponses rapides sur les téléphones mobiles ou la gestion des lots sur les GPU multi-cluster pour les applications Web à grande échelle. Chaque modèle propose une sélection de modèles indépendamment entraînés de différentes tailles pour s’adapter à diverses circonstances. Pour répondre à un large éventail d’applications, ces tailles de modèle sont généralement regroupées sur une échelle logarithmique de manière approximativement linéaire.

En conséquence, un groupe de chercheurs de Google Research, de l’Université du Texas à Austin, de l’Université de Washington et de l’Université Harvard a introduit MatFormer – une architecture de transformation spécifiquement conçue pour l’adaptabilité, comme indiqué dans leur dernier article, intitulé MatFormer: Nested Transformer for Elastic Inference. MatFormer facilite la construction d’un modèle intégré capable de générer de nombreux sous-modèles plus petits sans formation supplémentaire.

Ils ont incorporé une sous-structure imbriquée dans le Transformateur standard et optimisé conjointement toutes les granularités pour produire un modèle élastique unique et universel.

Les chercheurs ont souligné qu’ils ont produit de nombreux sous-modèles précis sans avoir à supporter des coûts de formation supplémentaires en mélangeant délibérément différents niveaux d’information dans différentes couches d’un modèle MatFormer universel. Chaque bloc de réseau d’avance Feed Forward Network (FFN) dans l’architecture MatFormer est optimisé avec une collection de blocs FFN plus petits et imbriqués. Grâce à cette approche de formation, ils ont combiné et ajusté la complexité du modèle à travers différentes couches. 

La structure imbriquée est mise en œuvre sur les représentations cachées du bloc de réseau FFN, amplifiant les capacités du modèle en plaçant les têtes d’attention par ordre d’importance. Une sous-structure au sein des têtes d’attention est créée du plus au moins significatif. Comparativement à l’entraînement indépendant de sous-modèles équivalents basés sur le Transformateur, la formation est accélérée de 15% puisque les têtes les plus importantes sont réparties entre un plus grand nombre de sous-modèles. De plus, cette méthode s’aligne sur la courbe de sous-modèle spécifiquement optimisée et permet l’extraction de plusieurs sous-modèles plus petits tout en maintenant une précision.

Les chercheurs ont constaté qu’ils pouvaient produire un nombre considérable de modèles plus petits précis sans optimisation supplémentaire en choisissant différents niveaux de détail pour chaque couche MatFormer.

L’équipe a étudié l’efficacité sur une gamme de types de modèles (décodeurs et encodeurs), de modalités (langue et vision) et d’échelles (jusqu’à 2,6 milliards de paramètres). Les chercheurs ont souligné que la comparaison de ces modèles plus petits avec leurs homologues formés indépendamment révèle une perte de validation comparable et des performances en aval en un seul passage. De plus, MatFormer présente une généralisation robuste et fonctionne bien en tant qu’encodeurs de vision (MatViT) et modèles linguistiques uniquement pour le décodage (MatLM). En termes de précision et de fiabilité, il est comparable au Transformateur traditionnel. 

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Sauver les bibliothèques numériques et l'Internet Archive

Une bataille autour de la "vérité et de qui y a accès à l'ère numérique."

AI

Révolutionner la reconstruction des données la solution compacte de l'IA pour une large récupération d'informations.

Dans un récent développement, une équipe de chercheurs du Laboratoire national de Los Alamos a pionnier une approche ...

AI

Une nouvelle recherche en IA propose un encodeur basé sur la structure simple mais efficace pour l'apprentissage de la représentation des protéines selon leurs structures 3D.

Les protéines, l’énergie de la cellule, sont impliquées dans diverses applications, notamment les matériaux et ...

AI

Les chercheurs de Microsoft dévoilent EmotionPrompt Amélioration de l'intelligence émotionnelle de l'IA à travers plusieurs modèles linguistiques.

L’intelligence émotionnelle est un pilier historiquement placé au sein de la vaste mosaïque des qualités humain...

Actualités sur l'IA

Robot fait pousser des plantes aussi bien que les humains, mais utilise moins d'eau.

Des chercheurs de l'Université de Californie à Berkeley ont développé un robot jardinier qui peut cultiver des plante...