Rencontrez MatFormer une architecture de transformer universellement imbriquée pour un déploiement flexible des modèles sur différentes plateformes.
Découvrez MatFormer une architecture de transformation universellement imbriquée pour une flexibilité optimale des modèles sur diverses plateformes.
Les modèles de transformation trouvent des applications dans divers domaines, allant des puissants clusters multi-accélérateurs aux appareils mobiles individuels. Les différentes exigences pour l’inférence dans ces paramètres font que les développeurs entraînent des modèles fondamentaux tels que PaLM 2, Llama et ViTs de différentes tailles. Cependant, les coûts plus élevés associés à la formation conduisent à un ensemble restreint de tailles de modèles pris en charge.
Les grands modèles fondamentaux sont utilisés dans différentes situations, telles que l’obtention de réponses rapides sur les téléphones mobiles ou la gestion des lots sur les GPU multi-cluster pour les applications Web à grande échelle. Chaque modèle propose une sélection de modèles indépendamment entraînés de différentes tailles pour s’adapter à diverses circonstances. Pour répondre à un large éventail d’applications, ces tailles de modèle sont généralement regroupées sur une échelle logarithmique de manière approximativement linéaire.
En conséquence, un groupe de chercheurs de Google Research, de l’Université du Texas à Austin, de l’Université de Washington et de l’Université Harvard a introduit MatFormer – une architecture de transformation spécifiquement conçue pour l’adaptabilité, comme indiqué dans leur dernier article, intitulé MatFormer: Nested Transformer for Elastic Inference. MatFormer facilite la construction d’un modèle intégré capable de générer de nombreux sous-modèles plus petits sans formation supplémentaire.
- 7 façons d’utiliser ChatGPT 4Vision comme un pro
- PyrOSM travailler avec les données Open Street Map
- Grands modèles de langage TinyBERT – La distillation de BERT pour le NLP
Ils ont incorporé une sous-structure imbriquée dans le Transformateur standard et optimisé conjointement toutes les granularités pour produire un modèle élastique unique et universel.
Les chercheurs ont souligné qu’ils ont produit de nombreux sous-modèles précis sans avoir à supporter des coûts de formation supplémentaires en mélangeant délibérément différents niveaux d’information dans différentes couches d’un modèle MatFormer universel. Chaque bloc de réseau d’avance Feed Forward Network (FFN) dans l’architecture MatFormer est optimisé avec une collection de blocs FFN plus petits et imbriqués. Grâce à cette approche de formation, ils ont combiné et ajusté la complexité du modèle à travers différentes couches.
La structure imbriquée est mise en œuvre sur les représentations cachées du bloc de réseau FFN, amplifiant les capacités du modèle en plaçant les têtes d’attention par ordre d’importance. Une sous-structure au sein des têtes d’attention est créée du plus au moins significatif. Comparativement à l’entraînement indépendant de sous-modèles équivalents basés sur le Transformateur, la formation est accélérée de 15% puisque les têtes les plus importantes sont réparties entre un plus grand nombre de sous-modèles. De plus, cette méthode s’aligne sur la courbe de sous-modèle spécifiquement optimisée et permet l’extraction de plusieurs sous-modèles plus petits tout en maintenant une précision.
Les chercheurs ont constaté qu’ils pouvaient produire un nombre considérable de modèles plus petits précis sans optimisation supplémentaire en choisissant différents niveaux de détail pour chaque couche MatFormer.
L’équipe a étudié l’efficacité sur une gamme de types de modèles (décodeurs et encodeurs), de modalités (langue et vision) et d’échelles (jusqu’à 2,6 milliards de paramètres). Les chercheurs ont souligné que la comparaison de ces modèles plus petits avec leurs homologues formés indépendamment révèle une perte de validation comparable et des performances en aval en un seul passage. De plus, MatFormer présente une généralisation robuste et fonctionne bien en tant qu’encodeurs de vision (MatViT) et modèles linguistiques uniquement pour le décodage (MatLM). En termes de précision et de fiabilité, il est comparable au Transformateur traditionnel.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Python pour les ingénieurs de données
- Collecte de données avec Apache Airflow sur un Raspberry Pi
- Détection de la Multicollinéarité dans les ensembles de données à l’aide de tests statistiques.
- Démystifier l’intelligence artificielle générative une plongée approfondie dans les modèles de diffusion et l’évolution du traitement visuel
- 10 Concepts Statistiques de Base en Langage Clair
- SalesForce AI présente CodeChain un cadre innovant d’intelligence artificielle pour la génération de code modulaire à travers une chaîne de révisions automatiques avec des sous-modules représentatifs.
- Tout sur le module Collections en Python