Google AI a mis en open source Flan-T5 un modèle de langage basé sur les Transformers qui utilise une approche de texte à texte pour les tâches de traitement du langage naturel (NLP).
Google AI a rendu open source Flan-T5, un modèle de langage basé sur les Transformers pour le traitement du langage naturel (NLP) utilisant une approche texte à texte.
Les grands modèles de langage, tels que PaLM, Chinchilla et ChatGPT, ont ouvert de nouvelles possibilités pour effectuer des tâches de traitement du langage naturel (NLP) en lisant des indices instructifs. L’état de l’art a démontré que l’ajustement des instructions, qui consiste à affiner les modèles de langage sur diverses tâches NLP organisées avec des instructions, améliore encore la capacité des modèles de langage à effectuer une tâche inconnue donnée une instruction. En comparant leurs procédures et stratégies d’affinage, ils évaluent les approches et les résultats des initiatives de généralisation des instructions open source dans cet article.
Ce travail se concentre sur les détails des méthodes d’ajustement des instructions, en ablatant des facteurs individuels et les comparant directement. Ils identifient et évaluent les améliorations méthodologiques critiques dans la “Collection Flan 2022”, terme qu’ils utilisent pour la collecte de données et les méthodes qui s’appliquent aux données et au processus d’ajustement des instructions qui se concentre sur les résultats émergents et à la pointe de la technologie de la combinaison de Flan 2022 avec PaLM 540B. La Collection Flan 2022 contient la collection la plus complète d’emplois et de techniques d’ajustement des instructions actuellement disponible publiquement. Elle a été enrichie de milliers de modèles premium et de meilleurs motifs de formatage.
Ils démontrent que, sur tous les benchmarks d’évaluation évalués, un modèle formé sur cette collection surpasse les autres collections publiques, y compris le Flan 2021 original, le T0++ leur, le Super-Natural Instructions leur et les travaux contemporains sur le OPT-IML leur. Cela comprend, pour des modèles de taille identique, des améliorations de 4,2 %+ et 8,5 % sur les benchmarks d’évaluation MMLU et BIG-Bench Hard. Selon une analyse de l’approche Flan 2022, les résultats robustes sont dus à la plus grande et plus variée collection de tâches et à plusieurs stratégies simples d’affinage et d’augmentation des données. En particulier, l’entraînement sur diverses instances modélisées avec des prompts de type zero-shot, few-shot et chain-of-thought améliore les performances dans tous ces contextes.
- Est-ce que les petits modèles de langue peuvent fournir de hautes performances ? Découvrez StableLM un modèle de langue open source qui peut générer du texte et du code en offrant des performances élevées avec un entraînement adéquat.
- Qu’est-ce que les grands modèles de langage (LLMs) ? Applications et types de LLMs.
- Façonner l’avenir de l’intelligence artificielle IA L’importance de l’ingénierie rapide pour le progrès et l’innovation
Par exemple, une augmentation de 10 % des prompts few-shot améliore les résultats des prompts zero-shot de 2 % ou plus. De plus, il a été démontré que l’équilibrage des sources de tâches et l’amélioration de la variété des tâches en inversant les paires entrée-sortie, comme le fait, sont tous deux essentiels pour les performances. Lors de l’affinage sur une seule tâche, le modèle Flan-T5 résultant converge plus rapidement et est plus performant que les modèles T5, ce qui indique que les modèles ajustés aux instructions fournissent un point de départ plus efficace sur le plan computationnel pour les applications ultérieures. Ils anticipent que la mise à disposition de ces résultats et outils de manière ouverte simplifiera les ressources disponibles pour la personnalisation des instructions et accélérera le développement de modèles de langage plus polyvalents.
Les principales contributions de cette étude sont énumérées comme suit: • Méthodologique: Démontrer que l’entraînement avec un mélange d’indices zero-shot et few-shot produit des résultats nettement supérieurs dans les deux environnements. • Mesurer et démontrer les principales méthodes pour un ajustement efficace des instructions, y compris le dimensionnement de la Section 3.3, l’amélioration de la diversité des tâches en utilisant l’inversion des entrées, l’ajout de données d’entraînement chain-of-thought et l’équilibrage de différentes sources de données. • Résultats: Ces décisions techniques améliorent les performances des tâches maintenues à l’écart de 3 à 17 % par rapport aux collections d’ajustement des instructions open source disponibles. • Constatations: Flan-T5 XL fournit un point de départ computationnel plus robuste et efficace pour l’affinage sur une seule tâche. • Mettre à disposition la nouvelle collection de tâches Flan 2022, les modèles et les méthodologies de recherche pour une utilisation publique. Le code source est disponible sur GitHub.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Modèle ONNX | Échange de réseau neuronal ouvert
- Module d’auto-étiquetage pour les systèmes d’assistance avancée à la conduite basés sur l’apprentissage approfondi sur AWS
- Les trois méthodes essentielles pour évaluer un nouveau modèle de langage
- IA vs. Analyse prédictive Une analyse complète
- Que se passe-t-il si vous exécutez un modèle de transformer avec un réseau neuronal optique ?
- Cet outil d’IA explique comment l’IA voit les images et pourquoi elle pourrait confondre un astronaute avec une pelle.
- Qu’est-ce qu’un circuit intégré programmable sur le terrain (FPGA) FPGA vs GPU pour l’intelligence artificielle (IA)