Google AI a mis en open source Flan-T5 un modèle de langage basé sur les Transformers qui utilise une approche de texte à texte pour les tâches de traitement du langage naturel (NLP).

Google AI a rendu open source Flan-T5, un modèle de langage basé sur les Transformers pour le traitement du langage naturel (NLP) utilisant une approche texte à texte.

Les grands modèles de langage, tels que PaLM, Chinchilla et ChatGPT, ont ouvert de nouvelles possibilités pour effectuer des tâches de traitement du langage naturel (NLP) en lisant des indices instructifs. L’état de l’art a démontré que l’ajustement des instructions, qui consiste à affiner les modèles de langage sur diverses tâches NLP organisées avec des instructions, améliore encore la capacité des modèles de langage à effectuer une tâche inconnue donnée une instruction. En comparant leurs procédures et stratégies d’affinage, ils évaluent les approches et les résultats des initiatives de généralisation des instructions open source dans cet article.

Ce travail se concentre sur les détails des méthodes d’ajustement des instructions, en ablatant des facteurs individuels et les comparant directement. Ils identifient et évaluent les améliorations méthodologiques critiques dans la “Collection Flan 2022”, terme qu’ils utilisent pour la collecte de données et les méthodes qui s’appliquent aux données et au processus d’ajustement des instructions qui se concentre sur les résultats émergents et à la pointe de la technologie de la combinaison de Flan 2022 avec PaLM 540B. La Collection Flan 2022 contient la collection la plus complète d’emplois et de techniques d’ajustement des instructions actuellement disponible publiquement. Elle a été enrichie de milliers de modèles premium et de meilleurs motifs de formatage.

Ils démontrent que, sur tous les benchmarks d’évaluation évalués, un modèle formé sur cette collection surpasse les autres collections publiques, y compris le Flan 2021 original, le T0++ leur, le Super-Natural Instructions leur et les travaux contemporains sur le OPT-IML leur. Cela comprend, pour des modèles de taille identique, des améliorations de 4,2 %+ et 8,5 % sur les benchmarks d’évaluation MMLU et BIG-Bench Hard. Selon une analyse de l’approche Flan 2022, les résultats robustes sont dus à la plus grande et plus variée collection de tâches et à plusieurs stratégies simples d’affinage et d’augmentation des données. En particulier, l’entraînement sur diverses instances modélisées avec des prompts de type zero-shot, few-shot et chain-of-thought améliore les performances dans tous ces contextes.

Par exemple, une augmentation de 10 % des prompts few-shot améliore les résultats des prompts zero-shot de 2 % ou plus. De plus, il a été démontré que l’équilibrage des sources de tâches et l’amélioration de la variété des tâches en inversant les paires entrée-sortie, comme le fait, sont tous deux essentiels pour les performances. Lors de l’affinage sur une seule tâche, le modèle Flan-T5 résultant converge plus rapidement et est plus performant que les modèles T5, ce qui indique que les modèles ajustés aux instructions fournissent un point de départ plus efficace sur le plan computationnel pour les applications ultérieures. Ils anticipent que la mise à disposition de ces résultats et outils de manière ouverte simplifiera les ressources disponibles pour la personnalisation des instructions et accélérera le développement de modèles de langage plus polyvalents.

Les principales contributions de cette étude sont énumérées comme suit: • Méthodologique: Démontrer que l’entraînement avec un mélange d’indices zero-shot et few-shot produit des résultats nettement supérieurs dans les deux environnements. • Mesurer et démontrer les principales méthodes pour un ajustement efficace des instructions, y compris le dimensionnement de la Section 3.3, l’amélioration de la diversité des tâches en utilisant l’inversion des entrées, l’ajout de données d’entraînement chain-of-thought et l’équilibrage de différentes sources de données. • Résultats: Ces décisions techniques améliorent les performances des tâches maintenues à l’écart de 3 à 17 % par rapport aux collections d’ajustement des instructions open source disponibles. • Constatations: Flan-T5 XL fournit un point de départ computationnel plus robuste et efficace pour l’affinage sur une seule tâche. • Mettre à disposition la nouvelle collection de tâches Flan 2022, les modèles et les méthodologies de recherche pour une utilisation publique. Le code source est disponible sur GitHub.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

IA générative avec de grands modèles de langage Formation pratique

Cette formation de 2 heures couvre les LLM (Langage Models), leurs capacités et comment les développer et les déploye...

AI

Une nouvelle façon de considérer la confidentialité des données

Des chercheurs créent une technique de confidentialité qui protège les données sensibles tout en maintenant les perfo...

AI

Les 6 principaux cas d'utilisation de GPT-4

Explorez les applications révolutionnaires de GPT-4 dans divers secteurs, de la création de contenu aux soins de sant...

AI

ChatGPT répond incorrectement à plus de la moitié des questions de génie logiciel

ChatGPT a répondu de manière incorrecte à 52% des 517 questions de Stack Overflow, et 77% des réponses étaient inutil...

AI

Des chercheurs chinois proposent StructGPT pour améliorer la capacité de raisonnement à zéro-shot des LLMs sur des données structurées.

Les grands modèles de langage (LLM) ont récemment réalisé des progrès significatifs dans le traitement du langage nat...