Cet article sur l’IA propose COLT5 un nouveau modèle pour les entrées à longue portée qui utilise le calcul conditionnel pour une qualité supérieure et une vitesse plus rapide.
Cet article présente COLT5, un nouveau modèle d'IA utilisant le calcul conditionnel pour améliorer la qualité et la vitesse des entrées à longue portée.
Les modèles d’apprentissage automatique sont nécessaires pour encoder du texte long pour diverses tâches de traitement du langage naturel, notamment la résumé ou la réponse à des questions sur des documents longs. Étant donné que le coût de l’attention augmente quadratiquement avec la longueur de l’entrée et que les couches de feedforward et de projection doivent être appliquées à chaque jeton d’entrée, le traitement de textes longs à l’aide d’un modèle Transformer est coûteux en termes de calcul. Plusieurs stratégies de “Transformateur efficace” ont été proposées ces dernières années pour réduire les dépenses du mécanisme d’attention pour les entrées longues. Néanmoins, les couches de feedforward et de projection – en particulier pour les modèles plus grands – supportent la majorité de la charge de calcul et peuvent rendre l’analyse d’entrées longues impossible. Cette étude présente COLT5, une nouvelle famille de modèles qui, en intégrant des améliorations d’architecture pour les couches d’attention et de feedforward, s’appuie sur LONGT5 pour permettre un traitement rapide des entrées longues.
La base de COLT5 est la compréhension que certains jetons sont plus importants que d’autres et que, en allouant plus de calcul aux jetons importants, une meilleure qualité peut être obtenue à moindre coût. Par exemple, COLT5 sépare chaque couche de feedforward et chaque couche d’attention en une branche légère appliquée à tous les jetons et une branche lourde utilisée pour sélectionner des jetons importants choisis spécialement pour cette entrée et ce composant. Comparé à LONGT5 régulier, la dimension cachée de la branche de feedforward légère est plus petite que celle de la branche de feedforward lourde. De plus, le pourcentage de jetons importants diminuera avec la longueur du document, permettant un traitement gérable des textes longs.
Un aperçu du mécanisme conditionnel COLT5 est présenté dans la Figure 1. L’architecture LONGT5 a subi deux autres modifications grâce à COLT5. La branche d’attention lourde effectue une attention complète sur un ensemble différent de jetons importants soigneusement choisis, tandis que la branche d’attention légère a moins de têtes et applique une attention locale. La multi-attention en requête croisée, introduite par COLT5, accélère considérablement l’inférence. De plus, COLT5 utilise l’objectif de pré-entraînement UL2, qui permet un apprentissage en contexte sur des entrées longues.
- Une nouvelle recherche en intelligence artificielle de Stanford montre comment les explications peuvent réduire la dépendance excessive aux systèmes d’IA lors de la prise de décision.
- Meta AI présente CM3leon le révolutionnaire multimodal qui offre une génération de texte à image de pointe avec une efficacité de calcul inégalée.
- NLP moderne Une vue d’ensemble détaillée. Partie 1 Transformateurs
Les chercheurs de Google Research suggèrent COLT5, un nouveau modèle pour les entrées distantes qui utilise le calcul conditionnel pour des performances améliorées et un traitement plus rapide. Ils démontrent que COLT5 surpasse LONGT5 sur les ensembles de données de résumé arXiv et de question-réponse TriviaQA, s’améliorant par rapport à LONGT5 et atteignant SOTA sur le benchmark SCROLLS. Avec une échelle “focus” de jetons inférieure à linéaire, COLT5 améliore considérablement la qualité et les performances pour les tâches avec des entrées longues. COLT5 effectue également un ajustement fin et une inférence beaucoup plus rapides avec une qualité de modèle identique ou supérieure. Les couches de feedforward et d’attention légères de COLT5 s’appliquent à l’ensemble de l’entrée, tandis que les branches lourdes n’affectent qu’une sélection de jetons importants choisis par un routeur appris. Ils démontrent que COLT5 surpasse LONGT5 sur divers ensembles de données d’entrée longues à toutes les vitesses et peut utiliser des entrées extrêmement longues jusqu’à 64k jetons avec succès et efficacité.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Découvrez DERA Un cadre AI pour améliorer les complétions de grands modèles de langage avec des agents de résolution activés par le dialogue.
- Google’s AI Red Team les hackers éthiques rendant l’IA plus sûre
- Utilisation d’un Keras Tuner pour l’optimisation des hyperparamètres d’un modèle TensorFlow
- Meta lance LLaMA 2 Gratuit pour une utilisation commerciale.
- Révolutionner la résumé de texte Exploration des transformateurs GPT-2 et XLNet
- Dévoiler la puissance de Meta’s Llama 2 Un bond en avant dans l’IA générative?
- GPT-Engineer Votre nouvel assistant de codage IA