Cet article sur l’IA propose COLT5 un nouveau modèle pour les entrées à longue portée qui utilise le calcul conditionnel pour une qualité supérieure et une vitesse plus rapide.

Cet article présente COLT5, un nouveau modèle d'IA utilisant le calcul conditionnel pour améliorer la qualité et la vitesse des entrées à longue portée.

Les modèles d’apprentissage automatique sont nécessaires pour encoder du texte long pour diverses tâches de traitement du langage naturel, notamment la résumé ou la réponse à des questions sur des documents longs. Étant donné que le coût de l’attention augmente quadratiquement avec la longueur de l’entrée et que les couches de feedforward et de projection doivent être appliquées à chaque jeton d’entrée, le traitement de textes longs à l’aide d’un modèle Transformer est coûteux en termes de calcul. Plusieurs stratégies de “Transformateur efficace” ont été proposées ces dernières années pour réduire les dépenses du mécanisme d’attention pour les entrées longues. Néanmoins, les couches de feedforward et de projection – en particulier pour les modèles plus grands – supportent la majorité de la charge de calcul et peuvent rendre l’analyse d’entrées longues impossible. Cette étude présente COLT5, une nouvelle famille de modèles qui, en intégrant des améliorations d’architecture pour les couches d’attention et de feedforward, s’appuie sur LONGT5 pour permettre un traitement rapide des entrées longues.

La base de COLT5 est la compréhension que certains jetons sont plus importants que d’autres et que, en allouant plus de calcul aux jetons importants, une meilleure qualité peut être obtenue à moindre coût. Par exemple, COLT5 sépare chaque couche de feedforward et chaque couche d’attention en une branche légère appliquée à tous les jetons et une branche lourde utilisée pour sélectionner des jetons importants choisis spécialement pour cette entrée et ce composant. Comparé à LONGT5 régulier, la dimension cachée de la branche de feedforward légère est plus petite que celle de la branche de feedforward lourde. De plus, le pourcentage de jetons importants diminuera avec la longueur du document, permettant un traitement gérable des textes longs.

Figure 1 : Un aperçu d’une couche Transformer COLT5 de calcul conditionnel.

Un aperçu du mécanisme conditionnel COLT5 est présenté dans la Figure 1. L’architecture LONGT5 a subi deux autres modifications grâce à COLT5. La branche d’attention lourde effectue une attention complète sur un ensemble différent de jetons importants soigneusement choisis, tandis que la branche d’attention légère a moins de têtes et applique une attention locale. La multi-attention en requête croisée, introduite par COLT5, accélère considérablement l’inférence. De plus, COLT5 utilise l’objectif de pré-entraînement UL2, qui permet un apprentissage en contexte sur des entrées longues.

Les chercheurs de Google Research suggèrent COLT5, un nouveau modèle pour les entrées distantes qui utilise le calcul conditionnel pour des performances améliorées et un traitement plus rapide. Ils démontrent que COLT5 surpasse LONGT5 sur les ensembles de données de résumé arXiv et de question-réponse TriviaQA, s’améliorant par rapport à LONGT5 et atteignant SOTA sur le benchmark SCROLLS. Avec une échelle “focus” de jetons inférieure à linéaire, COLT5 améliore considérablement la qualité et les performances pour les tâches avec des entrées longues. COLT5 effectue également un ajustement fin et une inférence beaucoup plus rapides avec une qualité de modèle identique ou supérieure. Les couches de feedforward et d’attention légères de COLT5 s’appliquent à l’ensemble de l’entrée, tandis que les branches lourdes n’affectent qu’une sélection de jetons importants choisis par un routeur appris. Ils démontrent que COLT5 surpasse LONGT5 sur divers ensembles de données d’entrée longues à toutes les vitesses et peut utiliser des entrées extrêmement longues jusqu’à 64k jetons avec succès et efficacité.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Comment implémenter l'IA adaptative dans votre entreprise

L'intelligence artificielle est devenue une technologie puissante capable de conduire des transformations substantiel...

AI

Des chercheurs de l'Université Johns Hopkins Medicine ont développé un modèle d'apprentissage automatique pour le calcul précis de la nécrose de l'ostéosarcome.

Dans le domaine de l’oncologie, l’évaluation de l’efficacité de la chimiothérapie chez les patients...

AI

ChatGPT se donne des lois pour se réguler lui-même

Le Costa Rica a franchi une étape intéressante dans la réglementation de l’intelligence artificielle (IA) en se...

AI

TinyML Applications, Limitations et son utilisation dans les appareils IoT et Edge

Au cours des dernières années, l'Intelligence Artificielle (IA) et l'Apprentissage Automatique (AA) ont connu une mon...

AI

Les chercheurs de Stanford introduisent RoboFuME révolutionnant l'apprentissage robotique avec une intervention humaine minimale

Dans de nombreux domaines impliquant l’apprentissage automatique, un paradigme largement couronné de succès pou...

AI

Cette enquête de recherche sur l'intelligence artificielle fournit un aperçu complet des grands modèles de langage appliqués au domaine de la santé.

Ce contenu est réservé aux abonnés Conditions d’utilisationPolitique de confidentialité Les systèmes de traitem...