Décryptage du mécanisme d’attention vers une solution à marge maximale dans les modèles de transformation
Décryptage du mécanisme d'attention vers une solution à marge maximale dans les modèles de transformation
Le mécanisme d’attention a joué un rôle important dans le traitement du langage naturel et les grands modèles linguistiques. Le mécanisme d’attention permet au décodeur transformer de se concentrer sur les parties les plus pertinentes de la séquence d’entrée. Il joue un rôle crucial en calculant les similarités softmax entre les jetons d’entrée et constitue le cadre fondamental de l’architecture. Cependant, s’il est bien connu que le mécanisme d’attention permet aux modèles de se concentrer sur les informations les plus pertinentes, les subtilités et les mécanismes spécifiques sous-jacents à ce processus de concentration sur la partie la plus pertinente de l’entrée sont encore inconnus.
Par conséquent, de nombreuses recherches ont été menées pour comprendre le mécanisme d’attention. Des recherches récentes menées par l’équipe de l’Université de Michigan explorent le mécanisme utilisé par les modèles transformateurs. Les chercheurs ont découvert que les transformateurs, qui sont l’architecture de base de nombreux chatbots populaires, utilisent une couche cachée à l’intérieur de leur mécanisme d’attention, qui ressemble à des machines à vecteurs de support (SVM). Ces classificateurs apprennent à distinguer deux catégories en dessinant une frontière dans les données. Dans le cas des transformateurs, les catégories sont les informations pertinentes et non pertinentes dans le texte.
Les chercheurs ont souligné que les transformateurs utilisent une méthode à l’ancienne similaire aux machines à vecteurs de support (SVM) pour catégoriser les données en informations pertinentes et non pertinentes. Prenons l’exemple de demander à un chatbot de résumer un long article. Le transformateur divise d’abord le texte en plus petites pièces appelées jetons. Ensuite, le mécanisme d’attention attribue des poids à chaque jeton pendant la conversation. La division du texte en jetons et l’attribution des poids sont itératives, prévoyant et formulant des réponses en fonction de l’évolution des poids.
- ByteDance AI Research présente StemGen un modèle d’apprentissage en profondeur de génération musicale de bout en bout, formé pour écouter le contexte musical et y répondre de manière appropriée.
- Annonce des cours préparatoires au bootcamp ODSC East 2024
- Diffusion stable maîtrisez l’art du design d’intérieur
Au fur et à mesure que la conversation progresse, le chatbot réévalue l’ensemble du dialogue, ajuste les poids et affine son attention pour fournir des réponses cohérentes et conscientes du contexte. En substance, le mécanisme d’attention dans les transformateurs effectue des calculs multidimensionnels. Cette étude explique le processus sous-jacent de recherche d’informations dans le mécanisme d’attention.
Cette étude constitue une étape importante pour comprendre le fonctionnement des mécanismes d’attention au sein des architectures de transformers. Elle explique le mystère de la façon dont les chatbots répondent aux entrées de texte longues et complexes. Cette étude peut rendre les grands modèles linguistiques plus efficaces et interprétables. Alors que les chercheurs visent à utiliser les résultats de cette étude pour améliorer l’efficacité et les performances de l’IA, l’étude ouvre la possibilité de perfectionner les mécanismes d’attention en TALN et dans des domaines connexes.
En conclusion, l’étude présentée dans cette recherche aborde et révèle le mystère du fonctionnement des mécanismes d’attention, mais elle offre également des perspectives pour le développement futur de modèles d’IA plus efficaces et interprétables. En montrant que le mécanisme d’attention applique un mécanisme similaire à celui d’un SVM, cela ouvre de nouvelles voies pour les avancées dans le domaine du traitement du langage naturel, et cela promet également des avancées dans d’autres applications de l’IA où l’attention joue un rôle crucial.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Google AI propose PixelLLM un modèle Vision-Language capable de localisation précise et d’alignement Vision-Language
- 2023, année des LLM ouverts
- Accélérer le temps d’obtention des informations avec les collections de séries temporelles de MongoDB et Amazon SageMaker Canvas
- Les scientifiques ramènent les molécules à la vie pour lutter contre les superbugs
- Tesla rappelle 2 millions de voitures dotées de contrôles de sécurité insuffisants pour l’autopilote.
- Conseillers en intelligence artificielle et outils de planification transformer la finance, la logistique et bien plus encore
- Vera Molnár, pionnière de l’art informatique, décède à l’âge de 99 ans