Cette recherche en IA explore les limites et les capacités des modèles de langage à grande échelle (LLM) Transformer, de manière empirique et théorique, sur des tâches compositionnelles.
La recherche en IA explore les limites et les capacités des modèles de langage à grande échelle (LLM) Transformer sur des tâches compositionnelles.
ChatGPT est en vogue et des millions de personnes l’utilisent chaque jour. Avec ses incroyables capacités d’imitation des humains, telles que la réponse aux questions, la génération de contenu unique et créatif, la synthèse de données textuelles massives, l’achèvement de code et le développement d’assistants virtuels très utiles, ChatGPT facilite notre vie. Développé par OpenAI, ChatGPT est basé sur l’architecture de transformer GPT 3.5 (Generative Pre-Trained Transformer) et GPT 4. GPT 4, la dernière version des modèles de langage publiés par OpenAI, est multimodal, c’est-à-dire qu’il prend en entrée du texte et des images, contrairement aux versions précédentes. Même d’autres modèles de langage de grande taille (LLM) tels que PaLM, LLaMA et BERT sont utilisés dans des applications de divers domaines impliquant la santé, le commerce électronique, la finance, l’éducation, etc.
Une équipe de chercheurs a mis en évidence la différence entre les performances impressionnantes des LLM tels que GPT sur des tâches complexes et leurs difficultés avec des tâches simples dans un article de recherche récemment publié. Plongeant dans les limites et les capacités des LLM de type Transformer, l’équipe a mené des expériences sur trois tâches compositionnelles représentatives : la multiplication de chiffres multiples, les énigmes de grille logique et un problème classique de programmation dynamique. Ces tâches consistent à décomposer les problèmes en étapes plus petites et à combiner ces étapes pour produire une solution exacte.
Afin d’étudier les limites des Transformers dans la résolution de tâches compositionnelles nécessitant un raisonnement à plusieurs étapes, les auteurs ont proposé deux hypothèses. La première est que les Transformers accomplissent les tâches en linéarisant le raisonnement à plusieurs étapes en une correspondance de trajets, s’appuyant ainsi sur la correspondance de motifs et l’apprentissage rapide plutôt que sur la compréhension et la mise en œuvre réelles des règles computationnelles sous-jacentes requises pour développer des solutions appropriées. Cette approche permet des prédictions rapides et précises sur des motifs similaires lors de l’entraînement, mais échoue à généraliser à des exemples complexes rares. La deuxième hypothèse stipule que les Transformers peuvent avoir des limitations inhérentes lorsqu’ils essaient de résoudre des tâches compositionnelles de haute complexité présentant des motifs uniques. Les erreurs computationnelles précoces peuvent se propager et entraîner des erreurs de cumul importantes lors des étapes ultérieures, empêchant les modèles d’arriver à la bonne solution.
- Exploiter l’apprentissage automatique pour le développement d’une stratégie marketing efficace
- Optimisation du régulateur PID Une approche de descente de gradient
- Entrée vocale et langage naturel pour votre application mobile en utilisant LLMs
Les auteurs ont formulé les tâches compositionnelles sous forme de graphes de calcul afin d’investiguer les deux hypothèses. Ces graphes décomposent le processus de résolution des problèmes en étapes fonctionnelles sous-modulaires plus petites et plus gérables, permettant ainsi de mesurer de manière structurée la complexité des problèmes et de verbaliser les étapes de calcul en tant que séquences d’entrée pour les modèles de langage. Ils utilisent même le gain d’information pour faire des prédictions sur les motifs que les modèles apprendraient probablement en fonction de la distribution des tâches sous-jacentes sans exécuter de calculs complets dans le graphe.
Sur la base des résultats empiriques, les auteurs ont proposé que les Transformers traitent les défis compositionnels en réduisant le raisonnement à plusieurs étapes en une correspondance de sous-graphes linéarisée. Ils ont fourni des arguments théoriques basés sur des problèmes de raisonnement abstraits à plusieurs étapes, qui mettent en évidence que plus la complexité de la tâche augmente, plus les performances des Transformers se détériorent rapidement. Cela montre que les modèles pourraient déjà être limités dans leur capacité à traiter des problèmes compositionnels de grande complexité.
En conclusion, les résultats empiriques et théoriques impliquent que plutôt qu’une compréhension approfondie des processus de réflexion sous-jacents, les performances des Transformers sont principalement basées sur la correspondance de motifs et la correspondance de sous-graphes, ce qui soutient également l’idée que les Transformers trouveraient difficile de réaliser des tâches de plus en plus difficiles.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Les embeddings de phrases de l’IA, démystifiés
- Optimisez votre LLM sans surcharger votre GPU
- Estimez facilement les coûts de votre API OpenAI avec Tiktoken
- Un guide complet sur les termes d’interaction dans la prévision de séries temporelles
- 130 Astuces et Ressources d’Apprentissage Automatique Sélectionnées avec Soin sur 3 Ans (Plus un eBook Gratuit)
- L’intersection entre CDP et IA Comment l’intelligence artificielle révolutionne les plates-formes de données clients
- LLM (Large Language Models) pour une meilleure compréhension du produit par les développeurs