Cette recherche en IA explore les limites et les capacités des modèles de langage à grande échelle (LLM) Transformer, de manière empirique et théorique, sur des tâches compositionnelles.

La recherche en IA explore les limites et les capacités des modèles de langage à grande échelle (LLM) Transformer sur des tâches compositionnelles.

ChatGPT est en vogue et des millions de personnes l’utilisent chaque jour. Avec ses incroyables capacités d’imitation des humains, telles que la réponse aux questions, la génération de contenu unique et créatif, la synthèse de données textuelles massives, l’achèvement de code et le développement d’assistants virtuels très utiles, ChatGPT facilite notre vie. Développé par OpenAI, ChatGPT est basé sur l’architecture de transformer GPT 3.5 (Generative Pre-Trained Transformer) et GPT 4. GPT 4, la dernière version des modèles de langage publiés par OpenAI, est multimodal, c’est-à-dire qu’il prend en entrée du texte et des images, contrairement aux versions précédentes. Même d’autres modèles de langage de grande taille (LLM) tels que PaLM, LLaMA et BERT sont utilisés dans des applications de divers domaines impliquant la santé, le commerce électronique, la finance, l’éducation, etc.

Une équipe de chercheurs a mis en évidence la différence entre les performances impressionnantes des LLM tels que GPT sur des tâches complexes et leurs difficultés avec des tâches simples dans un article de recherche récemment publié. Plongeant dans les limites et les capacités des LLM de type Transformer, l’équipe a mené des expériences sur trois tâches compositionnelles représentatives : la multiplication de chiffres multiples, les énigmes de grille logique et un problème classique de programmation dynamique. Ces tâches consistent à décomposer les problèmes en étapes plus petites et à combiner ces étapes pour produire une solution exacte.

Afin d’étudier les limites des Transformers dans la résolution de tâches compositionnelles nécessitant un raisonnement à plusieurs étapes, les auteurs ont proposé deux hypothèses. La première est que les Transformers accomplissent les tâches en linéarisant le raisonnement à plusieurs étapes en une correspondance de trajets, s’appuyant ainsi sur la correspondance de motifs et l’apprentissage rapide plutôt que sur la compréhension et la mise en œuvre réelles des règles computationnelles sous-jacentes requises pour développer des solutions appropriées. Cette approche permet des prédictions rapides et précises sur des motifs similaires lors de l’entraînement, mais échoue à généraliser à des exemples complexes rares. La deuxième hypothèse stipule que les Transformers peuvent avoir des limitations inhérentes lorsqu’ils essaient de résoudre des tâches compositionnelles de haute complexité présentant des motifs uniques. Les erreurs computationnelles précoces peuvent se propager et entraîner des erreurs de cumul importantes lors des étapes ultérieures, empêchant les modèles d’arriver à la bonne solution.

Les auteurs ont formulé les tâches compositionnelles sous forme de graphes de calcul afin d’investiguer les deux hypothèses. Ces graphes décomposent le processus de résolution des problèmes en étapes fonctionnelles sous-modulaires plus petites et plus gérables, permettant ainsi de mesurer de manière structurée la complexité des problèmes et de verbaliser les étapes de calcul en tant que séquences d’entrée pour les modèles de langage. Ils utilisent même le gain d’information pour faire des prédictions sur les motifs que les modèles apprendraient probablement en fonction de la distribution des tâches sous-jacentes sans exécuter de calculs complets dans le graphe.

Sur la base des résultats empiriques, les auteurs ont proposé que les Transformers traitent les défis compositionnels en réduisant le raisonnement à plusieurs étapes en une correspondance de sous-graphes linéarisée. Ils ont fourni des arguments théoriques basés sur des problèmes de raisonnement abstraits à plusieurs étapes, qui mettent en évidence que plus la complexité de la tâche augmente, plus les performances des Transformers se détériorent rapidement. Cela montre que les modèles pourraient déjà être limités dans leur capacité à traiter des problèmes compositionnels de grande complexité.

En conclusion, les résultats empiriques et théoriques impliquent que plutôt qu’une compréhension approfondie des processus de réflexion sous-jacents, les performances des Transformers sont principalement basées sur la correspondance de motifs et la correspondance de sous-graphes, ce qui soutient également l’idée que les Transformers trouveraient difficile de réaliser des tâches de plus en plus difficiles.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Cet article sur l'IA bouge comment les modèles de langage se lancent dans l'apprentissage par renforcement hors ligne avec des pas de danse 'LaMo' et l'apprentissage à quelques coups.

Les chercheurs présentent Language Models for Motion Control (LaMo), un cadre utilisant des modèles de langage volumi...

AI

Les 5 meilleurs outils d'IA pour maximiser la productivité

VoAGI passe en revue un ensemble diversifié de 5 outils d'IA pour vous aider à maximiser votre productivité. Jetez un...

Apprentissage automatique

L'IA excelle dans la détection de maladies mentales

Détecter le délire chez les patients gravement malades est une tâche complexe avec des implications significatives po...

AI

Cet article sur l'IA révèle comment les grands modèles de langage se comparent aux moteurs de recherche en termes d'efficacité de vérification des faits

Des chercheurs de différentes universités comparent l’efficacité des modèles de langage (LLMs) et des moteurs d...

AI

Une nouvelle recherche en IA en provenance d'Italie présente un modèle génératif basé sur la diffusion capable à la fois de la synthèse musicale et de la séparation des sources.

Les êtres humains sont capables de traiter plusieurs sources sonores à la fois, que ce soit en termes de composition ...