Cette recherche en intelligence artificielle confirme que les modèles de langage basés sur les transformateurs sont universellement computationnels lorsqu’ils sont augmentés avec une mémoire externe.

This AI research confirms that transformer-based language models are universally computational when augmented with external memory.

Les résultats remarquables obtenus par les modèles basés sur les transformateurs tels que GPT-2 et GPT-3 ont gravité la communauté de recherche vers l’exploration de grands modèles de langage (LLM). De plus, le succès et la popularité récents de ChatGPT n’ont fait qu’accroître l’intérêt des gens pour les LLM. L’apprentissage en contexte et la sollicitation de la chaîne de pensée sont deux autres découvertes majeures qui ont considérablement amélioré l’exactitude des modèles. Ces découvertes vont au-delà de la simple réponse aux questions, où une instruction d’entrée contenant une question est utilisée pour produire une réponse raisonnable. 

Bien que ces tactiques de sollicitation aient été efficaces pour améliorer les performances, les LLM actuels basés sur les transformateurs ne peuvent se conditionner que sur une longueur fixe de chaîne d’entrée, ce qui limite les calculs qu’ils peuvent représenter. On peut également comprendre cela comme tout modèle de langage déterministe qui repose sur des chaînes de longueur finie est limité computationnellement, car le modèle est équivalent à un automate fini. Pour contrer cela, les chercheurs ont étudié la possibilité d’ajouter une boucle de rétroaction externe aux LLM, où les sorties du modèle sont fournies en tant qu’entrées après un certain post-traitement. Cependant, la question de savoir si cette méthode élargit considérablement l’ensemble des calculs d’un modèle reste ouverte.

Google Brain et des chercheurs de l’Université de l’Alberta ont travaillé ensemble sur cette problématique. Ils ont ajouté une mémoire de lecture-écriture externe à un LLM pour vérifier qu’il pouvait émuler n’importe quel algorithme sur n’importe quelle entrée. Leurs recherches sont résumées dans l’article “Memory Augmented Large Language Models are Computationally Universal”, qui montre comment un LLM amélioré avec une mémoire de lecture-écriture associative est computationnellement universel.

Le Flan-U-PaLM 540B a été le LLM choisi par les chercheurs. L’idée sous-jacente de la recherche est d’utiliser un ordinateur simple à instructions stockées pour relier le LLM et la mémoire associative. Cela permet aux sorties et aux instructions d’entrée qui doivent être transmises au modèle de langage d’interagir en boucle. La mémoire associative externe peut être considérée comme un dictionnaire, les paires clé-valeur étant les noms de variables/emplacements d’adresse et les valeurs. Le modèle de langage et la mémoire utilisent des correspondances d’expressions régulières pour effectuer chaque étape d’analyse.

Un “programme d’instruction” unique est ensuite développé pour diriger le système afin de simuler l’exécution d’une machine de Turing universelle après avoir établi un ordinateur à instructions stockées. En fin de compte, démontrer la fiabilité de la simulation revient à examiner un nombre limité de motifs instruction-résultat et à confirmer que le modèle de langage génère la sortie appropriée pour chaque ensemble fini de chaînes d’entrée possibles. Le fait que cette étude n’implique pas de “formation” supplémentaire du modèle de langage ou de modification de ses poids pré-entraînés est l’une des principales forces de ce travail. Au lieu de cela, la construction dépend exclusivement de la création d’un type d’ordinateur à instructions stockées qui peut ensuite être programmé avec certaines instructions.

Contrairement aux recherches antérieures dans ce domaine qui explorent l’universalité computationnelle des modèles, cette étude est distinctive. La principale différence est que les chercheurs ont montré comment l’augmentation de la mémoire externe pouvait susciter un comportement computationnel universel en utilisant un modèle de langage fixe avec des poids pré-entraînés fixes. Les résultats démontrent que les grands modèles de langage sont déjà computationnellement universels tels qu’ils existent actuellement, à condition qu’ils aient accès à une mémoire externe infinie.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Cet article AI dévoile DiffEnc Avancée des modèles de diffusion pour des performances génératives améliorées

Les modèles de diffusion sont des modèles puissants qui sont présents dans une gamme diverse de tâches de génération ...

AI

Les chercheurs de Cambridge développent l'incertitude dans les systèmes d'apprentissage automatique

Dans un monde d’incertitudes humaines, embrasser l’incertitude pourrait aider les machines et les humains...

AI

Annonce de la personnalisation de Rekogniton Moderation Améliorez la précision des modèles pré-entraînés de modération Rekognition avec vos données

Les entreprises ont de plus en plus recours aux images et vidéos générées par les utilisateurs pour améliorer l'engag...

AI

Cet article IA propose FACTORCL une nouvelle méthode d'apprentissage de la représentation multimodale pour aller au-delà de la redondance multi-vue.

L’un des principaux paradigmes de l’apprentissage automatique est l’apprentissage de représentation...

AI

Comment OpenAI utilise GPT-4 pour une modération de contenu plus intelligente

OpenAI, un pionnier de l’intelligence artificielle, a dévoilé une méthode innovante pour exploiter la puissance...