Cette recherche en intelligence artificielle confirme que les modèles de langage basés sur les transformateurs sont universellement computationnels lorsqu’ils sont augmentés avec une mémoire externe.
This AI research confirms that transformer-based language models are universally computational when augmented with external memory.
Les résultats remarquables obtenus par les modèles basés sur les transformateurs tels que GPT-2 et GPT-3 ont gravité la communauté de recherche vers l’exploration de grands modèles de langage (LLM). De plus, le succès et la popularité récents de ChatGPT n’ont fait qu’accroître l’intérêt des gens pour les LLM. L’apprentissage en contexte et la sollicitation de la chaîne de pensée sont deux autres découvertes majeures qui ont considérablement amélioré l’exactitude des modèles. Ces découvertes vont au-delà de la simple réponse aux questions, où une instruction d’entrée contenant une question est utilisée pour produire une réponse raisonnable.
Bien que ces tactiques de sollicitation aient été efficaces pour améliorer les performances, les LLM actuels basés sur les transformateurs ne peuvent se conditionner que sur une longueur fixe de chaîne d’entrée, ce qui limite les calculs qu’ils peuvent représenter. On peut également comprendre cela comme tout modèle de langage déterministe qui repose sur des chaînes de longueur finie est limité computationnellement, car le modèle est équivalent à un automate fini. Pour contrer cela, les chercheurs ont étudié la possibilité d’ajouter une boucle de rétroaction externe aux LLM, où les sorties du modèle sont fournies en tant qu’entrées après un certain post-traitement. Cependant, la question de savoir si cette méthode élargit considérablement l’ensemble des calculs d’un modèle reste ouverte.
Google Brain et des chercheurs de l’Université de l’Alberta ont travaillé ensemble sur cette problématique. Ils ont ajouté une mémoire de lecture-écriture externe à un LLM pour vérifier qu’il pouvait émuler n’importe quel algorithme sur n’importe quelle entrée. Leurs recherches sont résumées dans l’article “Memory Augmented Large Language Models are Computationally Universal”, qui montre comment un LLM amélioré avec une mémoire de lecture-écriture associative est computationnellement universel.
- Les chercheurs de Stanford présentent Parsel un cadre d’intelligence artificielle (IA) qui permet la mise en œuvre et la validation automatiques d’algorithmes complexes avec des modèles de langage de grande taille (LLMs).
- Une nouvelle approche de recherche en intelligence artificielle (IA) présente l’apprentissage basé sur les prompts dans le contexte comme un problème d’apprentissage algorithmique d’un point de vue statistique.
- Groupe de recherche Eleuther AI démontre comment le Guidage sans classificateur (CFG) peut être utilisé avec LLMs
Le Flan-U-PaLM 540B a été le LLM choisi par les chercheurs. L’idée sous-jacente de la recherche est d’utiliser un ordinateur simple à instructions stockées pour relier le LLM et la mémoire associative. Cela permet aux sorties et aux instructions d’entrée qui doivent être transmises au modèle de langage d’interagir en boucle. La mémoire associative externe peut être considérée comme un dictionnaire, les paires clé-valeur étant les noms de variables/emplacements d’adresse et les valeurs. Le modèle de langage et la mémoire utilisent des correspondances d’expressions régulières pour effectuer chaque étape d’analyse.
Un “programme d’instruction” unique est ensuite développé pour diriger le système afin de simuler l’exécution d’une machine de Turing universelle après avoir établi un ordinateur à instructions stockées. En fin de compte, démontrer la fiabilité de la simulation revient à examiner un nombre limité de motifs instruction-résultat et à confirmer que le modèle de langage génère la sortie appropriée pour chaque ensemble fini de chaînes d’entrée possibles. Le fait que cette étude n’implique pas de “formation” supplémentaire du modèle de langage ou de modification de ses poids pré-entraînés est l’une des principales forces de ce travail. Au lieu de cela, la construction dépend exclusivement de la création d’un type d’ordinateur à instructions stockées qui peut ensuite être programmé avec certaines instructions.
Contrairement aux recherches antérieures dans ce domaine qui explorent l’universalité computationnelle des modèles, cette étude est distinctive. La principale différence est que les chercheurs ont montré comment l’augmentation de la mémoire externe pouvait susciter un comportement computationnel universel en utilisant un modèle de langage fixe avec des poids pré-entraînés fixes. Les résultats démontrent que les grands modèles de langage sont déjà computationnellement universels tels qu’ils existent actuellement, à condition qu’ils aient accès à une mémoire externe infinie.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Des chercheurs de l’Université de Binghamton présentent un système d’anonymisation renforçant la confidentialité (My Face, My Choice) pour permettre à chacun de garder le contrôle sur son visage dans les réseaux sociaux de partage de photos.
- Les chercheurs de la CMU présentent FROMAGe un modèle d’IA qui permet de démarrer efficacement des modèles de langage figés (LLMs) pour générer du texte libre entrelacé avec des images.
- L’application ChatGPT d’OpenAI introduit une fonctionnalité de navigation avec l’intégration de Bing.
- Des chercheurs de l’ETH Zurich et de Max Planck proposent HOOD une nouvelle méthode qui exploite les réseaux neuronaux graphiques, le passage de messages multi-niveaux et l’apprentissage non supervisé pour permettre une prédiction efficace de la dynamique réaliste des vêtements.
- Les chercheurs réalisent un bond en avant dans l’informatique quantique avec une torsion magnétique.
- Des chercheurs du MIT introduisent l’échantillonnage de redémarrage pour améliorer les processus génératifs.
- Les 10 influenceurs de l’IA à suivre en 2023