Un agent généraliste

Un agent généraliste

:

Inspiré par les progrès réalisés dans la modélisation du langage à grande échelle, nous appliquons une approche similaire à la construction d’un agent généraliste unique au-delà du domaine des sorties textuelles. L’agent, que nous appelons Gato, fonctionne comme une politique généraliste multimodale, multitâche et multi-incarnation. Le même réseau avec les mêmes poids peut jouer à Atari, légender des images, discuter, empiler des blocs avec un bras robotique réel et bien plus encore, en décidant en fonction de son contexte de produire du texte, des couples de forces, des pressions de bouton ou d’autres jetons.

Pendant la phase d’entraînement de Gato, les données provenant de différentes tâches et modalités sont sérialisées en une séquence plate de jetons, regroupées et traitées par un réseau de neurones transformateur similaire à un modèle de langue étendu. La perte est masquée de sorte que Gato ne prédise que les actions et les cibles textuelles.

Lors du déploiement de Gato, une invitation, comme une démonstration, est tokenisée, formant la séquence initiale. Ensuite, l’environnement génère la première observation, qui est également tokenisée et ajoutée à la séquence. Gato échantillonne le vecteur d’action de manière autorégressive, un jeton à la fois.

Une fois que tous les jetons composant le vecteur d’action ont été échantillonnés (déterminé par la spécification d’action de l’environnement), l’action est décodée et envoyée à l’environnement qui effectue une étape et génère une nouvelle observation. Ensuite, la procédure se répète. Le modèle voit toujours toutes les observations et actions précédentes dans sa fenêtre contextuelle de 1024 jetons.

Gato est formé sur un grand nombre d’ensembles de données comprenant l’expérience de l’agent à la fois dans des environnements simulés et réels, en plus d’une variété de jeux de données de langage naturel et d’images. Le nombre de tâches, où les performances du modèle Gato pré-entraîné sont supérieures à un pourcentage du score d’expert, regroupé par domaine, est montré ici.

Les images suivantes montrent également comment le modèle Gato pré-entraîné avec les mêmes poids peut réaliser des légendes d’images, s’engager dans un dialogue interactif et contrôler un bras robotique, entre autres tâches.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

MLOps couvrant tout le cycle de vie de l'apprentissage automatique Résumé de l'article

Cet article sur l’IA propose un examen approfondi du domaine du MLOps. Le MLOps est une discipline émergente qu...

AI

Découvrez TinyLlama un petit modèle d'IA qui vise à pré-entraîner un modèle de lama de 1,1 milliard sur 3 billions de jetons.

Dans le paysage en constante évolution de la recherche sur les modèles de langage, la quête d’efficacité et de ...

AI

Adopter la diversité neuronale un bond en avant dans l'efficacité et les performances de l'IA

Le rôle de la diversité a été un sujet de discussion dans divers domaines, de la biologie à la sociologie. Cependant,...

AI

40+ Outils AI Cool que vous devriez vérifier (août 2023)

DeepSwap DeepSwap est un outil basé sur l’IA pour toute personne qui souhaite créer des vidéos et des images de...

Actualités sur l'IA

Nouveau modèle d'IA surpasse GPT-3 avec seulement 30 milliards de paramètres.

MosaicML, le fournisseur renommé de modèles de langage ouvert (LLMs), a récemment dévoilé ses modèles révolutionnaire...