Un agent généraliste
Un agent généraliste
:
Inspiré par les progrès réalisés dans la modélisation du langage à grande échelle, nous appliquons une approche similaire à la construction d’un agent généraliste unique au-delà du domaine des sorties textuelles. L’agent, que nous appelons Gato, fonctionne comme une politique généraliste multimodale, multitâche et multi-incarnation. Le même réseau avec les mêmes poids peut jouer à Atari, légender des images, discuter, empiler des blocs avec un bras robotique réel et bien plus encore, en décidant en fonction de son contexte de produire du texte, des couples de forces, des pressions de bouton ou d’autres jetons.
Pendant la phase d’entraînement de Gato, les données provenant de différentes tâches et modalités sont sérialisées en une séquence plate de jetons, regroupées et traitées par un réseau de neurones transformateur similaire à un modèle de langue étendu. La perte est masquée de sorte que Gato ne prédise que les actions et les cibles textuelles.
- Comportement émergent de troc dans l’apprentissage par renforcement multi-agent
- Des compétitions LEGO au laboratoire de robotique de DeepMind
- Open-sourcing MuJoCo
Lors du déploiement de Gato, une invitation, comme une démonstration, est tokenisée, formant la séquence initiale. Ensuite, l’environnement génère la première observation, qui est également tokenisée et ajoutée à la séquence. Gato échantillonne le vecteur d’action de manière autorégressive, un jeton à la fois.
Une fois que tous les jetons composant le vecteur d’action ont été échantillonnés (déterminé par la spécification d’action de l’environnement), l’action est décodée et envoyée à l’environnement qui effectue une étape et génère une nouvelle observation. Ensuite, la procédure se répète. Le modèle voit toujours toutes les observations et actions précédentes dans sa fenêtre contextuelle de 1024 jetons.
Gato est formé sur un grand nombre d’ensembles de données comprenant l’expérience de l’agent à la fois dans des environnements simulés et réels, en plus d’une variété de jeux de données de langage naturel et d’images. Le nombre de tâches, où les performances du modèle Gato pré-entraîné sont supérieures à un pourcentage du score d’expert, regroupé par domaine, est montré ici.
Les images suivantes montrent également comment le modèle Gato pré-entraîné avec les mêmes poids peut réaliser des légendes d’images, s’engager dans un dialogue interactif et contrôler un bras robotique, entre autres tâches.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Créer une culture de pionnier responsable
- Compréhension dynamique du langage adaptation aux nouvelles connaissances dans les modèles paramétriques et semi-paramétriques
- Kyrgyzstan à King’s Cross le boulanger étoile qui cuisine du code
- Évaluation des agents interactifs multimodaux
- Promouvoir la communauté LGBTQ+ dans la recherche en IA
- Relier les recherches de DeepMind aux produits d’Alphabet
- Déverrouillage d’une classification d’image différentiellement privée de haute précision grâce à l’échelle