BYOL-Explore Exploration avec Prédiction Bootstrap
BYOL-Explore est une méthode d'exploration avec prédiction bootstrap.

L’exploration axée sur la curiosité est le processus actif de recherche de nouvelles informations pour améliorer la compréhension de l’environnement de l’agent. Supposons que l’agent ait appris un modèle du monde capable de prédire les événements futurs en fonction de l’historique des événements passés. L’agent axé sur la curiosité peut alors utiliser l’écart de prédiction du modèle du monde comme récompense intrinsèque pour orienter sa politique d’exploration vers la recherche de nouvelles informations. Ensuite, l’agent peut utiliser ces nouvelles informations pour améliorer le modèle du monde lui-même afin qu’il puisse faire de meilleures prédictions. Ce processus itératif permet à l’agent d’explorer chaque nouveauté dans le monde et d’utiliser ces informations pour construire un modèle du monde précis.
S’inspirant des succès de “bootstrap your own latent” (BYOL) – qui a été appliqué à la vision par ordinateur, à l’apprentissage de représentations graphiques et à l’apprentissage de représentations en apprentissage par renforcement – nous proposons BYOL-Explore : un agent d’IA axé sur la curiosité, conceptuellement simple mais général, pour résoudre des tâches d’exploration difficiles. BYOL-Explore apprend une représentation du monde en prédisant sa propre représentation future. Ensuite, il utilise l’erreur de prédiction au niveau de la représentation comme récompense intrinsèque pour former une politique axée sur la curiosité. Par conséquent, BYOL-Explore apprend une représentation du monde, la dynamique du monde et une politique d’exploration axée sur la curiosité en optimisant simplement l’erreur de prédiction au niveau de la représentation.

Malgré la simplicité de sa conception, lorsqu’il est appliqué à la suite de tâches d’exploration difficiles DM-HARD-8, qui sont en 3D, visuellement complexes et nécessitent une exploration approfondie, BYOL-Explore surpasse les méthodes d’exploration axées sur la curiosité standard telles que Random Network Distillation (RND) et Intrinsic Curiosity Module (ICM), en termes de score moyen normalisé par rapport à l’humain (CHNS), mesuré pour l’ensemble des tâches. De manière remarquable, BYOL-Explore a atteint cette performance en utilisant uniquement un seul réseau formé simultanément sur toutes les tâches, tandis que les travaux antérieurs étaient limités au cadre d’une seule tâche et ne pouvaient progresser de manière significative sur ces tâches que lorsqu’ils étaient fournis avec les démonstrations d’experts humains.
- Mener un mouvement visant à renforcer l’apprentissage automatique en Afrique
- Conception de mécanisme centrée sur l’humain avec une IA démocratique
- Apprentissage de la physique intuitive dans un modèle d’apprentissage profond inspiré de la psychologie du développement
En tant que preuve supplémentaire de sa généralité, BYOL-Explore atteint des performances supérieures à celles de l’humain dans les dix jeux Atari d’exploration les plus difficiles, tout en ayant une conception plus simple que d’autres agents concurrents, tels que Agent57 et Go-Explore.

Allant de l’avant, nous pouvons généraliser BYOL-Explore à des environnements hautement stochastiques en apprenant un modèle probabiliste du monde qui pourrait être utilisé pour générer des trajectoires des événements futurs. Cela permettrait à l’agent de modéliser la stochasticité possible de l’environnement, d’éviter les pièges stochastiques et de planifier l’exploration.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Travailler en collaboration avec YouTube
- Les dernières recherches de DeepMind à ICML 2022
- Perceiver AR génération autoregressive à long contexte polyvalente
- Le cercle vertueux de la recherche en IA
- AlphaFold révèle la structure de l’univers des protéines
- Découverte de la présence d’un agent dans un système
- Faire progresser la conservation avec la reconnaissance faciale basée sur l’IA des tortues