BYOL-Explore Exploration avec Prédiction Bootstrap

BYOL-Explore est une méthode d'exploration avec prédiction bootstrap.

Vues à la deuxième personne et en perspective d'un agent BYOL-Explore résolvant le niveau Thow-Across de DM-HARD-8, tandis que l'apprentissage par renforcement pur et d'autres méthodes d'exploration de référence échouent à progresser sur Thow-Across.

L’exploration axée sur la curiosité est le processus actif de recherche de nouvelles informations pour améliorer la compréhension de l’environnement de l’agent. Supposons que l’agent ait appris un modèle du monde capable de prédire les événements futurs en fonction de l’historique des événements passés. L’agent axé sur la curiosité peut alors utiliser l’écart de prédiction du modèle du monde comme récompense intrinsèque pour orienter sa politique d’exploration vers la recherche de nouvelles informations. Ensuite, l’agent peut utiliser ces nouvelles informations pour améliorer le modèle du monde lui-même afin qu’il puisse faire de meilleures prédictions. Ce processus itératif permet à l’agent d’explorer chaque nouveauté dans le monde et d’utiliser ces informations pour construire un modèle du monde précis.

S’inspirant des succès de “bootstrap your own latent” (BYOL) – qui a été appliqué à la vision par ordinateur, à l’apprentissage de représentations graphiques et à l’apprentissage de représentations en apprentissage par renforcement – nous proposons BYOL-Explore : un agent d’IA axé sur la curiosité, conceptuellement simple mais général, pour résoudre des tâches d’exploration difficiles. BYOL-Explore apprend une représentation du monde en prédisant sa propre représentation future. Ensuite, il utilise l’erreur de prédiction au niveau de la représentation comme récompense intrinsèque pour former une politique axée sur la curiosité. Par conséquent, BYOL-Explore apprend une représentation du monde, la dynamique du monde et une politique d’exploration axée sur la curiosité en optimisant simplement l’erreur de prédiction au niveau de la représentation.

Comparaison entre BYOL-Explore, Random Network Distillation (RND), Intrinsic Curiosity Module (ICM) et RL pur (sans récompense intrinsèque), en termes de score moyen normalisé par rapport à l'humain (CHNS).

Malgré la simplicité de sa conception, lorsqu’il est appliqué à la suite de tâches d’exploration difficiles DM-HARD-8, qui sont en 3D, visuellement complexes et nécessitent une exploration approfondie, BYOL-Explore surpasse les méthodes d’exploration axées sur la curiosité standard telles que Random Network Distillation (RND) et Intrinsic Curiosity Module (ICM), en termes de score moyen normalisé par rapport à l’humain (CHNS), mesuré pour l’ensemble des tâches. De manière remarquable, BYOL-Explore a atteint cette performance en utilisant uniquement un seul réseau formé simultanément sur toutes les tâches, tandis que les travaux antérieurs étaient limités au cadre d’une seule tâche et ne pouvaient progresser de manière significative sur ces tâches que lorsqu’ils étaient fournis avec les démonstrations d’experts humains.

En tant que preuve supplémentaire de sa généralité, BYOL-Explore atteint des performances supérieures à celles de l’humain dans les dix jeux Atari d’exploration les plus difficiles, tout en ayant une conception plus simple que d’autres agents concurrents, tels que Agent57 et Go-Explore.

Comparaison entre BYOL-Explore, Random Network Distillation (RND), Intrinsic Curiosity Module (ICM) et RL pur (sans récompense intrinsèque), en termes de score moyen normalisé par rapport à l'humain (CHNS).

Allant de l’avant, nous pouvons généraliser BYOL-Explore à des environnements hautement stochastiques en apprenant un modèle probabiliste du monde qui pourrait être utilisé pour générer des trajectoires des événements futurs. Cela permettrait à l’agent de modéliser la stochasticité possible de l’environnement, d’éviter les pièges stochastiques et de planifier l’exploration.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

L'état de la diffusion de données pour la vente au détail en 2023

L'état de la diffusion en continu des données dans le commerce de détail, y compris le commerce omnicanal, les achats...

AI

Une taxonomie du traitement du langage naturel

Un aperçu des différents domaines d'étude et des développements récents en TAL (Traitement Automatique du Langage nat...

Actualités sur l'IA

Google soutient la création de cliniques de cybersécurité avec un don de 20 millions de dollars.

Le PDG de Google, Sundar Pichai, s'est engagé à verser 20 millions de dollars pour soutenir et développer le Consorti...

AI

Algorithme de détection et de mouvement pour les robots

Des chercheurs de l'Université de Californie à Los Angeles ont formulé un algorithme qui améliore les capacités de na...

AI

L'ancien PDG de Google donne du pouvoir à l'armée américaine avec l'IA et le Metaverse

L’avenir de l’armée américaine s’apprête à connaître une transformation révolutionnaire. Le changem...

AI

Les branches sont tout ce dont vous avez besoin notre cadre de versionnement ML plein d'opinions

Une approche simple pour le versionnement des projets ML en utilisant les branches Git qui simplifie les flux de trav...