Un pilier de RL – TD(λ) et 3 grands noms

RL - TD(λ) and 3 big names, a pillar

Comment Monte Carlo, SARSA et Q-learning peuvent être dérivés de TD(λ)

Photo de Loïc Barré sur Unsplash

Les fondamentaux sont très importants. Avant de plonger dans les algorithmes modernes de l’apprentissage par renforcement (RL), il est essentiel de comprendre les principes fondamentaux sur lesquels ils sont construits.

Dans le domaine du RL, cela signifie que nous devons apprécier le concept de l’apprentissage par différence temporelle (TD), qui se généralise à TD(λ). En utilisant une seule base de code avec seulement quelques lignes, je vais montrer comment une forme généralisée d’un problème classique de RL peut être résolue via

  1. Monte Carlo,
  2. SARSA,
  3. Q-learning, et
  4. TD(λ) avec 0 < λ < 1.

Les résultats sont présentés sous forme de gifs, en utilisant des fonctions utilitaires que vous pouvez facilement réutiliser. En guise d’amorce, vous serez en mesure de générer vous-même les éléments suivants à la fin de cet article !

Notre agent (représenté par un visage souriant 😃) commence à la grille bleue et essaie d’atteindre la grille jaune. La grille rouge conduit à une récompense négative importante et termine l’épisode, tandis que la grille orange entraîne une certaine pénalité mais n’est pas un état terminal. L’environnement est venteux et, pour compliquer les choses, l’agent peut se déplacer dans une direction différente en raison d’une transition stochastique. C’est pourquoi le mouvement peut différer de la politique (indiquée par les flèches). Remarquez que la politique peut sembler contre-intuitive à première vue. Je vous assure qu’elle est correcte, en raison de la façon dont l’environnement est défini !

Des connaissances de base en RL sont supposées ici, bien que je résume brièvement les concepts clés afin que le contenu soit accessible aux praticiens d’autres domaines de l’apprentissage automatique également.

Le Grand Tableau

Objectif Principal du RL

À sa base, le RL consiste à apprendre à prendre une séquence d’actions qui maximisent les récompenses cumulatives totales attendues. Il tient compte des conséquences différées, y compris des limitations sur l’ensemble des actions disponibles dans différents états.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Découvrez Auto-GPT une application expérimentale open-source montrant la puissance des LLMs comme GPT-4 pour développer et gérer de manière autonome différents types de tâches.

Toran Bruce Richards, fondateur de Significant Gravitas, avec un groupe de développeurs, explore ce qui pourrait être...

AI

Développer un chatbot personnalisé avec OpenAI

Introduction Les chatbots, qui offrent un support automatisé et des expériences individualisées, ont révolutionné la ...

AI

Google AI présente CHITA Une approche basée sur l'optimisation pour élaguer des réseaux neuronaux pré-entraînés à grande échelle

Les résultats des réseaux neuronaux d’aujourd’hui dans des domaines aussi divers que le langage, les math...

AI

Commencer avec LlaMA 2 | Le nouvel IA génératif de Meta

Introduction Avec la sortie de GPT d’OpenAI, de nombreuses entreprises se sont lancées dans la course pour crée...

AI

Deep Learning Démystifié Démêler les Secrets de l'Architecture CNN avec l'Ensemble de Données CIFAR-10

Dans le monde en constante évolution de l'intelligence artificielle, les Réseaux de Neurones Convolutifs (CNN) ont ém...