Un pilier de RL – TD(λ) et 3 grands noms
RL - TD(λ) and 3 big names, a pillar
Comment Monte Carlo, SARSA et Q-learning peuvent être dérivés de TD(λ)
Les fondamentaux sont très importants. Avant de plonger dans les algorithmes modernes de l’apprentissage par renforcement (RL), il est essentiel de comprendre les principes fondamentaux sur lesquels ils sont construits.
Dans le domaine du RL, cela signifie que nous devons apprécier le concept de l’apprentissage par différence temporelle (TD), qui se généralise à TD(λ). En utilisant une seule base de code avec seulement quelques lignes, je vais montrer comment une forme généralisée d’un problème classique de RL peut être résolue via
- Monte Carlo,
- SARSA,
- Q-learning, et
- TD(λ) avec 0 < λ < 1.
Les résultats sont présentés sous forme de gifs, en utilisant des fonctions utilitaires que vous pouvez facilement réutiliser. En guise d’amorce, vous serez en mesure de générer vous-même les éléments suivants à la fin de cet article !
Notre agent (représenté par un visage souriant 😃) commence à la grille bleue et essaie d’atteindre la grille jaune. La grille rouge conduit à une récompense négative importante et termine l’épisode, tandis que la grille orange entraîne une certaine pénalité mais n’est pas un état terminal. L’environnement est venteux et, pour compliquer les choses, l’agent peut se déplacer dans une direction différente en raison d’une transition stochastique. C’est pourquoi le mouvement peut différer de la politique (indiquée par les flèches). Remarquez que la politique peut sembler contre-intuitive à première vue. Je vous assure qu’elle est correcte, en raison de la façon dont l’environnement est défini !
- Aperçu des algorithmes de tri Tri fusion
- Aperçu des algorithmes de tri Tri par tas
- Vue d’ensemble des algorithmes de tri Quicksort
Des connaissances de base en RL sont supposées ici, bien que je résume brièvement les concepts clés afin que le contenu soit accessible aux praticiens d’autres domaines de l’apprentissage automatique également.
Le Grand Tableau
Objectif Principal du RL
À sa base, le RL consiste à apprendre à prendre une séquence d’actions qui maximisent les récompenses cumulatives totales attendues. Il tient compte des conséquences différées, y compris des limitations sur l’ensemble des actions disponibles dans différents états.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Le Guide Ultime pour Entraîner BERT à partir de Zéro Préparer le Jeu de Données
- Comment évaluer les représentations
- Représentation du chemin en Python
- Pratiques recommandées en traçage distribué
- Régression linéaire à partir de zéro avec NumPy
- Les 5 meilleurs outils d’IA pour maximiser la productivité
- Utilisation de la ROC pour les dessins techniques complexes