Apprentissage par renforcement continu pour
la navigation dans les jeux vidéo : approche
case-based ou instance-based?
Thierry Gourdin et Olivier Sigaud
LIP6/AnimatLab
8 rue du Capitaine Scott
75015 PARIS
RÉSUMÉ. Dans cette contribution, nous nous intéressons au domaine de l’apprentissage par
renforcement à état continu. Plus précisément, nous comparons une approche « case-based »,
proposée par Santamaria, Sutton et Ram et une approche « instance-based » proposée par Smart
et Kaelbling. Nos résultats sur le problème Mountain-Car montrent que la première approche
converge plus vite que la seconde, ce qui répond à nos attentes pour appliquer ce type de
techniques à des problèmes de navigation dans les jeux vidéo.
ABSTRACT. In this paper, we compare the case-based approach from Santamaria, Sutton and
Ram and the instance-based approach from Smart and Kaelbling to the problem of continuous
state and action reinforcement learning. Our results on the Mountain-Car problem show that
the first approach converges faster than the second, which makes it more attractive in the context
of navigation problems for video games.
MOTS-CLÉS : A/R continu, approches fondées sur la mémoire
KEYWORDS: Continuous RL, memory-based approaches
PDMIA. Volume 2005 - n1/1, pages 1 à 3
2 PDMIA. Volume 2005 - n1/1
1. Introduction
Nous nous intéressons au domaine de l’apprentissage par renforcement continu
pour résoudre des problèmes de navigation dans les jeux vidéo. Dans ce domaine, le
problème central consiste à approximer une fonction de valeur sur un espace d’états
continu à partir d’expériences discrètes. On distingue classiquement les approches
globales, telles que les réseaux de neurones ou des méthodes de régression linéaires,
dans lesquelles la modification d’un paramètre a des répercussions sur la fonction de
valeur en tout point de l’espace des états, et les approches locales, dans lesquelles ce
n’est pas le cas. Parmi les approches locales, on distingue les approches fondées sur
une discrétisation incrémentale de l’espace des états et/ou des actions qui découpent
cet espace en zones régulières [MOO 94, MUN 01], et les approches « fondées sur
la mémoire » (memory-based) qui interpolent directement la fonction de valeur en
tout point à partir des états/actions déjà rencontrés par l’agent [ATK 91]. Dans cette
seconde famille d’approches, on distingue encore une approche « case-based » qui
applique des traitements distincts aux états et aux actions et une approche « instance-
based » qui travaille dans un unique espace regroupant états et actions.
Dans le cadre de cette contribution, nous comparons une approche « case-based »,
proposée par Santamaria, Sutton et Ram [SAN 97] et une approche « instance-based »
proposée par Smart et Kaelbling [SMA 00], sur le problème Mountain-Car.
2. Description de l’approche case-based
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 1 2 3 4 5
exp(-x*x)
influence
distance
C6
C4
C1
C3
C5
Cas actifs
Dimension 2
Dimension 1
C2
(état, action) courant
Figure 1. Illustration du fonctionnement de l’approche case-based sur un exemple à
deux dimensions (d’après [SAN 97]).
Les états précédents rencontrés par l’agent sont appelés des « cas ». Sur la fi-
gure 1, les points C1 à C6 désignent des cas précédemment enregistrés par l’agent.
L’algorithme stocke des informations sur la qualité des actions associées à ces cas.
Il n’ajoute de nouveaux cas que si la distance au cas le plus proche est supérieure à
A/R continu memory-based 3
un seuil. Lorsque l’agent se trouve dans l’état courant et réalise l’action courante, les
informations stockées dans les cas les plus proches (ici, C1, C3 et C4) sont mobili-
sées pour interpoler la valeur de l’action. La contribution de chaque cas à ce calcul
est modulé par une fonction à noyau (apparaissant sur la partie gauche de la figure)
de la distance à l’état courant. Le même calcul d’influence est effectué entre l’action
courante et les actions stockées dans les différents cas qui participent au calcul. Pour
plus de détails, voir [SAN 97].
3. Le problème Mountain-Car
Le problèmeMountain-Carest un benchmarkclassique pourl’évaluationdes algo-
rithmes d’apprentissage par renforcement dans le cas continu. Il s’agit d’un problème
dans lequel il faut amener un véhicule placé initialement dans une vallée entre deux
collines en haut de la colline de droite avec la vitesse la plus faible possible. On dis-
pose de trois actions : accélérer, freiner ou ne rien faire. Il existe des variantes dans
la dynamique et la définition de la fonction de récompense dénommées Mountain-
Car et Car-on-the-Hill. Nous utilisons ici la version de Mountain-Car proposée dans
[SMA 00].
Smart et Kaelbling indiquent que la performance optimale sur ce problème est de
l’ordre d’une moyenne de 56 pas de temps pour rejoindre l’objectif à partir de 2500
positions initiales.
4. Résultats expérimentaux
La figure 2 fait apparaître le nombremoyen de pas de temps pouratteindre l’objec-
tif à partir de 2500 situations initiales en utilisant l’algorithme HEDGER de Smart et
Kaelbling et notre version de l’algorithme case-based de Santamaria, Sutton et Ram 1.
5. Discussion
On constate que, sans optimisation spécifique, l’algorithme case-based de Santa-
maria, Sutton et Ram converge beaucoup plus rapidement que l’algorithme HEDGER
de Smart et Kaelbling, et vers une meilleure performance.
Dans [SMA 00], les auteurs proposent diverses optimisations qui améliorent sen-
siblement la performance de leur approche vis-à-vis de ce qui apparaît sur la figure 2,
si bien qu’on peut sans doute atteindre une performance meilleure avec HEDGER, à
condition d’y ajouter des optimisations coûteuses en temps de calcul.
1. la courbe de l’algorithme de Smart et Kaelbling est reproduite approximativement d’après
[SMA 00] sans reproduire les résultats expérimentaux.
4 PDMIA. Volume 2005 - n1/1
0
50
100
150
200
0 50000 100000 150000 200000
Temps moyen de parcours au but
Pas d’apprentissage
Case-Based
Instance-Based
Figure 2. Performances comparées des approches case-based et instance-based sur le
problème du Mountain-Car
Nous avons dit en introductionde cette contribution quenous envisageons d’appli-
quer des algorithmes d’apprentissage par renforcementà état continu à des problèmes
de navigation dans les jeuxvidéo, quisont des problèmeshautement non-stationnaires.
Dans un tel contexte, une convergencerapide vers une politique éventuellement sous-
optimale nous semble préférable à une convergence plus lente vers une politique éven-
tuellement meilleure, car la dynamicité de l’environnement ne laisserait pas à l’algo-
rithme le plus lent le temps de s’adapterà l’évolution de la situationcourante. En l’ab-
sence d’optimisations coûteuses, nos résultats expérimentaux valident donc le choix
d’une approche case-based de préférence à une approche instance-based.
6. Travaux futurs
Nos expériences sur le problème Mountain-Car montrent que les écarts de valeur
entre les différentes actions possibles sont généralement extrêmement faibles, ce qui
nous incite à vouloir intégrer dans notre algorithme la méthode d’advantage learning
proposée par Baird [BAI 94, HAR 95] pour remédier à ce type de problèmes.
Ensuite, notre version de l’algorithme case-based de Santamaria, Sutton et Ram
est capable detraiter des problèmesdans lesquels l’action est continue,mais la compa-
raison que nous avons effectuée ici fait seulement appel à trois actions discrètes. Avant
de pouvoir appliquer cet algorithme à des problèmes de navigation dans les jeux vi-
déo, il nous reste à vérifier sa validité dans le cas où l’action prend effectivement des
valeurs continues.
A/R continu memory-based 5
A terme, nous étendrons notre algorithme dans un cadre multi-critères, afin de
gérer efficacement les divers types de récompenses et punitions qu’un agent plongé
dans un jeu vidéo est susceptible de recevoir de son environnement.
7. Conclusion
Dans cette contribution, nous avons appliqué l’algorithme case-based de Santa-
maria, Sutton et Ram au problème Mountain-Car, et nous avons comparé ses perfor-
mances à l’algorithme instance-based de Smart et Kaelbling.
Nos résultats ont montré que le premier convergeait plus vite que le second, ce
qui répond à nos attentes pour appliquer ce type de techniques à des problèmes de
navigation dans les jeux vidéo.
8. Bibliographie
[ATK 91] ATKESON C. G., « Memory-Based Control Learning », Proceedings of the 1991
American Control Conference, New York, NY, 1991.
[BAI 94] BAIRD L. C., « Reinforcement Learning in Continuous Time : Advantage Upda-
ting », Proceedings of the International Conference on Neural Networks, Orlando, FL,
1994.
[HAR 95] HARMON M. E., BAIRD L. C., « Residual Advantage Learning Applied to a Dif-
ferential Game », Proceedings of the International Conference on Neural Networks, Wa-
shington, D.C., 1995.
[MOO 94] MOORE A. W., « The Parti-Game Algorithm for Variable Resolution Reinforce-
ment Learning in Multidimensional State-Spaces », HANSON S. J., COWAN J. D., GILES
C. L., Eds., Advances in neural information processing systems, Morgan Kaufmann, San
Mateo, CA, 1994.
[MUN 01] MUNOS R., MOORE A., « Variable Resolution Discretization in Optimal Control »,
Machine Learning, vol. 49, 2001, p. 291-323.
[SAN 97] SANTAMARIA J.-C., SUTTON R., RAM A., « Experiments with Reinforcement
Learning in Problems with Continuous State and Action Spaces », Adaptive Behavior,
vol. 6, no2, 1997, p. 163–218.
[SMA 00] SMART W. D., KAELBLING L. P., « Practical Reinforcement Learning in Conti-
nuous Spaces », 17th International Conference on Machine Learning, 2000.
1 / 5 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !