APPRENTISSAGE PAR RENFORCEMENT
DANS LES PROCESSUS DE DÉCISION
MARKOVIENS FACTORISÉS
Thèse de Doctorat de l’Université Paris VI
Présentée par Thomas Degris
pour obtenir le grade de
Docteur de l’Université Paris VI
Spécialité : informatique
Soutenue le 26 avril 2007 devant le jury composé de :
Alain Dutech (INRIA, Vandoeuvre les Nancy) Examinateur
David Filliat (ENSTA, Paris) Examinateur
Frédérick Garcia (INRA, Toulouse) Rapporteur
Michael Littman (Rutgers University, New Jersey) Examinateur
Rémi Munos (INRIA Futurs, Lille) Rapporteur
Patrice Perny (Université Paris VI) Examinateur
Olivier Sigaud (Université Paris VI) Directeur de thèse
Résumé
Les méthodes classiques d’apprentissage par renforcement ne sont pas applicables aux pro-
blèmes de grande taille car elles impliquent l’énumération d’un trop grand nombre d’états. Les
Processus de Décision Markovien Factorisés (FMDPs) permettent de représenter de tels problèmes
de façon plus compacte en spécifiant leur structure. Des méthodes de planification, basées sur la
programmation dynamique ou la programmation linéaire et adaptées au cadre des FMDPs, ont été
proposées et obtiennent de bons résultats, même lorsque le nombre d’états est très grand. Cepen-
dant, la mise en oeuvre de ces méthodes nécessite que la structure soit spécifiée manuellement a
priori.
Cette thèse étudie l’apprentissage automatique de la structure d’un problème d’apprentissage
par renforcement représenté sous la forme d’un FMDP. À partir de l’expérience d’un agent dans
son environnement, nous proposons d’utiliser des techniques d’apprentissage supervisé, en parti-
culier l’induction d’arbres de décision, pour construire une représentation compacte du problème.
Une fois le problème représenté, nous montrons qu’il est possible de réutiliser les méthodes de
planification adaptées au cadre des FMDPs pour obtenir une solution efficace à celui-ci.
Nous proposons une étude empirique de cette approche en la mettant en oeuvre sur plusieurs
problèmes stochastiques de grande taille classiques dans la littérature des FMDPs. Sur l’ensemble
des tests étudiés, dans le cadre d’un apprentissage hors ligne puis en ligne, nous montrons que notre
approche possède les capacités de généralisation et d’agrégation nécessaires lorsque le nombre
d’états possibles est très grand. De plus, en appliquant nos outils au contrôle d’un personnage non
joueur dans le jeu vidéo Counter-Strike c
, nous montrons que les représentations construites par
l’apprentissage peuvent être lisibles et manipulables par un opérateur humain.
Mots-clés : apprentissage par renforcement, induction d’arbres de décision, processus de décision
markovien factorisé, jeu vidéo, exploration dirigée
Abstract
Classical reinforcement learning techniques are not adapted to solve large problems because
they require to explicitly enumerate the possible states in the state space. Factored Markov Deci-
sion Processes (FMDPs) are a mathematical framework exploiting the structure of the problem to
represent it compactly. Planning methods, based on dynamic programming or linear programming,
have been adapted to FMDPs and show good results, even for very large problems. However, these
methods require to manually specify the structure of the problem before to solve it.
This thesis propose to learn automatically the structure of a reinforcement learning problem
represented as a FMDP. From the experience of an agent in its environment, we propose to use
supervised learning techniques, more precisely induction of decision trees, to build a compact re-
presentation of the problem. Once the problem represented, we show that it is possible to reuse
planning methods for FMDPs to compute an efficient solution for it.
We propose an empirical study of such approach by validating it on different stochastic large
size problems taken from the FMDP literature. Both for off-line and on-line settings, we show that
our approach exhibit aggregation and generalisation properties required for problems with a large
number of states. Moreover, we show that the representations built by our approach are human
readable by applying it on the Counter-Strike c
video game.
Keywords : reinforcement learning, decision tree induction, factored markov decision processes,
video game, directed exploration
1 / 223 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !