Résumé
Les méthodes classiques d’apprentissage par renforcement ne sont pas applicables aux pro-
blèmes de grande taille car elles impliquent l’énumération d’un trop grand nombre d’états. Les
Processus de Décision Markovien Factorisés (FMDPs) permettent de représenter de tels problèmes
de façon plus compacte en spécifiant leur structure. Des méthodes de planification, basées sur la
programmation dynamique ou la programmation linéaire et adaptées au cadre des FMDPs, ont été
proposées et obtiennent de bons résultats, même lorsque le nombre d’états est très grand. Cepen-
dant, la mise en oeuvre de ces méthodes nécessite que la structure soit spécifiée manuellement a
priori.
Cette thèse étudie l’apprentissage automatique de la structure d’un problème d’apprentissage
par renforcement représenté sous la forme d’un FMDP. À partir de l’expérience d’un agent dans
son environnement, nous proposons d’utiliser des techniques d’apprentissage supervisé, en parti-
culier l’induction d’arbres de décision, pour construire une représentation compacte du problème.
Une fois le problème représenté, nous montrons qu’il est possible de réutiliser les méthodes de
planification adaptées au cadre des FMDPs pour obtenir une solution efficace à celui-ci.
Nous proposons une étude empirique de cette approche en la mettant en oeuvre sur plusieurs
problèmes stochastiques de grande taille classiques dans la littérature des FMDPs. Sur l’ensemble
des tests étudiés, dans le cadre d’un apprentissage hors ligne puis en ligne, nous montrons que notre
approche possède les capacités de généralisation et d’agrégation nécessaires lorsque le nombre
d’états possibles est très grand. De plus, en appliquant nos outils au contrôle d’un personnage non
joueur dans le jeu vidéo Counter-Strike c
, nous montrons que les représentations construites par
l’apprentissage peuvent être lisibles et manipulables par un opérateur humain.
Mots-clés : apprentissage par renforcement, induction d’arbres de décision, processus de décision
markovien factorisé, jeu vidéo, exploration dirigée