Sujets de mini-projets pour le cours d`apprentissage par renforcement

Téléchargement

Sujets de mini-projets pour le cours

d’apprentissage par renforcement

R´emi Munos et Pierre Arnaud Coquelin

23 novembre 2006

R´esum´e

Ces trois sujets proposent trois alternatives pour tenter d’enrayer la

(fameuse) mal´ediction de la dimension, habituelle en programmation dy-

namique (complexit´e de r´esolution exponentielle avec la dimension de l’es-

pace d’´etat, voir [1]).

Le premier sujet (Direct Policy Improvement) est une m´ethode d’it´erations

sur les politiques o`u l’on ´evite d’approcher la fonction valeur. L’id´ee ´etant

que pour certains probl`emes, la fonction valeur est diﬃcile `a approcher

alors que la politique peut ˆetre simple `a repr´esenter. Dans ces cas, une re-

cherche directe de politique, qui ne consid`ere pas la fonction valeur peut

ˆetre tr`es eﬃcace. L’application trait´ee concerne des probl`emes de robo-

tique simul´ee.

Le second sujet concerne une m´ethode qui dans certains cas o`u les tran-

sitions sont r´eguli`eres permet de ”briser” la mal´ediction de la dimension,

grˆace `a l’eﬀet de ”randomisation” (le mˆeme eﬀet qui permet d’int´egrer

num´eriquement des fonctions en grande dimensions par l’utilisation de

m´ethodes de Monte-Carlo). L’application trait´ee concerne les probl`emes

de maintenance de stocks et les gestions de ﬁles d’attente (queuing sys-

tems).

Le troisi`eme sujet concerne la recherche de politique par r´esolution

d’un probl`eme dans l’arbre des s´equences d’actions possibles, avec construc-

tion de l’arbre `a chaque pas de temps. On utilisera des m´ethode de re-

cherche eﬃcace dans des arbres de grande dimension. On ´etudiera l’algo-

rithme UCT qui a fourni de bonnes performances pour la programmation

du jeu de go. L’application trait´ee concerne le contrˆole d’un proc´ed´e de

digestion ana´erobie pour la d´epollution de mati`ere organique.

Les questions propos´ees sont une aide pour vous aider `a r´eﬂ´echir et

`a bien traiter le probl`eme consid´er´e. Cependant il s’agit d’un mini-projet

o`u vous avez une certaine libert´e sur le travail demand´e. Vous pouvez

traiter une autre application que celle propos´ee si vous le jugez utile,

mais il faudra bien sˆur justiﬁer vos choix. Vous serez ´evalu´es sur la qua-

lit´e de votre travail, votre r´eﬂexion, le rapport produit (`a rendre avant

le mardi 9 Janvier 2007, par email, `a remi.[email protected] et coque-

[email protected]olytechnique.fr), ainsi que sur la soutenance qui aura lieu

le jeudi 11 janvier 2007. Si vous souhaitez davantage d’informations,

n’h´esitez pas `a nous contacter... Bon courage !

1 Sujet 1 : Direct Policy Improvement

L’id´ee est d’impl´ementer une m´ethode directe d’it´erations sur les politiques,

sans avoir besoin d’approcher la fonction valeur associ´ee aux politiques succes-

sives. En r´esum´e : On part d’une politique initiale π0. A l’´etape k, on dispose

d’une politique courante πk. Pour construire une nouvelle politique πk+1 , on

eﬀectue les ´etapes suivantes :

1. On tire des ´etats (xn)1≤n≤N(par exemple uniform´ement al´eatoirement

sur le domaine)

2. A partir de chaque ´etat (xn), on choisit successivement toutes les actions

a∈Adisponibles

3. Pour chaque ´etat (xn) action a, on ´evalue par Monte-Carlo la fonction

Q-valeur Qπk(xn, a) en lan¸cant plusieurs trajectoires en suivant la poli-

tique courante πk, et en formulant la moyenne empirique, ce qui retourne

l’estimation ˆ

Qπk(xn, a).

4. On note anl’action qui maximise les estim´es ˆ

Qπk(xn, a).

5. Les donn´ees {(xn, an)}servent de donn´ees d’apprentissage pour un algo-

rithme de classiﬁcation (utiliser votre classiﬁeur favori, SVM, plus-proches

voisins, r´eseau de neurones, ...) qui retourne ainsi une fonction qui a chaque

´etat associe une action, ce qui d´eﬁni ainsi la nouvelle politique πk+1 .

Cet algorithme est d´eﬁni dans l’article [5]. Questions propos´ees :

1. Lire l’article [5].

2. Choisir votre classiﬁeur pr´ef´er´e et impl´ementer l’algorithme sur le pendule

invers´e d´ecrit dans l’article. Repr´esenter les politiques successives et des

trajectoires suivant ces politiques.

3. Quelles sont les limitations de cette approche, en termes de complexit´e

de calcul (en fonction du nombre d’actions, du nombre d’´etats, ...), de

capacit´e d’analyse de la m´ethode, et autres aspects ?

4. Entre chaque it´eration, a t-on la propri´et´e que la performance des poli-

tiques successives s’am´eliore (ie. Vπk+1 ≥Vπk), comme cela est le cas dans

l’algorithme d’it´erations sur les valeurs habituel ? Analysez les termes d’er-

reur (dus au nombre ﬁni de points utilis´es, au nombre de simulations ﬁni,

`a la classiﬁcation imparfaite, ...)

5. Dans quels cas pensez-vous que cette m´ethode peut fonctionner eﬃcace-

ment ?

6. On veut faire une version temps continu de cet algorithme. Consid´erons

le cas d’une dynamique d´eterministe, qui s’´ecrit alors

dx(t)

dt =f(x(t), a(t))

o`u l’action suit la politique courante, ie. : a(t) = πk(x(t)).

L’int´erˆet est de ne vouloir lancer qu’une trajectoire `a partir de chaque

point xn, au lieu d’en lancer une par action. Ainsi, on remplace les ´etapes

3 et 4 de l’algorithme pr´ec´edent par : on lance, `a partir de chaque xnune

trajectoire suivant la politique courante πk. Le long de cette trajectoire,

on calcule le gradient de la fonction valeur par rapport `a l’´etat initial, ie.

pour un probl`eme `a horizon temporel inﬁni et `a r´ecompense actualis´ee,

∇Vπk(xn) = Z∞

γtr′(x(t))∇x(t)dt

o`u (x(t))t≥0est la trajectoire issue de l’´etat xn`a l’instant t,r′est la d´eriv´ee

de la fonction r´ecompense r, et ∇x(t) est la sensibilit´e de l’´etat x(t) par

rapport `a la condition initiale (il s’agit donc d’une matrice carr´ee de taille

la dimension de l’espace d’´etats), et qui suit la dynamique suivante :

∇x(t)

dt =∇f(x(t), a(t))∇x(t)

avec la condition initiale ∇x(t) = 0 (donc ∇x(t) peut ˆetre calcul´e le long

de la trajectoire).

Une fois ce gradient ∇Vπk(xn) calcul´e, on d´eﬁnit l’action ancomme ´etant

celle qui maximise le produit scalaire :

ak:= arg max

a∈A∇Vπk(xn)·f(xn, a)

Justiﬁez le choix de cette action maximisante.

7. Impl´ementer ce nouvel algorithme sur le probl`eme de pendule invers´e

pr´ec´edent (´eventuellement en faisant varier le pas de discr´etisation tem-

porelle).

8. Impl´ementer cet algorithme sur un probl`eme de contrˆole de votre choix de

dimension au moins ´egale `a 4 (par exemple l’acrobot, le double pendule

invers´e, la bicyclette, ou tout autre probl`eme de votre choix, dont vous

trouverez les dynamiques sur internet. Voir par exemple mon site pour les

dynamiques de l’acrobot).

9. Quelle r´epartition de points (xn)1≤n≤Nserait la plus pertinente `a utiliser

(pour un budget de Nparticules disponibles). Discussion et impl´ementation

souhait´ees.

10. Conclusions ?

2 Sujet 2 : Randomization to break the curse of

dimensionality

L’id´ee est d’utiliser des m´ethodes de Monte-Carlo combin´ees `a la program-

mation dynamique pour traiter des probl`emes de grande dimension. Cette id´ee

est d´ecrite dans l’article [7]. Cette m´ethodologie s’applique `a des probl`emes en

espace continu et temps discret. L’id´ee est d’approcher le processus de d´ecision

markovien (PDM) initial qui est d´eﬁni sur un espace continu en un PDM d´eﬁni

sur un nombre ﬁni d’´etats (N´etats), de le r´esoudre, et de consid´erer que la

fonction valeur (not´ee VNde ce PDM ﬁni est proche de la fonction valeur V

du PDM initial. On ”brise” la mal´ediction de la dimension au sens o`u l’erreur

d’approximation ||VN−V|| est une fonction en O(1/√N) o`u n’apparaˆıt pas

explicitement la dimension dde l’espace d’´etat (contrairement aux m´ethodes de

discr´etisation sur grilles, qui m`enent `a une erreur en O(1/N 1/d).

L’algorithme est d´eﬁni de la mani`ere suivante :

1. On tire des ´etats (xn)1≤n≤N(par exemple uniform´ement al´eatoirement

sur le domaine)

2. On construit un PDM sur cet ensemble d’´etats, o`u les probas pNde tran-

sition d’´etat xi`a ´etat xjsont construite `a partir des probas pdu PDM

continu en les renormalisant, ie :

pN(xj|xi, a) := p(xj|xi, a)

n=1 p(xn|xi, a)

3. On r´esout ce PDM (par n’importe quelle algorithme de programmation

dynamique), dont la fonction valeur VNest d´eﬁnie en tout ´etat xn. On

souhaite que la fonction VNapproche la fonction valeur Vdu probl`eme

initial aux points xnet on ´etudie l’erreur en fonction de N, le nombre de

points utilis´es.

Questions propos´ees :

1. Lire l’article [7].

2. Dans quels cas pensez-vous que cette m´ethode fonctionne bien ? Dans

quels cas ne va t-elle pas fonctionner ? Pensez-vous que la mal´ediction de

la dimension est v´eritablement ”bris´ee” ?

3. Quels sont les limitations de cette approche ? En terme de complexit´e

de calcul (en fonction du nombre d’actions, du nombre d’´etats, ...), de

capacit´e d’analyse de la m´ethode ?

4. Impl´ementer l’algorithme sur le probl`eme de maintenance d’un stock d´ecrit

dans le cours (voir chapitre 2 sur la programmation dynamique). On est en

dimension 1, la variable xtrepr´esente le stock actuel. La d´ecision consiste

`a commander une quantit´e suppl´ementaire atqui vaut un nombre ﬁni de

valeurs (on pourra commencer par 2 valeurs : 0 ou une valeur d´eﬁnie).

La demande est une variable al´eatoire (par exemple mod´elis´ee par une

variable al´eatoire exponentielle ou gaussienne tronqu´ee ou une loi de pois-

son). Vous choisirez des fonctions coˆut (commande et maintenance) et

revenu `a votre convenance pour que le probl`eme ait un sens physique.

Aﬃcher les fonctions valeurs obtenues VNet Vainsi que les politiques.

5. Est-ce que la distribution `a partir de laquelle on tire les points initiaux est

importante ? A votre avis, quelle serait la ”meilleure” distribution (ie. la

distribution telle qu’en tirant un nombre donn´e Nde points, en utilisant

cette m´ethode, on approche au mieux la fonction valeur Vd´esir´ee) ?

6. On veut appliquer cette m´ethode `a des probl`emes de grande dimension

(pour lesquels on esp`ere eﬀectivement voir l’int´erˆet de cette approche).

On consid`ere la classe (tr`es g´en´erale) des ﬁles d’attente avec plusieurs

buﬀers. Le probl`eme pr´ec´edent de maintenance de stock est en faite une

ﬁle d’attente avec un seul buﬀer.

Une ﬁle d’attente avec plusieurs buﬀers (ou r´eseau de ﬁles d’attente) est

constitu´ee de plusieurs ﬁles li´ees entre elles. Un job dans une ﬁle peut ˆetre

´evacu´e vers une autre ﬁle a laquelle elle est li´ee. Evacuer un job et stocker

des jobs ont des coˆuts. Certaine ﬁles poss`edent des entr´ees sur lesquelles

des jobs arrivent en suivant un loi de probabili´e. Les actions consistent

`a faire passer un job d’une ﬁle vers une autre. Ce type de mod´elisation

est tr`es utile, penser par example `a la gestion optimale d’une chaine de

production. L’utilisation de m´ethodes de programation dynamique pour

l’optimisation dans les r´eseaux de ﬁles d’attente `a ´et´e ´etudi´e dans [3]. Votre

travail consiste `a utiliser la ﬁle en dimension 4 ou celle en dimension 8 de

[3] et chercher `a faire mieux que les r´esultats obtenu dans [3].

7. Conclusions ?

3 Sujet 3 : contrˆole optimal par recherche arbo-

rescente et algorithme UCT

L’id´ee de ce projet consiste `a directement r´esoudre le probl`eme de contrˆole

optimal en eﬀectuant une recherche arborescente dans un arbre dont la racine

correspond `a l’´etat courant, o`u les noeuds correspondent aux ´etats accessibles

et les connexions repr´esentent les diﬀ´erentes actions possibles.

Pour simpliﬁer, on se place dans un cadre d´eterministe, avec un crit`ere `a

horizon temporel inﬁni avec r´ecompense actualis´ee (par γ).

Le probl`eme de contrˆole optimal consiste `a d´eterminer, en chaque instant t

une action atqui maximise la somme des r´ecompenses `a venir. La m´ethode de

recherche arborescente est d´ecrite de mani`ere suivante :

– Notons xl’´etat du syst`eme `a l’instant courant. L’objectif est de retour-

ner une action a∈A. Pour cela, on construit un arbre dont la racine est

x. A cette racine est associ´ee les noeuds qui repr´esentent les ´etats suc-

cesseurs (not´es f(x, a)) du choix d’une action aen x. Il y a autant de

successeurs que d’actions possibles (ce nombre d’actions est not´e M). En

chacun de ces ´etats successeurs, `a nouveau, on associe les successeurs des

{f(x, a)}lorsque l’on choisit une seconde action b(que l’on peut noter

{f(f(x, a), b)}a,b∈A). Il y a M2tels successeurs `a l’´etape 2. On recom-

mence jusqu’`a une profondeur p. Ainsi, cet arbre dispose de Mpfeuilles.

La r´ecompense correspondant `a une branche est simplement la somme des

r´ecompenses actualis´ees correspondant `a chacune des transitions.

– On calcule la branche (par un algorithme quelconque de recherche arbo-

rescente) dont la r´ecompense est maximale, qui d´eﬁnit ainsi une s´equence

d’actions, et on retourne la premi`ere action de cette s´equence (l’action

choisie `a la racine de l’arbre).

Cet algorithme retourne une action qui n’est pas n´ecessairement optimale,

mais que l’on souhaite proche de l’optimum, au sens o`u si l’on utilise cet algo-

rithme `a chaque it´eration (on construit ainsi un nouvel arbre `a chaque it´eration,

`a partir de l’´etat courant), la performance de cet algorithme doit ˆetre proche de

la fonction valeur optimale.

On veut analyser cet algorithme, l’impl´ementer dans une application pour le

contrˆole d’un proc´ed´e chimique de digestion ana´erobie, et ´etudier un algorithme

de recherche arborescente particuli`erement int´eressant, l’algorithme UCT, qui

fait l’objet de nombreux travaux actuellement. L’algorithme UCT (pour Up-

per Conﬁdence bounds in Trees) est une extension de l’algorithme UCB (Up-

per Conﬁdence Bounds, voir [6]) qui a ´et´e d´evelopp´e r´ecemment [4] pour la

recherche de solution dans des arbres de grande dimension. Pour motivation,

UCT a ´et´e appliqu´e `a la programmation du jeu de GO (par Yizao Wang et

Sylvain Gelly), jeu d’une complexit´e extrˆeme, et a men´e au programme MoGo,

meilleur programme mondial actuel sur jeux de tailles 9x9 et 13x13. Voir :

1 / 7 100%

Sujets de mini-projets pour le cours d`apprentissage par renforcement

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Sujets de mini-projets pour le cours d`apprentissage par renforcement

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib