1 / 35 Sarah Filippi, Olivier Capp´
e, Aur´
elien Garivier
Optimism in Reinforcement
Learning and
Kullback-Leibler
Divergence
2 / 35 Sarah Filippi, Olivier Capp´
e, Aur´
elien Garivier
Plan
Apprentissage par renforcement
Qu’est ce que l’apprentissage par renforcement ?
Processus de D´
ecision Markoviens
Equation de Bellman et it´
eration sur les valeurs
L’algorithme UCRL-2
L’algorithme KL-UCRL
Estimation des transitions
L’algorithme KL-UCRL
Regret : bornes et simulations
Propri ´
et´
es de KL-UCRL
3 / 35 Sarah Filippi, Olivier Capp´
e, Aur´
elien Garivier
Apprentissage par Renforcement
Agent Envir.
R´
ecompense Rt
Action At
Observation St
dilemme
exploration
p
exploitation
L’agent est acteur et pas spectateur [Sutton ’92; Bertsekas ’95]
A chaque instant t, il choisit une action AtAen fonction des
observations et r´
ecompenses pass´
es (Ss,Rs)s<tpour maximiser
la r´
ecompense cumul´
ee Pn
t=1Rt
Exemples: essais m ´
edicaux, robotique, proposition de contenu,
finance, publicit´
e, internet mobile, . . .
4 / 35 Sarah Filippi, Olivier Capp´
e, Aur´
elien Garivier
Probl`
emes de bandits
Environnement constant
Conditionnellement aux actions
(At)1tn, les r´
ecompenses
(Rt)1tnsont i.i.d. de moyenne µAt
But : jouer l’action aqui a la plus grande r´
ecompense moyenne :
µa=max
aAµa
Mesure de performance : regret cumul´
e
Regret(n) =
n
X
t=1
µaµAt
5 / 35 Sarah Filippi, Olivier Capp´
e, Aur´
elien Garivier
Upper Confidence Bound (UCB)
Algorithmes optimistes : [Lai&Robins ’85; Agrawal ’95]
Fais comme si tu te trouvais dans l’environnement qui t’est le plus
favorable parmi tous ceux qui rendent les observations assez
vraisemblables
Ici : UCB (Upper Confidence Bound) = ´
etablir une borne
sup´
erieure de l’int ´
erˆ
et de chaque action, et choisir celle qui est la
plus prometteuse [Auer&al ’02; Audibert&al ’07]
Avantage : comportement facilement interpr ´
etable et “acceptable”
le regret grandit comme Clog(n), o`
uCd´
epend de
∆ = min
µaa
µaµa
et c’est (presque) optimal
1 / 40 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !