Page 1 / 22 Sarah Filippi
Utilisation de la divergence
de Kullback-Leibler pour
des algorithmes optimistes
en apprentissage par
renforcement
Sarah Filippi
en collaboration avec
Olivier Cappé, Aurélien Garivier
Page 2 / 22 Sarah Filippi
Apprentissage par Renforcement
Agent Envir.
Récompense Rt
Action At
Observation St
dilemme
exploration
p
exploitation
Le système est dans un état Stqui évolue de façon markovienne :
St+1P(St,At;·)et Rt=r(St,At) + εt
A chaque instant t, l’agent choisit une action AtAen fonction du
passé (Ss,As,Rs)s<tpour maximiser la récompense cumulée
Pn
t=0Rt
Page 3 / 22 Sarah Filippi
Politique, récompense moyenne et regret
But : trouver la politique π:SA qui a la plus grande
récompense moyenne :
ρπ=lim
n→∞
1
nEπ"n
X
t=0
Rt#
Récompense moyenne optimale ρ=supπρπ=ρπ
Mesure de performance : regret cumulé
Regret(n) =
n
X
t=0
ρRt
Page 4 / 22 Sarah Filippi
Plan
Algorithmes optimistes
Définition pour des MDPs
L’algorithme UCRL-2
L’algorithme KL-UCRL
Estimation des transitions
L’algorithme KL-UCRL
Regret : bornes et simulations
Propriétés de KL-UCRL
Page 5 / 22 Sarah Filippi
Algorithmes optimistes
Algorithmes optimistes : [Lai&Robins ’85 ; Agrawal ’95]
Fais comme si tu te trouvais dans l’environnement qui t’est le plus
favorable parmi tous ceux qui rendent les observations assez
vraisemblables
Pour les modèles de bandit :
UCB (Upper Confidence Bound) = établir une borne supérieure de
l’intérêt de chaque action, et choisir celle qui est la plus
prometteuse [Auer&al ’02 ; Audibert&al ’07]
1 / 26 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !