Optimism in Reinforcement Learning and Kullback

Téléchargement

1 / 35 Sarah Filippi, Olivier Capp´

e, Aur´

elien Garivier

Optimism in Reinforcement

Learning and

Kullback-Leibler

Divergence

2 / 35 Sarah Filippi, Olivier Capp´

e, Aur´

elien Garivier

Plan

Apprentissage par renforcement

Qu’est ce que l’apprentissage par renforcement ?

Processus de D´

ecision Markoviens

Equation de Bellman et it´

eration sur les valeurs

L’algorithme UCRL-2

L’algorithme KL-UCRL

Estimation des transitions

L’algorithme KL-UCRL

Regret : bornes et simulations

Propri ´

et´

es de KL-UCRL

3 / 35 Sarah Filippi, Olivier Capp´

e, Aur´

elien Garivier

Apprentissage par Renforcement

Agent Envir.

R´

ecompense Rt

Action At

Observation St

dilemme

exploration

exploitation

L’agent est acteur et pas spectateur [Sutton ’92; Bertsekas ’95]

A chaque instant t, il choisit une action At∈Aen fonction des

observations et r´

ecompenses pass´

es (Ss,Rs)s<tpour maximiser

la r´

ecompense cumul´

ee Pn

t=1Rt

Exemples: essais m ´

edicaux, robotique, proposition de contenu,

ﬁnance, publicit´

e, internet mobile, . . .

4 / 35 Sarah Filippi, Olivier Capp´

e, Aur´

elien Garivier

Probl`

emes de bandits

Environnement constant

Conditionnellement aux actions

(At)1≤t≤n, les r´

ecompenses

(Rt)1≤t≤nsont i.i.d. de moyenne µAt

But : jouer l’action a∗qui a la plus grande r´

ecompense moyenne :

µa∗=max

a∈Aµa

Mesure de performance : regret cumul´

Regret(n) =

t=1

µa∗−µAt

5 / 35 Sarah Filippi, Olivier Capp´

e, Aur´

elien Garivier

Upper Conﬁdence Bound (UCB)

Algorithmes optimistes : [Lai&Robins ’85; Agrawal ’95]

Fais comme si tu te trouvais dans l’environnement qui t’est le plus

favorable parmi tous ceux qui rendent les observations assez

vraisemblables

Ici : UCB (Upper Conﬁdence Bound) = ´

etablir une borne

sup´

erieure de l’int ´

erˆ

et de chaque action, et choisir celle qui est la

plus prometteuse [Auer&al ’02; Audibert&al ’07]

Avantage : comportement facilement interpr ´

etable et “acceptable”

⇒le regret grandit comme Clog(n), o`

uCd´

epend de

∆ = min

µa<µa∗

µa∗−µa

et c’est (presque) optimal

1 / 40 100%

Documents connexes

Terminale S1 Année scolaire 2012-2013 Devoir maison numéro 3

Sarah Filip

algorithme algorithme -bases -une

Luvisotto Sarah Bio - HEG-FR

L`algorithme suivant est décrit en langage pseudo

Faire tourner l`algorithme de gauche « à la main » pour A = 15

2de - algo - aide algobox

pour les Chrétiens et les Musulmans

Grille d'évaluation orale ISN - Compétences et capacités

Exercice d'algorithme : Boucle "tant que"

Exercice 1 : On considère l`algorithme suivant : Variables : n est un

Considérer l`algorithme

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d'utilisation

Optimism in Reinforcement Learning and Kullback

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Optimism in Reinforcement Learning and Kullback

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib