L’algorithme KL-UCB pour les bandits born´es, et
au del`a [arXiv:1102.2490]
Aur´elien Garivier et Olivier Capp´e
CNRS & Telecom ParisTech
10 juin 2011
Le mod`ele
Plan de l’expos´e
1Le mod`ele
2Une borne inf´erieure pour le regret
3KL-UCB : un algorithme optimiste
4Et au del`a...
Le mod`ele
Apprentissage par renforcement
Agent Envir.
R´ecompense Xt
Action At
Etat St
dilemme
exploration
p
exploitation
RL 6=apprentissage classique (notion de r´ecompense)
RL 6=th´eorie des jeux (environnement indiff´erent)
Le mod`ele
Exemple : essais cliniques s´equentiels
Pour fixer les id´ees, on consid`ere le cas de figure suivant :
probl`eme : des patients atteints d’une certaine maladies sont
diagnostiqu´es au fil du temps
outils : on dispose de plusieurs traitements mal dont
l’efficacit´e est a priori inconnue
d´eroulement : on traite chaque patient avec un traitement, et on
observe le r´esultat (binaire)
objectif : soigner un maximum de patients (et pas connaˆıtre
pecis´ement l’efficacit´e de chaque traitement)
Le mod`ele
Le probl`eme des bandits stochastiques
Environment Kbras, param`etre θ= (θ1, . . . , θK)[0,1]K
L’allocation de bras at∈ {1, . . . , K}conduit `a
r´ecompense
Yt=Xat,t
o`u Xi,s ={Usθi}, pour 1iK,s1, et
(Us)s
iid
∼ U[0,1].
Strat´egie r`egle d’allocation dynamique : π= (π1, π2, . . . )tq
At=πt(Y1, . . . , Yt1)
Nombre de tirages du bras b∈ {1, . . . , K}:
Nπ
t(b) = X
st{As=b}
1 / 31 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !