L`algorithme KL-UCB pour les bandits bornés, et au delà [arXiv

Téléchargement

L’algorithme KL-UCB pour les bandits born´es, et

au del`a [arXiv:1102.2490]

Aur´elien Garivier et Olivier Capp´e

CNRS & Telecom ParisTech

10 juin 2011

Le mod`ele

Plan de l’expos´e

1Le mod`ele

2Une borne inf´erieure pour le regret

3KL-UCB : un algorithme optimiste

4Et au del`a...

Le mod`ele

Apprentissage par renforcement

Agent Envir.

R´ecompense Xt

Action At

Etat St

dilemme

exploration

exploitation

RL 6=apprentissage classique (notion de r´ecompense)

RL 6=th´eorie des jeux (environnement indiﬀ´erent)

Le mod`ele

Exemple : essais cliniques s´equentiels

Pour ﬁxer les id´ees, on consid`ere le cas de ﬁgure suivant :

probl`eme : des patients atteints d’une certaine maladies sont

diagnostiqu´es au ﬁl du temps

outils : on dispose de plusieurs traitements mal dont

l’eﬃcacit´e est a priori inconnue

d´eroulement : on traite chaque patient avec un traitement, et on

observe le r´esultat (binaire)

objectif : soigner un maximum de patients (et pas connaˆıtre

pr´ecis´ement l’eﬃcacit´e de chaque traitement)

Le mod`ele

Le probl`eme des bandits stochastiques

Environment Kbras, param`etre θ= (θ1, . . . , θK)∈[0,1]K

L’allocation de bras at∈ {1, . . . , K}conduit `a

r´ecompense

Yt=Xat,t

o`u Xi,s ={Us≤θi}, pour 1≤i≤K,s≥1, et

(Us)s

iid

∼ U[0,1].

Strat´egie r`egle d’allocation dynamique : π= (π1, π2, . . . )tq

At=πt(Y1, . . . , Yt−1)

Nombre de tirages du bras b∈ {1, . . . , K}:

Nπ

t(b) = X

s≤t{As=b}

1 / 31 100%

Documents connexes

Fiche 21 : Nombres irrationnels.

MPI Exercices d`application : Pont diviseur de tension Exercice.1

DÉVELOPPEMENT : THÉORÈME DE LAMÉ [Skandalis algèbre p.2]

Bornes inférieures

algorithme algorithme -bases -une

L`algorithme suivant est décrit en langage pseudo

Faire tourner l`algorithme de gauche « à la main » pour A = 15

2de - algo - aide algobox

1 Complexité (4 points)

Compte Rendu du Projet Python

1 Complexité (4 points) 2 Ordre de grandeur (4 points)

d`où log tang-C = - log [a — b) + L ( « + A) • L`angle

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

L`algorithme KL-UCB pour les bandits bornés, et au delà [arXiv

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

L`algorithme KL-UCB pour les bandits bornés, et au delà [arXiv

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib