Un Algorithme pour le Probl`eme des Bandits Manchots

Téléchargement

Un Algorithme pour le Probl`

eme des Bandits Manchots avec

Stationnarit´

e par Parties

Robin Allesiardo1,2 et Rapha¨

el F´

eraud1

1Orange Labs, 2 av. Pierre Marzin, 22300 Lannion

2TAO - INRIA, LRI, Universit´

e Paris-Sud, CNRS, 91405 Orsay

R´

esum´

Dans le probl`

eme des bandits manchots, un joueur

poss`

ede le choix entre plusieurs bras poss´

edant des

esp´

erances de gain diff´

erentes. Son but est de maximiser

la r´

ecompense obtenue apr`

es Tessais. Il doit alors explo-

rer pour estimer les r´

ecompenses de chaque machine tout

en exploitant le bras qu’il estime le meilleur. C’est le di-

lemme exploration/exploitation. Dans le cas des bandits ad-

verses, la s´

equence de r´

ecompenses d’une machine est choi-

sie `

a l’avance par un adversaire. En pratique, la notion de

meilleur bras sur le jeu complet est trop restrictive pour

des applications comme l’optimisation publicitaire o`

u la

meilleure publicit´

e peut changer au cours du temps. Dans

ce papier, nous consid´

erons une variante du probl`

eme ad-

verse, o`

u le jeu est divis´

e en un nombre inconnu de p´

eriodes

a l’int´

erieur desquelles les r´

ecompenses sont tir´

ees dans

des distributions stochastiques. Entre chaque p´

eriode, le

meilleur bras peut changer. Nous pr´

esentons un algorithme

utilisant l’exploration constante d’EXP3 pour d´

etecter les

changements de meilleur bras. Son analyse montre, que sur

un jeu divis´

e en Nsegments o`

u le meilleur bras change,

l’algorithme propos´

e poss`

ede un regret en O(N√Tlog T).

1 Introduction

Le probl`

eme des bandits manchots est un jeu r´

ep´

etitif o`

a chaque tour, un joueur choisit l’un des Kbras (ou ac-

tions) puis rec¸oit la r´

ecompense associ´

ee `

a l’action choisie.

Pour trouver l’action la plus proﬁtable, le joueur doit ex-

plorer les diff´

erents choix possibles mais doit aussi exploi-

ter l’action qu’il estime la meilleure de mani`

ere `

a maximi-

ser sa r´

ecompense cumul´

ee. La qualit´

e de la strat´

egie du

joueur est mesur´

ee en terme de regret, qui est la diff´

erence

entre la r´

ecompense cumul´

ee du joueur et celle qu’aurait

obtenue une strat´

egie suppos´

ee optimale comme jouer

uniquement le bras poss´

edant la plus haute esp´

erance de

r´

ecompense .

Dans le cas stochastique, les r´

ecompenses de chaque

bras sont tir´

ees de mani`

ere ind´

ependante dans une distri-

bution associ´

ee `

a chaque bras. Le plus ancien algorithme,

le Thompson Sampling [Tho33], est bas´

e sur des id´

ees

Bay´

esiennes. `

A chaque pas de temps, une action est choi-

sie en ´

echantillonnant les r´

ecompenses a posteriori estim´

ees

pour chaque bras. Cette politique atteint, en esp´

erance, un

regret cumul´

e logarithmique [AG12] et est optimal asymp-

totiquement [KKM12]. L’algorithme UCB [ACBF02] cal-

cule un intervalle de conﬁance sup´

erieur pour chaque bras

et joue le bras poss´

edant la plus haute estimation. L’analyse

de cet algorithme montre que son regret cumul´

e poss`

ede

une borne sup´

erieure logarithmique, ce qui est optimal.

Dans le cas adverse, les r´

ecompenses sont choisies `

l’avance par un adversaire. Cette formulation a ´

et´

e lon-

guement ´

etudi´

ee par Auer et al [ACBFS02] ainsi que

par Cesa-Bianchi et Lugosi [CBL06]. Les algorithmes ad-

verses les plus populaires proviennent de la famille EXP3

[ACBFS02]. EXP3 atteint un regret cumul´

e en O(√T), ce

qui est optimal dans le cas adverse. Le probl`

eme des ban-

dits manchots avec stationnarit´

e par parties consid`

ere que

des points de rupture sont choisis en avance par un ad-

versaire [GM11]. Entre ces points, les r´

ecompenses sont

tir´

ees depuis des distributions stochastiques. Cet ´

enonc´

e est

appropri´

e pour des applications comme l’optimisation pu-

blicitaire, o`

u les publicit´

es disponibles peuvent changer au

cours du temps.

R´

esum´

e de la contribution

Pour ˆ

etre capable d’appr´

ehender les changements

de meilleur bras, notre contribution combine l’algorithme

de bandit adverse EXP3 avec un d´

etecteur de rupture. Cet

algorithme, appel´

e EXP3.R, utilise l’exploration constante

d’ EXP3 pour maintenir des estimateurs non biais´

de la r´

ecompense moyenne de chaque bras. Quand un

changement de meilleur bras est d´

etect´

e, les poids d’EXP3

sont r´

einitialis´

es. L’analyse de notre algorithme montre que

son regret cumul´

e est born´

e par O(N√Tlog T).

2 Travaux pr´

ec´

edents

Le principal point faible d’EXP3 provient du fait qu’il

est construit pour trouver un unique meilleur bras sur le

jeu entier. Cette notion d’unique meilleur bras est trop res-

trictive pour des applications comme l’optimisation pu-

blicitaire. Pour s’affranchir de cette restriction, EXP3.S

[ACBFS02] utilise une m´

ethode de r´

egularisation sur les es-

timateurs des r´

ecompenses pour oublier le pass´

e et faciliter

les changements de bras. L’analyse d’EXP3.S le compare

a une politique optimale capable de jouer Nbras diff´

erents

au cours du jeu. Face `

a elle, le regret d’EXP3.S est born´

par O(√NT log T). Dans DISCOUNTEDUCB [KS06], un

facteur de r´

eduction est utilis´

e sur les r´

ecompenses d’UCB

pour l’adapter `

a la non-stationnarit´

e. Une autre variante uti-

lise une fenˆ

etre sur les estimateurs d’ UCB. Ce deux adap-

tations ont ´

et´

e analys´

ees dans [GM11] et sont born´

ees par

O(√MT log T), o`

uMest le nombre de changements de

moyenne. La borne inf´

erieure en Ω(√T)pour les bandits

manchot avec stationnarit´

e par parties a ´

et´

e d´

emontr´

e dans

[GM11] et les pr´

ec´

edents algorithmes l’atteignent `

a un fac-

teur √log Tpr`

es. Une autre approche propos´

ee pour les

jeux `

a gratter r´

einitialise EXP3 `

a chaque fois qu’un

bras apparait ou disparait [FU13]. Pour utiliser cette ap-

proche sur notre probl`

eme, il est n´

ecessaire de savoir quand

les changements se produisent.

La d´

etection du changement a ´

et´

e´

etudi´

ee [HPC12] pour

diff´

erentes applications comme la d´

etection du spam, de la

fraude, la m´

et´

eorologie ou bien la ﬁnance. Les concepts

surveill´

es d´

ependent de l’application. Par exemple, dans la

classiﬁcation en ligne, les variations de performances du

mod`

ele sont souvent utilis´

ees pour d´

etecter les d´

erives de

concept : dans [GMCR04], les auteurs consid`

erent que l’er-

reur en classiﬁcation est une variable al´

eatoire de Bernoulli

et dans [Las02], des exemples sont collect´

es `

a diff´

erents in-

tervalles de temps et utilis´

es comme ensemble d’appren-

tissage et de validation. Pour les probl`

emes de bandits

a information partielle, dans META-EVE [HBG+06], la

r´

ecompense moyenne de la meilleure action estim´

ee est sur-

veill´

ee. Une statistique de Page-Hinkley est utilis´

ee pour

tester si la s´

erie de r´

ecompense provient d’une unique loi

statistique. Le point faible de cette approche est de ne pas

g´

erer le cas o`

u une action sous-optimale devient optimale

sans que la r´

ecompense du meilleur bras ne change. Des

intervalles de conﬁance sont utilis´

es dans [YM09] pour

d´

etecter les changements de r´

ecompense moyenne. Cet al-

gorithme poss`

ede une borne en O(Nlog T)o`

uN−1

est le nombre de changements durant le jeu. Pour arriver

a une telle borne, l’algorithme utilise des informations

cach´

ees acquises sans impact sur le regret. La divergence

de Kullback-Leiber peut aussi ˆ

etre utilis´

ee comme d´

etecteur

[YYC13, BLB10].

3 Politique optimale et Regret cu-

mul´

D´

eﬁnition. De mani`

ere similaire `

a SW-UCB [GM11],

nous d´

eﬁnition le probl`

eme des bandits manchots avec sta-

tionnarit´

e par partie par un ensemble de Kactions, o`

1≤k≤Kest l’index de chaque action, et une s´

equence

de vecteurs r´

ecompense x(t)=(x1(t), ..., xk(t)) de taille

To`

uxk(t)∈ {0,1}. Chaque r´

ecompense xk(t)est tir´

depuis une distribution de Bernoulli de moyenne µk(t). Les

M−1pas de temps o`

u∃k, µ(t)k6=µk(t+ 1) sont appel´

points de rupture. Un adversaire choisit les pas de temps o`

les ruptures se produisent et tire ensuite les s´

equences de

r´

ecompenses. L’action jou´

ee au temps test not´

ek(t). Le

but d’un algorithme Aest de maximiser le gain cumul´

l’horizon de temps Td´

eﬁni par :

GA=

t=1

xk(t)(t).(1)

La politique optimale. La s´

equence de vecteurs

r´

ecompense est divis´

ee en N≤Ms´

equences ap-

pel´

ees segments. Sest l’index du segment incluant

les tours [TS, TS+1[. Un segment Scommence quand

max

kµk(TS)6= max

kµk(TS−1). Le bras optimal sur le

segment Sest not´

ek∗

Savec :

k∗

S= arg max

TS+1−1

t=TS

µk(t).(2)

Le gain de la politique optimale est not´

eG∗et d´

eﬁni par :

G∗=

S=1

TS+1−1

t=TS

xk∗

S(t).(3)

Le regret de l’algorithme Aface `

a la politique optimale

est :

R(A) = G∗−GA.(4)

Notez que

G∗≤

S=1

max

TS+1−1

t=TS

xk(t),(5)

c’est `

a dire qu’apr`

es le tirage par l’adversaire, la s´

equence

de r´

ecompenses d’un bras sous-optimal peut ˆ

etre sup´

erieure

a la s´

equence du bras avec la plus haute r´

ecompense

moyenne.

4 Algorithme

Tandis-que les autres algorithmes ont une approche pas-

sive consistant `

a oublier le pass´

e [ACBFS02, KS06,

GM11], nous proposons une strat´

egie active consistant `

r´

einitialiser les estimateurs de l’algorithme quand un chan-

gement de meilleure action est d´

etect´

e. Premi`

erement, nous

d´

ecrirons l’algorithme adverse EXP3 [ACBFS02] qui

sera utilis´

e par l’algorithme propos´

e EXP3.R entre chaque

d´

etection. Nous d´

ecrirons ensuite le d´

etecteur de d´

erive de

concept utilis´

e pour d´

etecter les changements de meilleur

bras. Pour ﬁnir, nous combinerons les deux pour obtenir

l’algorithme EXP3.R.

Algorithm 1 EXP3

Le param`

etre γ∈[0,1] contrˆ

ole l’exploration. La proba-

bilit´

e de choisir kau tour test :

pk(t) = (1 −γ)wk(t)

i=1 wi(t)+γ

K.(6)

Les poids wk(t)de chaque action ksont :

wk(t) = exp 



j=tr

xk(j)

pk(j)Jk=k(j)K

,(7)

utrest le pas de temps o`

u l’algorithme a ´

et´

e initialis´

L’algorithme EXP3 (voir Algorithme 1) minimise le re-

gret face au meilleur bras en utilisant un estimateur non

biais´

e des r´

ecompenses cumul´

ees au temps tpour cal-

culer les probabilit´

es de choisir chaque action. Mˆ

eme si

cette strat´

egie peut ˆ

etre vu comme optimale dans un cas

adverse, dans beaucoup d’applications pratiques, la non-

stationnarit´

a l’int´

erieur d’une p´

eriode de temps est faible

et est uniquement remarquable sur le long terme. Si un bras

est performant sur une p´

eriode de longue taille mais devient

tr`

es mauvais ensuite, l’algorithme EXP3 peut n´

ecessiter un

FIGURE 1 – Ce jeu comporte trois changements de

moyennes mais la politique optimale ne changerait de bras

qu’une seule fois. Ici, M= 3 et N= 2.

nombre d’it´

erations ´

egal `

a la taille de la premi`

ere p´

eriode

avant de changer de bras majoritairement jou´

e. Coupl´

avec un d´

etecteur de changement, l’algorithme EXP3 a

plusieurs avantages. Premi`

erement, dans un environnement

non-stationnaire, une exploration constante est n´

ecessaire

pour d´

etecter les changement. Cette exploration est donn´

naturellement par l’algorithme. Deuxi`

emement, le nombre

de changements de moyennes est sup´

erieur au nombre de

changements de meilleurs bras (M≥N) (voir Figure 1).

Cela signiﬁe que le nombre de r´

e-initialisations requises par

EXP3 est plus petit que celui n´

ecessaire `

a un algorithme

stochastique comme UCB. Troisi`

emement, EXP3 est ro-

buste face aux non d´

etections ou aux non-stationnarit´

es lo-

cales.

Le d´

etecteur de d´

erive (voir Algorithme 2) utilise des

intervalles de conﬁance pour estimer les esp´

erances de

r´

ecompenses sur la p´

eriode de temps pr´

ec´

edente. La dis-

tribution de probabilit´

e des actions dans EXP3 est une

mixture entre une distribution de Gibbs et une distribution

uniforme. Nous appelons γ-observation, une observation

s´

electionn´

ee via la distribution uniforme. Les param`

etres γ,

Het δd´

eﬁnissent un nombre minimal de γ-observations

n´

ecessaires `

a l’utilisation d’un d´

etecteur d’une pr´

ecision 

avec une probabilit´

e d’au moins 1−δ. Ces param`

etres seront

ﬁx´

es plus tard dans l’analyse (voir Corollaire 1) et la validit´

du test est prouv´

ee dans le Lemme 1. Nous notons ˆµk(I)la

moyenne empirique des r´

ecompense obtenues par le bras k

sur l’intervalle Ien utilisant uniquement les γ-observations

et Γmin(I) le plus petit nombre de γ-observations parmi tous

les bras sur l’intervalle I. Le d´

etecteur est appel´

e unique-

ment quand Γmin(I)≥γH

K. Celui-ci l`

eve une d´

etection

quand l’action kmax, qui est celle poss´

edant la plus haute

probabilit´

epk(t)(voir Algorithme 1), est ´

elimin´

ee par une

autre sur l’intervalle courant.

Algorithm 2 DetectionDeDerive(I)

Param`

etres : Intervalle courant I

kmax = arg max

pk(t)

=qKlog( 1

δ)

2γH

return q∃k, ˆµk(I)−ˆµkmax (I)≥2y

L’algorithme EXP3.R est obtenu en combinant EXP3

et le d´

etecteur de d´

erive. Dans un premier temps une ins-

tance d’ EXP3 est initialis´

ee et utilis´

ee pour s´

electionner

les actions. Des γ-observation sont alors collect´

ee jusqu’`

ce que Γmin(I)≥γH

K. Lorsque ce compte est atteind, le

test de d´

etection est ex´

ecut´

e. Si, dans l’intervalle corres-

pondant, la moyenne empirique d’un bras est sup´

erieure

de 2`

a meilleure action actuelle alors une d´

etection est

lev´

ee. Dans ce cas, les poids de l’algorithme EXP3 sont

r´

einitialis´

es. Commence alors un nouvel intervalle de col-

lecte en pr´

eparation du prochain test. Ces ´

etapes sont

r´

ep´

et´

ees jusqu’`

a la ﬁn du jeu (voir Algorithme 3).

Algorithm 3 EXP3 avec R´

e-initialisation

Param`

etres : R´

eels δ, γ et entier H

I= 1

for each t= 1, ..., T do

Appeler EXP3 sur le pas de temps t

if Γmin(I)≥γH

Kthen

if DetectionDeDerive(I)then

R´

einitialiser EXP3

end if

I=I+ 1

end if

end for

Avec une pr´

ecision , seules les diff´

erences sup´

erieures `

4sont d´

etect´

ees avec une haute probabilit´

e. De la mˆ

eme

mani`

ere que [YM09] nous utilisons l’hypoth`

ese 1 pour

s’assurer que tout les changements de meilleur bras sont

d´

etect´

es avec une haute probabilit´

Hypoth`

ese 1. Durant chacune des Mp´

eriodes station-

naires, la diff´

erence entre la r´

ecompense moyenne du bras

optimal et celle de n’importe quel autre bras est au moins

de 4avec

=sKlog( 1

δ)

2γH .(8)

4.1 Analyse

Dans cette section nous analysons le d´

etecteur de rupture

et bornons l’esp´

erance du regret de l’algorithme EXP3.R.

Le lemme 1 garantit que quand l’hypoth`

ese 1 est valide

et que l’intervalle Iest inclus dans l’intervalle Salors, avec

une haute probabilit´

e, une d´

etection sera lev´

ee si et seule-

ment si le bras optimal k∗

S´

elimine un bras sous-optimal.

Lemme 1. Quand l’hypoth`

ese 1 est valide et que I⊆S

alors, avec une probabilit´

e d’au moins 1−2δ, pour tout

k6=k∗

ˆµk∗

S(I)−ˆµk(I)≥2sKlog(1

δ)

2γH ⇔µk∗

S(I)≥µk(I).(9)

D´

emonstration. Nous justiﬁons notre test de d´

etection en

consid´

erant les γ-observations comme des tirages sans rem-

placement dans une urne. Plus pr´

ecis´

ement, quand toutes

les observations n´

ecessaires sont collect´

ees, la proc´

edure

de d´

etection est lanc´

ee. Durant l’intervalle de collecte, les

r´

ecompenses sont tir´

ees depuis 1≤m≤Mdiff´

erentes

distributions de moyenne µk

0(I), ..., µk

m(I). Nous appe-

lons tile pas de temps o`

u la r´

eponse moyenne commence

aˆ

etre µk

i(I)et tm+1 le pas de temps o`

u le d´

etecteur

est appel´

e. A posteriori, chaque xk(t)a une probabilit´

(ti+1 −ti)/(tm+1 −t0)d’avoir ´

et´

e tir´

e depuis la distri-

bution de moyenne µk

i(I). L’esp´

erance moyenne de l’urne

contenant les r´

ecompenses correspondant `

a l’action kest :

µk(I) =

i=1

ti+1 −ti

tm+1 −t0

µk

i(I).(10)

A chaque pas de temps, par hypoth`

ese, la r´

ecompense

moyenne du meilleur bras est sup´

erieure `

a celle de n’im-

porte quel autre bras d’au moins 4. Par cons´

equent, la

diff´

erence entre la r´

ecompense moyenne de l’urne du bras

optimal k∗et celle d’un autre bras kest au moins de 4si le

meilleur bras ne change pas au cours de l’intervalle.

µk(I)≤

i=1

ti+1 −ti

tm+1 −t0

(µk∗

i−4)≤µk∗

S(I)−4 . (11)

Les arguments suivant montrent l’´

equivalence entre une

d´

etection et l’optimalit´

e de k∗

Savec une forte probabilit´

En utilisant l’in´

egalit´

e de Serﬂing [Ser], nous avons :

P(ˆµk(I) + ≥µk(I))) ≤e

−2n2

1−n−1

U≤e−2n2=δ , (12)

un=γH

Kest le nombre d’observations et Ula taille de

l’urne. Nous utilisons δpour d´

ecrire la quantit´

eP(ˆµk(I) +

≥µk(I))). Nous avons, avec une probabilit´

e d’au moins

1−2δ,ˆµk(I) + ≥µk(I)et ˆµk∗

S(I)−≤µk∗

S(I).

Par cons´

equent, si ˆµk∗

S(I)−ˆµk(I)≥2alors, avec une

haute probabilit´

e, µk∗(I)≥µk(I). Le d´

etecteur utilise

l’intervalle de conﬁance sup´

erieur pour l’actuel meilleur

bras estim´

e et l’inf´

erieur pour le bras candidat. Lorsque

les deux intervalles sont valides, dans le pire des cas, cha-

cun des estimateurs sont ´

eloign´

es de la vraie moyenne

de . Le d´

etecteur ajoute ensuite `

a chaque estimateurs.

L’in´

equation (11) assure que tout les changements de

meilleur bras sont d´

etect´

es.

Le th´

eor`

eme 1 borne l’esp´

erance du regret cumul´

d’EXP3.R.

Th´

eor`

eme 1. Pour tout K > 0,0< γ ≤1,0≤δ < 1

H≥Ket N≥1, quand l’hypoth`

ese 1 est valide,

l’esp´

erance du regret d’EXP3.R v´

eriﬁe

G∗−E[GEXP3.R]≤(e−1)γT

+N−1 + KδT

H+KδKlog(K)

+ (N−1)HK 1

1−2δ+ 1.(13)

D´

emonstration. Premi`

erement, nous obtenons la structure

principale de la borne. Dans ce qui suit, L(T)d´

ecrit

l’esp´

erance du nombre d’intervalle apr`

es un changement de

meilleure action avant sa d´

etection et F(T)l’esp´

erance du

nombre de fausses d´

etections jusqu’alors. En utilisant les

mˆ

eme arguments que [YM09], nous d´

eduisons la forme

de la borne depuis la borne classique d’EXP3. Il y a

N−1changements de meilleur bras, ainsi le nombre de

r´

e-initialisations `

a l’horizon Test born´

e sup´

erieurement par

N−1 + F(T). Le regret d’EXP3 sur ces p´

eriodes est (e−

1)γT +Klog K

γ[ACBFS02]. Alors que notre politique opti-

male joue le bras ayant la plus haute r´

ecompense moyenne,

la politique d’EXP3 joue le bras ayant la plus haute

r´

ecompense cumul´

ee sur la p´

eriode [TS, TS+1). Comme

TS+1−1

t=TS

xk∗

S(t)≤max

TS+1−1

t=TS

xk(t),(14)

le gain de notre politique optimale sur une p´

eriode est

born´

e sup´

erieurement par le gain de la politique optimale

d’EXP3. En sommant sur chaque p´

eriode nous obtenons

(e−1)γT +(N−1+F(T))Klog K

γ.

Le regret comprend aussi le d´

elais entre le changement de

meilleur bras et sa d´

etection. Pour ´

evaluer l’esp´

erance de

la taille de l’intervalle s´

eparant chaque appel du test, nous

consid´

erons un algorithme ﬁctif collectant uniquement les

observations d’un bras avant de passer au suivant jusqu’`

avoir collect´

e toutes les observations. Les γ-observations

sont tir´

ees avec une probabilit´

eγ

Ket γH

Kobservations sont

n´

ecessaires par action. L’esp´

erance du nombre d’´

echecs

avant de r´

eussir `

a collecter γH

Kγ-observations suit une loi

binomiale n´

egative d’esp´

erance

γH

K(1 −γ

K)K

γ=H−γH

K.(15)

L’esp´

erance du nombre de tirages `

a la ﬁn de la collecte est

le nombre de succ`

es plus le nombre esp´

er´

e d’´

echecs :

γH

K+H−γH

K=H . (16)

En sommant sur tout les bras, nous obtenons une esp´

erance

totale de HK.´

Etant donn´

e que notre algorithme peut

collecter les observations de n’importe quel bras `

a n’im-

porte quel moment, sur une mˆ

eme s´

equence de tirages,

notre algorithme aura ﬁni sa collecte avant l’algorithme

pr´

ec´

edemment d´

ecrit. Par cons´

equent, l’esp´

erance du temps

entre chaque appel du test est born´

ee sup´

erieurement par

HK et inf´

erieurement par H, l’esp´

erance du temps de col-

lecte pour un bras. Il y a N−1changements de meilleure

action et la d´

etection se produit au plus dL(T)eHK tour

apr`

es le changement. Pour ﬁnir, il y a aussi au plus N−1in-

tervalles o`

u les changements de meilleur bras se produisent.

Durant ces intervalles, nous n’avons pas de garanties sur le

comportement du test. Dans le pire des cas, le test ne d´

etecte

pas de changement et le regret instantan´

e est de 1.

G∗−E[GEXP3.R]≤(e−1)γT

+(N−1 + F(T))Klog K

γ+(N−1)HK(dL(T)e+1) .

(17)

Nous bornons maintenant F(T)et L(T). Les inter-

valles de conﬁance sont valides avec une probabilit´

e d’au

moins 1−δet ils sont utilis´

es Kfois `

a chaque test.

En utilisant l’in´

egalit´

e de Boole, nous d´

eduisons que

F(T)≤Kδ(T

H+ 1).L(T)est la premi`

ere occurrence de

l’´

ev`

enement D´

ETECTION apr`

es un changement de meilleur

bras. Quand un tel changement se produit, le lemme 1 ga-

rantit que la d´

etection se produira avec une probabilit´

e d’au

moins 1−2δ. Nous avons L(T)≤1

1−2δ.

G∗−E[GEXP3.R]≤(e−1)γT

+N−1 + KδT

H+KδKlog K

+ (N−1)HK 1

1−2δ+ 1.(18)

1 / 9 100%

Un Algorithme pour le Probl`eme des Bandits Manchots

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Un Algorithme pour le Probl`eme des Bandits Manchots

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib