Un Algorithme pour le Probl`
eme des Bandits Manchots avec
Stationnarit´
e par Parties
Robin Allesiardo1,2 et Rapha¨
el F´
eraud1
1Orange Labs, 2 av. Pierre Marzin, 22300 Lannion
2TAO - INRIA, LRI, Universit´
e Paris-Sud, CNRS, 91405 Orsay
R´
esum´
e
Dans le probl`
eme des bandits manchots, un joueur
poss`
ede le choix entre plusieurs bras poss´
edant des
esp´
erances de gain diff´
erentes. Son but est de maximiser
la r´
ecompense obtenue apr`
es Tessais. Il doit alors explo-
rer pour estimer les r´
ecompenses de chaque machine tout
en exploitant le bras qu’il estime le meilleur. C’est le di-
lemme exploration/exploitation. Dans le cas des bandits ad-
verses, la s´
equence de r´
ecompenses d’une machine est choi-
sie `
a l’avance par un adversaire. En pratique, la notion de
meilleur bras sur le jeu complet est trop restrictive pour
des applications comme l’optimisation publicitaire o`
u la
meilleure publicit´
e peut changer au cours du temps. Dans
ce papier, nous consid´
erons une variante du probl`
eme ad-
verse, o`
u le jeu est divis´
e en un nombre inconnu de p´
eriodes
`
a l’int´
erieur desquelles les r´
ecompenses sont tir´
ees dans
des distributions stochastiques. Entre chaque p´
eriode, le
meilleur bras peut changer. Nous pr´
esentons un algorithme
utilisant l’exploration constante d’EXP3 pour d´
etecter les
changements de meilleur bras. Son analyse montre, que sur
un jeu divis´
e en Nsegments o`
u le meilleur bras change,
l’algorithme propos´
e poss`
ede un regret en O(N√Tlog T).
1 Introduction
Le probl`
eme des bandits manchots est un jeu r´
ep´
etitif o`
u,
`
a chaque tour, un joueur choisit l’un des Kbras (ou ac-
tions) puis rec¸oit la r´
ecompense associ´
ee `
a l’action choisie.
Pour trouver l’action la plus profitable, le joueur doit ex-
plorer les diff´
erents choix possibles mais doit aussi exploi-
ter l’action qu’il estime la meilleure de mani`
ere `
a maximi-
ser sa r´
ecompense cumul´
ee. La qualit´
e de la strat´
egie du
joueur est mesur´
ee en terme de regret, qui est la diff´
erence
entre la r´
ecompense cumul´
ee du joueur et celle qu’aurait
obtenue une strat´
egie suppos´
ee optimale comme jouer
uniquement le bras poss´
edant la plus haute esp´
erance de
r´
ecompense .
Dans le cas stochastique, les r´
ecompenses de chaque
bras sont tir´
ees de mani`
ere ind´
ependante dans une distri-
bution associ´
ee `
a chaque bras. Le plus ancien algorithme,
le Thompson Sampling [Tho33], est bas´
e sur des id´
ees
Bay´
esiennes. `
A chaque pas de temps, une action est choi-
sie en ´
echantillonnant les r´
ecompenses a posteriori estim´
ees
pour chaque bras. Cette politique atteint, en esp´
erance, un
regret cumul´
e logarithmique [AG12] et est optimal asymp-
totiquement [KKM12]. L’algorithme UCB [ACBF02] cal-
cule un intervalle de confiance sup´
erieur pour chaque bras
et joue le bras poss´
edant la plus haute estimation. L’analyse
de cet algorithme montre que son regret cumul´
e poss`
ede
une borne sup´
erieure logarithmique, ce qui est optimal.
Dans le cas adverse, les r´
ecompenses sont choisies `
a
l’avance par un adversaire. Cette formulation a ´
et´
e lon-
guement ´
etudi´
ee par Auer et al [ACBFS02] ainsi que
par Cesa-Bianchi et Lugosi [CBL06]. Les algorithmes ad-
verses les plus populaires proviennent de la famille EXP3
[ACBFS02]. EXP3 atteint un regret cumul´
e en O(√T), ce
qui est optimal dans le cas adverse. Le probl`
eme des ban-
dits manchots avec stationnarit´
e par parties consid`
ere que
des points de rupture sont choisis en avance par un ad-
versaire [GM11]. Entre ces points, les r´
ecompenses sont
tir´
ees depuis des distributions stochastiques. Cet ´
enonc´
e est
appropri´
e pour des applications comme l’optimisation pu-
blicitaire, o`
u les publicit´
es disponibles peuvent changer au
cours du temps.
R´
esum´
e de la contribution
Pour ˆ
etre capable d’appr´
ehender les changements
de meilleur bras, notre contribution combine l’algorithme
de bandit adverse EXP3 avec un d´
etecteur de rupture. Cet
algorithme, appel´
e EXP3.R, utilise l’exploration constante
d’ EXP3 pour maintenir des estimateurs non biais´
es
1