ÉCOLE NORMALE SUPÉRIEURE DE CACHAN
DÉPARTEMENT DE MATHÉMATIQUES
Rapport de stage de Master 1
Algorithmes de bandits
bXc
Simon Coste
hModèles de bandits. g
Ce document est le rapport d’un stage effectué du 22 mai au 25 juillet 2014 à l’Institut Ma-
thématique de Toulouse, sous la direction d’Aurélien Garivier et de Sébastien Gerchinovitz. Je
les remercie chaleureusement pour leur sympathie, leur aide et leurs conseils. Je remercie éga-
lement toute l’équipe Probabilités et Statistiques de l’IMT pour leur accueil. Ce rapport est une
introduction à la théorie des bandits. Il présente quelques résultats généraux, des algorithmes
classiques et moins classiques, ainsi que quelques développements très récents du domaine.
Il ne contient rien de nouveau, et je regrette de n’avoir pas eu plus de temps pour essayer de
prolonger certains articles. Ces idées sont succinctement évoquées en conclusion.
Ce rapport est certainement riche en coquilles et erreurs en tout genre : n’hésitez pas à me
le signaler. Toute remarque sur la présentation ou l’écriture des preuves est bienvenue.
gbmXnch
[1\
hModèles de bandits. g
Table des matières
1 Introduction 3
1.1 Le dilemme exploration-exploitation. . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Cadre mathématique et notations. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Les outils de base de la théorie des bandits. 5
2.1 Quelques inégalités classiques en probabilité. . . . . . . . . . . . . . . . . . . . . . 6
2.1.1 Conjugaison convexe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.1.2 La méthode de Chernoff. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1.3 L’inégalité de Hoeffding. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 La divergence de Kullback-Leibler. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3 Le théorème de changement de mesure. . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4 Grandes déviations : le théorème de Cramér. . . . . . . . . . . . . . . . . . . . . . . 12
3 La borne de Lai et Robbins. 13
3.1 Le théorème de Lai et Robbins. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2 Une première démonstration. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.3 Une variante plus moderne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4 Somme aléatoire de variables aléatoires : deux inégalités de concentration. 17
4.1 Un cadre simple à un seul bras. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.2 Un cadre multibras. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
5 Algorithmes classiques : upper confidence bounds. 21
5.1 Le principe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5.2 L’algorihme UCB. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.3 L’algorithme KL-UCB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
5.4 Des exemples empiriques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
6 Les bandits avec une structure lipschitzienne. 27
6.1 Bandits continus et discrétisation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
6.2 Algorithmes : OSLB et CKL-UCB. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
6.2.1 Notations et principes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
6.3 Analyse du regret. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
6.3.1 OSLB. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
6.3.2 CKL-UCB. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
6.4 Tests empiriques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
7 Enchère à la Vickrey avec prix de réserve. 34
7.1 Le cadre. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
7.2 Un algorithme en O(pT) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
7.3 Analyse du regret. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
7.3.1 Preuve du théorème. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
7.3.2 Preuves des lemmes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
7.4 Tests empiriques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
7.4.1 L’hypothèse lipschitzienne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
7.4.2 Les algorithmes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
8 Conclusion. 44
A Le language Julia. 47
[2\
hModèles de bandits. g
1 Introduction
1.1 Le dilemme exploration-exploitation.
Les « modèles de bandits » sont apparus pour la première fois dans les années 1930 pour
modéliser des jeux d’argent. Un « one-armed bandit » est une machine à sous qui possède un
bras à actionner ; on reçoit alors une récompense1qui est aléatoire, selon une certaine loi.
On parle de bandit multi-bras (en français « multi-arm bandit » ) lorsque la machine possède
plusieurs bras : l’utilisateur choisit quel bras jouer. Ce qui est intéressant, c’est que la loi de
probabilité suivie par la récompense liée à chaque bras est différente. Supposons maintenant
que Bob dispose d’une fortune de 100et qu’il décide de (tenter de) les faire fructifier en jouant
à un bandit multi-bras. Bob n’a aucune idée de quel bras est le meilleur : il va donc devoir, avec
ses 100, faire deux choses :
1. Estimer le « meilleur » bras, par exemple celui avec l’espérance de gain la plus élevée.
2. Exploiter ce meilleur bras.
Or, ces deux choses sont coûteuses. Bob ne veut pas dépenser toute sa fortune pour être sûr
que le bras 1 est le meilleur en testant plusieurs fois les bras 1 et 2 : si au bout d’un moment, il
est convaincu que le bras 1 est meilleur, il ne voudra plus jouer que lui. Il devra donc s’adapter
au mieux à ce dilemme entre exploration du modèle et exploitation de l’information déjà ac-
quise.
Ce genre de problème est loin d’être propre aux jeux d’argents. Il est présent dans beaucoup
de situation où l’on doit choisir comment allouer séquentiellement des ressources entre plu-
sieurs options sans connaître le rendement de ces options. C’est le cas notamment des tests cli-
niques, où l’on ne connaît pas l’efficacité des traitements et où la seule manière de la connaître
est de les tester sur des vrais malades. On verra également en dernière partie de ce rapport une
application à la fixation d’un prix optimal lors de certains types d’enchères.
FIGURE 1 – Ceci est un modèle mathématique.
1. Ou pas. « Ordinary slot machines with one arm are one-armed bandits, since in the long run they are as
effective as human bandits in separating the victim from his money. », nous expliquent T.L. Lai et H. Robbins dans
leur article fondamental [Lai and Robbins, 1985].
[3\
hModèles de bandits. g
1.2 Cadre mathématique et notations.
Nous présentons formellement le modèle des bandits. Dans cette section, seront définis les
concepts fondamentaux dont nous ferons un usage constant au cours de ce rapport.
Soit K2 : pour chaque kK, on suppose qu’il existe une suite de variables aléatoires
(Xk(n))nN, indépendantes et identiquement distribuées selon une loi de probabilité Pk. On
suppose que ces Ksuites sont indépendantes entre elles.
Une stratégie de bandits est une suite prévisible de variables aléatoires (It)tNà valeurs dans
{1,...,K}, c’est-à-dire que t, la variable Itest Ft1-mesurable, où l’on a défini :
Ft=σ³XI1,I1,..., XIt,It´
Notons que la filtration ainsi obtenue tient compte du fait qu’à l’instant t, si l’on tire 2le
bras k, on récolte Xk(t) mais on ne dispose d’aucune information sur la valeur que l’on aurait
récoltée si l’on avait tiré un autre bras : pour l6= k,Xl(t) n’est pas connu. On parle parfois de
modèle en « information incomplète » : la situation aurait été radicalement différente si, en
plus de récolter la récompense Xk(t), on pouvait connaître chaque Xl(t) : on aurait disposé du
maximum d’information disponible à l’instant tpour approfondir la connaissance de chaque
bras.
On parle souvent, à propos de la suite It, d’un « algorithme de bandits » ; la réalisation d’une
variable Xkest souvent décrite comme « la réalisation du bras k» . Le modèle est à comprendre
comme suit : à chaque instant t, on a le choix entre Kmachines à sous différentes. La somme
d’argent récoltée par l’utilisateur s’il tire la machine kà linstant test Xk(t).
Ainsi, la somme récoltée à l’instant test XIt(t) : on notera parfois cette quantité Ztpour
alléger les notations. Ainsi, à la fin du n-ième essai, la somme totale récoltée par le joueur est
PtnZt. C’est cette somme qu’il s’agit de rendre la plus grande possible. Pour cela, on choisit
de maximiser son espérance 3. Notons µk=E[Xk(t)] l’espérance du bras k. Le meilleur bras
est celui pour lequel l’espérance est la plus élevée. Ce qui se rapporte à ce meilleur bras sera
systématiquement noté avec une étoile :
k?=arg max
1kKµk
µ?=µk?=max
1kKµk
Lorsqu’on tire systématiquement le bras k?, on récolte en moyenne au bout de nessais la
quantité nµ?; lorsqu’on adopte une stratégie quelconque, on récolte en moyenne au bout de
nessais la quantité PinE[Zt]=PinµIt.
DÉFINITION 1. — On appelle regret du modèle à l’instant n la quantité :
E[R(n)] =E·n
X
t=1
µ?µIt¸
Notons Nk(t)=P1It=kle nombre de fois où le bras ka été tiré à l’instant t. En effectuant
une interversion de sommes à termes positifs il est possible de récrire cette quantité sous la
2. C’est-à-dire si It=k.
3. D’autres critères de maximisation sont possibles. Par exemple, on peut s’intéresser non pas à l’espérance de
gain, mais à la valeur de ce gain avec grande probabilité : il s’agirait alors d’obtenir un résultat du type P(PZy<²)<
r(²), où ²et r(²) sont tous les deux petits.
[4\
1 / 49 100%