Algorithmes de bandits

ÉCOLE NORMALE SUPÉRIEURE DE CACHAN

DÉPARTEMENT DE MATHÉMATIQUES

Rapport de stage de Master 1

bXc

Simon Coste

hModèles de bandits. g

Ce document est le rapport d’un stage effectué du 22 mai au 25 juillet 2014 à l’Institut Ma-

thématique de Toulouse, sous la direction d’Aurélien Garivier et de Sébastien Gerchinovitz. Je

les remercie chaleureusement pour leur sympathie, leur aide et leurs conseils. Je remercie éga-

lement toute l’équipe Probabilités et Statistiques de l’IMT pour leur accueil. Ce rapport est une

introduction à la théorie des bandits. Il présente quelques résultats généraux, des algorithmes

classiques et moins classiques, ainsi que quelques développements très récents du domaine.

Il ne contient rien de nouveau, et je regrette de n’avoir pas eu plus de temps pour essayer de

prolonger certains articles. Ces idées sont succinctement évoquées en conclusion.

Ce rapport est certainement riche en coquilles et erreurs en tout genre : n’hésitez pas à me

le signaler. Toute remarque sur la présentation ou l’écriture des preuves est bienvenue.

gbmXnch

[1\

hModèles de bandits. g

Table des matières

1 Introduction 3

1.1 Le dilemme exploration-exploitation. . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2 Cadre mathématique et notations. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2 Les outils de base de la théorie des bandits. 5

2.1 Quelques inégalités classiques en probabilité. . . . . . . . . . . . . . . . . . . . . . 6

2.1.1 Conjugaison convexe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.1.2 La méthode de Chernoff. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.1.3 L’inégalité de Hoeffding. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.2 La divergence de Kullback-Leibler. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.3 Le théorème de changement de mesure. . . . . . . . . . . . . . . . . . . . . . . . . 10

2.4 Grandes déviations : le théorème de Cramér. . . . . . . . . . . . . . . . . . . . . . . 12

3 La borne de Lai et Robbins. 13

3.1 Le théorème de Lai et Robbins. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3.2 Une première démonstration. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.3 Une variante plus moderne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

4 Somme aléatoire de variables aléatoires : deux inégalités de concentration. 17

4.1 Un cadre simple à un seul bras. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

4.2 Un cadre multibras. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

5 Algorithmes classiques : upper conﬁdence bounds. 21

5.1 Le principe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

5.2 L’algorihme UCB. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

5.3 L’algorithme KL-UCB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

5.4 Des exemples empiriques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

6 Les bandits avec une structure lipschitzienne. 27

6.1 Bandits continus et discrétisation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

6.2 Algorithmes : OSLB et CKL-UCB. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

6.2.1 Notations et principes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

6.3 Analyse du regret. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

6.3.1 OSLB. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

6.3.2 CKL-UCB. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

6.4 Tests empiriques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

7 Enchère à la Vickrey avec prix de réserve. 34

7.1 Le cadre. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

7.2 Un algorithme en O(pT) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

7.3 Analyse du regret. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

7.3.1 Preuve du théorème. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

7.3.2 Preuves des lemmes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

7.4 Tests empiriques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

7.4.1 L’hypothèse lipschitzienne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

7.4.2 Les algorithmes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

8 Conclusion. 44

A Le language Julia. 47

[2\

hModèles de bandits. g

1 Introduction

1.1 Le dilemme exploration-exploitation.

Les « modèles de bandits » sont apparus pour la première fois dans les années 1930 pour

modéliser des jeux d’argent. Un « one-armed bandit » est une machine à sous qui possède un

bras à actionner ; on reçoit alors une récompense1qui est aléatoire, selon une certaine loi.

On parle de bandit multi-bras (en français « multi-arm bandit » ) lorsque la machine possède

plusieurs bras : l’utilisateur choisit quel bras jouer. Ce qui est intéressant, c’est que la loi de

probabilité suivie par la récompense liée à chaque bras est différente. Supposons maintenant

que Bob dispose d’une fortune de 100€et qu’il décide de (tenter de) les faire fructiﬁer en jouant

à un bandit multi-bras. Bob n’a aucune idée de quel bras est le meilleur : il va donc devoir, avec

ses 100€, faire deux choses :

1. Estimer le « meilleur » bras, par exemple celui avec l’espérance de gain la plus élevée.

2. Exploiter ce meilleur bras.

Or, ces deux choses sont coûteuses. Bob ne veut pas dépenser toute sa fortune pour être sûr

que le bras 1 est le meilleur en testant plusieurs fois les bras 1 et 2 : si au bout d’un moment, il

est convaincu que le bras 1 est meilleur, il ne voudra plus jouer que lui. Il devra donc s’adapter

au mieux à ce dilemme entre exploration du modèle et exploitation de l’information déjà ac-

quise.

Ce genre de problème est loin d’être propre aux jeux d’argents. Il est présent dans beaucoup

de situation où l’on doit choisir comment allouer séquentiellement des ressources entre plu-

sieurs options sans connaître le rendement de ces options. C’est le cas notamment des tests cli-

niques, où l’on ne connaît pas l’efﬁcacité des traitements et où la seule manière de la connaître

est de les tester sur des vrais malades. On verra également en dernière partie de ce rapport une

application à la ﬁxation d’un prix optimal lors de certains types d’enchères.

FIGURE 1 – Ceci est un modèle mathématique.

1. Ou pas. « Ordinary slot machines with one arm are one-armed bandits, since in the long run they are as

effective as human bandits in separating the victim from his money. », nous expliquent T.L. Lai et H. Robbins dans

leur article fondamental [Lai and Robbins, 1985].

[3\

hModèles de bandits. g

1.2 Cadre mathématique et notations.

Nous présentons formellement le modèle des bandits. Dans cette section, seront déﬁnis les

concepts fondamentaux dont nous ferons un usage constant au cours de ce rapport.

Soit K≥2 : pour chaque k≤K, on suppose qu’il existe une suite de variables aléatoires

(Xk(n))n∈N, indépendantes et identiquement distribuées selon une loi de probabilité Pk. On

suppose que ces Ksuites sont indépendantes entre elles.

Une stratégie de bandits est une suite prévisible de variables aléatoires (It)t∈Nà valeurs dans

{1,...,K}, c’est-à-dire que ∀t, la variable Itest Ft−1-mesurable, où l’on a déﬁni :

Ft=σ³XI1,I1,..., XIt,It´

Notons que la ﬁltration ainsi obtenue tient compte du fait qu’à l’instant t, si l’on tire 2le

bras k, on récolte Xk(t) mais on ne dispose d’aucune information sur la valeur que l’on aurait

récoltée si l’on avait tiré un autre bras : pour l6= k,Xl(t) n’est pas connu. On parle parfois de

modèle en « information incomplète » : la situation aurait été radicalement différente si, en

plus de récolter la récompense Xk(t), on pouvait connaître chaque Xl(t) : on aurait disposé du

maximum d’information disponible à l’instant tpour approfondir la connaissance de chaque

bras.

On parle souvent, à propos de la suite It, d’un « algorithme de bandits » ; la réalisation d’une

variable Xkest souvent décrite comme « la réalisation du bras k» . Le modèle est à comprendre

comme suit : à chaque instant t, on a le choix entre Kmachines à sous différentes. La somme

d’argent récoltée par l’utilisateur s’il tire la machine kà l’instant test Xk(t).

Ainsi, la somme récoltée à l’instant test XIt(t) : on notera parfois cette quantité Ztpour

alléger les notations. Ainsi, à la ﬁn du n-ième essai, la somme totale récoltée par le joueur est

Pt≤nZt. C’est cette somme qu’il s’agit de rendre la plus grande possible. Pour cela, on choisit

de maximiser son espérance 3. Notons µk=E[Xk(t)] l’espérance du bras k. Le meilleur bras

est celui pour lequel l’espérance est la plus élevée. Ce qui se rapporte à ce meilleur bras sera

systématiquement noté avec une étoile :

k?=arg max

1≤k≤Kµk

µ?=µk?=max

1≤k≤Kµk

Lorsqu’on tire systématiquement le bras k?, on récolte en moyenne au bout de nessais la

quantité nµ?; lorsqu’on adopte une stratégie quelconque, on récolte en moyenne au bout de

nessais la quantité Pi≤nE[Zt]=Pi≤nµIt.

DÉFINITION 1. — On appelle regret du modèle à l’instant n la quantité :

E[R(n)] =E·n

X

t=1

µ?−µIt¸

Notons Nk(t)=P1It=kle nombre de fois où le bras ka été tiré à l’instant t. En effectuant

une interversion de sommes à termes positifs il est possible de récrire cette quantité sous la

2. C’est-à-dire si It=k.

3. D’autres critères de maximisation sont possibles. Par exemple, on peut s’intéresser non pas à l’espérance de

gain, mais à la valeur de ce gain avec grande probabilité : il s’agirait alors d’obtenir un résultat du type P(PZy<²)<

r(²), où ²et r(²) sont tous les deux petits.

[4\

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

Algorithmes de bandits

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Algorithmes de bandits

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib