É COLE N ORMALE S UPÉRIEURE DE C ACHAN D ÉPARTEMENT DE MATHÉMATIQUES Rapport de stage de Master 1 Algorithmes de bandits bXc Simon Coste h Modèles de bandits. g Ce document est le rapport d’un stage effectué du 22 mai au 25 juillet 2014 à l’Institut Mathématique de Toulouse, sous la direction d’Aurélien Garivier et de Sébastien Gerchinovitz. Je les remercie chaleureusement pour leur sympathie, leur aide et leurs conseils. Je remercie également toute l’équipe Probabilités et Statistiques de l’IMT pour leur accueil. Ce rapport est une introduction à la théorie des bandits. Il présente quelques résultats généraux, des algorithmes classiques et moins classiques, ainsi que quelques développements très récents du domaine. Il ne contient rien de nouveau, et je regrette de n’avoir pas eu plus de temps pour essayer de prolonger certains articles. Ces idées sont succinctement évoquées en conclusion. Ce rapport est certainement riche en coquilles et erreurs en tout genre : n’hésitez pas à me le signaler. Toute remarque sur la présentation ou l’écriture des preuves est bienvenue. gbmX nch [ 1 \ h Modèles de bandits. g Table des matières 1 Introduction 1.1 Le dilemme exploration-exploitation. . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Cadre mathématique et notations. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Les outils de base de la théorie des bandits. 2.1 Quelques inégalités classiques en probabilité. 2.1.1 Conjugaison convexe. . . . . . . . . . . 2.1.2 La méthode de Chernoff. . . . . . . . . 2.1.3 L’inégalité de Hoeffding. . . . . . . . . . 2.2 La divergence de Kullback-Leibler. . . . . . . . 2.3 Le théorème de changement de mesure. . . . 2.4 Grandes déviations : le théorème de Cramér. . 3 3 4 . . . . . . . 5 6 6 7 7 8 10 12 3 La borne de Lai et Robbins. 3.1 Le théorème de Lai et Robbins. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Une première démonstration. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Une variante plus moderne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 13 14 15 4 Somme aléatoire de variables aléatoires : deux inégalités de concentration. 4.1 Un cadre simple à un seul bras. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Un cadre multibras. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 18 19 5 Algorithmes classiques : upper confidence bounds. 5.1 Le principe. . . . . . . . . . . . . . . . . . . . . . 5.2 L’algorihme UCB. . . . . . . . . . . . . . . . . . . 5.3 L’algorithme KL-UCB . . . . . . . . . . . . . . . . 5.4 Des exemples empiriques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 21 22 24 26 6 Les bandits avec une structure lipschitzienne. 6.1 Bandits continus et discrétisation. . . . . . 6.2 Algorithmes : OSLB et CKL-UCB. . . . . . . 6.2.1 Notations et principes. . . . . . . . . 6.3 Analyse du regret. . . . . . . . . . . . . . . . 6.3.1 OSLB. . . . . . . . . . . . . . . . . . . 6.3.2 CKL-UCB. . . . . . . . . . . . . . . . 6.4 Tests empiriques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 27 29 29 30 31 33 33 . . . . . . . . 34 34 37 38 39 41 42 42 42 7 Enchère à la Vickrey avec prix de réserve. 7.1 Le cadre. . . . . . . .p. . . . . . . . . . 7.2 Un algorithme en O ( T ) . . . . . . . . 7.3 Analyse du regret. . . . . . . . . . . . . 7.3.1 Preuve du théorème. . . . . . . 7.3.2 Preuves des lemmes. . . . . . . 7.4 Tests empiriques. . . . . . . . . . . . . 7.4.1 L’hypothèse lipschitzienne. . . 7.4.2 Les algorithmes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Conclusion. 44 A Le language Julia. 47 [ 2 \ Modèles de bandits. h g 1 Introduction 1.1 Le dilemme exploration-exploitation. Les « modèles de bandits » sont apparus pour la première fois dans les années 1930 pour modéliser des jeux d’argent. Un « one-armed bandit » est une machine à sous qui possède un bras à actionner ; on reçoit alors une récompense 1 qui est aléatoire, selon une certaine loi. On parle de bandit multi-bras (en français « multi-arm bandit » ) lorsque la machine possède plusieurs bras : l’utilisateur choisit quel bras jouer. Ce qui est intéressant, c’est que la loi de probabilité suivie par la récompense liée à chaque bras est différente. Supposons maintenant que Bob dispose d’une fortune de 100€ et qu’il décide de (tenter de) les faire fructifier en jouant à un bandit multi-bras. Bob n’a aucune idée de quel bras est le meilleur : il va donc devoir, avec ses 100€, faire deux choses : 1. Estimer le « meilleur » bras, par exemple celui avec l’espérance de gain la plus élevée. 2. Exploiter ce meilleur bras. Or, ces deux choses sont coûteuses. Bob ne veut pas dépenser toute sa fortune pour être sûr que le bras 1 est le meilleur en testant plusieurs fois les bras 1 et 2 : si au bout d’un moment, il est convaincu que le bras 1 est meilleur, il ne voudra plus jouer que lui. Il devra donc s’adapter au mieux à ce dilemme entre exploration du modèle et exploitation de l’information déjà acquise. Ce genre de problème est loin d’être propre aux jeux d’argents. Il est présent dans beaucoup de situation où l’on doit choisir comment allouer séquentiellement des ressources entre plusieurs options sans connaître le rendement de ces options. C’est le cas notamment des tests cliniques, où l’on ne connaît pas l’efficacité des traitements et où la seule manière de la connaître est de les tester sur des vrais malades. On verra également en dernière partie de ce rapport une application à la fixation d’un prix optimal lors de certains types d’enchères. F IGURE 1 – Ceci est un modèle mathématique. 1. Ou pas. « Ordinary slot machines with one arm are one-armed bandits, since in the long run they are as effective as human bandits in separating the victim from his money. », nous expliquent T.L. Lai et H. Robbins dans leur article fondamental [Lai and Robbins, 1985]. [ 3 \ h Modèles de bandits. g 1.2 Cadre mathématique et notations. Nous présentons formellement le modèle des bandits. Dans cette section, seront définis les concepts fondamentaux dont nous ferons un usage constant au cours de ce rapport. Soit K ≥ 2 : pour chaque k ≤ K , on suppose qu’il existe une suite de variables aléatoires (X k (n))n∈N , indépendantes et identiquement distribuées selon une loi de probabilité P k . On suppose que ces K suites sont indépendantes entre elles. Une stratégie de bandits est une suite prévisible de variables aléatoires (I t )t ∈N à valeurs dans {1, ..., K }, c’est-à-dire que ∀t , la variable I t est Ft −1 -mesurable, où l’on a défini : ³ ´ Ft = σ X I 1 , I 1 , ..., X I t , I t Notons que la filtration ainsi obtenue tient compte du fait qu’à l’instant t , si l’on tire 2 le bras k, on récolte X k (t ) mais on ne dispose d’aucune information sur la valeur que l’on aurait récoltée si l’on avait tiré un autre bras : pour l 6= k, X l (t ) n’est pas connu. On parle parfois de modèle en « information incomplète » : la situation aurait été radicalement différente si, en plus de récolter la récompense X k (t ), on pouvait connaître chaque X l (t ) : on aurait disposé du maximum d’information disponible à l’instant t pour approfondir la connaissance de chaque bras. On parle souvent, à propos de la suite I t , d’un « algorithme de bandits » ; la réalisation d’une variable X k est souvent décrite comme « la réalisation du bras k » . Le modèle est à comprendre comme suit : à chaque instant t , on a le choix entre K machines à sous différentes. La somme d’argent récoltée par l’utilisateur s’il tire la machine k à l’instant t est X k (t ). Ainsi, la somme récoltée à l’instant t est X I t (t ) : on notera parfois cette quantité Z t pour alléger les notations. Ainsi, à la fin du n-ième essai, la somme totale récoltée par le joueur est P t ≤n Z t . C’est cette somme qu’il s’agit de rendre la plus grande possible. Pour cela, on choisit de maximiser son espérance 3 . Notons µk = E[X k (t )] l’espérance du bras k. Le meilleur bras est celui pour lequel l’espérance est la plus élevée. Ce qui se rapporte à ce meilleur bras sera systématiquement noté avec une étoile : k ? = arg max µk 1≤k≤K µ? = µk ? = max µk 1≤k≤K Lorsqu’on tire systématiquement le bras k ? , on récolte en moyenne au bout de n essais la quantité nµ? ; lorsqu’on adopte une stratégie quelconque, on récolte en moyenne au bout de P P n essais la quantité i ≤n E[Z t ] = i ≤n µI t . D ÉFINITION 1. — On appelle regret du modèle à l’instant n la quantité : · E[R(n)] = E n X ? µ − µI t ¸ t =1 P Notons Nk (t ) = 1I t =k le nombre de fois où le bras k a été tiré à l’instant t . En effectuant une interversion de sommes à termes positifs il est possible de récrire cette quantité sous la 2. C’est-à-dire si I t = k. 3. D’autres critères de maximisation sont possibles. Par exemple, on peut s’intéresser non pas à l’espérance de P gain, mais à la valeur de ce gain avec grande probabilité : il s’agirait alors d’obtenir un résultat du type P( Z y < ²) < r (²), où ² et r (²) sont tous les deux petits. [ 4 \ h Modèles de bandits. g forme suivante : " E[R(n)] = E K n X X t =1 k=1 " = E K X # ¡ ? ¢ 1I t =k µ − µk # ¡ ? ¢ Nk (n) µ − µk (1) (2) k=1 C’est cette quantité que l’on veut minimiser. On notera fréquemment ∆i = µ? −µi , de sorte P que E[R(n)] = k E[Nk (n)]∆k . L’objectif principal de la théorie des bandits est de garantir que Nk (n) n’est pas trop élevé lorsque le bras k n’est pas optimal. D ÉFINITION 2. — La récompense du bras k à l’instant n est la quantité : S k (n) = n X t =1 1{I t =k} X k (t ) La moyenne du bras k à l’instant n est la quantité : µ̂k (n) = S k (n) Nk (n) Ainsi, la variable S k est une somme aléatoire de variables aléatoires, ce qui introduit des difficultés pour la contrôler : il n’est pas possible d’utiliser des inégalités classiques comme celle de Markov ! La section 4 est consacrée à l’étude de ces sommes aléatoires. Pour éviter de s’empêtrer dans des notations trop lourdes, il arrive fréquemment que l’on adopte les notations suivantes : ´ 1³ µ̂k,n = X k (1) + ... + X k (n) n µ̂k (n) = µk,Nk (n) Ces notations sont inexactes, au sens où dans la définition initiale de µ̂k , on ne somme pas les Nk (n) premiers termes de la suite (X k (t )), mais les Nk (n) termes de cette suite pour lesquels I t = k. Cependant, les deux grandeurs sont les mêmes en espérance. D ÉFINITION 3. — Un modèle de Bernoulli est un modèle de bandits où le bras k suit une loi de Bernoulli de paramètre µk . On trouvera à la figure 2 plusieurs examples de vecteur µ pour un modèle de bandit à K = 10 bras. Dans ce travail, nous porterons toute notre attention sur les modèles de Bernoulli. 2 Les outils de base de la théorie des bandits. Dans cette section, nous rappelons quelques outils classiques issus de la théorie des probabilités ou de la statistique (fonctions génératrices des moments, méthode de Chernoff) et certains outils moins classiques mais qui seront d’un usage constant dans ce travail, notamment la divergence de Kullback-Leibler entre deux mesures de probabilité et certaines de ses applications. Dans toute la suite, (Ω, F, P) un espace probabilisé (il n’interviendra presque jamais). [ 5 \ Modèles de bandits. h 0.8 g 1 0.7 0.8 0.6 0.6 0.5 0.4 0.4 0.3 0.2 0.2 0 0.1 2 4 6 8 2 10 4 6 8 10 8 10 1 1 0.9 0.5 0.8 0 0.7 −0.5 0.6 0.5 −1 2 4 6 8 10 2 4 6 F IGURE 2 – Quelques exemples de vecteurs des moyennes d’un modèle de bandits à 10 bras. Dans le premier cas, le bras 7 est optimal. 2.1 Quelques inégalités classiques en probabilité. 2.1.1 Conjugaison convexe. Cette section présente quelques résultats classiques autour de la fonction génératrice des moments d’une variable aléatoire. D ÉFINITION 4. — La fonction génératrice des moments d’une variable aléatoire Z est définie par : φ(x) = log E[e x Z ] (3) P ROPOSITION 2.1. — φ est une fonction convexe, infiniment différentiable sur son domaine de définition D(φ). Sa conjuguée φ∗ est une fonction convexe semi-continue inférieurement. La démonstration se trouve dans les manuels classiques de probabilité (par exemple [Feller, 1968] ou encore [Dembo and Zeitouni, 1993]). P ROPOSITION 2.2. — Alors, pour tout x ∈ R+ , on a φ∗ (λ) = sup λx − φ(λ) λ≥0 Pour tout x ∈ R− , on a φ∗ (λ) = sup λx − φ(λ) λ≤0 Démonstration. Notons f (λ) = λx −φ(λ) la quantité qu’il faut optimiser ; remarquons déjà que f (0) = ln 1 = 0, et donc nous aurons nécessairement φ∗ (x) ≥ 0. Or, lorsque λ < 0, on a E[e λX ] < 1, c’est-à-dire que φ(x) < 0. Comme nous avons choisi x ≥ 0, cela veut dire que ∀λ < 0, on a f (λ) ≤ 0. On peut donc choisir λ ≥ 0, d’où la première égalité dans l’énoncé du théorème. La deuxième se démontre de la même manière. [ 6 \ Modèles de bandits. h g 2.1.2 La méthode de Chernoff. Soit X une variable aléatoire positive et ² > 0. Quel que soit λ > 0, la croissance de l’exponentielle et l’inégalité de Markov donnent : E[e λX ] P(X > ²) = P(e λX > e λ² ) ≤ e λ² En introduisant la fonction φ, on aboutit ainsi à l’inégalité fondamentale : P(X > ²) ≤ e φ(λ) e λ² = e φ(λ)−λ² (4) On peut alors optimiser en λ pour trouver la meilleure borne possible pour cette méthode. Pour cela, définissons 4 la transformée φ∗ par : φ∗ (x) = sup λx − φ(λ) λ≥0 On aboutit ainsi à l’inégalité de Chernoff : ∗ P(X > ²) ≤ e −φ (²) Cela permet de construire un intervalle de confiance bilatéral pour X en procédant comme suit : ∗ P(|X | > ²) ≤ P(X > ²) + P(X < −²) ≤ 2e −φ (²) Soit X 1 , X 2 , ... une suite de variables aléatoires indépendantes et identiquement distribuées selon la même loi que X . L’inégalité de Chernoff s’applique sous la forme : P(X 1 + ... + X n > ²) ≤ e −φ∗X 1 +...+X n (²) ∗ ² (n) = e −nφ 2.1.3 L’inégalité de Hoeffding. L’inégalité de Hoeffding est un autre outil de base de la statistique des processus. On en donne ici une première démonstration. Une autre démonstration sera donnée pour les variables de Bernoulli. L EMME 2.1. — Soit Y une variable aléatoire réelle centrée à valeurs dans l’intervalle [a, b]. Alors, Y est sous-gaussienne, c’est-à-dire que : φY (λ) ≤ λ2 (b − a)4 8 Démonstration. Soit Y une variable centrée à valeurs dans l’intervalle [a, b]. Alors : ¯ ¯ ¯ ¯ ¯Y − a + b ¯ ≤ a − b ¯ 2 ¯ 2 Dès lors, si l’on note V la variance, on a : ¯¶ µ¯ ¯ (b − a)2 a + b ¯¯ V(Y ) = V ¯¯Y − ≤ ¯ 2 4 4. On verra plus tard qu’on peut optimiser sur R tout entier : φ? coïncide avec la transformée de LegendreFenchel issue de l’analyse convexe. [ 7 \ Modèles de bandits. h g Notons P la loi de probabilité de la variable Y et soit P λ la loi de probabilité donné par la densité : x −→ e −φY (λ) e λx Soit Z une variable aléatoire de loi P λ . Alors, Z est également à valeurs dans [a, b]. Deux dérivations sous le signe intégral permettent d’aboutir à l’égalité suivante : φ00Y (λ) = E[Y 2 e λY ] e φY (λ) − E[Y e λY ] e 2φY (λ) = V(Z ) ≤ (b − a)2 4 D’autre part, comme Y est centrée, on a φY (0) = 0 ainsi que φ0Y (0) = 0. La fonction φY étant C , par la théorème de Taylor-Lagrange, il existe un θ ∈ [0, λ] tel que : 2 1 (b − a)2 φY (λ) = φY (0) + λφ0Y (0) + λ2 φ00Y (θ) = λ2 φ00Y (θ) ≤ λ2 2 8 T HÉORÈME 2.1. — Soit X une variable aléatoire centrée à valeurs dans l’intervalle [a, b]. Alors : P(X > ²) ≤ e − 2²2 (b−a)2 Démonstration. Il suffit d’appliquer le lemme 2.1 à l’inégalité 4, puis d’optimiser en λ la quantité λ2 (b − a)2 /8 − λ². Cette quantité est minimale lorsque λ = 4²/(b − a)2 et elle prend alors la valeur −2²2 /(b − a)2 , ce qui démontre entièrement le théorème. T HÉORÈME 2.2. — Soient X 1 , ..., X n des variables aléatoires indépendantes, respectivement à P valeurs dans [a i , b i ]. On pose S n = ni=1 (X i − E[X i ]). Alors, pour tout t > 0 : 2t 2 2 i =1 (b i − a i ) µ P[S > t ] ≤ exp − Pn ¶ (5) En particulier, lorsque les X i sont toutes à valeurs dans l’intervalle [0, 1], on aboutit à la majoration suivante : · ¸ 2 X 1 + ... + X n P > t ≤ e −2nt (6) n 2.2 La divergence de Kullback-Leibler. La divergence de Kullback-Leibler entre deux lois de probabilités est un moyen de mesurer la « distance » qui les sépare 5 . Elle est présente dans de nombreux domaines des probabilités. Dans cette section, nous en donnons les principales propriétés, puis nous énonçons et démontrons un théorème de changement de mesure. Le principe des grandes déviations est également énoncé à titre d’exemple d’utilisation de la divergence de K-L. D ÉFINITION 5. — Soient µ et ν deux lois de probabilités telles que µ ¿ ν. On définit la divergence de Kullback-Leibler entre µ et ν par : ¶ µ Z dµ(x) kl(µ, ν) = ln dµ(x) dν(x) Lorsque µ n’est pas absolument continue par rapport à ν, on convient que kl(µ, ν) = ∞. 5. Bien que ce ne soit pas une métrique : elle ne vérifie pas l’axiome de symétrie. [ 8 \ Modèles de bandits. h g Dans le cas particulier où µ et ν suivent toutes les deux une loi de Bernouilli de paramètres respectifs p et q, on définit la divergence de Kullback-Leibler comme suit : p 1−p kl(p, q) = p ln( ) + (1 − p) ln( ) q 1−q Nous aurons plusieurs fois à utiliser des calculs de divergence de Kullback-Leibler, et il peut être bon de considérer ses propriétés élémentaires. La proposition suivante est donnée sans démonstration ; elle est illustrée par la figure 2.2. P ROPOSITION 2.3. — La fonction x → kl(x, p) est décroissante sur l’intervalle [0, p[, croissante sur l’intervalle [p, 1]. Elle vaut ln(1/(1 − p) en 0, ln(1/p) en 1 et 0 en p. La fonction x → kl(p, x) est décroissante sur l’intervalle ]0, p[, croissante sur l’intervalle [p, 1[. Elle vaut 0 en p et vérifie limx→0 kl(p, x) = limx→1 kl(p, x) = ∞. Divergence de Kullback−Leibler un aperçu de l'inégalité de Pinsker kl(0.4,x) 2(x−0.4)2 3 0.6 2 0.4 1 0.2 0 0 0 0.2 0.4 0.6 0.8 1 0.4 F IGURE 3 – La divergence de KullbackLeibler. 0.5 0.6 0.7 0.8 0.9 1 F IGURE 4 – Un aperçu de l’inégalité de Pinsker. T HÉORÈME 2.3. — Soit X une variable aléatoire de Bernouilli, de paramètre p. Alors : φ∗ (x) = kl(x, p) Démonstration. En développant l’expression de l’espérance d’une variable aléatoire de Bernouilli, on aboutit à l’écriture : φ(λ) = ln(pe λ + 1 − p). On a donc pour tout λ ≥ 0 : φ0 (λ) = pe λ pe λ + 1 − p Notons λx le réel tel que λx x − φ(λx ) = φ∗ (x). Ce réel doit vérifier x = φ0 (λx ), soit : x 1−p p 1−x ³ ´ ³ ´ 1−x On vérifie alors que φ∗ (x) = λx x − φ(λx ) = x ln px + (1 − x) ln 1−p = kl(x, p), ce qui démontre le théorème. e λx = La résultat suivant est un cas particulier de l’inégalité de Pinsker : [ 9 \ Modèles de bandits. h g P ROPOSITION 2.4. — Soient p et q deux éléments de ]0, 1[. Alors : kl(p, q) ≥ 2(p − q)2 Démonstration. Notons f la fonction x → kl(x, q). Cette fonction est infiniment dérivable sur ]0, 1[. Calculons ses dérivées d’ordre 1 et 2 en q. On trouve facilement que : µ ¶ µ ¶ x 1−x 0 f (x) = ln − ln q 1−q ainsi que : f 00 (x) = 1 x(1 − x) Par le théorème de Taylor, il existe un θ ∈ [0, 1] tel que f (x) = f (q) + (x − q) f 0 (q) + 12 (x − q) f (θ). Or, f (q) = f 0 (q) = 0, tandis que pour tout x on a f 00 (x) ≥ 4. Ainsi, on aboutit bien à : 2 00 1 1 kl(x, q) = (x − q)2 ≥ 2(x − q)2 2 x(x − 1) ce qui démontre la proposition. L’inégalité de Pinsker permet de démontrer l’inégalité de Hoeffding de manière élémentaire pour les variables aléatoires de Bernouilli. Supposons en effet que X suit une loi de Bernouilli de paramètre q. L’inégalité de Chernoff nous donne alors : ∗ P(X > ²) ≤ e −φ (²) = e −kl(²,q) et l’inégalité de Pinsker donne : P(X > ²) ≤ e −2(²−q) Finalement on a : ∗ P(|S n − nq| > n²) ≤ 2e −nφ 2 (q+²) 2 ≤ 2e −2n² L’algorithme KL-UCB utilise simplement le fait que l’inégalité de Hoeffding n’est pas optimale : les intervalles de confiance donnés par l’inégalité de Chernoff sont plus fins. Le schéma suivant illustre ce fait. 2.3 Le théorème de changement de mesure. Donnons-nous deux modèles de bandits avec le même nombre de bras, et notons ν = (ν1 , ..., νK ) et ν0 = (ν01 , ..., ν0K ) les lois respectives des K bras sous le premier et le deuxième modèle. Supposons que pour tout k ≤ K , les lois νk et ν0k soient toutes deux absolument continues par rapport à une mesure λ. Il existe alors deux fonctions f k et f k0 qui sont les densités respectives de νk et ν0k par rapport à λ. Définissons la rapport de vraisemblance des observations jusqu’à l’instant t : à ! n X f I t (ω) (Z t (ω)) ∀ω ∈ Ω, L ω (n) = ln 0 f I (ω) (Z t (ω)) t =1 t Nous omettrons toujours les ω. Pour plus de clarté, on pourra également écrire : ! à n X K X f k (Z t ) 1{I t =k} L(t ) = ln 0 f k (Z t ) t =1 k=1 [ 10 \ Modèles de bandits. h g Par exemple, dans le cas où il n’y a qu’un bras suivant une loi de Bernouilli de paramètre p dans le premier modèle , q dans le deuxième modèle , sur l’événement {X 1 + ... + X n = k}, on a µ ¶ µ ¶ L(n) 1−p p + (1 − µ̂1,n ) ln = µ̂1,n ln n q 1−q On rappelle que Ft est la tribu engendrée par les variables aléatoires Z1 , I 1 ..., Z t , I t . La proposition suivante (dite « de changement de mesure » ) donne une bonne interprétation de la variable aléatoire L en la faisant apparaître comme un terme d’écart entre les espérances d’une variable aléatoire par rapport aux deux lois considérées. De manière non rigoureuse, la quantité e −L(1) dit « comment on doit modifier une variable aléatoire pour que sa loi reste identique sous Pν et sous Pν0 » . La présentation qui en est faite ici est issue de l’article [Kauffman et al., 2014]. T HÉORÈME 2.4. — Soit σ un temps d’arrêt relativement à la filtration (Ft )t ∈N . Alors, pour tout événement A ∈ Fσ , l’égalité suivante est vérifiée : £ ¤ Pν0 (A) = Eν 1 A e −L(σ) (7) Démonstration. Nous commençons par montrer que l’égalité est vraie pour des temps déterministes, ce qui se fait par récurrence. Soit donc g une fonction mesurable. Eν0 [g (Z1 )] = K X Eν0 [g (X k (1))1{I 1 =k} ] k=1 = K X " Eν g (X k (1))1{I 1 =k} k=1 " = Eν g (Z1 ) k X f k0 (X 1,k ) # f k (X 1,a ) # f k0 (X 1,k ) 1{I 1 =k} f k (X 1,a ) k=1 ¤ −L(1) £ = Eν g (Z1 )e Ce qui montre que la proposition est vraie lorsque n = 1. Supposons qu’elle est vraie pour un certain n. En conditionnant par Fn puis en utilisant le fait que I n+1 ∈ Fn et l’hypothèse de récurrence, on obtient : £ ¤ Eν0 [g (Z1 , ..., Zn , Zn+1 )] = Eν0 Eν0 [g (Z1 , ..., Zn , Zn+1 )|Fn ] " # K X = Eν0 1{I n+1 =k} Eν0 [g (Z1 , ..., Zn , X k (n + 1))|Fn ] k=1 = = K X k=1 K X £ ¤ Eν0 1{I n+1 =k} Eν0 [g (Z1 , ..., Zn , X k (n + 1))|Fn ] £ ¤ Eν 1{I n+1 =k} Eν0 [g (Z1 , ..., Zn , X k (n + 1))|Fn ]e −L(n) k=1 Or, par indépendance de X k (n + 1) et de Fn , les égalités suivantes sont vraies : Z Eν0 [g (Z1 , ..., Zn , X k (n + 1))|Fn ] = g (Z1 , ..., Zn , y) f k (y)λ(d y) f 0 (y) λ(d y) g (Z1 , ..., Zn , y) f k (y) k f k (y) ¯ # " f k0 (X k (n + 1)) ¯¯ = Eν g (Z1 , ..., Zn , X k (n + 1)) ¯ Fn f k (X k (n + 1) ¯ Z = [ 11 \ Modèles de bandits. h g Ainsi, on obtient : Eν0 [g (Z1 , ..., Zn , Zn+1 )] = K X " " Eν 1{I n+1 =k} Eν k=1 = K X " ¯ # # f k0 (X k (n + 1)) ¯¯ −L(n) g (Z1 , ..., Zn , X k (n + 1)) ¯ Fn e f k (X k (n + 1)) ¯ ¶# µ 0 f (X (n+1)) Eν 1{I n+1 =k} g (Z1 , ..., Zn , X k (n + 1))e −L(n)+ln k k f k (X k (n+1)) k=1 = K X £ ¤ Eν 1{I n+1 =k} g (Z1 , ..., Zn , Zn+1 )e −L(n+1) k=1 £ ¤ = Eν g (Z1 , ..., Zn , Zn+1 )e −L(n+1) Et la proposition est démontrée pour tout temps d’arrêt déterministe n. En écrivant L(σ) = n∈N 1{σ=n} L(n) et en effectuant un théorème de convergence dominée, on montre que la proposition reste vraie pour tout temps d’arrêt : P " Eν0 [g (Z1 , ..., Zn , Zσ )] = Eν0 # X 1{σ=n} g (Z1 , ..., Zn ) n∈N = X £ ¤ Eν0 1{σ=n} g (Z1 , ..., Zn ) n∈N = X £ ¤ Eν 1{σ=n} g (Z1 , ..., Zn )e −L(n) n∈N = Eν [g (Z1 , ..., Zn , Zσ )e −L(σ) ] Et la proposition de changement de mesure est entièrement démontrée. 2.4 Grandes déviations : le théorème de Cramér. Soit (X i )i ∈N une suite de variables aléatoires réelles i.i.d. de loi µ. Nous notons Ŝ n = n1 (X 1 + ... + X n ) et nous notons µn sa mesure. Le théorème suivant, dû à Cramér, est à la source de la « théorie des grandes déviations ». Les quelques résultats de cette section sont tirés du livre de Dembo et Zeitouni [Dembo and Zeitouni, 1993]. T HÉORÈME 2.5. — La suite de mesures (µn )n∈N satisfait le principe des grandes déviations avec comme fonction-jauge φ∗ . Les deux inégalités suivantes sont vraies. a) Pour tout F ⊂ R fermé, 1 ln µn (F ) ≤ − inf φ∗ (x) x∈F n (8) 1 ln µn (O) ≥ − inf φ∗ (x) x∈O n (9) lim sup n→∞ a) Pour tout O ⊂ R ouvert, lim inf n→∞ Soit t un nombre réel, t > E[Z ]. Lorsque φ∗ ∈ C (R), on a infx∈]t ,∞[ φ∗ (x) = infx∈[t ,∞[ φ∗ (x) = φ (t ). On dispose alors de la limite explicite suivante : ∗ ´ 1³ ln P[S n > nt ] = φ∗ (t ) (10) n→N n Dans le cas où les X i sont des variables de Bernouilli, on voit naturellement apparaître la divergence de Kullback-Leibler associée aux lois de Bernouilli de paramètre p et t . lim [ 12 \ Modèles de bandits. h g 3 La borne de Lai et Robbins. Pour n’importe quel algorithme de bandits, peut-on espérer faire vraiment bien, c’est-àdire repérer rapidement le meilleur bras possible et tirer le moins souvent possible les autres bras ? Le théorème suivant nous donne précisément la réponse : en moyenne, on ne peut pas espérer trouver un algorithme suffisamment puissant pour, dans tous les cas possibles, tirer les mauvais bras moins de C ln(n) fois, où C est une constante explicite. Ce théorème est exposé dans l’article fondateur de Lai et Robbins [Lai and Robbins, 1985], en 1985. Une démonstration simplifiée est donnée dans [Bubeck and Cesa-Bianchi, 2012] pour les modèles de Bernouilli ; on donnera également une démonstration alternative mobilisant des techniques légèrement plus générales. 3.1 Le théorème de Lai et Robbins. T HÉORÈME 3.1. — Soit une stratégie vérifiant, pour tout modèle de bandits de Bernouilli, pour tout bras k sous-optimal et pour tout α > 0 : E[Nk (n)] = o(n α ) Cette stratégie vérifie alors la borne inférieure suivante : lim inf n∈N E[Nk (n)] 1 ≥ ln(n) kl(µk , µ? ) Un algorithme vérifiant l’hypothèse du théorème de Lai et Robbins est dit uniformément efficient. Cette hypothèse est assez particulière : on suppose que l’algorithme est efficace quel que soit le modèle ν. Ce n’est pas le cas de tous les algorithmes, comme le précise l’exemple suivant. P ROPOSITION 3.1. — Notons N un algorithme consistant à jouer un nombre fixé de fois n 0 chaque bras puis à adopter la stratégie : ∀t > n 0 K , I t = argmaxk≤K X k (1) + ... + X k (n 0 ) n0 On parle d’algorithme « naïf » . Cet algorithme N n’est pas uniformément efficace. Démonstration. Prenons un horizon n 0 . On a alors, pour tout bras k sous-optimal, l’égalité suivante : ¡ ¢ Nk (n) = n 0 + n − n 0 1µ̂k (n0 )>µ̂i (n0 ),∀i 6=k ´ ¡ ¢ ³ ¡ ¢ En espérance, on obtient E[Nk (n)] = n 0 + n −n 0 P µ̂k (n 0 ) > µ̂i (n 0 ), ∀i 6= k = n 0 + n −n 0 C , où C est une constante strictement positive. Cette quantité n’est pas un o(n a ) pour a < 1. 80 60 40 20 0 0 200 400 600 800 1000 La figure 6.1 ci-contre donne un aperçu des bornes théoriques données par le théorème de Lai et Robbins. On y représente la fonction n → ln(n)/kl(x, y) pour plusieurs valeurs de x, y : – x = 0, 1 et y = 0, 9 pour la courbe verte (problèmes facilement résolubles. On a kl(0.1, 0.9) ∼ 1.7577) – x = 0, 3 et y = 0, 6 pour la courbe rouge (kl(0.3, 0.6) ∼ 0.08 – x = 0, 4 et y = 0, 55 pour la courbe rouge (kl(0.4, 0.55) ∼ 0.015 [ 13 \ Modèles de bandits. h g 3.2 Une première démonstration. La démonstration suivante est écrite dans le cadre des bandits de Bernouilli. Cependant, elle est parfaitement transposable dans le cadre général, et c’est d’ailleurs ce que font Lai et Robbins dans leur article original. Nous allons montrer que · ¸ ln(n) P N2 (n) < (1 − δ) →0 (11) kl(µ2 , µ1 ) lorsque n → ∞. Montrons d’abord que cela suffira à prouver le théorème de manière élémentaire. Notons α(n) = (1 − δ) ln(n)/kl(µ2 , µ1 ). Alors : E[N2 (n)] = E[1{N2 (n)≥α(n)} N2 (n)] + E[1{N2 (n)<α(n)} N2 (n)] E[1{N2 (n)<α(n)} N2 (n)] E[N2 (n)] = P[1{N2 (n)≥α(n)} ] + α(n) α(n) Il ne reste plus qu’à noter que le terme à droite est un o(1) : en effet, 0 ≤ E[1{N2 (n)<α(n)} N2 (n)](α(n))−1 ≤ P[N2 (n) < α(n)] ∈ o(1). Comme lim inf P[1{N2 (n)≥α(n)} ] = 1, on que pour tout δ > 0 aussi petit que l’on veut : lim inf E[N2 (n)] ≥ α(n) = ln(n) n∈N (1 − δ) kl(µ2 , µ1 ) Passons maintenant à la démonstration proprement dite de (11). Il s’agit de prouver une borne concernant le nombre de fois où le bras 2 (qui est le bras sous-optimal) est tiré. Nous allons pour cela effectuer un changement de mesure : le bras 2 va devenir optimal, mais sans que la divergence de Kullback-Leibler ne s’éloigne trop de sa valeur initiale. Précisément, choisissons un ² > 0 petit et définissons : β(n) = (1 − ²) ln(n) kl(µ2 , µ02 ) Notons P0 la loi de probabilité sous laquelle la loi du bras 2 est une loi de Bernouilli de paramètre µ02 et notons E0 l’espérance correspondante. £ ¤ Nous allons d’abord montrer que P0 N2 (n) < β(n) = o(n a−1 ). Pour voir cela, on utilise l’inégalité de Markov et l’égalité n − N2 (n) = N1 (n) : £ ¤ E0 [n − N2 (n)] E0 [N1 (n) = P0 N2 (n) < β(n) ≤ n − β(n) n − β(n) Or, dans le modèle modifié, E0 [N1 (n)] = o(n a ). Ainsi, on a ∀a < 1 : £ ¤ £ ¤ P0 N2 (n) < β(n) P0 N2 (n) < β(n) (n − β(n)) ' →0 n a−1 na D’où le résultat. Maintenant, il faut faire le lien entre P0 et P. On utilise pour cela la proposition 2.4 appliquée au temps N2 (n). Pour n’importe quel événement A qui est Fn -mesurable, on a donc : £ ¤ £ ¤ P0 N2 (n) < β(n) = E e −L(N2 (n)) 1N2 (n)<β(n) 1 A [ 14 \ Modèles de bandits. h g Définissons donc l’événement A = {L(N2 (n) < (1 − a) ln(n)}. Ainsi, en utilisant le fait que £ ¤ P0 N2 (n) < β(n) = o(n a−1 ), on aboutit alors à : £ ¤ £ ¤ P0 N2 (n) < β(n) ≥ E 1N2 (n)<β(n) 1 A n a−1 £ ¤ On vient donc de prouver que P N2 (n) < β(n) et A → 0 lorsque n → ∞. Il ne reste plus qu’à £ ¤ montrer que cette probabilité n’est pas « trop » différente de P N2 (n) < β(n) . Pour cela, nous allons effectuer la décomposition suivante : £ ¤ £ ¤ £ ¤ P N2 (n) < β(n) = P N2 (n) < β(n) et L(N2 (n)) ≥ (1 − a) ln(n) + P N2 (n) < β(n) et A Remarquons ensuite que le premier membre tend vers 0 : en effet, sur l’événement {N2 (n) < β(n)} = P[N2 (n) < β(n) et L(N2 (n)) ≥ (1 − a) ln(n)], en choisissant a < ², on a : L(N2 (n) > kl(µ2 , µ02 ) et N2 (n) < β(n) β(n) On peut donc écrire que : ∃i ≤ β(n) : L(i ) > kl(µ2 , µ02 ) β(n) Remarquons alors que β(n) → ∞. Une version maximale de la loi des grands nombres im£ ¤ plique que maxi ≤n L(i )/n → kl(µ2 , µ02 ) en probabilité. Ainsi, P N2 (n) < β(n) et L(N2 (n)) ≥ (1 − a) ln(n) → 0, ce qui achève de démontrer que P[N2 < β(n) et A] → P[N2 (n) < β(n)]. 3.3 Une variante plus moderne. On utilise maintenant la proposition 2.4 pour démontrer le lemme suivant, qui est au coeur de la démonstration de la borne de Lai et Robbins que nous donnerons un peu plus loin. Cette démonstration se place dans le cadre général (et non pas dans le cadre des bandits de Bernoulli comme le faisait la preuve précédente). P ROPOSITION 3.2. — Soient ν et ν0 deux modèles de bandits. Soit σ un temps d’arrêt relativement à la filtration (Ft ) et soit un événement A ∈ Fσ tel que Pν (A) ∈]0, 1[. Alors pour chaque a, on a : ¡ ¢ Eν [L(σ)] ≥ kl Pν (A), Pν0 (A) (12) ¡ ¢ Démonstration. Il faut d’abord vérifier que la divergence kl Pν (A), Pν0 (A) est correctement définie. Pour cela, remarquons que Pν0 (A) = Eν [1 A e −L(σ) ]. Si Pν0 (A) = 0, alors 1 A e −L(σ) = 0 (Pν p.s.). Or, remarquons que σ < ∞ (Pν -p.s.), c’est-à-dire que la somme définissant L(σ) est Pν p.s. une somme finie. On en déduit que L(σ) < ∞ (Pν -p.s.), c’est-à-dire que e −L(σ) > 0 (Pν -p.s.). On en déduit donc que 1 A = 0 (Pν -p.s.), soit Pν (A) = 0. Nous venons donc de montrer que Pν0 (A) = 0 ⇒ Pν (A) = 0, et l’implication inverse se prouve de la même manière : il y a donc ¡ ¢ équivalence et cela suffit à prouver que kl Pν (A), Pν0 (A) est correctement définie. Passons à la preuve de l’inégalité (12). Remarquons d’abord qu’elle est vraie quel que soit l’événement A ∈ Fσ . Nous allons conditionner par la variable aléatoire 1 A . Eν [L(σ)] = Eν [E[L(σ)|σ(1 A )]] £ ¤ = Eν [E L(σ)|A]1 A + E[L(σ)|A c ]1 A c £ = E L(σ)|A]Pν (A) + E[L(σ)|A]Pν (A c ) [ 15 \ Modèles de bandits. h g Il suffit maintenant de montrer que E[L(σ)|A] ≥ ln(Pν (A)/Pν0 (A)) et l’inégalité similaire de l’autre côté. Remarquons donc que cela équivaut à prouver que : e E[L(σ)|A] ≥ Pν (A) Pν0 (A) Or, cette inégalité découle de l’inégalité de Jensen conditionnelle. En effet, Pν0 (A)e E[L(σ)|A] ≥ Pν0 (A)E[e L(σ) |A] = Eν0 [1 A E[e L(σ) |1 A ]] = Eν0 [1 A e L(σ) ]. Mais cette dernière quantité est égale à Eν [1 A ] d’après la proposition 2.4 de changement de mesure. Ainsi, on retrouve bien : £ Eν [L(σ)] = E L(σ)|A]Pν (A) + E[L(σ)|A]Pν (A c ) µ ¶ µ ¶ ¡ ¢ Pν (A) Pν (A c ) Eν [L(σ)] ≥ ln Pν (A) + ln Pν (A c ) = kl Pν (A), Pν0 (A) c Pν (A) Pν (A ) Et la proposition est bien démontrée. Le lemme suivant développe un peu plus le résultat (12) en vue de prouver la borne du théorème 3.2. La démonstration utilise le lemme de Wald sous sa forme suivante : L EMME 3.1. — Soit (X i )i ∈N une suite de variables aléatoires indépendantes et identiquement distribuées selon une loi commune d’espérance E[X ], et indépendante d’une variable aléatoire N ∈ N. L’égalité suivante est vraie : E[X 1 + ... + X N ] = E[X ]E[N ] On en trouve une démonstration dans les manuels classiques de probabilité (par exemple [Feller, 1968]). L EMME 3.2. — Sous les hypothèses de la proposition 3.2, pour tout événement A ∈ Fσ tel que Pν (A) ∈]0, 1[, l’inégalité suivante est vérifiée : K X k=1 ¡ ¢ Eν [Nk (σ)]kl(νk , ν0k ) ≥ kl Pν (A), Pν0 (A) (13) Démonstration. Il suffit remarquer que les variables aléatoires Nk (σ) sont des temps d’arrêt relativement à la filtration Ft , puis d’appliquer le lemme de Wald aux variables aléatoires S Nk (σ) pour chaque k, où S n est définie par à ! à ! f k (X k (n)) f k (X k (1)) + ... + ln 0 S n = ln 0 f k (X k (1)) f k (X k (n)) On obtient alors que : " Eν [S Nk (σ) ] = Eν à f k (X k (1)) ln 0 f k (X k (1)) !# Eν [Nk (σ)] = kl(νk , ν0k )Eν [Nk (σ)] Et le théorème s’en déduit immédiatement par la définition de L. Passons maintenant au théorème fondamental. Soit P un ensemble de mesures de probabilité vérifiant la condition suivante : ∀ν, µ ∈ P , µ 6= ν ⇒ 0 < kl(µ, ν) < ∞ Définissons également la quantité : © ª b), ν b ∈ P et E X ∼bν [X ] > µ . K inf (ν, µ) = inf kl(ν, ν Nous considérons dorénavant la classe de bandits M = (P )k . [ 16 \ Modèles de bandits. h g T HÉORÈME 3.2. — Soit M une classe identifiable de modèles de bandits. Soit A un algorithme de bandit tel que ∀ν ∈ M , ν possède un seul et unique bras optimal. Si A vérifie 6 que ∀α ∈]0, 1], R T (ν) = o(T α ), alors pour tout ν ∈ M : νk < ν∗ ⇒ lim inf n∈N Eν [Nk (n)] 1 ≥ ln(n) K inf (νk , ν∗ ) (14) Démonstration. Notons ν = (ν1 , ..., νk ) le modèle de bandits et supposons que le bras ν1 est le seul bras optimal. Nous allons montrer que (14) est vraie pour le bras sous-optimal ν2 . Pour cela, nous allons considérer le modèle "modifié" ν0 = (ν01 , ..., ν0k ) où ν0i = νi lorsque i 6= 2, et ν02 ∈ P est tel que E X ∼ν02 [X ] > E X ∼ν2 [X ] : nous avons modifié le problème pour que le bras 2 devienne le seul bras optimal. Comme A est uniformément efficace, le bras 1 sera « souvent » tiré dans le modèle initial, mais il sera « plus rarement » tiré dans le modèle modifié. p Soit A t = {N1 (t ) ≤ t − t }. Par le lemme 3.2 avec σ = t on a : k X ¡ ¢ Eν [N a (t )]kl(νa , ν0a ) ≥ kl Pν (A t ), Pν0 (A t ) i =1 Or, sous la probabilité Pν , le bras 1 est optimal donc l’événement A t sera de moins en moins probable, et c’est l’inverse sous la probabilité Pν0 . En effet, par l’inégalité de Markov puis l’hypothèse d’efficience uniforme, lorsque t → ∞ on a : P Eν [t − N1 (t )] a6=1 Eν [N a (t )] Pν (A t ) ≤ = −→ 0 p p t t Et d’autre part : Pν0 (A ct ) ≤ Eν [N1 (t )] ≤ p t− t P a6=2 Eν [N a (t )] p t −→ 0 ¡ ¢ Il suffit maintenant d’étudier la limite de kl Pν (A t ), Pν0 (A t ) . Il est immédiat de voir que lorsque t → ∞ : ¡ ¢ µ ¶ kl Pν (A t ), Pν0 (A t ) 1 1 ∼ ln ln(t ) ln(t ) Pν0 (A ct ) Et on montre simplement que la quantité de droite tend vers 1 lorsque t → ∞. Ainsi, nous venons de montrer que : Eν [N a (t )] 1 lim inf ≥ n∈N ln(t ) kl(ν2 , ν02 ) Comme kl est une fonction continue en son second argument, nous pouvons choisir ν02 pour que kl(ν2 , ν02 ) ≤ (1 + ²)K inf (ν2 , ν∗ ) 4 Somme aléatoire de variables aléatoires : deux inégalités de concentration. Une difficulté fréquemment rencontrée dans l’étude des modèles de bandits est la présence de « sommes aléatoires de variables aléatoires » : à un instant n, un bras n’a été tiré qu’un nombre aléatoire de fois. Cela nécessite des outils un peu spécifiques qui seront d’une grande utilité par la suite. Les résultats de cette section ont essentiellement été exposés dans [Garivier and Cappé, 2011] et [Auer et al., 2002] ; ils sont ici présentés sous un cadre unifié. 6. On dit que A est uniformément efficient. [ 17 \ Modèles de bandits. h g 4.1 Un cadre simple à un seul bras. Dans cette partie, nous conservons les notations introduites en 1.2 dans un modèle où il n’y a qu’un seul bras. On rappelle que (X i )i ∈N est une suite i.i.d. de variables aléatoires suivant une loi de Bernouilli de paramètre µ. (I i )i ∈N est une suite à valeurs dans {0, 1} et F-prévisible, où F = (Fi )i ∈N est la filtration canonique, c’est-à-dire Fi = σ(X 1 , ..., X i , I 1 , ..., I i ). On note S(n) = P P i ≤n I i X i la somme aléatoire des X i , N (n) = i ≤n I i le nombre de X i qui ont été sommés et µ̂(n) = S(n)/N (n) la moyenne empirique. On notera enfin φ(x) la fonction génératrice des moments de X 1 . L EMME 4.1. — Soient a et b deux réels tels que a < b. Soit également δ > 0. Alors : ¡ ¢ δb P {a < N (n) ≤ b} ∩ {µ̂(n) ≥ µ} ∩ {N (n)kl(µ̂(n), µ) ≥ δ} ≤ e − a (15) Démonstration. Plaçons-nous sur l’événement dont il faut borner la probabilité, et qui sera dorénavant noté A. La fonction x → kl(µ, x) est une bijection de [µ, 1] vers R+ . Ainsi, on peut définir z > µ tel que bδ = kl(z, µ). Sur l’événement A, on a donc : kl(µ̂(n), µ) ≥ ≥ δ N (n) δ = kl(z, µ) b Notons maintenant λ(z) le réel négatif 7 tel que λ(z)z − φ(λ(z)) = φ∗ (z). Comme λ(z) < 0, nous avons : δa λ(z)µ̂(n) − φ(λ(z)) ≥ λ(z)z − φ(λ(z)) = kl(z, µ) ≥ bN (n) Dès lors, sur A, il est vrai que λ(z)S(n) − N (n)φ(λ(z)) ≥ δ ba . Définissons alors un processus M λ (n) par M λ (n) = e λS(n)−N (n)φ(λ) .En passant à l’exponentielle et en utilisant l’inégalité de Markov, nous avons donc : E[M λ(z) (n)] P(A) ≤ a eδ b Or, nous allons démontrer que M λ est une sur-martingale. Comme E[M λ (0)] = 1, le lemme sera alors entièrement démontré. E[M λ (n + 1)|Fn ] = M λ (n)E[e λI n+1 X n+1 −I n+1 φµ (λ) |Fn ] = M λ (n)e −I n+1 φµ (λ) e I n+1 E[e λX 1 ] = M λ (n)e −I n+1 φµ (λ) e I n+1 e ln E[e = M λ (n)e −I n+1 φµ (λ) e I n+1 φµ (λ) = M λ (n) λX 1 ] Et la preuve est terminée. Nous donnons tout de suite une conséquence du lemme 4.1 qui servira de base à l’algorithme KL-UCB. Une présentation moins détaillée est donnée dans [Garivier and Cappé, 2011]. Nous avons besoin de définir un pseudo-inverse de la fonction x → kl(µ̂k (n), x). 7. Voir la proposition 2.2. [ 18 \ Modèles de bandits. h g D ÉFINITION 6. — Soit n ∈ N. La fonction x → kl(µ̂k (n), x) est une bijection de [µ(n), 1] vers R+ . Ainsi, pour tout δ > 0, la quantité suivante est bien définie. u δ (n) = max{q ≥ µ̂(n) : N (n)kl(µ̂(n), µ) ≤ δ} T HÉORÈME 4.1. — On conserve le cadre exposé précédemment ainsi que les notations du lemme 4.1. P(u δ (n) < µ) ≤ edδ ln(n)ee −δ (16) Démonstration. Il suffit d’observer que {u δ (n) < µ} ⇒∈ {µ̂(n) ≤ µ et N (n)kl(µ̂(n), µ) ≥ δ}. Introduisons maintenant les événements B k = {a k < N (n) ≤ b k } et les événements A k = B k ∩{u δ (n) < −δ ak µ}. Une application directe du lemme 4.1 permet d’avoir P(A k ) ≤ e bk . Choisissons maintenant b k = (1 + η)a k et a 1 = 1, de sorte que b k = (1 + η)k . On voit alors que : » ¼ ³ ´ ³ ´ ln(n) k≥ = h ⇒ bk ≥ n ln(1 + η) De sorte que h X » ¼ ln(n) − δ P(A k ) ≤ P(u (n) < µ) ≤ e 1+η ln(1 + η) i =1 δ Il suffit maintenant de choisir η = de prouver le théorème. 1 δ−1 . En effet dans ce cas on a ln(1+η) ≥ 1/δ, ce qui permet La proposition suivante est une conséquence immédiate du théorème 4.1. Elle sera généralisée dans la section suivante. P ROPOSITION 4.1. — On pose f (n) = ln(n) + 3 ln(ln(n)) et on note u(n) = u f (n) (n) pour simplifier. Il existe un N tel que ∀n > N , on ait : P(u(n) < µ) < 1 n ln(n) 4.2 Un cadre multibras. On conserve encore les notations introduites dans la partie 1.2. Il y a maintenant K suites (X k (i ))i ∈N , chacune étant i.i.d. de loi de Bernouilli de paramètre µk , et toutes étant indépendantes entre elles. On fait correspondre à la suite k la somme S k (n), le nombre de variables sommées Nk (n) et les moyennes empiriques µ̂k (n) comme précédemment. Introduisons également les fonctions φk (x) = ln E[e x X k (1) ]. Le lemme suivant généralise l’inégalité de concentration (4.1) à ce cadre plus général. L EMME 4.2. — Soient pour chaque k ≤ K des réels a k < b k et δk > 0. Alors : à ! P δi b i \ − K P {a k < Ni (n) ≤ b k } ∩ {µ̂i (n) ≥ µi } ∩ {Ni (n)kl(µ̂i (n), µi ) ≥ δi } ≤ e i =1 ai (17) i ≤K Démonstration. La démonstration est en tous points similaire à celle du lemme 4.1. Il suffit d’adapter le définition de la martingale M λ . Pour la suite, nous allons choisir les a k et les b k de sorte que a k (1 + η) = b k . La borne du −1 P δi lemme précédent se ramène alors à e −(1+η) . [ 19 \ Modèles de bandits. h g T HÉORÈME 4.2. — Pour tout δ ≥ K + 1 et pour n ∈ N, l’inégalité suivante est vérifiée : à ! ¶ µ K X −δ dδ ln(n)eδ e K +1 P Nk (n)kl(µ̂k (n), µk ) ≥ δ ≤ e K k=1 (18) Démonstration. Définissons l’événement C et les variables aléatoires Zi = 1C Ni (n)kl(µ̂i (n), µi ). Conformément au choix des a kPet b k explicité avant le théorème, nous avons prouvé dans le −1 lemme (4.2) que P(Z ≥ ∆) ≤ e − δi (1+η) . Posons alors a = (1 + η)−1 . Soit Y une v.a. à valeurs dans RK telle que chacune de ses composantes soit indépendante des autres et suive une loi exponentielle de paramètre a. Alors, par hypothèse, nous avons : P(Z ≥ ζ) ≤ P(Y ≥ ζ) P P Maintenant, en utilisant l’inégalité de Markov, on obtient que P( Zi ≥ δ) ≤ e −λδ E[e λ Zi ] = Q e −λδ E[e λZi ]. Ainsi, nous pouvons appliquer le lemme (4.3) 8 , exposé plus loin, aux fonctions positives et croissantes x → e λx afin d’avoir : P ¡X Y ¢ Zi ≥ δ ≤ e −λδ E[e λYi ] L EMME 4.3. — Soient X et Y deux variables aléatoires à valeurs dans RK . Les propositions suivantes sont équivalentes : 1. ∀x ∈ RK , P(X ≥ x) ≤ P(Y ≥ x). 2. Pour toutes fonctions positives et croissantes f 1 , ..., f K , on a " # " # K K Y Y E f i (X i ) ≤ E f i (Yi ) i =1 On sait que E[e λY ] = aboutissons à : a a−λ i =1 lorsque Y suit une loi de Poisson de paramètre a. Ainsi, nous ³ a ´K ¢ Zi ≥ δ ≤ e −λδ a −λ Nous pouvons maintenant achever la preuve du théorème. Cela repose sur le bon choix de P P λ. Rappelons que Zi = 1C Ni (n)kl(µ̂i (n), µi ) et choisissons λ = a − K /δ. Nous obtenons : P P ¡X ¡X ¢ − δ 1C Ni (n)kl(µ̂i (n), µi ) ≥ δ ≤ e 1+η µ eδ (1 + η)K ¶K (19) Pour n’importe quel K -uplet (d 1 , ..., d K ), nous définissons : Bd = o K n \ (1 + ν)dk −1 ≤ Nk (n) ≤ (1 + ν)dk k=1 Cela correspond à l’ensemble des choix possibles pour les nombres a k et b k , pourvu qu’on ait P a k (1 + η) = b k . Par sous-additivité des mesures de probabilité, on a P(A) ≤ d P(A ∩ B d ). Or, nous avons précisément borné les probabilités P(A ∩ B d ) : il suffit de prendre C = B d dans (19). Notons D le nombre de K -uplets comme ceux que nous avons choisi pour définir B d . On a donc : P ¡X δe Ni (n)kl(µ̂i (n), µi ) ≥ δ ≤ D K ¢ 8. Il est prouvé dans [Müller and Stoyan, 2002]. [ 20 \ µ ¶K δ e − 1+ν h Modèles de bandits. g . § ¨K Un calcul simple montre finalement que D = ln(n)/ ln(1 + η) . Il suffit alors de choisir ν = 1/(δ − 1) pour démontrer le théorème. La proposition suivante est immédiate et nous donne une borne simple qui sera utilisée lors de l’étude du regret de variantes de l’algorithme KL-UCB. Lorsque nous choisissons K = 1, nous retrouvons la proposition (4.1). P ROPOSITION 4.2. — On pose f (n) = ln(n)+(3K +1) ln(ln(n)). Alors, il existe N tel que ∀n ≥ N : à ! K X 1 P Ni (n)kl(µ̂i (n), µi ) ≥ f (n) ≤ n ln(n) i =1 5 Algorithmes classiques : upper confidence bounds. Dans cette section, nous présentons des algorithmes des bandits classiques : l’algorithme UCB (introduit dans [Auer et al., 2002]) et sa variante KL-UCB (voir [Garivier and Cappé, 2011]). Ces deux algorithmes ont un regret qui atteint « presque » la borne optimale donnée par la théorème de Lai et Robbins. Leur démonstration repose en partie sur les outils développés dans la section 2 et dans la section 4. 5.1 Le principe. Le principe de ces algorithmes est simple : il s’agit, au tour n et pour chaque bras k, de construire un intervalle de confiance pour la vraie valeur µk , à partir de la statistique µ̂k (n), puis de choisir le bras pour lequel la borne supérieure de cet intervalle est la plus élevée. La différence entre les deux repose sur la manière de construire des intervalles de confiance. Rappelons que, si φk (t ) = ln E[e t X k (1) ], alors l’inégalité de Hoeffding (voir 2.1) nous donne : 2 P(µ̂k,n − µk < −²) ≤ e −2n² Supposons que le bras k ait été tiré un nombre déterministe n k de fois et choisissons un petit seuil de confiance δ > 0. Le paramètre µk est contenu avec probabilité supérieure à 1 − δ dans l’intervalle s s " # 1 2 1 2 µ̂k,nk − ln , µ̂k,nk + ln 2n k δ 2n k δ L’idée de l’algorithme UCB est de choisir le bras k pour lequel la borne supérieure de cet intervalle est la plus grande, sans tenir compte du fait que les bras sont tirés un nombre aléatoire de fois. On peut pourtant raffiner ce choix en augmentant l’exigence par rapport à δ à chaque tour : une idée possible est de prendre un δ de plus en plus petit à mesure que l’exploration se poursuit. L’algorithme UCB1 consiste à prendre δt = t1α . Dans le pseudo-code suivant, α est un paramètre positif plus grand que 2. [ 21 \ Modèles de bandits. h g for i=1,...,K do Ii = i ; S i ← X i (i ); end while t ≤ n do n o q I t = argmaxk≤K µ̂k (t ) + 2N1k (t ) α ln(t ) ; S k ← S k + X I t (t ); Nk ← Nk + 1 ; end Algorithm 1: Pseudo-code pour UCB Nous reprenons donc la définition 6 en l’adaptant au cadre des bandits multibras. D ÉFINITION 7. — Soit δ > 0, k un bras et n ∈ N. La fonction x → kl(µ̂k (n), x) est une bijection de [µ̂k (n), 1] vers R+ . Ainsi, la quantité suivante est bien définie : u kδ (n) = max{q ≥ µ̂k (n) : Nk (n)kl(µ̂k (n), µk ) ≤ δ} Comme précédemment, on notera simplement u k (n) = u f (n) (n). L’algorithme KL-UCB reprend exactement le principe de l’algorithme UCB, en utilisant les bornes de Chernoff, plus fines que celles données par l’inégalité de Hoeffding : for i=1,...,K do Ii = i ; S i ← X i (i ); end while i ≤ n do I i = argmaxk≤K {u k (t )}; S k ← S k + X I t (t ); Nk ← Nk + 1 ; end Algorithm 2: KL-UCB Les deux sections suivantes sont consacrées à l’étude du regret de ces deux algorithmes. Rappelons que l’on ne peut pas utiliser d’inégalités de concentration classique pour les étudier, car les sommes mises en jeu comportent un nombre aléatoire de termes : ce sont les outils de la section 4 qu’il faut utiliser. 5.2 L’algorihme UCB. La stratégie UCB1 consiste à sélectionner en t un bras I t qui vérifie : " I t ∈ argmaxk=1,...,K µ̂k (t ) + s ´ 1 α ln(t ) 2Nk (t ) # (20) Cet algorithme atteint « presque » la borne optimale donnée par le théorème de Lai et Robbins, au sens suivant : [ 22 \ Modèles de bandits. h g T HÉORÈME 5.1. — Soit α > 2. Il existe alors une constante C > 0 telle que l’algorithme UCB1 vérifie : 2α ln(n) +C (21) E[Nk (n)] ≤ ∆2i En particulier, on a la borne suivante sur le pseudo-regret : Rn ≤ X ³ 2α ln(n) α ´ + ∆i α−2 i :∆i >0 (22) Démonstration. Sur l’événement {I n = i }, les trois propositions suivantes ne peuvent pas être simultanément fausses. s 1 α ln(n) ≤ µ? (23) µ̂k ? (n) + 2Nk ? (n) s 1 µ̂i (n) − α ln(n) ≥ µi (24) 2Ni (n) s 1 2 α ln(n) ≥ ∆i (25) 2Ni (n) q q En effet, supposons que I n = i . Cela signifie que µ̂i (n)+ 2N1i (n) α ln(n) ≥ µ̂ j (n)+ 2N1j (n) α ln(n), pour tout j 6= i et en q particulier pour j = k ? . Supposons que (25) est fausse : dans ce cas, µ? = µi + ∆i ≥ µ̂i (n) − 2N1i (n) α ln(n) + ∆i . Si (24) est fausse, on a donc : s s s 1 1 1 µ̂i (n) + α ln(n) ≥ µ̂k ? (n) + α ln(n) + ∆i α ln(n) > µ? > µ̂i (n) − 2Ni (n) 2Nk ? (n) 2Ni (n) et ainsi, on a : s 2 1 α ln(n) ≥ ∆i 2Ni (n) c’est-à-dire que la proposition (25) est vraie. Les autres cas se traitent de la même manière. Passons maintenant à la démonstration du théorème ; pour cela, posons & ' 2α ln(n) l= ∆2i Remarquons alors que ·n ¸ ·n ¸ ·n ¸ X X X E[Ni (n)] = E 1I t =i = E 1(25) est vraie 1I t =i + E 1(25) est fausse 1I t =i t =1 t =1 " ≤ l +E t =1 n X # 1(25) est fausse 1I t =i t =l +1 " ≤ l +E n X # 1(24) ou (25) est vraie t =l +1 Nous allons maintenant borner la probabilité que la proposition (24) soit vraie ; le même raisonnement vaudra pour (25). Pour le faire, il suffit d’utiliser le fait que ∃s ≤ n tel que Nk ? = s. On aboutit à : à ! r n X 1 ? P((24) est vraie ) ≤ P µ̂k ? ,s + α ln(n) ≤ µ 2s s=1 [ 23 \ Modèles de bandits. h P((24) est vraie ) ≤ En utilisant la majoration classique 9 E[Ni (n) ≤ l + 2 Pn i =1 t n X 1 t =l +1 t α−1 n 1 X 1 ≤ α−1 α n s=1 n 1−α ≤l + g ≤ 1/(2 − α), on obtient finalement que : 2 2α ln(n) 2 ≤ +1+ 2 α−2 α−2 ∆i Cela achève la démonstration du théorème avec la constante C = α/(α − 2). Dans un modèle à 2 bras où le bras 2 est sous-optimal, on obtient finalement : lim inf E[N2 (n)] 2α ≤ ln(n) (µ2 − µ? )2 Or, un simple calcul montre que µ? (1 − µ? ) 1 ≤ ? 2 (µ2 − µ ) kl(µ2 , µ? ) 2α L’algorithme UCB atteint donc la borne optimale à un facteur multiplicatif µ? (1−µ ? ) près. Pour ? des valeurs de µ proches de 1/2, cela donne un facteur 16, ce qui est tout de même très peu satisfisant. Cette contre-performance est visible lors des test empiriques présentés dans les sections suivantes. Une amélioration. Dans la borne du théorème 5.1, on a une dépendance en 1/∆2i . Lorsque ∆i est petit, cette borne devient beaucoup trop grande.oOn peut donc aussi avoir la majon ration suivante : ∆i E[Ti (n)] ≤ min 2α∆ln(n) +C , ∆i ENi (n) . Une simple étude aboutit alors à i np o 2α ln(n) ∆i E[Ti (n)] ≤ min 2α ln(n)ENi (n), ∆i +C . Prenant la somme sur les i , on aboutit à : E[R(n)] ≤ min ( p ) Xp X 2α ln(n) X 2α ln(n) ENi (n), + + C ∆i ∆i i ≤K i ≤K i ≤K ( ) p X 2α ln(n) X E[R(n)] ≤ min 2α ln(n)nK , + C ∆i ∆i i ≤K i ≤K p p Dans le pire des cas, on a donc un regret en O( n ln(n)) = Õ( n). 5.3 L’algorithme KL-UCB Nous étudions maintenant l’algorithme KL-UCB, présenté plus haut, atteignant une meilleure borne que l’algorithme UCB. Il est notamment présenté dans [Garivier and Cappé, 2011]. T HÉORÈME 5.2. — On conserve les notations introduites précédemment. Soit ² > 0 et c = 3. Soit k un bras sous-optimal et n ≥ 1. Alors : E[Nk (n)] ≤ (1 + ²) ln(n) C 2 (²) +C 1 ln ln(n) + β(²) ? kl(µk , µ ) n 9. On l’obient à partir des sommes de Riemann [ 24 \ Modèles de bandits. h g Démonstration. Soit k un bras sous-optimal. " # n X E[Nk (n)] = E 1{I i =k} i =1 " ≤ E n X i =1 # " 1{uk ? (i )<µ? } + E n X i =1 # 1{I i =k} 1{uk ? (i )≥µ? } Nous allons d’abord borner le deuxième terme. Sur l’événement {I i = k} ∩ {u k ? (i ) ≥ µ? }, on a choisi le bras k : ainsi, d’après la définition de l’algorithme KL-UCB, on a u k (i ) ≥ u k ? (i ) ≥ µ? . Mais alors, par définition de u k , on a : kl(µ̂k (i ), µ? ) ≤ f (i ) = kl(µ̂k (i ), u k (i )) Nk (i ) Ainsi, on a les inégalités suivantes : n X i =1 1{I i =k} 1{uk ? (t )≥µ? } ≤ ≤ ≤ ≤ n X 1 f (t ) {kl(µ̂k (t ),µ? )≤ N (t ) } k t =1 n X n X t =1 s=1 n X s=1 n X s=1 1{skl(µ̂k,s ,µ? )≤ f (t )}∩{Nk (n)=s} 1{skl(µ̂k,s ,µ? )≤ f (t )} n X 1{Nk (n)=s} t =1 1{skl(µ̂k,s ,µ? )≤ f (t )} n X ≤ Kn + 1{skl(µ̂k,s ,µ? )≤ f (t )} s=K n +1 Où l’on a défini la quantité K n par : ¹ Kn = 1+² f (n) kl(µk , µ? ) º D’autre part, grâce à la proposition (4.1), le premier terme se borne par où C 1 est une constante positive 10 . Ainsi, nous avons : E[Nk (n)] ≤ C 1 ln ln(n) + K n + n X 1 i ≤n i ln i P ≤ C 1 ln ln(n), ¡ ¢ P skl(µ̂k,s , µ? ) ≤ f (t ) s=K n +1 Il faut maintenant écrire que : ¡ ¢ ¡ ¢ P skl(µ̂k,s , µ? ) ≤ f (t ) ≤ P K n kl(µ̂k,s , µ? ) ≤ f (t ) µ ¶ kl(µk , µ? ) ? ≤ P kl(µ̂k,s , µ ) ≤ 1+² ³ ´ ? P kl(µk ,µ ) (²) Nous allons prouver que K n +1 P kl(µ̂k,s , µ? ) ≤ 1+² ≤ Cn2β(²) . Soit r (²) ∈]µk , µ? [ tel que kl(r (²), µ? ) = kl(µk , µ? )/(+²). Alors, si kl(µ̂k,s , µ? ) < kl(µk , µ? )/(+²), alors µk,s > r (²). Dès lors : µ ¶ ¡ ¢ kl(µk , µ? ? P kl(µ̂k,s , µ ) < ≤ P kl(µ̂k,s , µ? ) > kl(r (²), µk ), µ̂k,s > µk 1+² ≤ P(µ̂k,s > r (²)) ≤ e −skl(r (²),µk ) 10. En pratique, on peut la prendre inférieure ou égale à 7. [ 25 \ Modèles de bandits. h g Dès lors, on a : ¶ µ e −K n kl(r (²),µk ) C 2 (²) kl(µk , µ? ≤ ≤ β(²) P kl(µ̂k,s , µ? ) < −skl(r (²),µ ) k 1 + ² 1−e n s=K n +1 ∞ X On vérifie facilement que r (²) = µk +O(²), queC 2 (²) = O( ²12 et enfin que β(²) = O(²2 ).Ceci achève la démonstration. On a donc le théorème suivant sur le regret global de l’algorithme KL-UCB. T HÉORÈME 5.3. — On conserve les notations introduites précédemment, et on note R(n) le regret induit par l’algorithme KL-UCB lorsqu’on choisit ² > 0 et c = 3. Alors lim inf n→∞ X E[R(n)] ∆i ≤ (1 + ²) ? ln(n) kl(µ k,µ ) k6=k ? La preuve que nous avons donnée est valable lorsque les bras suivent des lois de Bernouilli ; pourtant, le lemme suivant montre qu’en fait, les bornes sur KL-UCB sont valables pour n’importe quelle famille de lois à valeurs dans [0, 1]. L EMME 5.1. — Soit X une variable aléatoire à valeurs dans [0, 1]. Notons µ = E[X ]. Alors pour tout λ, on a : φ(λ) ≤ ln(1 − µ + µe λ ) = φY (λ) où Y est une variable aléatoire de loi de Bernouilli de paramètre µ. 5.4 Des exemples empiriques. Pour illustrer les résultats théoriques de cette section, nous avons implémenté les algorithmes KL-UCB et CKL-UCB asur différents modèles de bandit à 2 bras. Nous avons également ajouté deux algorithmes : – Un algorithme « naïf » : il s’agit d’un algorithme qui correspond généralement à la première intuition que l’on se fait d’un modèle de bandit 11 . Il consiste à tirer dans un premier temps un nombre fixe de fois n 0 chaque bras, puis à sélectionner une fois pour toute le bras qui a donné la meilleure moyenne sur ces n 0 essais. Ici, nous avons pris n 0 = 10, ce qui est totalement arbitraire et pourrait être optimisé. – Un algorithme « ²-glouton » : à chaque étape, avec une probabilité ², l’algorithme explore un bras au hasard, et avec une probabilité 1−², explore le bras qui a jusqu’ici la meilleure moyenne empirique. Nos tests vont dans le sens de ceux présentés dans l’article [Kuleshov and Precup, 2014] : les auteurs font remarquer qu’en général, des algorithmes « basiques » font dans certains cas mieux que des algorithmes plus complexes comme UCB. On voit ici que, dans le cadre d’un modèle facilement identifiable (le second modèle, dans lequel les deux lois divergent fortement), l’algorithme glouton trouve plus rapidement que les autres le bon bras et l’exploite. Dans un modèle plus difficile à identifier (le premier), KL-UCB et même UCB sont beaucoup plus efficaces. 11. Ce fait a été empiriquement vérifié sur de nombreuses personnes... [ 26 \ Modèles de bandits. h g 200 120 KL−UCB KL−UCB UCB UCB 0.005−greedy 100 0.005−greedy algorithme naif algorithme naif 150 regret regret 80 60 100 40 50 20 0 0 0 1000 2000 3000 temps 4000 5000 0 (a) µ1 = 0, 2 et µ2 = 0, 29. 500 1000 temps 1500 2000 (b) µ1 = 0.1 et µ2 = 0.9. F IGURE 5 – Tests sur un modèle à 2 bras. 6 Les bandits avec une structure lipschitzienne. 6.1 Bandits continus et discrétisation. Dans les algorithmes classiques sur les bandits (en particulier UCB et ses variantes), le nombre de bras est fini et on ne suppose pas de structure particulière sur le vecteur des récompenses µ. Pourtant, beaucoup de problèmes sont formulés dans un cadre où le nombre de bras est infini dénombrable, voire même où le nombre de bras est un sous-ensemble de R de la forme [a, b]. Plaçons-nous dans le cas où l’ensemble des bras est continu, par exemple [0, 1]. Dans ce cas, les bras ne sont plus indexés par des indices i ∈ {1, 2, ..., K } mais par des nombres p ∈ [0, 1] : on parle du bras correspondant à 0,2, par exemple. A chaque p, correspond donc une suite (X p (n))n∈N indépendant et identiquement distribuée selon une loi d’espérance E[X p (1)] = µ(p) : on dispose alors d’une fonction p → µ(p), qu’il faut chercher à maximiser. On notera donc : p ? = argmaxp∈[0,1] µ(p) mu 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1 La fonction p → E[µ(p)] est généralement enrichie d’hypothèses intéressantes : continuité, linéarité, convexité, concavité 12 . Une stratégie intéressante consiste à discrétiser l’espace des bras et à tenir compte de cette structure. On répartit K points p 1 , ..., p K uniformément dans [0, 1] et l’on considère alors le sous-modèle constitué de ces K bras : il s’agit d’un modèle classique de bandits, que l’on cherche à enrichir d’une structure particulière. C’est ce que nous faisons maintenant pour les bandits « lipschitziens », dont un exemple (L = 6) est donné dans la figure ci-contre. D ÉFINITION 8. — Soit L > 0 une constante et K un nombre fixé. L’ensemble ΘL des vecteurs 12. Sans ces hypothèses, on ne peut pas aller très loin. [ 27 \ Modèles de bandits. h g L-lipschitziens est défini par : ΘL = {µ = (µ1 , ..., µK ) ∈ RK+ tel que ∀i , j ≤ K : |µi − µ j | ≤ L|x i − x j |}. q,k Définissons le vecteur λq,k , pour chaque q ∈ [0, 1], par : λi = q − L|x i − x k |. Il s’agit du vecteur « le plus lipschitzien possible » pour lequel le bras k est optimal et prend la valeur q. L’objectif de cette section est d’utiliser la proposition fondamentale 4.2 pour s’adapter à la structure lipschitzienne du problème considéré. Pour cela, nous allons définir l’analogue multi-bras de l’indice u δ défini en 6, dans le cadre lipschitzien : D ÉFINITION 9. — Soit k ≤ K un bras et δ > 0 un petit seuil de confiance. ) ( K X q,k δ t i (n)kl(µ̂i (n), λi ) ≤ δ b k (n) = sup q ∈ [µ̂k (n), 1] : i =1 Par la suite, nous n’utiliserons cette définition qu’avec δ = f (n), ce qui nous conduira à noter simplement b k (n). Cet indice peut s’interpréter comme suit : prenant une structure Llipschitz dans laquelle le bras k est optimal, l’indice nous donne le meilleur q pour lequel la P q,k quantité t i (n)kl(µ̂i (n), λi ) ne diverge pas de plus de δ. Cette quantité peut elle-même être contrôlée par les inégalités de concentration précédentes. Lorsque l’on prend également en compte la structure L-lipschitz du problème, cela donne le théorème suivant. T HÉORÈME 6.1. — On se place dans un cadre de bandit lipschitzien, c’est-à-dire où le vecteur µ appartient à ΘL . On définit f (n) et λq,k comme précédemment. L’inégalité de concentration suivante est vérifiée : P(b k (n) < µk ) ≤ 1 n ln(n) (26) Démonstration. Si l’on a l’inégalité b k (n) < µk , la définition même de b k nous indique que l’on P µ ,k a : Ni (n)kl(µ̂i (n), λi k ) ≥ f (n). D’autre part, compte tenu de la structure L-lipschitzienne du µ ,k vecteur θ, nous avons également que λi k = µk − L|x i − x k | ≤ µi , pour tout i . La fonction I + P étant croissante en son second argument, cela entraîne que Ni (n)kl(µ̂i (n), µi ) ≥ f (n) et cet événement est vrai avec une probabilité inférieure à 1/n ln(n). Ceci achève la preuve. La méthode utilisée pour construire l’indice défini en 9 et la théorème 6.1 est une méthode générique potentiellement applicable à un très grand nombre de problèmes de bandits, pourvu que l’on définisse une structure particulière. L’inégalité (26) incite à utiliser l’indice comme grandeur d’intérêt, dans la construction d’un algorithme efficace. L’idée est de vérifier si maxk6=L(n) b k (n) < µ̂∗ (n) : si c’est le cas, il est fortement probable qu’aucun des bras k 6= L(n) ne soit le bras optimal, et l’on est donc incité à jouer le meneur L(n). Par contre, si ce n’est pas le cas il faut continuer l’exploration suivant un critère à définir. Le théorème suivant est l’analogue du théorème de Lai et Robbins dans le cadre lipschitzien. Connaissant une information sur la structure du problème, on peut s’attendre à ce que la borne inférieure sur le regret d’un algorithme soit meilleure que la borne issue du cas général. C’est ici le cas. La démonstration n’est pas donnée : on peut la trouver dans [Proutière et al., 2014]. On a besoin de définir pour tout k ≤ K un vecteur γk défini par γkl = max{µi , µ? − L|x k − x i |}. Il est illustré dans la figure 6. T HÉORÈME 6.2. — Soit une stratégie vérifiant, pour tout bras k sous-optimal et pour tout α > 0 : E[Nk (n)] = o(n α ) [ 28 \ Modèles de bandits. h g 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1 F IGURE 6 – Le vecteur µ (K = 50, en rose) et son vecteur γ9 associé (en noir). Lorsque le vecteur µ est L-lipschitzien (µ ∈ ΘL ), cette stratégie vérifie la borne inférieure suivante : E[Nk (n)] lim inf ≥ C (µ) n∈N ln(n) Où la quantité C (µ) est la valeur minimale du problème d’optimisation suivant : c k ∆k (27) c k kl(µi , γlk ) ≥ 1 (28) min X c k ≥0,∀k≤K k≤K X s.t . ∀l ≤ K , k≤K 6.2 Algorithmes : OSLB et CKL-UCB. 6.2.1 Notations et principes. Soit t un entier. Au tour t , on notera L(t ) = argmaxk≤K µ̂k (t ) le bras ayant la récompense moyenne la plus élevée. On l’appellera souvent le leader. Il nous arrivera d’écrire µ̂? (t ) = µ̂L(t ) (t ) ainsi que b ? (t ) = b L(t ) (t ). Nous noterons C (µ) la valeur du problème de minimisation (27) et c k (µ) les réels en lesquels cette valeur est réalisée. Pour éviter des notations trop lourdes, on écrira Ĉ (n) plutôt que C (µ̂(n)) et ĉ k (n) plutôt que c k (µ̂(n)). K (t ) = {k ≤ K : µ̂k (t ) < µ̂? (t )} est l’ensemble des bras dont la moyenne empirique à l’instant t n’est pas la plus grande. La théorème 6.2 nous dit en substance que tout bras k non optimal devrait être tiré un nombre approximatif de fois ln(n)c k (n). Cela incite à définir à chaque instant t l’ensemble des bras à explorer : E (t ) = {k ∈ K : Nk (t ) < ln(n)ĉ k (t )} Notons cependant que les quantités Ĉ (t ) et ĉ k (t ) ne sont connues qu’une fois résolu le problème (27) : cela peut faire exploser la complexité de l’algorithme s’il faut résoudre à chaque tour un problème de minimisation, même s’il s’agit d’un problème classique d’optimisation linéaire sous contraintes linéaires. Contrairement à l’algorithme OSLB, l’algorithme CKL-UCB a été conçu pour éviter une trop lourde complexité algorithmique : il ne nécessite pas la résolution de (27). Parmi les bras, de E (t ), celui qui a été le moins exploré est noté k̄(t ) : k̄(t ) = argmin{Nk (t ), k ∈ E (t )}. Enfin, k(t ) est le bras qui a été le moins joué. [ 29 \ Modèles de bandits. h g for i=1,...,K do Ii = i ; S i ← X i (i ); end while t ≤ n do if µ̂? (t ) ≥ maxk6=Ł(t ) b k (t ) then I t = L(t ); else if Nk(t ) (t ) < K² Nk̄(t ) (t ) then I t = Nk(t ) (t ); else I t = Nk̄(t ) (t ); end end end Algorithm 3: Pseudo-code pour OSLB Le principe de l’algorithme est le suivant : à un instant t , on dispose de µ? (t ), qui est une bonne approximation de µ? . Prenons un bras k quelconque et supposons qu’il s’agit du bras k ? . Il est alors peu probable, selon le théorème 6.1, que son indice vérifie b k (t ) ≤ µ? ∼ µ̂? (t ). On peut donc supposer que, si tous les bras différents du leader ont un indice inférieur à µ̂? (t ), il y a peu de chances pour que le bras optimal soit un de ces bras, et donc il y a fort à parier que L(n) est le bras optimal. Si cette condition n’est pas vérifiée, on adopte alors une stratégie consistant à jouer un bras qui n’a pas été assez joué, selon un certain critère. On passe maintenant à l’algorithme CKL-UCB. for i=1,...,K do Ii = i ; S i ← X i (i ); end while t ≤ n do if ∃k ≤ K : Nk (t ) ≤ ln(ln(t )) then I t = L(t ); else if b L(t ) (t ) ≥ maxk6=L(t ) b k (t ) then I t = Nk(t ) (t ); else I t = argmink {Nk (t ) : b k (t ) > b L(t ) (t )}; end end end Algorithm 4: Pseudo-code pour CKL-UCB 6.3 Analyse du regret. Dans cette section, nous analysons le regret des algorithmes OSLB et CKL-UCB. L’algorithme CKL-UCB est testé sur plusieurs modèles de bandits lipschitziens. [ 30 \ Modèles de bandits. h g 6.3.1 OSLB. T HÉORÈME 6.3. — Choisissons δ > K + 1. Pour tout ² > 0, sous les hypothèses du modèle (en particulier, µ est L-lipschitzien), il existe des constantes α et β positives telles que : ³ ² 3´ K E[R(n)] ≤ αK ln(n) +C 1 ln ln(n) + 2 + β(1 + ) ln(n) + 2 ²δ K δ Démonstration. Choisissons un bras sous-optimal k : dans la suite de la preuve, notre objectif est d’estimer Nk (n), c’est-à-dire dénombrer les temps t pour lesquels I t = k. Lorsque c’est le cas, il y a deux principales possibilités. 1. k est le leader, c’est-à-dire I t = L(t ). 2. k n’est pas le leader, auquel cas soit k = k̄(n), soit k = k(n). Nous allons définir au fur et à mesure de la démonstration des ensembles (aléatoires) dont nous serons ensuite amenés à estimer le cardinal. Supposons déjà que nous sommes dans le cas 1. Alors, maxk6=k ? b k (t ) < µ̂? (t ). Définissons l’ensemble : A k = {t ≤ n : I t = k, b k (t ) < µk } On sait que t ∉ A k ? ; supposons également que t ∉ A k . Alors comme k 6= k ? , µ̂? (t ) > b k ? (t ) ≥ µ > µk . Définissons donc l’événement : ? E k = {I t = k, |µ̂k (t ) − µk | ≥ δ} Si l’on choisit δ < max |µk −µ? |, on a montré que t ∈ E k . En conclusion de ce premier cas, si I t = L(t ), on a t ∈ A k ∪ E k . Passons maintenant au deuxième cas, que nous allons subdiviser en d’autres sous-cas. Notons k 0 = L(t ). Nous savons que k 6= k ? et que k 0 6= k. (1) Supposons également que k 0 6= k ? : le leader n’est ni le bras choisi, ni le meilleur bras. Cette configuration ne devrait pas arriver trop souvent. Il y a deux possibilités : soit k = k(t ), soit k = k̄(t ). Lorsque k = k(t ), cela veut dire que le bras k a été le moins joué et en particulier que t k (t ) < min(t k 0 (t ), t k ? (t )). D’autre part, vu que k 0 6= k ? , on a µ̂k 0 (n) ≥ µ̂k ? (t ), ce qui signifie précisément que l’une ou l’autre des deux quantités θ ? ou θk 0 est mal estimée. Nous avons donc n ∈ F k , où : F k = {I t = k, Nk (t ) < min(Nk 0 (t ), Nk ? (t )), et max |µ̂l (t ) − µl | ≥ δ} l =k 0 ,k ? Maintenant, nous étudions le cas où k = k̄(t ). Dans ce cas, nous avons que Nk(t ) (t ) ≥ K² Nk̄(t ) (t ) = Nk (t ). Comme dans le raisonnement précédent, nous avons également que k 0 6= k ? , donc µ̂k 0 (t ) ≥ µ̂k ? (t ), et l’une ou l’autre des deux quantités µ? ou µk 0 est mal estimée. Finalement, nous avons montré que t ∈ B k , que l’on définit par : B k = {I t = k, ² Nk (t ) ≤ min Nl (t ), et ||µ̂(t ) − θ||∞ ≥ δ} l K Récapitulons : dans le cas (1), on a nécessairement t ∈ F k ∪ B k . (2) Maintenant, nous supposons que k 0 = k ? . Le leader est le meilleur bras et n’est pas le bras choisi. Là encore, il faut distinguer entre les cas k = k(n) et k = k̄(n). Lorsque k = k(n), nous avons bien que t k (n) < minl t l (n), et donc K² t k (n) < minl t l (n). Supposons alors que n ∉ B k : cela veut dire que tous les bras sont bien estimés. Par continuité des [ 31 \ Modèles de bandits. h g solutions 13 au problème 27 entraîne que ĉ l (n) ≤ c lδ . D’autre part, la définition même de l’algorithme OSLB conduit à ce que t k (n) ≤ K² t k̄(n) (n) ; comme k̄(n) ∈ K e (n), nous aboutissons à t k (n) ≤ c kδ ln(n), c’est-à-dire que n ∈ D k , où l’on définit : D k = {k(n) = k, L(n) = k ? , n ∉ A k ∪ B k ∪ E k ∪ F k , et t k (n) ≤ ² δ c ln(n)} K k Lorsque k = k̄(n), on a K² t k (n) ≤ t k(n) (n). Comme dans le raisonnement précédent, si n ∉ B k , tous les bras sont bien estimés et donc ∀l , ĉ k (n) ≤ c lδ , et l’on a donc n ∈ C k où l’on définit : C k = {k(n) = k, L(n) = k ? , n ∉ A k ∪ B k , t k (n) ≤ c kδ ln(n)} En conclusion de ce cas (2), nous avons n ∈ B k ∪C k ∪ D8k. Nous allons maintenant utiliser l’inégalité de concentration 26 et ses corollaires pour borner A k . Nous pouvons écrire : X |A k | = 1{k(n)=k,bk (n)≤θk } ≤ n≤T X 1{bk (n)≤µk } n≤T P 1 Par le théorème (26), nous avons donc E[|A k |] ≤ ni=1 t ln(t ) ≤ C 1 ln ln n. Pour borner les autres événements aléatoires, nous utilisons ce lemme dont la démonstration n’est pas donnée : L EMME 6.1. — On conserve les notations précédentes. Soit Λ ⊂ N un ensemble aléatoire discret, pour lequel il existe une suite d’ensembles aléatoires (Λ(s))s∈N telle que 1. Λ ⊂ ∪s Λ(s) 2. ∀s ≥ 1, ∀t ∈ Λ(s), Nk (t ) ≥ ²s 3. Il y a au plus 1 élément dans chaque Λ(s). Alors pour tout δ > 0 on a : · E X t ≥1 ¸ 1{t ∈Λ,|µ̂k (t )−µk |>δ} ≤ 1 ²δ2 Une application directe de ce lemme nous donne les bornes suivantes : E[|B k |] ≤ K ²δ2 1 δ2 2 E[|F k |] ≤ 2 δ E[|E k |] ≤ D’autre part, le cardinal de C k est directement majoré par c kδ ln(n) et celui de D k par K² c kδ ln(n), en raison de leur définition. Finalement, on a : ³ ´ E[(µ? − µk )Nk (t )] ≤ (µ? − µk ) E[|A k |] + E[|B k |] + E[|C k |] + E[|D k |] + E[|E k |] + E[|F k |] ³ K ² 3´ ≤ (µ? − µk ) C 1 ln ln(n) + 2 + (c kδ + c kδ ) ln(n) + 2 ²δ K δ 13. Une preuve de ceci est donnée dans [Proutière et al., 2014]. [ 32 \ Modèles de bandits. h g Ainsi, on aboutit à l’existence d’une constante α et une constante 14 β telle que le regret s’exprime : ³ K ² 3´ E[R(n)] ≤ αK ln(n) +C 1 ln ln(n) + 2 + β(1 + ) ln(n) + 2 ²δ K δ 6.3.2 CKL-UCB. P ROPOSITION 6.1. — Soit k un bras sous-optimal. Sous l’algorithme CKL-UCB, il existe une constante C 1 positive telle que : E[Nk (n)] ≤ f (T ) 2 +C 1 ln ln(n) + 2 kl(µk + δ, µ? − δ δ T HÉORÈME 6.4. — Soit k un bras sous-optimal. Définissons la quantité : βk (µ) = inf{α0 ≥ 0 : a k,k α0 + e k (A, α0 ) > 1} Alors, d’une part on a : lim sup n→∞ E[Nk (n)] ≤ βk (n) ln(n) D’autre part, s’il existe i tel que 0 < a k,i < a k,k et tel que ∀ j , si a k, j = 0 alors a j ,i = 0 aussi, alors on a : 1 1 βk (µ) < = a k,k kl(µk , µ? ) 6.4 Tests empiriques. Les tests ont été menés sur un modèle dont le vecteur µ est celui qui est réprésenté dans la figure 2.2. Nous avons fait 10000 tests différents et pris les moyennes. On note que CKL-UCB fait nettement mieux que KL-UCB, ce qui semble indiquer que l’algorithme prend bien en compte la structure du problème. 200 KL−UCB UCB 0.005−greedy algorithme naif regret 150 CKL−UCB 100 50 0 0 500 1000 temps 1500 2000 F IGURE 7 – Regret de plusieurs algorithmes dans le cas où µ ∈ ΘL . 14. Ces deux constantes dépendent des paramètres du problème (problem-dependant bound). [ 33 \ Modèles de bandits. h g 7 Enchère à la Vickrey avec prix de réserve. Dans cette section, nous étudions un modèle d’enchères de second prix avec prix de réserve. De tels problèmes ont généré beaucoup de recherches de la part des microéconomistes et plus récemment de la part des statisticiens. Ce genre d’enchères est actuellement très utilisé par des organismes de vente d’espaces publicitaires en ligne. Il s’agit, pour le commissaire priseur qui préside l’enchère, de fixer un prix de réserve optimal. Le problème se rattache directement à un problème de bandit où l’ensemble des bras est continu, et la stratégie de discrétisation donnée en 6.1 sera illustrée. Il est pourtant possible d’avoir de bons résultats sans discrétisation, en utilisant un algorithme ad p hoc tel que celui exposé dans l’article [Cesa-Bianchi et al., 2013], et atteignant un regret en Õ ( T ). 7.1 Le cadre. Le modèle étudié est un modèle d’enchère à la Vickrey, c’est-à-dire d’enchère « de second prix », doublé d’un prix de réserve. Rigoureusement, l’enchère suit le déroulement suivant : 1. le commissaire priseur fixe un prix de réserve p et ouvre les enchères. 2. les enchérisseurs proposent leurs prix individuellement, sans avoir connaissance des prix proposés par leurs concurrents, et selon une loi de probabilité commune. 3. l’enchérisseur ayant proposé le prix le plus élevé gagne l’enchère si le prix qu’il a proposé est supérieur à p ; sinon, la vente est annulée. 4. Le gagnant ne paie pas le prix qu’il a lui-même proposé, mais le deuxième prix le plus élevé proposé par les enchérisseurs si celui-ci est plus grand que p. Si ce n’est pas le cas, il paie p. Ce mécanisme est illustré par la figure 7.1 cicontre montrant une réalisation d’un tour d’enchère. Si le prix de réserve p et au-dessus de la ligne supérieure, l’enchère est annulée. S’il est entre les deux lignes, l’enchère a lieu au prix p et s’il est en dessous, elle a lieu au prix B (2) . Bien entendu, le commissaire-priseur n’a pas accès à toutes ces informations, mais uniquement à X p (t ) qui est l’issue du tour d’enchères. Le nombre d’enchérisseurs est un entier m fixé. L’ enchérisseur i propose, lors de la t ième enchère, un prix B t ,i qui est aléatoire ; les (B t ,i )i ≤m,t ≤T sont indépendants et identiquement distribués selon une loi de probabilité à support dans [0, 1]. (B (1)t , ..., B t(m) ) est le réordonné croissant du tour d’enchère 15 t , c’est-à-dire que B t(1) ≥ B t(2) ≥ ... ≥ B t(m) . F est la fonction de répartition de B t ,i , et F 2 est la fonction de répartition de B (2) . Lorsque le prix de réserve est p, l’issue du tour d’enchère t est un prix X p (t ) défini comme suit : (1) 0 lorsque B t < p X p (t ) = p lorsque B t(1) ≥ p ≥ B t(2) B (2) lorsque B (2) > p t t 15. Parfois, nous omettrons l’indice de temps. [ 34 \ Modèles de bandits. h g L’espérance de gain sera notée µ(p) = E[X p (t )] (rappelons que les X p (t ) sont i.i.d. pour tout t ∈ N). Notre objectif est de trouver le prix de réserve optimal p ∗ , au sens où : p ∗ = argmax{µ(p)} Nous supposons que le nombre d’enchérisseurs m est fixe 16 . L’algorithme présenté dans [Cesa-Bianchi et al., 2013] se fonde sur une approximation de µ(p) à partir des données précédemment acquises. Pour cela, nous allons avoir besoin de la formule suivante donnant µ(p) en fonction de F . P ROPOSITION 7.1. — Sous les hypothèses précédentes, l’espérance de gain lorsque le prix de réserve pratiqué est p s’exprime sous la forme : Z p (2) F 2 (t )d t − pF (p)m (29) µ(p) = E[B ] + 0 Démonstration. En décomposant X p puis en prenant l’espérance, on obtient l’écriture suivante : µ(p) = pP(B (1) ≥ p ≥ B (2) ) + E[B (2) 1{B (2) ≥p} ]. Le premier terme du membre de droite est explicitement connu sous la forme pm(1 − R F (p))F (p)m−1 . Le deuxième terme peut se récrire en utilisant la formule classique E[X ] = P(X > t )d t . On obtient alors : Z (2) E[B 1{B (2) ≥p} ] = P(B (2) 1{B (2) ≥p} > t )d t Z 1 (2) P(B (2) ≥ t )d t = pP(B ≥ p) + Z p 1 P(B (2) ≥ t )d t − 0 Z p F 2 (t )d t = −pF 2 (p) + E[B (2) ] + = p Z p(1 − F 2 (p)) + 0 P(B (2) ≥ t )d t 0 m = −pF (p) − pm(1 − F (p))F (p) m−1 + E[B (2) p Z ]+ 0 F 2 (t )d t On a utilisé, à la dernière ligne, l’expression explicite de F 2 en fonction de F donné par l’égalité : ¡ ¢ F 2 (t ) = F (t )m + m 1 − F (t ) F (t )m−1 En remettant tout cela dans l’expression de µ(p), on achève de prouver le lemme. La proposition précédente donne une expression exacte de µ en fonction de F ; cependant, cette expression peut être difficile à calculer. Dans des cas simples où les B i sont des lois uniformes et où m est petit, on peut calculer à la main cette quantité. Un exemple est donné dans la figure 8.a, où l’on a également tracé une approximation de p → µ(p) sur 1000 tests. Par contre, dans des cas où la loi de B i est moins élémentaire, on peut avoir des difficultés à calculer µ. La figure 8.b donne une approximation de µ (sur 10000 tests) dans le cas pù m = 5 et où la loi de B i est une loi du χ2 tronquée 17 . Dans la proposition précédente, nous avons utilisé le lien qui existe entre F et F 2 . Nous en aurons de nouveau besoin (et de manière cruciale) pour reconstruire F à partir de ses statistiques d’ordre. Nous nous appuyons sur le lemme et la définition suivants. 16. Les auteurs de [Cesa-Bianchi et al., 2013] proposent également une étude du cas où le nombre d’enchérisseurs est aléatoire ; cela ne change pas les résultats de fond. 17. Soit X suivant une loi du χ2 ; Y = X 1 X ∈[0,1] + X1 1 X ≥1 . [ 35 \ Modèles de bandits. h g 0.5 0.3 0.4 0.3 0.2 0.2 0.1 0.1 mu(p) moyenne sur 1000 réalisations moyenne sur 1000 réalisations 0 0 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 (a) µ et son approximation dans le cas où B i suit une (b) Approximation de µ dans le cas où B i suit une χ2 U (0, 1) et m = 5. tronquée (voir note 17). F IGURE 8 – Allures de p → µ(p). D ÉFINITION 10. — Soit x ∈ R. On pose : β : x 7→ mx m−1 m − (m − 1)x P ROPOSITION 7.2. — Les hypothèses et les notations sont celles définies en section (7.1). Alors : ∀x ∈ [0, 1], F 2 (x) = β(F (x)m ) D’autre part, la fonction β est un homéomorphisme de [0, 1] dans lui-même et elle vérifie la propriété suivante : ¶ ³¯ ´ µ¯ ¯ ¯ 2ε −1 ¯ ¯ ¯ ¯ ∀x, a ∈ [0, 1], ∀ε > 0, β(x) − a) ≤ ε ⇒ x − β (a) ≤ p (30) 1−a La démonstration relève de la théorie élémentaire des statistiques d’ordre pour la première partie, et mobilise des techniques classiques d’analyse réelle pour la deuxième partie. Une preuve est donnée dans [Cesa-Bianchi et al., 2013]. Cette proposition est cruciale au sens où elle permet d’obtenir un contrôle de β−1 à partir d’un contrôle sur β. L’inégalité suivante est connue sous le nom de « inégalité de Dvoretzkhi-Kiefer-Wolfowitz » (DKW). Elle sera utilisée par la suite à plusieurs reprises. Sa première mention se trouve dans l’article [Dvoretzky et al., 1956] ; en 1990, P. Massart a prouvé que la meilleure constante précédent la borne 2n²2 était bien 1. T HÉORÈME 7.1. — Soient X 1 , ..., X n des variables aléatoires réelles indépendantes et identiquement distribuées selon une loi dont la fonction de répartition est F . Soit F n la fonction de répartition empirique associée, c’est-à-dire : ∀x ∈ R, F n (t ) = 1 X 1 X ≤x n i ≤n i Soit ² > 0. L’inégalité de Dvoretzkhi-Kiefer-Wolfowitz donne une borne sur la probabilité de déviation de F n : [ 36 \ Modèles de bandits. h g µ ¶ 2 P sup |F n (x) − F (x)| > ² ≤ 2e −2n² (31) x∈R Soit δ > 0. On Peut reformuler (31) sous la forme suivante : s à µ ¶! 1 2 ln ≤δ P sup |F n (x) − F (x)| > 2n δ x∈R p 7.2 Un algorithme en O ( T ) p L’algorithme suivant atteint un regret en T .Il agit en périodes de longueur Ti , au cours desquelles on joue toujours le même prix p t = p̂ i , choisi pour maximiser l’estimation de nos gains sous certaines contraintes. La méthode utilisée est celle du « plug-in » : à la fin de chaque période i , on actualise une estimation de la fonction de répartition F 2 , que l’on note F̂ 2,i , et l’on insère cette estimée dans la formule (29). Cela donne une approximation µ(p̂ i ). Pour la suite, nous aurons besoin de définir des longueurs d’intervalles de confiance : s C i ,δ (p) = p 2 µ 2S ¡ ¢ ln δ Ti 1 − F̂ 2,i (p) [ 37 \ ¶ Modèles de bandits. h g Data: Paramètres α, seuil de probabilité δ, nombre de périodes S, longueur Ti de chaque période pour i = 1, ..., S. Initialisation – Pour chaque t = 1, ..., T1 , jouer p t = 0 ; collecter les revenus X 0 (1), ..., X 0 (T1 ). – Calculer la fonction de répartition empirique pour x ∈ [0, 1] : F̂ 2,1 (x) = T1 1 X 1{X (t )≤x} T1 i =1 p t – Calculer, pour p ∈ [0, 1], l’approximation : Z p µ̂(p) = E[B (2) ] + F̂ 2,1 (t )d t − pβ−1 (F̂ 2,1 (p)) 0 for i = 2, ..., S do – Calculer p̂ i de la manière suivante : – Calculer le maximiseur : p̂ i∗−1 = argmax{µ̂i −1 (p) : p ∈ [p̂ i −1 , 1], F̂ 2,i −1 (p) ≤ 1 − α} – Poser : © ª P i = p ∈ [p̂ i −1 , 1] : µ̂i −1 (p) ≥ µ̂i −1 (p̂ i∗−1 ) − 2C δ,i −1 (p̂ i∗−1 ) − 2C δ,i −1 (p) – Sélectionner : p̂ i = min P i ∩ {p : F̂ 2,i −1 (p) ≤ 1 − α} – Pour tout t dans la période i , jouer p t = p̂ i et collecter les revenus X p̂ i ) (t ). – Calculer la distribution empirique pour x ∈ [p̂ i , 1] : F̂ 2,1 (x) = T1 1 X 1{X (t )≤x} T1 i =1 p̂i ) – Calculer pour chaque p ∈ [p̂ i , 1] l’approximation suivante : Z p µ̂i (p) = E[B (2) ] + F̂ 2,i (t )d t − pβ−1 (F̂ 2,i (p)) 0 end Algorithm 5: Minimisation du regret dans un modèle d’enchère à la Vickrey avec prix de réserve. 7.3 Analyse du regret. p Cette section montre comment l’algorithme 5 atteint un regret de l’ordre de O ( n) sous certaines hypothèses. Nous donnons ensuite une preuve de ce fait utilisant trois lemmes, puis nous prouvons ces lemmes. Soit n un horizon temporel. L’algorithme se joue sur S = S(n) périodes ; on notera généralement S. La longueur de la période i est Ti et tout au long de chaque période, le prix de réserve pratiqué est p t = p̂ i . Ainsi, le regret total au tour n s’exprime sous la forme suivante : X ¡ ¡ ¢ S(n) ¢ R(n) = T1 µ(p ? ) − µ(0) + Ti µ(p ? ) − µ(pbi ) . i =2 [ 38 \ Modèles de bandits. h g Remarquons également que, par construction même, la suite (p̂ i )i ≤S est une suite croissante. T HÉORÈME 7.2. — On se place dans le cadre exposé précédemment. On suppose que m ≥ 2, que µ(p ? ) > 0, et que l’horizon temporel n vérifie : µ ¶ 1 6(1 + ln2 ln2 (n)) n≥ 72 ln µ(p ? )8 δ On choisit un seuil δ > 0 petit, un paramètre α ≥ µ(p ? )2 /12 et on adopte comme longueur des −i périodes Ti = n 1−2 . Sous toutes ces hypothèses, et avec une probabilité supérieure à 1 − δ, l’algorithme 5 atteint un regret de l’ordre de : p ¶ ln ln(n) n ln ln ln(n) + ln(1/δ) O µ(p ? ) µ On a donc : µp ¶ n ln(1/δ) E[R(n)] = Õ µ(p ? ) 7.3.1 Preuve du théorème. Nous commençons par énoncer les trois lemmes techniques qui vont nous permettre d’étudier le regret. Pour plus de lisibilité, leur démonstration sera donnée plus tard. L EMME 7.1. — Nous conservons les notations introduites dans la présentation de l’algorithme 5. à ! P ∀i ≤ S : sup |µ̂i (p) − µ(p)| ≤ 2C δ,i (p) ≥ 1 − δ (32) p∈[p̂ i ,1] L EMME 7.2. — Soit δ > 0. L’inégalité suivante est vraie : ¡ P ∀i ≤ S, ¢ p ? ≥ p̂ i et 0 ≤ µ̂i (p̂ i∗ ) − µ̂i (p ∗ ) ≤ 2C δ,i (p̂ i∗ ) + 2C δ,i (p ? ) ≥ 1 − δ (33) L EMME 7.3. — Soit δ > 0. L’inégalité suivante est vraie : à P ∀i ≤ S, ∀p ∈ [p̂ i , 1], µ(p)2 1 − F̂ 2,i (p) ≥ − 6 s µ ¶! 1 2S ln ≥ 1−δ 2Ti δ (34) Démonstration du théorème 7.2. La quantité qu’il faut contrôler est µ(p ? ) − µ(p̂ i ). Nous la décomposons en trois quantités indépendantes que nous étudions successivement. ³ ´ ³ ´ ³ ´ µ(p ? ) − µ(p̂ i ) = µ(p ? ) − µ̂i −1 (p ? ) + µ̂i −1 (p ? ) − µ̂i −1 (p̂ i ) + µ̂i −1 (p̂ i ) − µ(p̂ i ) (35) Définissons deux événements A et B comme ceux dont on a borné la probabilité dans les deux premiers lemmes ci-dessus, c’est-à-dire que : ( ) A = ∀i ≤ S : sup |µ̂i (p) − µ(p)| ≤ 2C δ,i (p) p∈[p̂ i ,1] © B = ∀i ≤ S, ª p ? ≥ p̂ i et 0 ≤ µ̂i (p̂ i∗ ) − µ̂i (p ∗ ) ≤ 2C δ,i (p̂ i∗ ) + 2C δ,i (p ? ) On va se placer sur l’intersection des événements A et B , qui possède une probabilité supérieure à 1 − 4δ d’après les lemmes 7.1 et 7.2. Rappelons que sur cette intersection, les inégalités suivantes sont vraies pour n’importe quel i : [ 39 \ Modèles de bandits. h p? ≥ 0 ≤ µ̂i (p̂ i∗ ) − µ̂i (p ∗ ) ≤ g p̂ i (36) µ̂i (p̂ i∗ ) − µ̂i (p ∗ ) 2C δ,i (p̂ i∗ ) + 2C δ,i (p ? ) (37) (38) sup |µ̂i (p) − µ(p)| ≤ 2C δ,i (p) (39) p∈[p̂ i ,1] (40) On a donc d’une part en vertu de (40) appliquée en i − 1 et à p = p̂ i ≥ p̂ i −1 : ³ ´ µ̂i −1 (p̂ i ) − µ(p̂ i ) ≤ 2C δ,i (p̂ i ) En vertu de (38) appliquée en i − 1 , on a : ³ ´ ³ ´ µ̂i −1 (p ? ) − µ̂i −1 (p̂ i ) ≤ µ̂i −1 (p̂ i∗−1 ) − µ̂i −1 (p̂ i ) Comme p̂ i ∈ P i par construction de l’algorithme, et en utilisant l’expression précédente, on a: ³ ´ ³ ´ µ̂i −1 (p ? ) − µ̂i −1 (p̂ i ) ≤ µ̂i −1 (p̂ i∗−1 ) − µ̂i −1 (p̂ i ) ≤ 2C δ,i (p̂ i ) + 2C δ,i (p̂ i∗−1 ) En vertu de (37), on a bien p ? ≥ p̂ i −1 . L’inégalité (40), appliquée pour i − 1 à p = p ? , donne enfin : ´ ³ µ(p ? ) − µ̂i −1 (p ? ) ≤ 2C δ,i −1 (p ? ) En recollant tous les morceaux dans l’égalité (35), on aboutit donc à la borne suivante : µ(p ? ) − µ(p̂ i ) ≤ 2C δ,i −1 (p ? ) + 2C δ,i −1 (p̂ i∗−1 ) + 4C δ,i −1 (p̂ i ) q ¡ ¢ On montre facilement que le terme de droite est inférieur à 8 αT1i −1 ln 2S δ en utilisant deux fois le lemme (7.3). Revenons à l’expression du regret : X ¡ ¡ ¢ S(n) ¢ R(n) = T1 µ(p ? ) − µ(0) + Ti µ(p ? ) − µ(pbi ) . i =2 ¡ ¢ On borne simplement T1 µ(p ? ) − µ(0) par T1 , puis on utilise les inégalités auxquelles on vient d’aboutir pour trouver que : S X s µ ¶ 1 2S ln (41) R(n) ≤ T1 + 8 Ti αT δ i −1 i =2 p 7 3 −i Nous avons défini Ti = n 1−2 , c’est-à-dire que T1 = n, T2 = n 4 , T3 = n 8 . Cette suite est croissante. L’entier S = S(n) est donc borné par le plus petit j tel que : n≥ j X n 1−2 −i i =1 Remarquons alors que, si j ≥ ln2 (ln2 (n)), alors 2 j ≥ ln2 (n) = conséquent, on a : j ≥ ln2 ln2 (n) ⇒ −j n 1−2 = T j ≥ [ 40 \ ln(n) ln(2) , n 2 −j et donc on a n 2 ≥ 2. Par Modèles de bandits. h g On en déduit immédiatement que S(n) ≤ dln2 ln2 (n) + 1e = O (ln ln(n)). Remarquons enfin p p que Ti / Ti −1 = n lorsque i > 1. L’inégalité (41) devient donc : s µ ¶ p p 1 2S R(n) ≤ n + 8 nS(n) ln α δ p ln(2S/δ) Si µ(p ? > 0 et si min Ti = n ≥ 72µ(p , alors on trouve que α ≥ µ(p ? )2 /12 et par conséquent, ? )4 avec une probabilité supérieure à 1 − 3δ, le regret est est de l’ordre de : p µp ¶ ln ln(n) n ln ln ln(n) + ln(1/δ) n ln(1/δ) ∼ Õ µ(p ? ) µ(p ? ) Ceci achève de prouver le théorème. On notera que cette borne dépend crucialement de µ(p ? ) 7.3.2 Preuves des lemmes. Démonstration du lemme 7.1. Nous allons borner |µ̂i (p) − µ(p)| pour chaque i avant d’utiliser la sous-additivité des mesures de probabilité. ≤ p p ¯ ¯ ¯ ¡ ¢ ¯ F 2 (t )d t − F̂ 2,i (t )d t ¯¯ + p ¯F (p)m − β−1 F̂ 2,i (t ) d t ¯ 0 0 ¯ ¯ ¯ ¡ ¢ ¯ ¯ p max F 2 (t ) − F̂ 2,i (t )¯ + p ¯F (p)m − β−1 F̂ 2,i (t ) d t ¯ ¯Z ¯ |µ(p) − µ̂i (p)| ≤ ¯¯ Z [0,p] Via l’inégalité DKW, avec une probabilité supérieure à 1 − δ/S on a que : s ¯ ¯ p max ¯F 2 (t ) − F̂ 2,i (t )¯ ≤ p [0,p] 1 2S ln ≤ C δ,i (p) Ti δ ¯ ¡ ¢ ¯ m −1 Or, sur cet événement, on peut contrôler le terme en p ¯F (p) − β F̂ (t ) d t ¯ grâce au lemme 2,i p m technique 7.2, appliqué en x = F (p) , a = F̂ 2,i (p) et ² = 1/2Ti × ln(2S/δ). On obtient alors exactement que : ¯ ¡ ¢ ¯ p ¯F (p)m − β−1 F̂ 2,i (t ) d t ¯ ≤ C δ,i (p) Nous venons donc de montrer que pour chaque i , avec une probabilité supérieure à 1−δ/S, l’inégalité suivante est vraie : |µ(p) − µ̂i (p)| ≤ 2C δ,i (p) Il suffit de prendre la probabilité de l’union pour que la démonstration de 7.1 soit terminée. Démonstration du lemme (7.2). La preuve se fait par récurrence sur i ≤ S : les cas i = 1 est vérifié (l’inégalité est vraie avec probabilité supérieure à 1 − δ/S). On prouve ensuite que, si les inégalités en question sont vraies en i , la probabilité qu’elles soient vraies aussi en i + 1 est supérieure à 1 − δ/S. En prenant l’union des événements et en conditionnant successivement chaque i par i − 1, on obtiendra donc le résultat. Je développe le cas i = 1 : le reste se fait de la même manière. Démonstration du lemme 7.3. L’inclusion : (2) {∃k : 1 ≤ k ≤ bm/2c tel que B k ≥ p} ∩ {∃k : dm/2e ≤ k ≤ m tel que B k ≥ p} ⊆ {B m ≥ p} [ 41 \ Modèles de bandits. h g associée au fait que les B i sont i.i.d. permet d’avoir que : (1) (1) (2) P(B m ≥ p) ≥ P(B dm/2e ≥ p) × P(B bm/2c ≥ p). (1) (1) (1) Il est immédiat de vérifier que 3 × P(B bm/2c ≥ p) ≥ P(B m ≥ p) et que 2 × P(B dm/2e ≥ p) ≥ (1) (1) P(B m ≥ p). Vu que 1{B (1) ≥p} ≥ R t (p), on a aussi que µ(p) ≤ P(B m ≥ p), et ainsi on arrive à m l’inégalité : (2) ≥ p) ≥ P(B m (1) P(B m ≥ p)2 µ(p)2 ≥ 6 6 D’autre part, l’inégalité DKW nous donne que |F̂ 2,i (p) − F 2 (p)| ≤ ² avec une probabilité su2 périeure à 1 − 2e −2Ti ² . On aboutit à l’inégalité suivante, vraie avec probabilité supérieure à 2 1 − e −2Ti ² : 1 − F̂ 2,i (p) ≥ En choisissant ² = est vérifiée. q 1 2Ti µ(p)2 −² 6 ln( 2S δ ) et en prenant l’union des événements sur i , l’inégalité (34) 7.4 Tests empiriques. 7.4.1 L’hypothèse lipschitzienne. Nous faisons dorénavant l’hypothèse que la fonction p → µ(p) est L-lipschitzienne, pour une constante L connue, et nous appliquons les résultats de la partie précédente à ce problème. Pour cela, on discrétise [0, 1] en K points uniformément répartis notés p 1 , ..., p K , et l’on applique l’algorithme KL-UCB à ce problème discrétisé. On note R(n) le regret du modèle, et R 0 (n) le regret du sous-modèle constitué des K bras sélectionnés. On note p ? = argmaxp µ(p), i ? = argmaxk≤K µ(p k ) le meilleur bras du sous-modèle. R(n) = nµ(p ? ) − n X µ(p I t ) = n(µ(p ? ) − µ(p i ? )) + R 0 (n) t =1 Or, on a vu que R 0 (n) ≤ K C ln(n) où C est une constante. D’autre part, vu que la fonction p → µ(p) est L-lipschitzienne et que les bras sont espacés selon un pas de 1/K , on peut écrire que |µ(p ? ) − µ(p k ? )| ≤ L/K . Il suffit alors d’optimiser la borne pour trouver le résultat : E[R(n)] ≤ 2 p LC n ln(n) Notons cependant que l’hypothèse de lipschitzianité doit être faite avec précaution. En effet, nous avons vu que la dérivée de la fonction β intervenant dans l’expression de µ est égale à −∞ en 1 : µ n’est pas lipschitzienne. Cependant, ce constant n’est vrai qu’autour de 1 et cette région n’est pas très intéressante car µ décroit très vite lorsque p est très grand. Il paraît donc raisonnable de dire que µ est lipschitzienne sur un domaine de la forme [a, b] où b > 1. 7.4.2 Les algorithmes. Le modèle adopté est le suivant : le nombre d’enchérisseurs est m = 5 et chacun suit une loi inconnue à valeurs dans [0, 1]. Pour cette raison, le calcul explicite de µ(p) est difficile et il n’est pas du tout évident de connaître µ(p ? ). Une estimation de p → µ(p) est cependant donnée [ 42 \ Modèles de bandits. h KL−UCB 2500 KL−UCB 2500 UCB UCB 0.005−greedy 0.005−greedy algorithme naif 2000 algorithme naif 2000 CKL−UCB CKL−UCB algorithme 5 1500 regret regret algorithme 5 1500 1000 1000 500 500 0 0 0 1000 2000 3000 temps 4000 5000 0 (a) 10 bras. 2000 3000 temps 4000 5000 KL−UCB 2500 UCB UCB 0.005−greedy 0.005−greedy algorithme naif 2000 1000 (b) 27 bras (K optimal). KL−UCB 2500 algorithme naif 2000 CKL−UCB CKL−UCB algorithme 5 algorithme 5 1500 regret regret g 1500 1000 1000 500 500 0 0 0 1000 2000 3000 temps 4000 5000 (c) 50 bras. 0 1000 2000 3000 temps 4000 5000 (d) 100 bras. F IGURE 9 – Regret de plusieurs algorithmes dans le cadre d’un modèle d’enchère à la Vickrey avec prix de réserve. Le nombre d’enchérisseurs est m = 5. Résultats obtenus sur 10000 tests différents. [ 43 \ h Modèles de bandits. g dans la figure 7.4.1. Ne connaissant pas µ(p ? ), nous ne pouvons pas calculer le regret R(n) des P algorithmes : nous nous en tenons donc au gain G(n) = nt=1 µ(p I t ). Nous avons expérimenté les algorithmes UCB, KL-UCB, CKL-UCB, un algorithme ²-glouton et un algorithme naïf, confrontés au modèle discrétisé. Nous avons fait varier le nombre de bras sans changement significatif. On notera que l’algorithme glouton fait encore une fois mieux que les autres, confirmant les tests menés par Kuleshov et Precup dans [Kuleshov and Precup, 2014]. L’algorithme proposé par Mansour et al. fait effectivement mieux que les autres, car il tient optimalement compte de la structure du problème : les autres ne la prennent pas en compte du tout ou en prennent seulement compte une partie hypothétique (CKL-UCB). 8 Conclusion. Vue d’ensemble. Dans ce rapport, nous avons introduit et défini le modèle probabiliste des « bandits ». Nous nous sommes concentrés sur des modèles de Bernouilli, bien que les résultats soient généralement valables pour les bandits dont la loi est à support compact. Nous avons ensuite développé les grands résultats de la théorie classique des bandits. Le théorème de Lai et Robbins donne une borne inférieure sur le regret de tout algorithme, pour n’importe quel modèle : cette borne inférieure est approchée par l’algorithme UCB et atteinte par l’algorithme KL-UCB, dont l’étude repose sur des inégalités de concentration pour des sommes aléatoires de variables aléatoires. Empiriquement, l’algorithme UCB se révèle être assez médiocre, tandis que les algorithmes de type « glouton » avec ²-exploration se révèlent la plupart des cas aussi bien, voire meilleurs que des algorithmes plus élaborés comme KL-UCB ; cependant, ces derniers disposent d’un avantage net pour des modèles difficilement identifiables, c’est-à-dire pour lesquels les bras sont difficiles à départager. En pratique, les problèmes de bandits rencontrés dans les applications sont souvent plus riches qu’une collection de variables de Bernouilli indépendantes : il arrivé généralement que le nombre de bras soit infini et que l’on connaisse une structure particulière sur l’ensemble des lois des bras. Nous avons exposé des développements très récents autour de la théorie des bandits L-lipschitziens, qui sont une importante classe de bandits, notamment dans la discrétisation de problèmes continus. Nous avons montré que des algorithmes prenant explicitement en compte la structure lipschitzienne d’un modèle font nettement mieux que des algorithmes classiques appliqués aux mêmes problèmes. Enfin, nous avons développé une application récente de la théorie de bandits : la fixation d’un prix optimal lors d’enchères « de second prix ». Ceci nous a amené à étudier en profondeur un tel modèle ; nous avons ensuite exposé un algorithme récent tenant optimalement compte de la forme du problème. Les essais empiriques que nous avons menés montrent que ce dernier algorithme aboutit bien à de meilleurs résultats que les autres. Ouverture. Nous n’avons pas eu le temps de mener à bout tout ce que nous aurions pu faire. La théorie des bandits est riche, relativement jeune et ses applications sont innombrables et stimulantes. Le problème étudié dans la section 7 est actuellement exploré pour ses applications aux marchés publicitaires en ligne. L’algorithme proposé par Mansour et al. ([Cesa-Bianchi et al., 2013]) est très efficace, mais nous croyons qu’il peut être amélioré sous peine de munir la fonction p → µ(p) d’hypothèses faibles. En particulier, l’inégalité du théorème 4.2 devrait être exploitée plus profondément. Nous avons donné un exemple de son utilisation pour les bandits Llipschitziens : la même chose pourrait être faite dans d’autres cadres, suivant deux voies : [ 44 \ h Modèles de bandits. g 1. Trouver une inégalité similaire faisant intervenir, non pas la moyenne empirique µ̂p (n), mais une estimation fondée sur celle de la fonction de répartition empirique (en uilisant éventuellement l’inégalité DKW comme nous l’avons fait dans la section 7). 2. Utiliser cette même inégalité en conservant l’estimation µ̂p (n), mais en adaptant la définition de l’indice défini en 9 par le choix différent d’un λq,k . bc [ 45 \ h Modèles de bandits. g Références [Auer et al., 2002] Auer, P., Cesa-Bianchi, N., and Fischer, P. (2002). Finite-time analysis of the multiarmed bandit problem. Machine learning. [Auer et al., 2004] Auer, P., Cesa-Bianchi, N., Freund, Y., and Shapire, R. (2004). stochastic multi-armed bandit problem. SIAM journal on computing. The non- [Boucheron et al., 2013] Boucheron, S., Lugosi, G., and Massart, P. (2013). Concentration inequalities : a nonasymptotic theory of independance. Oxford University Press. [Bubeck and Cesa-Bianchi, 2012] Bubeck, S. and Cesa-Bianchi, N. (2012). Regret analysis of stochastic and nonstochastic multi-armed bandit problems. Machine learning. [Burnetas and Katehakis, 1996] Burnetas, A. N. and Katehakis, M. (1996). Optimal adaptative policies for sequential allocation problems. Advances in applied mathematics. [Cesa-Bianchi et al., 2013] Cesa-Bianchi, N., Gentile, C., and Mansour, Y. (2013). Regret minimization for reserve prices in second-price auctions. Proceedings of the ACM-SIAM Symposium on Discrete Algorithms. [Cesa-Bianchi and Lugosi, 2006] Cesa-Bianchi, N. and Lugosi, G. (2006). Prediction, learning and games. Cambridge university press. [Dembo and Zeitouni, 1993] Dembo, A. and Zeitouni, O. (1993). Large deviations techniques and applications. Springer. [Dvoretzky et al., 1956] Dvoretzky, A., Kiefer, J., and Wolfowitz, J. (1956). Asymptotic minimax character of the sample distribution function and of the classical multinomial estimator. The Annals of Mathematical Statistics, 27(3) :642–669. [Feller, 1968] Feller (1968). An introduction to probability theory. Wiley. [Garivier and Cappé, 2011] Garivier, A. and Cappé, O. (2011). The kl-ucb algorithm for bounded stochastic bandits and beyond. Proc. on Conference On Learning Theory. [Kauffman et al., 2014] Kauffman, Garivier, and Cappé (2014). On the complexity of pureexploration bandit models. preprint. [Kuleshov and Precup, 2014] Kuleshov, V. and Precup, D. (2014). Algorithms for multi-armed bandit problems. CoRR, abs/1402.6028. [Lai and Robbins, 1985] Lai, T. L. and Robbins, H. (1985). Asymptotically efficient adaptative allocation rules. Advances in applied mathematics. [Müller and Stoyan, 2002] Müller and Stoyan (2002). Comparison methods for stochastic models and risks. Wiley. [Proutière et al., 2014] Proutière, A., Combes, R., and Magureanu, S. (2014). Lipschitz bandits : regret lower bounds and optimal algorithms. COLT. [ 46 \ h Modèles de bandits. g A Le language Julia. Les simulations numériques dans ce rapport ont été faites grâce au langage Julia. Ce langage est développé depuis 2009 ; une version open-source a été publié en 2014. Julia est un langage de haut niveau conçu pour l’informatique scientifique : calcul parallèle, algèbre linéaire, FFT, génération de nombres aléatoires, etc. Les fonctionnalités graphiques de julia sont pour l’instant assez faibles ; j’ai utilisé le package Winston 18 . Je donne ici à titre d’exemple une portion de code pour la simulation d’une enchère à la Vickrey avec prix de réserve comme dans la dernière partie. L’intégralité du code utilisé dans ce rapport est disponible sur demande. # simulation d’une enchère à la Vickrey avec prix de réserve. # 1. loi du chi-deux tronquée en 1. function bid () x=(randn())^2 if x>1 x=1/x else end return x end # 2. le modèle d’enchères avec une chi-deux tronquée function auction_model(n) function auction(p) b=fill(0.,n) for i=1:n b[i]=bid() end b=sort(b) print(b) if b[n]<p return 0 elseif b[n-1]<p return p 18. Il y a aussi le package PyPlot, basé sur MatPlotLib, et le package Gadfly. [ 47 \ Modèles de bandits. h else return b[n-1] end end return auction end #3. Avec une loi uniforme [0,1] function auction_model_2(n) function auction(p) b=fill(0.,n) for i=1:n b[i]=rand() end b=sort(b) #print(b) if b[n]<p return 0 elseif b[n-1]<p return p else return b[n-1] end end return auction end [ 48 \ g