Sur l’algorithme du bandit `a deux bras dans un cadre
ergodique
Pierre Vandekerkhove (Universit´e de Marne-la-Vall´ee)
L’algorithme de Narendra, autrement appel´e algorithme du ”bandit `a deux bras”, est
une proc´edure d’apprentissage statistique permettant de d´etecter entre deux sources de
b´en´efice laquelle est la plus profitable. Plus pr´ecis´ement supposons qu’`a chaque instant n
nous ayons le choix d’exploiter une source de profit Aou une source profit B. Supposons
de plus que si la source A(resp. B) est choisie `a l’instant n+ 1 la chance que nous
avons d’accroˆıtre notre gain d’une unit´e par rapport `a ce que nous d´ej`a gagn´e jusqu’`a
l’instant n, est ind´ependante du pass´e et vaut pA(resp. pB). Nous supposerons par la
suite que la source Aest plus profitable que la source B, soit pA> pB. Notons Xnla
probabilit´e d’exploiter A`a l’instant n. Si lors d’un tirage Bernoulli(Xn) le source Aa
´et´e choisie et qu’elle gagne, la probabilit´e de choisir Aau coup suivant est renforc´ee, i.e.
Xn+1 =Xn+γn(1Xn), o`u γn=c/n avec c > 0), si au contraire Ba ´et´e choisie et qu’elle
gagne, la probabilit´e de choisir Aau coup suivant est affaiblie, i.e. Xn+1 = (1 γn)Xn, et
Xn+1 =Xnsinon. Tarr`es (2001), Lamberton, Pag`es et Tarr`es (2004) ont montr´e que pour
c]0,1[ l’algorithme d´etectait presque toujours le source Acomme ´etant la meilleure, soit
Xn1p.s quand n→ ∞. Dans cet expos´e nous allons montrer que si les moyennes
empiriques des r´ealisations des sources Aet Bconvergent p.s. vers θAet θB(avec un
taux de convergence de l’ordre de log(n)ξ, ξ < 1), avec θA> θB(condition signifiant
que la source Aest meilleure que la source Bsur le long terme), alors l’algorithme d´ecrit
pr´ec`edemment d´etectera Acomme ´etant la meilleure source du moment que c]0,1/2[.
1
1 / 1 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !