Sur l`algorithme du bandit `a deux bras dans un cadre ergodique

Sur l’algorithme du bandit `a deux bras dans un cadre

ergodique

Pierre Vandekerkhove (Universit´e de Marne-la-Vall´ee)

L’algorithme de Narendra, autrement appel´e algorithme du ”bandit `a deux bras”, est

une proc´edure d’apprentissage statistique permettant de d´etecter entre deux sources de

b´en´eﬁce laquelle est la plus proﬁtable. Plus pr´ecis´ement supposons qu’`a chaque instant n

nous ayons le choix d’exploiter une source de proﬁt Aou une source proﬁt B. Supposons

de plus que si la source A(resp. B) est choisie `a l’instant n+ 1 la chance que nous

avons d’accroˆıtre notre gain d’une unit´e par rapport `a ce que nous d´ej`a gagn´e jusqu’`a

l’instant n, est ind´ependante du pass´e et vaut pA(resp. pB). Nous supposerons par la

suite que la source Aest plus proﬁtable que la source B, soit pA> pB. Notons Xnla

probabilit´e d’exploiter A`a l’instant n. Si lors d’un tirage Bernoulli(Xn) le source Aa

´et´e choisie et qu’elle gagne, la probabilit´e de choisir Aau coup suivant est renforc´ee, i.e.

Xn+1 =Xn+γn(1−Xn), o`u γn=c/n avec c > 0), si au contraire Ba ´et´e choisie et qu’elle

gagne, la probabilit´e de choisir Aau coup suivant est aﬀaiblie, i.e. Xn+1 = (1 −γn)Xn, et

Xn+1 =Xnsinon. Tarr`es (2001), Lamberton, Pag`es et Tarr`es (2004) ont montr´e que pour

c∈]0,1[ l’algorithme d´etectait presque toujours le source Acomme ´etant la meilleure, soit

Xn→1p.s quand n→ ∞. Dans cet expos´e nous allons montrer que si les moyennes

empiriques des r´ealisations des sources Aet Bconvergent p.s. vers θAet θB(avec un

taux de convergence de l’ordre de log(n)ξ, ξ < −1), avec θA> θB(condition signiﬁant

que la source Aest meilleure que la source Bsur le long terme), alors l’algorithme d´ecrit

pr´ec`edemment d´etectera Acomme ´etant la meilleure source du moment que c∈]0,1/2[.

1 / 1 100%