Sur l`algorithme du bandit `a deux bras dans un cadre ergodique

publicité
Sur l’algorithme du bandit à deux bras dans un cadre
ergodique
Pierre Vandekerkhove (Université de Marne-la-Vallée)
L’algorithme de Narendra, autrement appelé algorithme du ”bandit à deux bras”, est
une procédure d’apprentissage statistique permettant de détecter entre deux sources de
bénéfice laquelle est la plus profitable. Plus précisément supposons qu’à chaque instant n
nous ayons le choix d’exploiter une source de profit A ou une source profit B. Supposons
de plus que si la source A (resp. B) est choisie à l’instant n + 1 la chance que nous
avons d’accroı̂tre notre gain d’une unité par rapport à ce que nous déjà gagné jusqu’à
l’instant n, est indépendante du passé et vaut pA (resp. pB ). Nous supposerons par la
suite que la source A est plus profitable que la source B, soit pA > pB . Notons Xn la
probabilité d’exploiter A à l’instant n. Si lors d’un tirage Bernoulli(Xn ) le source A a
été choisie et qu’elle gagne, la probabilité de choisir A au coup suivant est renforcée, i.e.
Xn+1 = Xn + γn (1 − Xn ), où γn = c/n avec c > 0), si au contraire B a été choisie et qu’elle
gagne, la probabilité de choisir A au coup suivant est affaiblie, i.e. Xn+1 = (1 − γn )Xn , et
Xn+1 = Xn sinon. Tarrès (2001), Lamberton, Pagès et Tarrès (2004) ont montré que pour
c ∈]0, 1[ l’algorithme détectait presque toujours le source A comme étant la meilleure, soit
Xn → 1 p.s quand n → ∞. Dans cet exposé nous allons montrer que si les moyennes
empiriques des réalisations des sources A et B convergent p.s. vers θA et θB (avec un
taux de convergence de l’ordre de log(n)ξ , ξ < −1), avec θA > θB (condition signifiant
que la source A est meilleure que la source B sur le long terme), alors l’algorithme décrit
précèdemment détectera A comme étant la meilleure source du moment que c ∈]0, 1/2[.
1
Téléchargement