Sur l’algorithme du bandit à deux bras dans un cadre ergodique Pierre Vandekerkhove (Université de Marne-la-Vallée) L’algorithme de Narendra, autrement appelé algorithme du ”bandit à deux bras”, est une procédure d’apprentissage statistique permettant de détecter entre deux sources de bénéfice laquelle est la plus profitable. Plus précisément supposons qu’à chaque instant n nous ayons le choix d’exploiter une source de profit A ou une source profit B. Supposons de plus que si la source A (resp. B) est choisie à l’instant n + 1 la chance que nous avons d’accroı̂tre notre gain d’une unité par rapport à ce que nous déjà gagné jusqu’à l’instant n, est indépendante du passé et vaut pA (resp. pB ). Nous supposerons par la suite que la source A est plus profitable que la source B, soit pA > pB . Notons Xn la probabilité d’exploiter A à l’instant n. Si lors d’un tirage Bernoulli(Xn ) le source A a été choisie et qu’elle gagne, la probabilité de choisir A au coup suivant est renforcée, i.e. Xn+1 = Xn + γn (1 − Xn ), où γn = c/n avec c > 0), si au contraire B a été choisie et qu’elle gagne, la probabilité de choisir A au coup suivant est affaiblie, i.e. Xn+1 = (1 − γn )Xn , et Xn+1 = Xn sinon. Tarrès (2001), Lamberton, Pagès et Tarrès (2004) ont montré que pour c ∈]0, 1[ l’algorithme détectait presque toujours le source A comme étant la meilleure, soit Xn → 1 p.s quand n → ∞. Dans cet exposé nous allons montrer que si les moyennes empiriques des réalisations des sources A et B convergent p.s. vers θA et θB (avec un taux de convergence de l’ordre de log(n)ξ , ξ < −1), avec θA > θB (condition signifiant que la source A est meilleure que la source B sur le long terme), alors l’algorithme décrit précèdemment détectera A comme étant la meilleure source du moment que c ∈]0, 1/2[. 1