CHAPITRE 22
Machines à sous
22.1 Corrigé possible du texte
22.1.1 Enoncé du problème et définition du modèle statistique associé
On étudie ici un modèle statistique avec observations incomplètes : on dispose d’observations
parcellaires sur un certain phénomène aléatoire, dont on connaît la forme de la loi, mais
pas les paramètres. Le phénomène est formé par des couples de variables aléatoires indépen-
dantes
(EA
t,EB
t)
, à valeurs dans
{0,1}2
, eux-mêmes indépendants et identiquement distribués
lorsque
t
varie. La loi commune est donc un produit de lois de Bernoulli, de paramètres notés
θA
et
θB
. Pour éviter les trivialités, on exclut les cas extrêmes
θA, θ B∈ {0,1}
, de sorte que
l’espace des paramètres est finalement
2= ]0,1[2
. Les observations sont incomplètes (ou
parcellaires) au sens où l’on n’observe à aucun tour
t
le vecteur
(EA
t,EB
t)
en entier, mais
seulement une de ses composantes, au libre choix du statisticien, celle d’index noté
Ct∈ {A,B}
ci-dessous (ou la première, ou la seconde composante). On note
ECt
t=Xt
cette composante
observée ; elle forme également le gain obtenu.
L’objectif ici n’est pas directement de bien estimer
θA
et
θB
, il ne s’agit donc pas vraiment
d’un problème statistique au sens classique ; mais de faire en sorte que les sommes
EC1
1+
. . . +ECn
n
soient grandes, en un sens précisé au paragraphe 22.1.2. On parle de problème
d’apprentissage, et on verra que le joueur aura à arbitrer entre exploration (recueillir des
informations sur les paramètres, et notamment, les estimer ecacement) et exploitation de ces
informations. Contrairement aux problèmes statistiques habituels, on n’est pas tant intéressé
par la bonne description du phénomène stochastique sous-jacent que par les conséquences de
cette bonne modélisation en termes d’objectifs concrets (ici, gagner de l’argent !).
Explicitons maintenant le lien avec la réalité et développons la nature de ces objectifs
concrets. Tout d’abord, il est bon de rappeler qu’un synonyme de machine à sous est bandit
manchot ; une machine à sous a en eet un seul bras. Dans la suite, on va considérer que le
joueur fait face à deux machines, ou, plus simplement, à une machine inhabituelle, à deux bras.
C’est pourquoi on parle de bandits à deux bras.
Chacun des deux bras, à chaque fois qu’on l’actionne (avec une pièce de 1
e
), tire un lot au
hasard parmi la liste des lots disponibles (par exemple, 1
e
, 2
e
, 10
e
, etc. jusqu’au gros lot).
Les compteurs sont remis à zéro à chaque tirage, la machine est sans mémoire : cela garantit
que les couples de paiements sont eectivement indépendants entre eux et identiquement
distribués. Le fait que les bras sont sans influence l’un sur l’autre assure quant à lui que ces
couples de paiements sont formés de variables aléatoires indépendantes. On note cependant
302 STATISTIQUE EN ACTION
qua priori, les paiements ne sont pas donnés par une loi de Bernoulli, mais par une loi plus
compliquée, discrète et admettant pour support les lots disponibles. La simplification proposée,
dans le texte du chapitre 10, par le modèle de Bernoulli admet deux justifications (et demie).
Premièrement, on pourrait imaginer que l’on ne s’intéresse qu’au fait d’avoir un gain, peu
importe son montant : on veut activer le bras qui obtient le plus souvent un gain, quel que soit
le montant de ce dernier, ou alors, le plus souvent un gros gain (supérieur à un certain seuil
psychologique, ce qui permet de considérer les petits gains comme peu intéressants pour le
joueur). La mise de 1
e
n’entre alors plus en ligne de compte. C’est une modélisation en termes
d’ivresse ou de frisson du gain, pas tellement en termes d’ecacité des gains ; on pourrait
notamment se retrouver à actionner presque exclusivement un bras qui gagne souvent mais
peu, alors que l’autre bras a une meilleure espérance de gain.
Plus raisonnablement, on pourrait penser que le seul lot disponible est 2
e
; à chaque coup,
on gagne ainsi, tous comptes faits et mise déduite,
2ECt
t1e
, que l’on veut comparer au
gain moyen du meilleur bras, 2 max {θA, θ B} − 1. La diérence,
2ECt
tmax θA, θ B,
est, au facteur 2 près, la quantité d’intérêt dans le texte et dans ce qui suit. On pourra noter
que les variables en jeu ici ne sont plus alors distribuées selon des lois de Bernoulli, mais selon
des lois de Rademacher (id est, elles ont pour support
{−1,1}
) ; il est par ailleurs évident que
les paramètres
θA
et
θB
doivent alors être plus petits que
1/2
, sans quoi, dans ce modèle, le
casino perdrait de l’argent !
Enfin – et c’est la demi-justification –, les calculs ci-dessous, et notamment ceux mettant
en jeu la loi des grands nombres pour les martingales, sont valables pour tout couple de lois
sur les bras admettant toutes deux un moment d’ordre deux. Or, c’est le cas pour toutes les
lois sur les gains des machines à sous, qui ont un support fini. Les lois de Bernoulli orent
une simplification encore susamment riche pour illustrer les méthodes de martingales sans
trop alourdir ou compliquer le raisonnement ; les mêmes stratégies atteignent l’objectif fixé au
paragraphe 22.1.4 sur des lois plus complexes. Seule la dérivation des intervalles de confiance
par méthode de réinjection (« plug-in ») au paragraphe 22.1.7 utilise la forme particulière de
la variance des lois de Bernoulli et leur estimation consistante à partir d’estimateurs de leur
moyenne (de leur paramètre).
Définition mathématique d’une stratégie
On a parlé ci-dessus de stratégies, sans vraiment les définir formellement ; mais en faisant
simplement appel à l’intuition que l’on peut s’en faire, à savoir que l’action choisie au tour
t
repose uniquement sur l’information disponible au début du tour
t
, qui est formée par la suite
des actions et gains passés. Voici maintenant la même définition, mais formulée de manière
rigoureuse mathématiquement.
Une stratégie (déterministe) est une suite de variables aléatoires
(Cn)n>1
à valeurs dans
{A,B}
telle que
C1
est déterministe, et pour
t>2
, la variable aléatoire
Ct
est mesurable par
http://www.dma.ens.fr/statenaction
CHAPITRE 22. MACHINES À SOUS 303
rapport à la tribu engendrée par
C1,EC1
1,...,Ct1,ECt1
t1;
en réalité, il est équivalent de requérir
Ct
soit mesurable par rapport à
EC1
1,...,ECt1
t1
, comme
on le montre par récurrence.
Remarque au passage. Ce qui suit traite essentiellement des stratégies déterministes ; l’appel
à l’aléa n’arrive que dans certains cas d’égalités entre estimées des paramètres des bras, où
l’on veut alors tirer
A
ou
B
au hasard. Pour modéliser cela, et même des règles aléatoires plus
générales, on suppose disposer d’une suite de variables aléatoires
U1,U2, . . .
indépendantes
des gains des bras
(EA
t,EB
t)
, indépendantes entre elles, et identiquement distribuées selon
une loi uniforme. On utilise le fait que toute probabilité sur
{A,B}
peut être simulée grâce
à une loi uniforme (voir le chapitre 9) : une stratégie aléatoire est alors une suite de variables
aléatoires
(Cn)n>1
telle que
C1
est
U1
–mesurable, et pour
t>2
, la variable aléatoire
Ct
est mesurable par rapport à
U1,C1,EC1
1,...,Ut1,Ct1,ECt1
t1,Ut.
Ici encore, on peut montrer que les choix passés ne sont pas nécessaires dans la définition
de la filtration.
22.1.2 Premiers exemples de stratégies et limitations de toute stratégie
Le but d’une stratégie est de recevoir un paiement moyen aussi proche que possible de celui du
meilleur bras. On souhaite donc que
Gn=1
n
n
X
t=1
Xt=1
n
n
X
t=1
ECt
t
ne soit pas trop éloigné du gain du meilleur bras,
max (1
n
n
X
t=1
EA
t,1
n
n
X
t=1
EB
t)max θA, θ B,
où l’approximation procède de la loi des grands nombres (et peut être quantifiée par les
techniques du chapitre 3).
Certaines stratégies naïves ne conviennent pas, notamment celles qui jouent toujours le
même bras,
Ct=A
pour tout
t
ou
Ct=B
pour tout
t
. En eet, selon les lois en question, l’une
ou l’autre de ces deux stratégies, pas toujours la même, obtient un mauvais paiement moyen,
égal à celui du plus mauvais bras. La stratégie qui alterne entre
A
et
B
et joue
C2t1=A
puis
C2t=B
pour tout
t>1
n’obtient asympotiquement qu’un paiement moyen égal à la
moyenne de θAet θB.
On montre ci-dessous, au Corollaire 22.3, que le gain moyen Gnde toute stratégie vérifie
min θA, θ B6lim inf Gn6lim sup Gn6max θA, θ Bp.s. (22.1)
http://www.dma.ens.fr/statenaction
304 STATISTIQUE EN ACTION
Remarque au passage. Notons qu’ici, nous sommes en situation de prise de décisions
séquentielles, contrairement aux situations de statistique plus classiques où toutes les ob-
servations sont disponibles avant l’estimation ; ce ne sont pas des assertions de convergence
en probabilité que l’on désire obtenir alors, mais de convergence presque sûre, qui seules
traitent du comportement individuel de toutes les trajectoires.
Au vu de ces inégalités asymptotiques, une stratégie pourra être considérée comme aussi
bonne que possible lorsque son paiement moyen
Gn
tend eectivement vers la borne supérieure
max {θA, θ B}
; on verra qu’il existe de telles stratégies. Cette définition de bonne stratégie est
un peu frustre au sens où il faudrait également s’intéresser à la vitesse de convergence du gain
moyen vers la borne supérieure
max {θA, θ B}
. On n’a envie de considérer que des stratégies
qui convergent susamment vite vers la limite. Le paragraphe 22.1.7 montre qu’une vitesse de
convergence au moins en 1/nest possible.
Pour que le reste du traitement du problème ne soit pas trivial, on suppose évidemment
que
θA6= θB
; pour le cas
θA=θB
, toutes les stratégies sont bonnes au sens défini ci-dessus
et l’on n’a que des égalités dans (22.1). Pire, la loi de
Gn
est en fait indépendante de la stratégie
employée, nGnsuit toujours une loi binomiale de paramètres net θA=θB.
22.1.3 Preuve de la loi des grands nombres pour les martingales
Le Corollaire 22.3 découlera des résultats de martingale suivants. On commence par un bref
retour sur les liens entre martingales et accroissements de martingale, et on démontre la loi des
grands nombres pour les martingales.
Liens entre martingales et accroissements de martingale
On introduit un raccourci de notation ecace : étant donnée une filtration
(Fn)n>0
, on
note
Et
l’espérance conditionnelle par rapport à
Ft1
, pour
t>1
. (Notez bien le décalage
d’indice.) On définit ci-dessous la notion d’accroissements de martingale à partir de la notion
de martingale et on explique les liens entre deux tels processus.
On part d’une martingale
(Mn)n>1
adaptée à une filtration
(Fn)n>1
, que, sans perte de
généralité, on étend à une martingale
(Mn)n>0
adaptée à la filtration
(Fn)n>0
, où
M0=
EM1
est l’espérance commune des éléments de la martingale et
F0
est la tribu triviale
(réduite à l’ensemble vide et à l’espace probabilisé tout entier). On définit alors la suite
(Yn)n>0
de ses accroissements par
Y0=M0(=y0
, où
y0
est une constante), et
Yt=MtMt1
pour
t>1
. La suite
(Yn)n>0
est également
(Fn)n>0
–adaptée, et
EtYt=EtMtMt1=0
pour tout t>1, car (Mn)n>0est une martingale.
Réciproquement, une suite
(Yn)n>1
qui est
(Fn)n>1
–adaptée et telle que
EtYt=0
pour
tout
t>1
est appelée une suite d’accroissements de martingale. Le processus
(Mn)n>0
défini
par
M0=y0
(une constante librement choisie, éventuellement nulle) et
Mt=y0+Y1+. . .+Yt
pour t>1, est alors une martingale adaptée par rapport à (Fn)n>0.
http://www.dma.ens.fr/statenaction
CHAPITRE 22. MACHINES À SOUS 305
Enoncé de la loi des grands nombres pour les martingales
On part donc dans le texte d’une martingale
(Mn)n>1
ou
(Mn)n>0
, que l’on décompose
comme indiqué ci-dessus en la suite
(Yt)t>0
de ses accroissements. On définit alors le processus
(Vn)n>0
comme la somme des variances conditionnelles des accroissements ; mais ceux-ci
étant d’espérances conditionnelles nulles,
(Vn)n>0
est simplement la somme des espérances
conditionnelles des carrés des accroissements. Avec les notations ci-dessus, pour tout n>0,
Vn=y2
0+
n
X
t=1
EthY2
ti,
où la sommation est évidemment nulle dans la définition lorsque
n=0
, de sorte que
V0=y2
0
.
(Vn)n>0
est une suite croissante de variables aléatoires, elle admet donc p.s. une limite
V=lim Vn
. On remarque également, cela servira par la suite, qu’un élément
Vt
est mesurable
par rapport à
Ft1
(et pas seulement par rapport à
Ft
). La suite
(Vn)n>0
est donc
(Fn1)n>0
adaptée (où
F1=F0
est également la tribu triviale) ; ce qu’on appelle également le caractère
prévisible du processus
(Vn)n>0
. La terminologie usuelle est que
(Vn)
est le compensateur
prévisible du processus
M2
n
. En eet,
M2
n
est une sous-martingale positive (par inégalité de
Jensen), mais M2
nVnest une martingale : pour tout t>1,
EhM2
tVtFt1i=EY2
t+2Mt1Yt+M2
t1Vt1+EhY2
tFt1iFt1
=2Mt1EhYtFt1i+M2
t1Vt1=M2
t1Vt1,
où l’on a essentiellement utilisé que les processus étaient adaptés à la filtration et que (Yn)est
une suite d’accroissements de martingale. On peut maintenant énoncer l’extension de la loi
forte des grands nombres aux martingales.
Théorème 22.1 (Loi des grands nombres pour les martingales)
Avec les notations précédentes,
1. sur (Vn)est bornée, la martingale (Mn)converge p.s. dans R;
2. si Vn p.s., alors Mn=o(Vn)p.s.
Preuve du point 1. du Théorème 22.1
Preuve Pour tout c>0, on considère la variable aléatoire
νc=inf n>0:Vn+1>c
(avec la convention habituelle que
inf ∅=∞
).
νc
est un temps d’arrêt pour la filtration
(Fn)
;
en eet, pour tout entier k, au vu de la croissance de (Vn), on peut réécrire
{νc=k}={Vk+1>cet Vk6c},
http://www.dma.ens.fr/statenaction
1 / 30 100%