Machines à sous

CHAPITRE 22

Machines à sous

22.1 Corrigé possible du texte

22.1.1 Enoncé du problème et déﬁnition du modèle statistique associé

On étudie ici un modèle statistique avec observations incomplètes : on dispose d’observations

parcellaires sur un certain phénomène aléatoire, dont on connaît la forme de la loi, mais

pas les paramètres. Le phénomène est formé par des couples de variables aléatoires indépen-

dantes

(EA

t,EB

t)

, à valeurs dans

{0,1}2

, eux-mêmes indépendants et identiquement distribués

lorsque

t

varie. La loi commune est donc un produit de lois de Bernoulli, de paramètres notés

θA

et

θB

. Pour éviter les trivialités, on exclut les cas extrêmes

θA, θ B∈ {0,1}

, de sorte que

l’espace des paramètres est ﬁnalement

2= ]0,1[2

. Les observations sont incomplètes (ou

parcellaires) au sens où l’on n’observe à aucun tour

t

le vecteur

(EA

t,EB

t)

en entier, mais

seulement une de ses composantes, au libre choix du statisticien, celle d’index noté

Ct∈ {A,B}

ci-dessous (ou la première, ou la seconde composante). On note

ECt

t=Xt

cette composante

observée ; elle forme également le gain obtenu.

L’objectif ici n’est pas directement de bien estimer

θA

et

θB

, il ne s’agit donc pas vraiment

d’un problème statistique au sens classique ; mais de faire en sorte que les sommes

EC1

1+

. . . +ECn

n

soient grandes, en un sens précisé au paragraphe 22.1.2. On parle de problème

d’apprentissage, et on verra que le joueur aura à arbitrer entre exploration (recueillir des

informations sur les paramètres, et notamment, les estimer eﬃcacement) et exploitation de ces

informations. Contrairement aux problèmes statistiques habituels, on n’est pas tant intéressé

par la bonne description du phénomène stochastique sous-jacent que par les conséquences de

cette bonne modélisation en termes d’objectifs concrets (ici, gagner de l’argent !).

Explicitons maintenant le lien avec la réalité et développons la nature de ces objectifs

concrets. Tout d’abord, il est bon de rappeler qu’un synonyme de machine à sous est bandit

manchot ; une machine à sous a en eﬀet un seul bras. Dans la suite, on va considérer que le

joueur fait face à deux machines, ou, plus simplement, à une machine inhabituelle, à deux bras.

C’est pourquoi on parle de bandits à deux bras.

Chacun des deux bras, à chaque fois qu’on l’actionne (avec une pièce de 1

e

), tire un lot au

hasard parmi la liste des lots disponibles (par exemple, 1

e

, 2

e

, 10

e

, etc. jusqu’au gros lot).

Les compteurs sont remis à zéro à chaque tirage, la machine est sans mémoire : cela garantit

que les couples de paiements sont eﬀectivement indépendants entre eux et identiquement

distribués. Le fait que les bras sont sans inﬂuence l’un sur l’autre assure quant à lui que ces

couples de paiements sont formés de variables aléatoires indépendantes. On note cependant

302 STATISTIQUE EN ACTION

qu’a priori, les paiements ne sont pas donnés par une loi de Bernoulli, mais par une loi plus

compliquée, discrète et admettant pour support les lots disponibles. La simpliﬁcation proposée,

dans le texte du chapitre 10, par le modèle de Bernoulli admet deux justiﬁcations (et demie).

Premièrement, on pourrait imaginer que l’on ne s’intéresse qu’au fait d’avoir un gain, peu

importe son montant : on veut activer le bras qui obtient le plus souvent un gain, quel que soit

le montant de ce dernier, ou alors, le plus souvent un gros gain (supérieur à un certain seuil

psychologique, ce qui permet de considérer les petits gains comme peu intéressants pour le

joueur). La mise de 1

e

n’entre alors plus en ligne de compte. C’est une modélisation en termes

d’ivresse ou de frisson du gain, pas tellement en termes d’eﬃcacité des gains ; on pourrait

notamment se retrouver à actionner presque exclusivement un bras qui gagne souvent mais

peu, alors que l’autre bras a une meilleure espérance de gain.

Plus raisonnablement, on pourrait penser que le seul lot disponible est 2

e

; à chaque coup,

on gagne ainsi, tous comptes faits et mise déduite,

2ECt

t−1e

, que l’on veut comparer au

gain moyen du meilleur bras, 2 max {θA, θ B} − 1. La diﬀérence,

2ECt

t−max θA, θ B,

est, au facteur 2 près, la quantité d’intérêt dans le texte et dans ce qui suit. On pourra noter

que les variables en jeu ici ne sont plus alors distribuées selon des lois de Bernoulli, mais selon

des lois de Rademacher (id est, elles ont pour support

{−1,1}

) ; il est par ailleurs évident que

les paramètres

θA

et

θB

doivent alors être plus petits que

1/2

, sans quoi, dans ce modèle, le

casino perdrait de l’argent !

Enﬁn – et c’est la demi-justiﬁcation –, les calculs ci-dessous, et notamment ceux mettant

en jeu la loi des grands nombres pour les martingales, sont valables pour tout couple de lois

sur les bras admettant toutes deux un moment d’ordre deux. Or, c’est le cas pour toutes les

lois sur les gains des machines à sous, qui ont un support ﬁni. Les lois de Bernoulli oﬀrent

une simpliﬁcation encore suﬃsamment riche pour illustrer les méthodes de martingales sans

trop alourdir ou compliquer le raisonnement ; les mêmes stratégies atteignent l’objectif ﬁxé au

paragraphe 22.1.4 sur des lois plus complexes. Seule la dérivation des intervalles de conﬁance

par méthode de réinjection (« plug-in ») au paragraphe 22.1.7 utilise la forme particulière de

la variance des lois de Bernoulli et leur estimation consistante à partir d’estimateurs de leur

moyenne (de leur paramètre).

Déﬁnition mathématique d’une stratégie

On a parlé ci-dessus de stratégies, sans vraiment les déﬁnir formellement ; mais en faisant

simplement appel à l’intuition que l’on peut s’en faire, à savoir que l’action choisie au tour

t

repose uniquement sur l’information disponible au début du tour

t

, qui est formée par la suite

des actions et gains passés. Voici maintenant la même déﬁnition, mais formulée de manière

rigoureuse mathématiquement.

Une stratégie (déterministe) est une suite de variables aléatoires

(Cn)n>1

à valeurs dans

{A,B}

telle que

C1

est déterministe, et pour

t>2

, la variable aléatoire

Ct

est mesurable par

http://www.dma.ens.fr/statenaction

CHAPITRE 22. MACHINES À SOUS 303

rapport à la tribu engendrée par

C1,EC1

1,...,Ct−1,ECt−1

t−1;

en réalité, il est équivalent de requérir

Ct

soit mesurable par rapport à

EC1

1,...,ECt−1

t−1

, comme

on le montre par récurrence.

Remarque au passage. Ce qui suit traite essentiellement des stratégies déterministes ; l’appel

à l’aléa n’arrive que dans certains cas d’égalités entre estimées des paramètres des bras, où

l’on veut alors tirer

A

ou

B

au hasard. Pour modéliser cela, et même des règles aléatoires plus

générales, on suppose disposer d’une suite de variables aléatoires

U1,U2, . . .

indépendantes

des gains des bras

(EA

t,EB

t)

, indépendantes entre elles, et identiquement distribuées selon

une loi uniforme. On utilise le fait que toute probabilité sur

{A,B}

peut être simulée grâce

à une loi uniforme (voir le chapitre 9) : une stratégie aléatoire est alors une suite de variables

aléatoires

(Cn)n>1

telle que

C1

est

U1

–mesurable, et pour

t>2

, la variable aléatoire

Ct

est mesurable par rapport à

U1,C1,EC1

1,...,Ut−1,Ct−1,ECt−1

t−1,Ut.

Ici encore, on peut montrer que les choix passés ne sont pas nécessaires dans la déﬁnition

de la ﬁltration.

22.1.2 Premiers exemples de stratégies et limitations de toute stratégie

Le but d’une stratégie est de recevoir un paiement moyen aussi proche que possible de celui du

meilleur bras. On souhaite donc que

Gn=1

n

X

t=1

Xt=1

n

X

t=1

ECt

t

ne soit pas trop éloigné du gain du meilleur bras,

max (1

n

X

t=1

EA

t,1

n

X

t=1

EB

t)≈max θA, θ B,

où l’approximation procède de la loi des grands nombres (et peut être quantiﬁée par les

techniques du chapitre 3).

Certaines stratégies naïves ne conviennent pas, notamment celles qui jouent toujours le

même bras,

Ct=A

pour tout

t

ou

Ct=B

pour tout

t

. En eﬀet, selon les lois en question, l’une

ou l’autre de ces deux stratégies, pas toujours la même, obtient un mauvais paiement moyen,

égal à celui du plus mauvais bras. La stratégie qui alterne entre

A

et

B

et joue

C2t−1=A

puis

C2t=B

pour tout

t>1

n’obtient asympotiquement qu’un paiement moyen égal à la

moyenne de θAet θB.

On montre ci-dessous, au Corollaire 22.3, que le gain moyen Gnde toute stratégie vériﬁe

min θA, θ B6lim inf Gn6lim sup Gn6max θA, θ Bp.s. (22.1)

http://www.dma.ens.fr/statenaction

304 STATISTIQUE EN ACTION

Remarque au passage. Notons qu’ici, nous sommes en situation de prise de décisions

séquentielles, contrairement aux situations de statistique plus classiques où toutes les ob-

servations sont disponibles avant l’estimation ; ce ne sont pas des assertions de convergence

en probabilité que l’on désire obtenir alors, mais de convergence presque sûre, qui seules

traitent du comportement individuel de toutes les trajectoires.

Au vu de ces inégalités asymptotiques, une stratégie pourra être considérée comme aussi

bonne que possible lorsque son paiement moyen

Gn

tend eﬀectivement vers la borne supérieure

max {θA, θ B}

; on verra qu’il existe de telles stratégies. Cette déﬁnition de bonne stratégie est

un peu frustre au sens où il faudrait également s’intéresser à la vitesse de convergence du gain

moyen vers la borne supérieure

max {θA, θ B}

. On n’a envie de considérer que des stratégies

qui convergent suﬃsamment vite vers la limite. Le paragraphe 22.1.7 montre qu’une vitesse de

convergence au moins en 1/√nest possible.

Pour que le reste du traitement du problème ne soit pas trivial, on suppose évidemment

que

θA6= θB

; pour le cas

θA=θB

, toutes les stratégies sont bonnes au sens déﬁni ci-dessus

et l’on n’a que des égalités dans (22.1). Pire, la loi de

Gn

est en fait indépendante de la stratégie

employée, nGnsuit toujours une loi binomiale de paramètres net θA=θB.

22.1.3 Preuve de la loi des grands nombres pour les martingales

Le Corollaire 22.3 découlera des résultats de martingale suivants. On commence par un bref

retour sur les liens entre martingales et accroissements de martingale, et on démontre la loi des

grands nombres pour les martingales.

Liens entre martingales et accroissements de martingale

On introduit un raccourci de notation eﬃcace : étant donnée une ﬁltration

(Fn)n>0

, on

note

Et

l’espérance conditionnelle par rapport à

Ft−1

, pour

t>1

. (Notez bien le décalage

d’indice.) On déﬁnit ci-dessous la notion d’accroissements de martingale à partir de la notion

de martingale et on explique les liens entre deux tels processus.

On part d’une martingale

(Mn)n>1

adaptée à une ﬁltration

(Fn)n>1

, que, sans perte de

généralité, on étend à une martingale

(Mn)n>0

adaptée à la ﬁltration

(Fn)n>0

, où

M0=

EM1

est l’espérance commune des éléments de la martingale et

F0

est la tribu triviale

(réduite à l’ensemble vide et à l’espace probabilisé tout entier). On déﬁnit alors la suite

(Yn)n>0

de ses accroissements par

Y0=M0(=y0

, où

y0

est une constante), et

Yt=Mt−Mt−1

pour

t>1

. La suite

(Yn)n>0

est également

(Fn)n>0

–adaptée, et

EtYt=EtMt−Mt−1=0

pour tout t>1, car (Mn)n>0est une martingale.

Réciproquement, une suite

(Yn)n>1

qui est

(Fn)n>1

–adaptée et telle que

EtYt=0

pour

tout

t>1

est appelée une suite d’accroissements de martingale. Le processus

(Mn)n>0

déﬁni

par

M0=y0

(une constante librement choisie, éventuellement nulle) et

Mt=y0+Y1+. . .+Yt

pour t>1, est alors une martingale adaptée par rapport à (Fn)n>0.

http://www.dma.ens.fr/statenaction

CHAPITRE 22. MACHINES À SOUS 305

Enoncé de la loi des grands nombres pour les martingales

On part donc dans le texte d’une martingale

(Mn)n>1

ou

(Mn)n>0

, que l’on décompose

comme indiqué ci-dessus en la suite

(Yt)t>0

de ses accroissements. On déﬁnit alors le processus

(Vn)n>0

comme la somme des variances conditionnelles des accroissements ; mais ceux-ci

étant d’espérances conditionnelles nulles,

(Vn)n>0

est simplement la somme des espérances

conditionnelles des carrés des accroissements. Avec les notations ci-dessus, pour tout n>0,

Vn=y2

0+

n

X

t=1

EthY2

ti,

où la sommation est évidemment nulle dans la déﬁnition lorsque

n=0

, de sorte que

V0=y2

0

.

(Vn)n>0

est une suite croissante de variables aléatoires, elle admet donc p.s. une limite

V∞=lim Vn

. On remarque également, cela servira par la suite, qu’un élément

Vt

est mesurable

par rapport à

Ft−1

(et pas seulement par rapport à

Ft

). La suite

(Vn)n>0

est donc

(Fn−1)n>0

–

adaptée (où

F−1=F0

est également la tribu triviale) ; ce qu’on appelle également le caractère

prévisible du processus

(Vn)n>0

. La terminologie usuelle est que

(Vn)

est le compensateur

prévisible du processus

M2

n

. En eﬀet,

M2

n

est une sous-martingale positive (par inégalité de

Jensen), mais M2

n−Vnest une martingale : pour tout t>1,

EhM2

t−VtFt−1i=EY2

t+2Mt−1Yt+M2

t−1−Vt−1+EhY2

tFt−1iFt−1

=2Mt−1EhYtFt−1i+M2

t−1−Vt−1=M2

t−1−Vt−1,

où l’on a essentiellement utilisé que les processus étaient adaptés à la ﬁltration et que (Yn)est

une suite d’accroissements de martingale. On peut maintenant énoncer l’extension de la loi

forte des grands nombres aux martingales.

Théorème 22.1 (Loi des grands nombres pour les martingales)

Avec les notations précédentes,

1. sur (Vn)est bornée, la martingale (Mn)converge p.s. dans R;

2. si Vn→ ∞ p.s., alors Mn=o(Vn)p.s.

Preuve du point 1. du Théorème 22.1

Preuve Pour tout c>0, on considère la variable aléatoire

νc=inf n>0:Vn+1>c

(avec la convention habituelle que

inf ∅=∞

).

νc

est un temps d’arrêt pour la ﬁltration

(Fn)

;

en eﬀet, pour tout entier k, au vu de la croissance de (Vn), on peut réécrire

{νc=k}={Vk+1>cet Vk6c},

http://www.dma.ens.fr/statenaction

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

Machines à sous

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Machines à sous

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib