DEUX ANS DE PARIS AVEC UNE VARIABLE ALEATOIRE ETONNANTE

publicité
DEUX ANS DE PARIS AVEC UNE VARIABLE ALEATOIRE ETONNANTE
J F Kentzel – Enseignant au lycée Pardailhan à Auch (32) - [email protected]
PARTIE A
Soit n un entier valant au moins 1. On réalise n expériences de Bernoulli identiques et indépendantes
dont les issues sont désignées par succès, de probabilité p , 0  p  1 , et échec.
On désigne par Ln( p ) la (célèbre( ?)) variable aléatoire : « longueur de « la » plus longue suite de
succès consécutifs obtenue à l’issue de la n ième expérience ».
PREAMBULE : QUELQUES NOTATIONS ET UNE FORMULE INDISPENSABLES
Pour tout n fixé, la loi de Ln( p ) peut être obtenue, mais pas explicitement !, grâce à la formule de
récurrence qui va suivre.
La question posée est : calculer P L(np )  k pour tout entier k entre 0 et n .






Le calcul simple P L(np)  0 est à part : P L(np)  0  (1  p) n . Soit k un entier fixé, k  1 .
Pour tout entier n valant au moins 1, soit s n(k )  sn( p ) ( k ) la probabilité de l’événement { L(np)  k }.
La suite (sn( k ) ) n est définie par ses (k  1) valeurs initiales faciles à vérifier :
si 1  n  k  1 , sn( k )  0 (cas évidemment exclu si k  1 ) ; s k( k )  p k ; sk( k)1  2 (1  p) p k  p k 1 ;


et par la relation de récurrence valable si n  k  2 : sn(k )  sn(k1)  (1  p) p k 1  sn(k) k 1 , plus lisible sous


la forme : sn  sn1  (1  p) p k 1  sn  k 1 .
C’est cette relation qui est essentielle. Voici le principe de sa preuve : soit on avait déjà une suite de
k succès consécutifs à l’issue de la (n  1) ème expérience, soit, en notant 1 pour le succès et 0 pour
l’échec, une telle suite apparaît pour la première fois à la n ème expérience sous la forme
(…. 011111
11).
...


k fois
Autrement dit, en désignant par X 1 , X 2 ,… X n les résultats (valant 0 ou 1) des expériences
successives, l’événement Ln  k est la réunion disjointe de Ln1  k et de l’intersection
d’événements indépendants : Lnk 1  k X nk  0 X nk 1  ...  X n1  X n  1.
A l’aide d’un tableur on a facilement représenté ci-contre
chacune des suites (sn( k ) )1  n  50 pour k entre 2 et 10 dans le
cas p  1 / 2 .
Ces suites (sn( k ) )1  n sont (strictement) croissantes et
convergent vers 1.


Si k  1 , P L(np)  k  sn( k )  sn( k 1) car { L(np)  k  1 }  { L(np)  k }.

( p)
n
Par ailleurs P L

 0  (1  p) n  1  sn(1) .
Pour simplifier les calculs on utilisera dans ce qui suit la suite définie par qn( p ) ( k )  qn( k )  1  sn( k ) .
q n(k )  qn( p) ( k )  P (L(np )  k ) vérifie si n  k  2 : qn( k )  qn( k1)  p k (1  p) qn( k)k 1 .




Si k  1 , P L(np)  k  qn( k 1)  qn( k ) (et P L(np)  0  (1  p) n  qn(1) ).
(un
lapsus, expression « 1- » mal placée, a été modifié aux lignes 1 et 4 en partant de la fin )
1
1
p

a ) RÉSULTATS CONSÉCUTIFS IDENTIQUES DANS LE CAS OÙ
2
1
 
Soit Ln 2  '  Ln' la variable aléatoire : longueur de «la» plus longue suite de résultats consécutifs
identiques obtenue à l’issue du n -ème lancer d’une pièce équilibrée.
Pour tout entier k  1 fixé, en notant pn(k ) pour P ( Ln '  k ) , on prouve facilement que la suite
p (k ) = ( pn( k ) ) n  1 est définie par :
les valeurs initiales : si n  k  1 , pn( k )  0 ;
p k( k ) 
1
2 k 1

;

1
1  p n( k) k .
k
2
Pour prouver cette relation, le raisonnement de la page précédente doit être un peu modifié. On
avait :
A  { une suite de k succès consécutifs apparaît au n ième lancer } signifie :
(… « Rien »…. 011111
11) où le 0 est à la (n  k ) ème place et où « Rien » signifie Lnk 1  k.
...


et la relation de récurrence: si n  k  1 , p n( k )  p n( k1) 
k fois
On avait donc A  Lnk 1  k X nk  0 X nk 1  ...  X n1  X n  1,
est l’intersection de trois événements indépendants :
Ici, on s’intéresse à des résultats consécutifs identiques et « Rien »….0 peut donc ne pas être
« Rien ». Il faut donc « inclure le 0 dans ce « Rien » ». On a donc :
B  { une suite de k résultats consécutifs identiques apparaît au n ième lancer }
contient l’intersection de trois événements non indépendants :
[ Lnk  k X nk  0 ]  X nk 1  ...  X n1  X n  1 dont la probabilité est
P [ Lnk  k X nk  0 ] p k , qu’il faut bien sûr réunir, pour calculer P (B) , avec
[ Lnk  k X nk  1 ]  X nk 1  ...  X n1  X n  0 dont la probabilité est
P [ Lnk  k X nk  0 ] (1  p) k . C’est ennuyeux si p  1  p mais ici p  1  p donc
1
P [ Lnk  k X nk  0 ] p k + P [ Lnk  k X nk  1 ] (1  p) k = P Ln  k  k . k .
2
On va voir plus loin (étape 6) que pour tous n et k , P( L
1
 
2
n
 k )  P(Ln1 '  k  1) .
1
 
Pour une pièce bien équilibrée ( p  1 / 2 ), les lois de Ln ' et Ln2  sont définies par des suites
identiques à « un double décalage près ». Le présent paragraphe n’est donc pas hors-sujet. Il
n’est, à un double décalage près, que l’étude du cas particulier p  1 / 2 .
La représentation des suites ( pn( k ) )1  n est du type vu à la page précédente : (strictement) croissantes
et convergentes vers 1.
.
P ( Ln '  k )  P ( Ln '  k )  P ( Ln '  k  1) . On peut donc, par soustraction de colonnes si on a un
tableur, obtenir une représentation des suites ( P Ln '  k) n .
C’est fait ci-dessous pour 1  n  200 avec encore k entre 2 et 10.
2
P ( L_n = k )
0 ,6
k=2
0 ,5
k=3
0 ,4
k=4
k=5
0 ,3
k=6
0 ,2
k=7
0 ,1
k=8
0
k=9
1
16
31
46
61
76
91
106 121 1 36 151 166 181 196
k= 10
N o m b re d e la n c e rs = n < 2 0 0
Un résultat annoncé en 1978 est P ( L200 '  6)  0,965. On peut en déduire des activités à mener
en classe…(voir à la fin)
Ln ' prend toutes les valeurs k entre 1 et n et on s’intéresse à u n : Maximum sur k des PLn '  k ,
c’est à dire : la probabilité de la plus longue suite la plus probable en effectuant n lancers. Cette suite
(u n ) est représentée ci-dessous sur deux intervalles différents.
On observe avec un tableur que l’ « arche » correspondant à « la plus longue suite la plus probable est
k
k 1
de longueur k » est obtenue, approximativement, pour n dans l’intervalle 2 ; 2
, autrement dit :


si n  2 ; 2
k
k 1

, c'est-à-dire k Ln 2  Ln (n)  k  1 Ln 2 , la valeur la plus probable de L ' est
n
 Ln n  
 .
Ent 
 Ln 2  
Sur le dessin ci-dessus, on voit intervenir les valeurs 15, 31, 61…On va voir que « la » formule
donnant les abscisses des « pieds des arches » n’est pas x  2 k mais est plutôt x  Ent (C.2 k )
avec C M
Les
feuilles
axim
0,96
um.sur
k des
P( { L_n=de
k} )tableur sont sur le site [1].
M a x im u m s u r k d e s P ( { L_ n = k } )
0,29
0,2 7
0,28
0,2 6
0,27
0,26
0,2 5
0,25
0,2 4
0,24
30
0,23  n  430 : les quatre « arches » visibles
correspondent
à k valant 5, 6 , 7 et 8.
0,22
0,2 3
30 Nno m3500
b re d: eles
la quatre
n ce r s «= arches
n : 3 0 »<les
n <plus
35 0à 1
droite correspondent à k valant 8, 9, 10 et 11.
Nombrede lancers= n: 29 <n <431
Question : que se passe -t-il si n grandit ? Est-ce que le Maximum tend vers 0 ?
Deux réponses « oui » avec d’autres fonctions :
3
C’est une représentation graphique de f définie par f
Si
X n suit la loi binomiale B n ; p ,
cos x  20,4
x  
Ln x  2

0,3
Ln x  20,1
.
lim  Max

P  X n  k   0 .
n    0  k  n

Il existe une formule exacte et explicite de la loi de Ln , provenant des formules de récurrence
définissant les suites (récurrentes et presque linéaires) ( pn( k ) ) n , par exemple pour tout n  1
n
n
 5  5  1 5    5  5  1 5 
 .
 
 .

p  1  1 / 2 et p  1  
  4  
  4  , mais elle n’est que
5
5


 


théorique et semble a priori inutilisable à cause de la difficulté de la résolution de l’équation
1
caractéristique x k  x k 1  k  0 dès que k dépasse 5 ( x  1 / 2 est toujours une solution).
2
On a aussi d’autres formules exactes (voir à la fin de ce paragraphe) mais elles sont peu pratiques et on
se contente de calculs approchés…
( 2)
n
n 1
( 3)
n
 
(k )
Etape 1 COMPTAGES APPROXIMATIFS DE TERMES DE pn
Notation : k étant un entier fixé valant au moins 2, pour tout a vérifiant
(k )
0  a  1 , on désigne par g k (a) le plus petit entier n vérifiant pn  a .
Si pn( k )  a , g k (a) est le nombre de termes de ( p n ) situés dans 0 ; a .
(k )
Si pn( k )  a , g k (a) est ce nombre de termes augmenté de 1.
La méthode utilisée est très rudimentaire (et du coup la preuve obtenue est longue) : couper
(k )
l’intervalle [0 ;1[ en A intervalles de même longueur et encadrer le nombre de termes de ( p n ) dans
chacun de ces intervalles.
On choisit évidemment l’entier A assez grand pour avoir une précision correcte, mais aussi assez petit
 r r 1
(k )
pour avoir au moins k termes de la suite ( p n ) dans l’intervalle  ;
pour tout entier r tel que
A A 

2k
r  A (c’est vrai si on prend A 
).
k
 r r 1
(k )
Ceci permet d’encadrer le nombre de termes de cette suite ( p n ) qui sont situés dans  ;
, on
A A 

k
k
2
r

1
r


2

1

g

g


1




obtient avec quelques calculs :
.
k
k
A

r

1 
A
A
A

r

1


4
Ensuite, en sommant cette inégalité pour tout r entre 0 et s  1 , on encadre le nombre de termes de la
 s 
(k )
suite ( p n ) qui sont situés dans 0 ;  et on obtient facilement :
 A
2k
k étant un entier fixé valant au moins 2, pour tous entiers A et s vérifiant 0  s  A 
, on a
k
 A 2 
s
 A 1 
k
l’encadrement : 2 k . ln
(1)
  s  1  g k    2 . ln
  s 1
 A s  2
 A
 A  s 1
Il est mauvais mais dans les cas qui nous intéressent il concerne des grands nombres et il va suffire !
(k )
Etape 2 : UNE FORMULE D’APPROXIMATION DE p n
En prenant la demi-somme des bornes de (1) et en la simplifiant un peu, on obtient une valeur
s
s k  A
2
.ln
 


approchée de g k   : g
. On a alors une relation « inversible ».
k

s
 A
A

A



 1 
A


k
 , alors
On peut en déduire une expression approchée de pn : pour n  2 k . ln
  2 . ln
1 s 
 A s


A

p n( k )
s
1
n
 , c’est à dire que
 exp ( k ) , soit :
(k )
A
1  pn
2
Ainsi, avec ck définie par ck : x  1  e

(k )
n
p
 1 e

n
2k
.
x
2k
, c k (n) est une « bonne approximation » de pn(k ) .
De même, avec d k : x  ck ( x)  ck 1 ( x) ,

n

n
e
est une (bonne) approximation de pn(k )  pn(k 1) = PLn '  k .
d k (n) = e
Ce sont ces fonctions ck et d k qui sont utilisées dans tous les dessins qui suivent.
2k 1
2k
Le mot « approximation » sera précisé !
Etape 3 : CONSEQUENCES DE CETTE FORMULE D’APPROXIMATION
Sur les deux dessins qui suivent, Ln ' est noté Ln .
On peut résoudre, pour tout k , l’équation, d’inconnue x , d k ( x)  d k  1 ( x) , c'est-à-dire avoir une
valeur approchée des abscisses des « pieds des arches ».
En posant
X e

x
2k 1
, on obtient l’équation X  X 2  X 2  X 4 puis X 2  X  1  0 d’où
 5  1  k 1


.2  Ln  2 .2 k 1  C.2 k  0,962 . 2 k
x  x k   Ln 

 5 1
 2 
en désignant par C le nombre 2. Ln (2 /( 5  1)) qui vaut environ 0,962.
5
On peut donner le principe de la preuve du résultat ci-dessous : prouver que si k est assez
grand, ce qu’on voit avec d k sur le dessin ci-dessous est (approximativement) exact avec


P Ln '  k , puis dire que tout n (assez grand) est dans un intervalle du type C . 2 k ; C . 2 k 1 .
Etape 4 UN MINORANT DE LA PROBABILITE DU MODE DE Ln'
J'ai proposé au journal Quadrature la preuve, uniquement avec l’aide de (1), du résultat suivant :
( a ) On désigne par C le nombre 2. Ln (2 /( 5 1)) qui vaut environ 0,962.
Pour tout n tel que n  2 22 ( 4.106 ) , en désignant par k l'entier Ent ( Ln (n / C ) / Ln 2) ,
20 1
on a l'inégalité : P Ln '  k  0.2356 k  k .
2
22
Il m'a alors été demandé si je ne pouvais pas dans cet énoncé remplacer la constante 0,2356 par le
nombre 5  2 car il est manifeste dans la preuve de ( a ) que cette constante 0,2356 est une
approximation de ce nombre 5  2 ou d’un nombre proche. En effet, c'est possible en raffinant un
peu la preuve de ( a ) et finalement c’est le résultat suivant que j’ai proposé :
6
( a’ ) Pour tout  strictement positif, il existe un entier M tel que pour tout entier n vérifiant
n  M et pour l’entier k défini comme au (a), on a : P Ln '  k  5  2   .
Remarques :
1 ) On peut prouver facilement que de plus
5  2 est le seul nombre vérifiant cette propriété.
2 ) L'énoncé ( a ) n'est pas explicitement contenu dans l'énoncé ( a ' ), il est plus constructif mais les preuves de ( a ) et ( a ’
) sont quasiment identiques. ( a ) est donné ici pour montrer qu’on n’utilise aucun théorème asymptotique du calcul des
probabilités mais seulement des calculs élémentaires.
Etape 5 UNE AMELIORATION DE LA PREUVE DE CE RESULTAT
Anne Bauval (Université de Toulouse III), ayant pris connaissance de ce qui précède, a eu
immédiatement le réflexe, de bon sens élémentaire ! mais je n’y avais pas pensé, de chercher à
majorer l’erreur p
(k )
n
 (1  e

n
2k
).
La vérité est que j’ai eu tant de peine à obtenir l’encadrement (1), qui permet de conclure, que
je n’ai pas imaginé une seconde que je pourrais chercher une solution plus simple !
Elle a obtenu le lemme : si k est fixé et vaut au moins 5, pour tout n  k , on a l’inégalité :
n
n
n
 k
1  3k 2k k  1  2k 
(k )
2
p n  (1  e )  E n , k où E n , k  k
.e 
.e
.

2
2  2

I n 
Elle a prouvé cette inégalité par récurrence sur n  k en prenant pour initialisation la proposition : I n 
est vraie pour tout entier n vérifiant k  n  2k  1 .
Elle n’a utilisé (première version) qu’une formule de Taylor à l’ordre 2.
Voir la façon dont Anne Bauval a trouvé cette majoration et une autre preuve, plus longue mais lisible
par un élève (théorique) de la classe de Terminale car n’utilisant que l’encadrement élémentaire,
valable si a  b : e a (b  a)  eb  e a  eb (b  a) , sur le site [1])
n
Il importe de noter qu’à cause du terme e
2k
du membre de droite, I n  ne donne pas une
(k )
approximation asymptotique, pour n grand, de p n comme on peut en rencontrer dans un livre
de probabilités.
I n  n’a évidemment d’intérêt que si n n’est pas très grand mais on l’utilise seulement pour n  2 k 1
(en fait on l’utilise pour C.2 k  n  C.2 k 1 , c'est-à-dire « sur la k eme arche »).
La preuve du résultat annoncé est transformée en un jeu d’enfant…
Etape 6 LIEN AVEC LES PLUS LONGUES SUITES DE SUCCES
Soit Ln la variable aléatoire : longueur de « la » plus longue suite de « pile » consécutifs (longest
success run ? Non : longest head run) obtenue à l’issue du n ième lancer d’une pièce équilibrée.
Pour tout entier k  1 fixé, on désigne par s n(k ) la probabilité de l’événement { Ln  k } pour tout
entier n valant au moins 1. On prouve alors, encore plus facilement qu’avec la suite pn(k ) = P ( Ln '  k ) ,
que la suite (sn( k ) ) n est définie par ses (k  1) valeurs initiales faciles à vérifier : si
1
3
1  n  k  1 , sn( k )  0 (cas évidemment exclu si k  1 ) ; s k( k )  k ; s k( k)1  k 1 ;
2
2
1
et par la relation de récurrence valable si n  k  2 : s n( k )  s n( k1)  k 1 1  s n( k) k 1  .
2
(k )
La relation de récurrence définissant la suite s n est exactement celle qui définit la suite pn( k 1) .
 


7
Seuls les premiers termes diffèrent :
1
3
Pour s n(k )
: 00000
00 ; k ; k 1
...

2 2
( k 1) fois
 



1
3
Pour pn( k 1) : 00000
00 ; k ; k 1
...

2 2
k fois

On a seulement un 0 de plus au début pour pn( k 1) ).
On a donc pour tous n et k : sn( k )  pn( k11) , d’où, pour tous n et k :
P(L n  k )  rn(k )  rn(k 1)  pn( k11)  pn( k1 2)  P(Ln1 '  k  1) .
Pour une pièce bien équilibrée ( p  1 / 2 ), les lois de Ln ' et Ln sont définies par des suites
identiques à « un double décalage près ».
Illustration :
Calculer P( L 11'  3) , c’est compter (on est dans un cas d’équiprobabilité car p  1 / 2 ) les occurrences
du type  ci-dessous.
Avec une telle occurrence   xi ; 1  i  11 , construisons    yi ; 2  i  11 définie par yi  s si
xi  xi 1 et yi  s sinon :
  (0 1 0 0 0 1 0 1 1 1 0)
  ( s s s s s s s s s s)
Il y a deux fois plus de  que de  car  et  ' obtenue en inversant les 0 et les 1 dans  donnent
Nombre de 
Nombre de 
le même  ; cependant P ( L 11'  3) 
et P ( L 10  2) 
.
11
10
2
2
b ) PLUS LONGUES SUITES DE SUCCES (
0  p 1)
On désigne par Ln( p ) la variable aléatoire : « longueur de « la » plus longue suite de succès
consécutifs obtenue à l’issue de la n ième expérience ».
On a vu en préambule que pour tous p et n fixés, en posant s n(k )  sn( p ) ( k )  P ( L(np )  k ) }( pour
k  1 ), la loi de Ln( p ) peut être obtenue avec les valeurs initiales de la suite (sn( k ) ) n et la formule de


récurrence valable si n  k  2 : sn(k )  sn(k1)  (1  p) p k 1  sn(k) k 1 .



 0 étant à part : P L
( p)
n
(le calcul simple P L
(
'
n
En étudiant L on a en fait étudié Ln
Dans le cas où p 
p
(k )
n
1
)
2
( p)
n

 0  (1  p) .)
n
1
 
2
n
puisque P ( L
 k )  P ( Ln1 '  k  1) .
1
, en vertu de l’identité P ( L n  k )  P ( Ln1 '  k  1) , l’approximation
2
 PLn '  k   1  e

n
2k
, c'est-à-dire PLn '  k   e

n
2k
, se traduit par PLn  k   e

n1
2k 1
.
n
  1 

 k 1
2
2


On prendra en fait l’approximation P Ln  k  P Ln  k   e
.






Elle se généralise à p quelconque : P Ln  k  e
Anne Bauval :
p
 n p k 1 p 
comme le montre le nouveau lemme de
Lemme (version simplifiée) Si p est un réel fixé dans l’intervalle  0 ; 1  et si k est fixé et vaut au

 p  k 
moins 2, l’inégalité qui suit, désignée par I n

2
 = I  , est vraie pour tout n vérifiant n  k .
n
8

 p

P Ln  k  e
3 k p k 1  p  n p k 1 p 

e
2
 n p k 1 p 
I n 
Preuve : voir le site [1] : deux pages très détaillées. Le lemme donné par Anne Bauval est en fait un
peu plus fin que celui donné ici. Il se prouve par récurrence comme à l’étape 5. C’est compréhensible,
en théorie !, par un élève de terminale.
La condition p  1 / 2 pourrait être supprimée mais il faudrait alors remplacer la condition
k  2 par une condition (dépendant de p ) un peu plus restrictive sur k . Ce n’est pas fait dans
ce texte car on va voir que le cas p  1 / 2 est moins intéressant.
Annexe 1 : formules exactes explicites
a
(avec la convention : les coefficients du type   avec a  b ou a  0 ou b  0 valent 0).
b
Soit k  2 un entier fixé. La formule due à M Lambiris et S Papastavridis (1985) s’écrit pour tout
entier n  0 :
l
 n  lk 
 n  lk  k 
l
  p k 
 .  1 . 1  p  p k .
P ( Ln  k )   
l 
l
l  0 


n


Par ailleurs, si x  désigne la partie entière de x , on aussi, avec Marco Muselli (1996)
(http://www.ge.ieiit.cnr.it/~muselli/papers/spl96.pdf) :
P ( Ln  k ) 
 n 1 
 k 1 


 n  lk 
 n  lk 
 .  1l . p l k 1  p l 1 .
 l 
  l  1   (1  p)


Elles reposent sur des dénombrements virtuoses mais se prouvent facilement par récurrence sur n
 n   n  1  n  1
  
 et la formule de récurrence qu’on a croisée.
avec l’identité    
 k   k  1  k 
l 0
 (1)

Annexe 2 : lien entre P  Ln2  k  et les nombres de Fibonacci


k

2
Soit
un entier.
On définit la suite des nombres de Fibonacci à k pas, notée Fn( k ) nk , par :


k
Fn( k )  0 si  k  n  0 , F1( k )  F2( k )  1 et Fn( k )   Fn(ki) si n  3 .
i 1

 F (k )
On peut prouver par récurrence que P  L  k   nn 2 .
2


lim  Fn( k ) 

 est bien défini et nommé la n -anacci constante, notée  k dans ce
Par ailleurs le nombre
n    Fn(k1) 
1
( )
2
n
2
1 5 
3 5
 
 e C . Ce nombre e C sera noté ensuite y 1
qui suit. On voit que  2   

2
2


2
k
et on peut facilement prouver que pour tout entier k  2 on a :  k   y 1 .
2
k
Il y a peut être plus à dire à ce sujet…
9
PARTIE B
Explicitation de quelques résultats de L Gordon, M F Schilling et M S Waterman
( An extreme value theory for Long Head Runs - 1986)
( “The longest run of heads” - Mark F Schilling (Californie) - The college mathematics journal” - 1990
http://mathdl.maa.org/images/upload_library/22/Polya/07468342.di020742.02p0021g.pdf
“An extreme value theory for long head runs”
L Gordon, M F Schilling et M S Waterman (Californie) - Probability theory -1986
http://www.cmb.usc.edu/papers/msw_papers/msw-070.pdf )
Représentation fondamentale :
Soit n un entier fixé, assez grand...
En désignant par S r l’événement : succès lors de la r ème épreuve, une suite de n épreuves est de la
forme ....................S1 ....................... S2 ........... S3 ........... ..... S N .........
longueurl1
longueurl2
l3
lN
où les points représentent des succès et N  N n est le nombre d’échecs.
Max
 li  .
1 i  N
Les l i sont des variables aléatoires indépendantes (valant éventuellement 0) et suivant
approximativement une loi géométrique car vérifiant :
si 0  x  n , Pli  x  p x 1  p donc Pli  x  (1  p  ...p x1 )1  p  1  p x .
La loi de Ln est alors proche de celle de
(ce n’est qu’approximatif car Pli  n  0 )
1 ) Approximation exponentielle de Ln

li  x  )  Pl1  x  . Pl2  x .....Pl N  x   1  p x
P ( Ln  x)  P (
1 i  N



N
(indépendance des li )
Donc P ( Ln  x)  1  p   exp N . Ln (1  p x )  .
La variable aléatoire N n  suit la loi binomiale Bn ; 1  p  donc son espérance est n(1  p) , autrement dit
N  n (1  p) .
Par ailleurs si x est assez grand, p x est assez petit et Ln (1  p x )   p x .
( Ln ( A)  A  1 si A  1 )
x N
On a donc

P ( Ln  x)  exp  n p x (1  p)

(1)
2 ) On a vu dix lignes plus haut que Pli  x  1  p x , c'est-à-dire que la proportion des nombres l i
vérifiant li  x est environ p x . Il y a donc environ ( N p x ) suites de succès de longueur au moins x .
Il est raisonnable d’estimer que la longueur maximale Ln vaut x quand ce nombre N p x vaut environ
1 (…) : N p x  1  Ln ( N )  Ln  p x   0  x 
Ln N 
, c'est-à-dire que
 Ln p
10
x
Ln n (1  p) 
1
Ln  
 p
3 ) Pour k 
est une valeur approchée de la valeur la plus probable de Ln .
(2)
Ln n (1  p) 
, puisque P Ln  k   P ( Ln  k  1)  P ( Ln  k ) ,on a,
1
Ln  
 p
avec (1) et (2) : la meilleure probabilité de réussir un pari sur la valeur de Ln vaut environ


P ( Ln  k )  exp  n p k 1 (1  p)  exp  n p k (1  p) , soit :
P ( Ln  k )  e  p  e 1 car n p k 1  p  1 .
Cette fonction de p tracée ci-contre est trop belle (si p  0,1
) pour être vraie…
En effet, c’est uniforme en n donc pour n tel que
P ( Ln  x  1)  P ( Ln  x) ,
on obtient (si p  0,1 ) :
P ( Ln  x  1)  P ( Ln  x)  1 .
Avec les deux approximations (1) et (2), qui sont correctes, on a obtenu une approximation
grossièrement fausse. C’est « le problème des parties entières » : ci-dessus, k n’est pas un nombre
entier, contrairement à toutes les valeurs de Ln .


P ( Ln  x)  exp  n p x (1  p) , c'est-à-dire
P ( Ln  x)  exp  exp ( x. Ln ( p)  Ln (n (1  p) ) .
4 ) On a vu en (1) que
Soit W la variable aléatoire de fonction de répartition : F : t  exp ( exp (t ) ) ,
C'est-à-dire que
P W  t   F (t )  exp ( exp (t ) ) .
W est « très connue » (d’où sort elle ? Voir le 7 ) ).
P ( Ln  x)  F  x. Ln ( p)  Ln (n (1  p) ) , soit
P ( Ln  x)  P W   x. Ln ( p)  Ln (n (1  p) ) , soit




 W  Ln n 1  p 

P ( Ln  x)  P 
 x
.
1




Ln
 p


 


(3)
(3) signifie que les deux variables aléatoires qui y figurent ont approximativement la même fonction
de répartition donc approximativement la même loi.
Or la loi de W est bien connue : E ( W )    0,577 et Var ( W ) 
2
6
,
explications calculatoires :
11
t
On obtient la densité f de W en dérivant sa fonction de répartition F car F (t )   f ( x) dx .

La densité de W est donc définie par f : t  exp(t ) . exp ( exp (t ) ) et


_

E ( W )   t f (t ) dt  t e e
t
e  t
dt .

On pose x  e t et on obtient dx  e t dt et t  Ln x  d’où E ( W )    Ln x  . e  x dx .
0

La fonction  définie pour Ré z   0 par z    t z 1 e t dt admet, pour tout entier p , pour x
0
réel positif, la dérivée p
ème

( p)

x   0 Ln t 
p x 1
t
e t dt .
On voit donc que E ( W )   (1) (1)   (valeur connue de la fonction  ).
De même, 
( 2)
1 
2
6
  2 (autre valeur connue de la fonction  ) et

Var ( W )  E (W 2 )  [ E W ]2   t 2 e t e e dt   2
t

donc Var ( W )   ( 2) 1   2 

2
6
.
La relation (3) donne alors, pour p et n fixés, les valeurs approchées :
2
E ( Ln ) 
Ln n 1  p   
6
et Var ( Ln ) 
.
1 2
1
[ Ln   ]
Ln  
 p
 p
5 ) Schilling and Co procèdent différemment :
Max
 li  où les l i sont des variables aléatoires indépendantes
1 i  N
suivant la loi géométrique de paramètre p (si 0  x  n , P li  x  p x 1  p ).
On a vu que Ln est très proche de
Mais une loi géométrique est « presque » une loi exponentielle, précisément : toute variable suivant
une loi géométrique de paramètre p suit la même loi que la partie entière d’une variable
1
aléatoire suivant la loi exponentielle de paramètre Ln   .
 p
Preuve : Soit X la variable aléatoire définie par : si 0  x  n , P  X  x  p x 1  p .
1
Soit Y la variable exponentielle de paramètre   Ln   .
 p
Alors X et Z  Ent (Y ) suivent la même loi :
P Z  x  P x  Y  x  1 = 
x 1
x
 e t dt   e t 
x 1
x
 e  ( x1)  e x
1
donc P Z  x  e x (1  e  )  p x 1  p  P  X  x  car   Ln    p  e  .
 p
12
La loi de Ln apparaît donc comme très proche de
Max
1 i  N
 Ent Z i  ,
1
où les Z i sont indépendantes et suivent la loi exponentielle de paramètre   Ln   .
 p
Max
Max
Max
 Ent Z i   Ent [
 Z i  ] . On pose Z 
 Zi 
1 i  N
1 i  N
1 i  N
N
x
N
 Max
 Z i   x   P (Ln  x)  P 0  Z1  x    0 e  t dt     e  t
P 


 1 i  N

 

N
 Max
donc P 
 1 i  N
 Z i   x 

1

 Ln   x 
 1  e  p    1  p x







N
 
x
0
N
 exp ( p x (1  p )n )
car N  1  p n et si X est petit, 1  X  e X .
On a donc
P Z  x  exp ( p x (1  p)n ) , relation du type (1) comme au début du (4) et le
même calcul qu’au 4 ) donne la proximité des lois de Z et de W  Ln n 1  p  .

 W  Ln n1  p  
On a donc : la loi de Ln est très proche de celle de Ent Z   Ent 
.



Par rapport au 4 ) on n’a que la partie entière en plus.
Soit A 
W  Ln n1  p 

.
Au 4 ), en supposant Ln proche de A , on a obtenu E ( Ln )  E  A 
Ln n 1  p   
.
1
Ln  
 p
Ici, en supposant Ln proche de Ent (A) , on obtient :
E ( Ln )  E ( Ent ( A) ) et Var ( Ln )  Var ( Ent ( A) ) .
A l’aide d’une « correction de Sheppard » (voir le 6 ) ), Schilling and Co obtiennent
1
1
E ( Ln )  E  A  et Var ( Ln )  Var  A  .
2
12
Un fait troublant, qui sera examiné au paragraphe 6, est qu’en désignant par U la loi uniforme sur
0
 1 ; 0 , on a E U    1 et Var (U )  E U 2   [ E (U )] 2  1 t 2 dt  1  1 ,
2
4 12
13
donc, puisque Ln est proche de Ent (A) , le « raisonnement » (faux) souligné :
Ln  A  [ Ent ( A)  A ] avec « ( Ent ( A)  A ) suit la loi uniforme sur  1 ; 0 et est indépendante de
A » conduit aux bons résultats.
En fait, pour une variable aléatoire continue B , l’hypothèse « Déc B  B  Ent B suit la loi
uniforme sur 0 ; 1 » est « pire que hasardeuse » (elle n’est peut être vraie que si B suit une loi uniforme).
Le dessin qui suit le montre avec l’exemple de B suivant une loi exponentielle. On prouverait
facilement que : P 0,1  Déc B  0,2  e  0,1  . P 0  Déc B  0,1  P 0  Déc B  0,1 .
(où l’inégalité est vraie dès que la densité est strictement décroissante)
Après des calculs (d’erreurs) difficiles, l’expression finale de Var ( Ln( p ) ) donnée par Schilling est :
Var (Ln( p ) )   2 / 6 Ln 2 (1/ p)  1/ 12  r(n)   (n) où r (n)  0,00006 et  (n)  0 quand n    .
 
Celle de E L(np ) est du même type.
On note que Var ( Ln ) ne dépend que très peu de n cependant que l’écart-type (Var ( L
(p )
n
1
( )
2
n
majoré pour tout p  1 / 2 par (Var ( L
1
2
1
2
) ) est
1
) ) qui vaut environ ( 2 / 6 Ln 2 (2)  1 / 12) 2  1,873 .
6 ) La correction de Sheppard (1898)
La correction de Sheppard concernait initialement les erreurs qui découlent du regroupement des
observations d’une série statistique en classes. Ces erreurs posent le même problème que celui évoqué
à la fin de 6 ) : celui de l’étude de la loi de la variable aléatoire Ent (X ) quand on connaît la loi de X .
En effet, considérons une série statistique x correspondant à une variable X .
En désignant, pour tout réel  , par   l’entier le plus proche de  , regrouper les valeurs de la série
x en classes d’amplitude a  1 , c’est étudier la série x (ou bien x  1 / 2 ),
c'est-à-dire la variable  X  , définie par X    X   , (ou bien X  1 / 2 );
1

cependant que pour tout  , on a   = Ent     .
2

Dans tout ce qui suit on considère des variances débiaisées, c'est-à-dire que si x  x1 , x2 ,...xn  est
un ensemble de n réalisations d’une variable aléatoire X , si on désigne par x le nombre
x  i  xi  / n , la moyenne observée, qui est un estimateur sans biais de E (X ) , c'est-à-dire que

E x  E (X ) , ce qu’on désigne par Var x est le nombre


2
1
xi  x , parfois dite variance

i
n 1
estimée débiaisée car son espérance est Var  X  .
La présentation de la correction de Sheppard est si lapidaire sur certains sites qu’elle peut donner des
idées fausses. On peut par exemple lire :
14
« Soit x une série statistique. Lorsqu’on regroupe les observations de x en classes d’amplitude a (où
a est fixé),on obtient une série y dont la variance est supérieure (en moyenne) à celle de x ,
précisément Var  y   Var x  
On a donc aussi :
a2
.
12
E (Var  y  )  E (Var x  ) 
a2
»
12
(*)
Le regroupement en classes fait augmenter la variance.
La présentation de la correction de Sheppard est souvent écrite sous la forme :
a2
Var  y  
est un estimateur sans biais de Var  X .
12
Un probabiliste amateur voulant se persuader de la véracité de cette affirmation peut d’abord la
vérifier avec une série x très simple, disons une série statistique obtenue avec des réalisations d’une
variable aléatoire X dont la densité est représentée par un histogramme formé à l’aide de rectangles
ayant tous la même base a . C’est bien à une telle série x qu’on essaie de faire penser les élèves quand
on leur dit qu’un regroupement en classes n’affecte pas trop la moyenne, c'est-à-dire que y  x (« le
centre de la classe représente bien la classe ») [idem quand on effectue une interpolation].
Supposons donc X ainsi choisie, c'est-à-dire que sur chacune des k classes d’amplitude a , X est
uniformément distribuée. Y est alors une variable discrète prenant pour valeurs les k centres des
classes. Notre amateur risque de chercher longtemps son erreur de signe car il va prouver en quelques
a2
lignes Var Y   Var  X  
, puis avec un peu plus de temps :
12
a2
E Var  y   E Var x  
.
(**)
12
Avec cet exemple, le regroupement en classes fait diminuer la variance.
Explication :
(*) est vérifiée quand la densité de X est continue (et vérifie un tas d’autres hypothèses).
(**) est vérifiée quand la densité de X est représentée par un histogramme « régulier ».
Preuve de (**)
a2
12
Regrouper les valeurs c’est remplacer la variable aléatoire X par la variable aléatoire Y  U  X où
 a a
U suit la loi uniforme sur 
;  . On a alors X  Y  U où Y  X  U est indépendante de Y
 2 2
 a a
car pour tout y , la loi de Y  X sous la condition Y  y est la loi uniforme sur 
;  .
 2 2
Preuve de Var Y   Var  X  
 a a
On détaille la preuve de cette indépendance: soit  ;   contenu dans 
; .
 2 2
P   y  X   
P y    X  y   
P Y  X   ;   / Y  y  

P  y  a / 2  X  y  a / 2
P Y  y 
 
a
a

donc P Y  X   ;   / Y  y  
car X suit la loi uniforme sur  y  ; y   .
a
2
2

15
De plus, U vérifie E (U )  0 et Var (U ) 
3
1 2 2
1 1a
a2
t
.
1
dt

2
.

.


a
a 2
a 3 2
12
a
Var (U )  E (U 2 ) 
a2
car
12
On a donc Var  X   Var (U )  Var Y   Var Y  
a2
a2




Var
Y

Var
X

d’où
.
12
12
a2
12
On suppose qu’on des observations x1 , x2 ,...xn portant sur la réalisation d’une variable aléatoire X
dont le support est formé par k intervalles d’amplitude a . On suppose de plus que X est
uniformément distribuée sur chacun de ces intervalles. Soit m ' la moyenne observée : m '  i  xi  / n
Preuve de E Var  y   E Var x  
.
Var x 
2
1
n


x

m
'
est une estimation de la variance de X .

i
n  1 i 1
On regroupe ces observations par classes d’amplitude a ( a fixé). On a k classes d’observation
ai ; ai1  d’effectif n i . On désigne par m ' ' la moyenne observée (après le regroupement), par
a  ai 1
n
k
ci  i
le centre de la classe  ai ; ai 1  et par n i son effectif. Var  y   i 1 i ci  m ' ' est
2
n 1
une autre estimation de la variance de X .
2
Pour chaque i entre 1 et n , on désigne par xi 1 , xi 2 .. xi ni les observations qui sont remplacées par c i
quand on regroupe les valeurs. Chacune des n i observations xi j est remplacé par c i . On suppose que
 a a
la variable u i j = ci  xi j suit la loi uniforme sur 
;  , autrement dit que chaque restriction de X à
 2 2
une classe suit une loi uniforme. On a donc pour tous i et j : E (ui j )  0 et
3
1
1 1a
a2
.
Var (ui j )  E [ (ui j ) ]   2a t 2 .1 dt  2.   
a 2
a 3 2
12
a
2
(6)
De plus les nombres c i sont fixés donc l’indépendance des xi j implique celle des u i j d’où si
r ; s)  i ; j  alors
E (u r s . ui j )  E (ur s ) E (ui j )  02  0 .
(7)
Notons que ci  xi j  u i j implique en sommant sur tous les i et j : m ' '  m '
On pose S 
1
 ui j .
n i; j
1
1
ui j   u r s .

n i; j
n r;s
2

 
1 
1  


Notons que E ( S )  0 et E ( S )  2 E   u r s   2 E   (u r s ) 2  d’après (7),

n  r ; s

  n r;s

a2
donc, d’après (6), E ( S 2 ) 
(8)
12 n
ui j
a2
. ui j ) 
De plus, d’après (7), E (S . ui j )  E (
(9)
n
12 n
2
Dans ce qui suit, tous les
  ... sont écrits  ... qui est une somme de n termes.
k
ni
i 1
j 1
i, j
16
Faisons figurer Var  y  dans Var x :
1
1
2
2


Var x 
x i j  m ' 
[ci  ui j ]  m ' ' S 


n  1 i, j
n  1 i, j
1
2


[ci  m ' ' ]  [ S  ui j ] .

n  1 i, j
1
ci  m ' '2  1  S  ui j 2  2  [ci  m ' ' ][S  ui j ]


n  1 i, j
n  1 i, j
n  1 i, j
Le premier terme est Var  y  .
1
2
L’espérance du second terme est
E ( S  u i j  )

n  1 i, j
1
1
2
2

E S2 
E ( u i j  ) 


 E S . ui j 
n  1 i, j
n  1 i, j
n  1 i, j
 
=
n  a2 
n  a2 
n  a 2  n 1 a 2  a2

 
   2


 
d’après (8), (6) et (9).
n  1  12 n  n  1  12 
n  1  12 n  n  1  12  12
L’espérance du troisième terme est 0 car toutes les variables u i j ont la même loi donc pour toute


variable Y , on a E Y [S  ui j ]  0 .
On a donc E Var x   E Var  y  
a2
a2
, c'est-à-dire E Var  y   E Var x  
.
12
12
Références
Pour la difficile preuve de (*), voir « Rounding of continuous random variables and oscillatory
asymptotics” - Svante Janson (Suède) - 2006
http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aop/1163517
225
Sur le lien entre (*) et (**), voir “Sheppard’s Correction for Variances and the Quantization Noise
Model”-Stephen B Vanderman (Iowa) - 2004
http://www.public.iastate.edu/~vardeman/Sheppard.pdf
7 ) Loi du maximum renormalisé
Au 5 ), Schilling and Co utilisent sans l’expliciter un résultat, bien connu des probabilistes, sur la loi
du Maximum d’un grand nombre de variables aléatoires X i , indépendantes et de même loi. Ce
théorème n’est pas vérifié quand la loi des X i est discrète (exemple : les lois géométriques du 4 ) )
mais son domaine d’application est très large (exemple : les lois exponentielles du 5 ) ).
On va l’expliciter car il est étonnant. Montrons d’abord son intérêt :
Max
 X i  , est la fonction de répartition puisqu’en
L’outil naturel permettant d’étudier M n 
1 i  n
désignant par F celle des X i et par Gn celle de M n , on a :
Gn ( x)  P M n  x   P

n
i 1
 X i  x   F ( x)n .
Rappel d’un théorème connu :
on note FX la fonction de répartition d’une variable aléatoire X .
Soit (M n ) n une suite de variables aléatoires. (M n ) n converge en loi vers une variable M si et
lim
seulement si on a :
FM n x   FM x  en tout point x de continuité de FM .
n  


17
lim
lim
Gn x  
F x n ne peut valoir
n  
n  
que 0 ou 1. On ne peut donc rien dire de la convergence en loi de la suite (M n ) n .
Il faut normaliser chaque variable M n :
Or, ici, en tout point x on a 0  F x  1 donc
par une translation M n   n ou (et) un changement d’échelle M n /  n .
Loi du maximum renormalisé
Soient X i , i  IN , des variables aléatoires indépendantes et de même loi.
Max
Soit M n 
 X i  . On suppose qu’il existe deux suites réelles (a n ) n et (bn ) n , bn  0 , telles que
1 i  n
 M n  an 

 converge en loi vers une variable aléatoire W non dégénérée (c’est à dire non réduite
 bn

Presque Surement à une constante).
Alors, à une translation et un changement d’échelle près, la fonction de répartition de W est de l’une
des trois formes suivantes (ces trois lois sont dites lois de valeurs extrêmes) :
Loi de Weibull (  0) :
 ( x)  1x 0 e   x   1x0

Loi de Gumbel :
 ( x)  e
e x
Loi de Fréchet (  0) :
 ( x )  1x  0 e  x

.
Leurs densités sont représentées ci-contre.
C'est-à-dire qu’il existe des constantes c et d telles que la loi de W est celle de cY  d où Y suit une
des trois lois ci-dessus. On peut en déduire une expression approchée de la fonction de répartition de
M n pour n assez grand.
Ln n 
1
Par exemple pour la loi exponentielle de paramètre  , on prend a n 
, bn  et on obtient la


loi de Gumble.
8 ) On voit apparaître cette densité ainsi que celle de A 
W  Ln n 1  p 
sur le dessin ci-dessous

où cette dernière est comparée à l’approximation usuelle de Ln qui est représentée en prenant les
points d’abscisse entière de la représentation de
a
définie par
a x   e  n p
x 1
1 p 
 enp
x
1 p 
.
En fait, la variable W n’est utilisée que pour le calcul « facile » de son espérance. Malgré la
différence entre les courbes verte et rouge ci-dessous, Schilling and Co ne donnent pas de nouvelle
approximation de
P ( Ln  k ) en introduisant cette variable W .
En effet, la preuve de (3) ) au 4 ) montre que
P  A  x   P W   x. Ln ( p)  Ln (n (1  p) )  exp  n p x (1  p)  ,
18
ce qui implique pour tout entier k :
P Ent ( A)  k   P k  A  k  1  e
L’approximation
 n pk  1 1 p 
 enp
k
1 p 
.
Ent (A) de Ln est bien l’approximation usuelle.


2
 n 1  p 
Un détail est que a ' x  s’annule pour x  Ln 
 Ln  1 
 p

 



1

 / Ln  p  , ce qui est l’équation de la droite tracée en vert
 



Ln n 1  p 
ci-dessus, l’équation de la droite tracée en rouge étant x 
.

Références
Celles qui m’ont semblé être les plus complètes et claires sont des cours de JF Delmas, enseignés à
l’EN Ponts et Chaussées :
http://cermics.enpc.fr/~delmas/Enseig/mrf-quantile.pdf
http://cermics.enpc.fr/~delmas/Enseig/enpc-stat-cours.pdf
pour le second texte, voir la page 110 (page 120 du doc PDF)
Le dessin ci-dessus en est extrait. On y trouve la preuve du théorème dans la cas particulier, déjà
difficile !, où les X i sont définies par une densité.
Dans un autre registre, voir aussi « Splendeurs et misères des lois de valeurs extrêmes » de N Bouleau,
même école http://www.enpc.fr/HomePages/bouleau/papiers/c15.pdf
19
Téléchargement