une probabilite etonnante sur la taille de la plus longue suite

publicité
L’ ETONNANTE PROBABILITE DU PLUS PROBABLE NOMBRE MAXIMUM DE RESULTATS
CONSECUTIFS IDENTIQUES LORS D’UNE SUITE DE LANCERS D’UNE PIECE BIEN EQUILIBREE
J F Kentzel - Lycée Pardailhan à Auch (32) - [email protected]
Remerciements à Anne Bauval (Université de Toulouse).
Sans elle, la preuve des résultats qui suivent serait restée trop longue et quasiment illisible.
1 ) INTRODUCTION
Faire un quelconque pari sur la valeur prise par une variable aléatoire dépendant de la suite des résultats obtenus en lançant une
pièce de monnaie, supposée bien équilibrée, peut sembler a priori ne pas être raisonnable, par exemple si on lance n  2m fois
n est impair) et si on appelle Fn la variable aléatoire « nombre de « face » obtenus », on
sait que la valeur la plus probable de Fn est m , c'est-à-dire que le maximum des P Fn  k  est obtenu pour k  m et
 n  1  2m  1
.
vaut  n  . n = 
. Jouer en pariant que F6  3 , par exemple, est possible puisque P( F6  3)  0.3125 mais
  2  m  2 2 m
2
n
n
la formule de Stirling, si n est grand, n !  2 n   , montre que :
e
PFn  n / 2 vaut environ 1 /  n / 2 pour n assez grand.
Les plus grandes probabilités « s’évanouissent » quand n grandit.
une pièce (on a un résultat proche si
Il existe cependant un pari donnant une chance non négligeable de gagner pour toute valeur de n : il suffit
de parier sur la valeur de la variable aléatoire, qu’on désignera par Ln : la longueur de «la» plus longue
suite de résultats consécutifs identiques obtenue à l’issue du n -ième lancer d’une pièce équilibrée.
Notations : dans ce qui suit Ent (x) est la partie entière d’un réel x et Ln x le logarithme népérien de x .
On désigne par C le nombre 2. Ln (2 /( 5  1)) qui vaut environ 0,962.
1
(c  1,04) serait pratique pour les deux lignes qui suivent mais ne le serait pas du tout ensuite.
Poser c 
C
En prenant le risque de chagriner les lecteurs pointilleux, on s’autorise dans ce qui suit l’écriture incorrecte P Fn  k  au
lieu de Pn Fn  k  (écriture qui rappelle que pour chaque valeur de n on a un univers et une loi de probabilité différents
mais n’apporte rien au fond).
On va voir qu'on a environ une chance sur quatre1 de gagner en pariant sur le nombre
  Ent ( Ln(n / C ) / Ln 2) . On obtient des chiffres tout aussi étonnants lorsqu’on parie sur la valeur
de Ln dans un intervalle contenant deux, trois quatre…valeurs entières, voir le commentaire 4.
Si on trouve ce résultat trop compliqué, on peut remplacer  par le nombre  '  Ent ( Ln (n) / Ln 2) . On a alors des
résultats presque aussi bons2. On va garder le nombre

dans ce qui suit car il va apparaître naturellement.
2 ) GENERALITES SUR LA LOI DE Ln
Notons d’abord qu’on peut, en théorie, calculer la loi de Ln pour toute valeur de n :
Soit k un entier fixé, 1  k  n . En désignant par E n(k ) l’événement :
1
Plus précisément : on gagne avec au moins la probabilité
5  2  0,236 .
 , on perd environ la probabilité 0,0053. Par ailleurs 
 ' sont
« souvent » égaux car Ln (n / C ) / Ln 2  Ln (n) / Ln 2   Ln C / Ln 2 qui vaut environ 0,056. Anecdotiquement ,  '
est, à une unité près, le nombre de chiffres de n en base 2 mais je n'ai aucune interprétation de cette coïncidence. Je n’ai pas
non plus d’interprétation autre que simpliste du fait que multiplier n par 2, c’est ajouter 1 à  ' .
2
Par rapport au résultat précis qu’on peut énoncer avec
1
et
{il existe (au moins) une suite de k résultats consécutifs égaux à l’issue du n ième lancer} et en notant
p n(k ) pour P ( E n(k ) ) , on prouve facilement que la suite p (k ) = ( pn( k ) ) n  1 est définie par :
Si n  k  1 , p n( k )  0 ;
p k( k ) 

1
2 k 1
;

1
1  p n( k) k .
k
2
3
(principe de la preuve : soit on avait déjà une suite de k résultats consécutifs identiques à l’issue du
( n  1) ième lancer, soit une telle suite apparaît au n ième lancer)
Si n  k  1, p n( k )  p n( k1) 


P Ln  k   P En( k )  En( k 1) = p n(k )  p n( k 1) car la suite ( E n( k ) ) k est décroissante pour l’inclusion.
On a représenté ci-contre chacune des suites ( pn( k ) )1  n
(k )
n
1 n
pour k entre 2 et 10. Bien sûr, ces suites ( p )
(strictement) croissantes et convergent vers 1.
 50
sont
On peut ensuite, par soustraction de colonnes si on a un
tableur, obtenir les suites ( P Ln  k ) n .
C’est fait ci-dessous pour 1  n  200 avec encore k entre
2 et 10.
P ( L_n = k )
On peut noter que tous les calculs effectués sont exacts (divisions par 2).
0 ,6
k=2
0 ,5
k=3
0 ,4
k=4
k=5
0 ,3
k=6
0 ,2
k=7
0 ,1
k=8
0
k=9
1
16
31
46
61
76
91
106 121 136 151 166 181 196
N o m b re d e la n c e rs = n < 2 0 0
k= 10
3 ) LA VALEUR LA PLUS PROBABLE DE Ln
Ln prend toutes les valeurs k entre 1 et n et on s’intéresse à u n : Maximum sur k des PLn  k  , c’est
à dire : la probabilité de la plus longue suite la plus probable en effectuant n lancers. Cette suite (u n ) est
représentée ci-dessous sur deux intervalles différents.
3
Cette preuve, compréhensible, en théorie, comme tout le reste de ce texte, hormis l'évocation de la formule de Stirling dans
l’introduction, par un bachelier (scientifique), comporte un passage un peu délicat, voir [1] ou [2], qui sera évoqué à la fin de ce
texte (commentaire 6) : si on la fait en terminale, par exemple pour k  6 , il faut soigneusement décomposer l’événement
« une telle suite apparaît au
n ième lancer » en En(n6)  …0111111 et en En(n6)  …1000000 pour pouvoir utiliser
l’indépendance des six derniers lancers et de ceux qui précèdent.
2
Maximum sur k des P ( { L_n = k } )
0,27
0,26
0,25
0,24
0,23
30  n  430 : les quatre « arches » visibles
: les
quatre «=arches
plus
à droite
30 Nombre
n  3500de
lancers
n : 30»<les
n<
3501
correspondent à k valant 5, 6 , 7 et 8.
correspondent à k valant 8, 9, 10 et 11.
On observe avec un tableur que l’ « arche » correspondant à « la plus longue suite la plus probable est de

k
k 1

longueur k » est obtenue, approximativement4, pour n dans l’intervalle 2 ; 2
.
On va montrer que contrairement à ce à ce qui se passe pour la loi binomiale évoquée dans l’introduction
et à ce que semblent indiquer les figures ci-dessus, les « arches » ne s’aplatissent pas vers 0 quand n
grandit.
On verra plus loin que la hauteur maximum de l’arche correspondant à la valeur k est proche de 0,25 et
est obtenue pour n  Ln(2) . 2 k 1 .
1
Cette étonnamment grande valeur peut être visualisée, très informellement, sur le dessin qui suit.
4
1
k étant un entier fixé, on désigne par N = N ( k ) le plus petit entier n vérifiant p n( k )  .
2
k
(cette valeur N sera précisée plus loin, c’est approximativement Ln (2) . 2 ).
(k )
L’arc OA représente p n sur [ 0 ; N ]
p n( k 1) , représentée par l’arc OE, augmente deux fois moins vite, si on confond
(k )
( k 1)
les « décalages » de k pour p n et k  1 pour p n
, confusion d'autant
moins grave que
( k 1)
k est grand, donc p n atteint
1
en 2.N.
2
(k )
(k )
L’arc AD représente p n sur [ N ; 2N ]. Sur cet intervalle de longueur N, p n
augmente deux fois moins vite que sur l’intervalle [ 0 ; N ] car ses premiers
1
1
1
1
(k )
p
(
1

)
(
1

0
)
environ
au
lieu
de
.
monte
donc
de
n
4
2
2k
2k
3
sur cet intervalle et atteint donc
en 2.N.
4
3 1 1
(k )
( k 1)
On a donc bien p 2 N  p 2 N    .
4 2 4
écarts sont
Si on saute le paragraphe suivant, dont le titre est repoussant, la preuve du paragraphe 5 est tout à
fait compréhensible mais on se demande d’où elle sort et on perd de la compréhension.
4 ) UNE METHODE MALADROITE
On va en fait prouver le résultat suivant :
4
Sur le plus grand dessin, on voit intervenir les valeurs 15, 31, 61…On va voir que « la » formule donnant les abscisses des
pieds des arches n’est pas x  2 mais est plutôt
[1].
k
x  Ent (C.2 k ) avec C  0,96 . Les feuilles de tableur sont sur le site
3
Pour tout  strictement positif, il existe un entier M tel que pour tout entier n vérifiant
n  M et pour l’entier k égal à Ent ( Ln (n / C ) / Ln 2) , on a : P Ln  k   5  2   .
5  2 est le seul nombre vérifiant cette propriété.
k
2 ) On peut donner une valeur de M en fonction de  car on montrera que  est majoré par 10. k , par
2
3
18
exemple pour   10 , la minoration est prouvée pour k  Ent ( Ln (n / C ) / Ln 2)  18 , c'est-à-dire si n  C .2 et on
18
18
peut prendre M  Ent (C.2 )  1 . Dans le cas contraire, n  2 et la vérification de la minoration peut être faite avec un
Remarques : 1 ) On peut prouver (voir le commentaire 4) que de plus
ordinateur (voir les feuilles de tableur du site [1] ).
En d’autres termes, ce résultat ne dépend d’aucun théorème asymptotique du calcul des probabilités.
La preuve du paragraphe 5 est assez simple. Les trois étapes qui suivent indiquent seulement
comment j’ai obtenu le résultat final.
Etape 1 : COMPTAGES APPROXIMATIFS DE TERMES DE
Il existe une formule exacte et explicite de la loi de
p 
(k )
n
(k )
Ln , provenant des formules de récurrence définissant les suites ( p n ) mais
elle n’est que théorique et semble a priori inutilisable 5 à cause de la difficulté de la résolution de l’équation caractéristique
x k  x k 1 
1
 0 dès que k dépasse 5 ( x  1/ 2 est toujours une solution) . On se contente donc de calculs approchés.
2k
Notation : k étant un entier fixé valant au moins 2, pour tout a vérifiant
(k )
0  a  1 , on désigne par g k (a ) le plus petit entier n vérifiant pn  a .
(k )
Si p n
 a , g k (a ) est le nombre de termes de ( p n ) situés dans 0 ; a.
(k )
(k )
 a , g k (a ) est ce nombre de termes augmenté de 1.
J’ai eu du mal à obtenir le résultat suivant :
Si p n
k étant un entier fixé valant au moins 2, pour tous entiers A et s vérifiant 0  s  A 
 A2 
s
 A 1 
k
l’encadrement : 2 k . ln 
  s  1  g k    2 . ln 
  s  1.
 A s  2
 A
 A  s 1

2k
, on a
k
(1)

Le problème était : trouver un pas trop mauvais découpage de 0 ; 1 .
Cet encadrement est imprécis mais dans les cas qui nous intéressent il concerne des grands nombres et il va suffire ! En d’autres
s
) n’est pas excellent, surtout si k et A , donc s , sont grands, mais ce n’est pas gênant car il
A
1
s’agit d’un nombre situé sur l’axe des abscisses, cependant que l’ordre de grandeur des écarts sur l’axe des ordonnées est k .
2
termes cet encadrement de g k (
Etape 2 : UNE FORMULE D’APPROXIMATION DE
p n(k )
En prenant la demi-somme des bornes de (1) et en la simplifiant un peu, on obtient une valeur approchée
s
s k  A
2
.ln
 


de g k   : g
. On peut en déduire une expression approchée de p n :
k

s
 A
A

A

5
Elle est évoquée au commentaire 5.
4


 1 
1
n
A


k
 , alors p n( k )  s , c’est à dire que
 exp ( k ) ,
pour n  2 k . ln 
  2 . ln 
(k )
A
1  pn
2
1 s 
 As


A

soit :
p
(k )
n
1 e

n
2k
.
(2)
On peut tester informatiquement cette approximation pour les petites valeurs de
k ( voir les dessins ci-dessous pour k valant
3,4,5 puis 11 ,12 et 13), elle semble très convenable (et on peut vérifier, informellement, que la suite (1  e
approximativement la relation de récurrence définissant
(p
n

n
2k
) n vérifie
(k )
n
n ).
Ainsi, en considérant ck définie par c k : x  1  e
De même, avec d k : x  ck ( x)  ck 1 ( x) ,


)

x
2k
, c k (n) est une bonne approximation de p n(k ) .
n
e
est une (bonne) approximation de p n(k )  p n( k 1) = PLn  k  .
d k (n) = e
Ce sont ces fonctions ck et d k qui sont utilisées dans tous les dessins qui suivent.
2
k 1
2k
Etape 3 : CONSEQUENCES DE CETTE FORMULE D’APPROXIMATION
On peut résoudre, pour tout k , l’équation, d’inconnue x , d k ( x)  d k  1 ( x) , c'est-à-dire avoir une valeur
approchée des abscisses des « pieds des arches ».
En posant
X e

n
2k 1
, on obtient l’équation X 2  X  1  0 puis :
 5  1  k 1
 2  k 1
.2  Ln 
x  x k   Ln 
.2  C.2 k  0,962 . 2 k .

2
 5 1


5
 2 
( on rappelle que C désigne le nombre 2 . Ln 
 )
 5 1 
On va utiliser les deux valeurs suivantes :
ck ( xk ) =1  e
 5 1 

2 Ln 

 2 
et ck 1 ( xk ) = 1  e
2
 5 1
5 1
 
 1  

2
 2 
 5 1 

Ln 

 2 
 1
5 1 3  5

2
2
5 1
 0,618 et
2
3 5
 0,382
ck 1 ( xk ) 
2
Ces valeurs sont visualisables sur le dessin ci-contre.
(réalisé avec k  3 )
La valeur désirée 5  2 apparaît clairement :
d k ( xk )  d k (C.2 k )  5  2 donc :
ck ( xk ) =
si n  C.2 k , alors P Ln  k  5  2 .
Notons en passant qu’on étudie facilement les variations de d k en la dérivant. Le maximum de d k est
3 1 1
atteint en x  C. Ln 2 . 2 k 1 et vaut d k (C. Ln 2 . 2 k 1 )    .
4 2 4
On peut maintenant donner le principe de la preuve du résultat : prouver que si k est assez grand,
ce qu’on voit avec d k sur le dessin ci-dessous est (approximativement) exact avec P Ln  k  , puis


dire que tout n assez grand est dans un intervalle du type C . 2 k ; C . 2 k 1 .
Après avoir, très difficilement, franchi les trois étapes précédentes, j’ai écrit une preuve, extrèmement longue, voir le site [1], de
chacun des résultats évoqués dans ce texte, uniquement à l’aide de l’encadrement (1).
6
5 ) UNE MAJORATION FORMIDABLEMENT EFFICACE
Anne Bauval, ayant pris connaissance de ce texte, a eu immédiatement le réflexe, de bon sens élémentaire !
mais je n’y avais pas pensé, de chercher à majorer l’erreur p
(k )
n
 (1  e

n
2k
).
La vérité est que j’ai eu tant de peine à obtenir l’encadrement (1), qui permet de conclure, que je n’ai pas imaginé une
seconde que je pourrais chercher une solution plus simple !
Elle a obtenu un lemme du type : si k est fixé et vaut au moins 5, pour tout n  k , on a l’inégalité :
n
n
n
 k
1  3k 2k k  1  2k 
(k )
2
I n 
p n  (1  e )  E n , k où E n , k  k
.e 
.e
.

2
2  2

Elle a prouvé cette inégalité par récurrence sur n  k en prenant pour initialisation la proposition : I r  est
vraie pour tout entier r vérifiant k  r  2k  1 .
Elle n’a utilisé qu’une formule de Taylor à l’ordre 2. J’ai ensuite écrit une autre preuve, plus longue, lisible
par un élève (théorique) de la classe de Terminale, car n’utilisant que l’encadrement élémentaire :
e a (b  a)  e b  e a  e b (b  a) , valable si a  b .
(Voir la façon dont Anne Bauval a trouvé cette majoration et ma preuve sur le site [1])
n
Il importe de noter qu’à cause du terme e
du membre de droite, I n  ne donne pas un
2k
(k )
développement asymptotique de p n comme on peut en rencontrer dans un livre de probabilités.
I n  n’a évidemment d’intérêt que si n n’est pas très grand et on va l’utiliser seulement pour n  2 k 1
(puis pour n  8.2 k 1 dans la généralisation du paragraphe 6 ).
Donnons maintenant la preuve du résultat annoncé. Le lemme d’Anne Bauval l’a transformée en un jeu

n

n
2
 e 2 est une (bonne) approximation de p n(k )  p n( k 1) =
d’enfant ! La phrase « d k (n) = e
PLn  k  . » est en effet devenue très précise.
k 1
k


Soit n un entier. Soit k  Ent ( Ln (n / C ) / Ln 2) . n est dans l’intervalle C . 2 k ; C . 2 k 1 .
L’étude des variations de d k montre que son minimum sur cet intervalle est :
d k (C.2 k )  e

C
2
5 1 3  5

 5  2 , c’est à dire aussi
2
2
 e C 
2
d k (C.2
k 1
Puisque
)e
C
e
2 C
5  2  d k (n)
3 5 3 5 
 puisque C  2. Ln (2 /( 5  1)) .

 

2
2


e

n
2
k 1
e

n
2k
 p
(k )
n
 (1  e

n
2k
) p
( k 1)
n
 (1  e

n
2 k 1
) + p n(k )  p n( k 1) , en
vertu du lemme d’Anne Bauval, la minoration obtenue est précisément :
PLn  k  = p n(k )  pn( k 1)  5  2  J n , k
avec J n , k  E n , k  E n , k 1
1
 k
2
n
n

 3k
 . e 2k  k  1 . e 2k
 2
2

(notant que la majoration donnée de p

(k )
n
 (1  e

n
n



  1  3(k  1) . e 2k 1  k . e 2k 1
 2 k 1  2
2



 d’où


n
2k
) est valable pour tout n  k , mais qu’on ne l’utilise

que pour n dans l’intervalle C . 2 k ; C . 2 k 1 ) :
7
Jn,k 
C
1  3k 2 C k  1  C 
1  3(k  1) C k  2

.
e

.
e

.
e

.
e


k 1
2
2
2k  2
 2  2
puis J n , k 




19,5 k  3,5  5
k
 10. k ( k  2 ).
k 1
2
2
6 ) PARIS SUR LA VALEUR DE Ln DANS DES INTERVALLES


En agrandissant un peu le dessin donné ci-dessous sur lequel on considère l’intervalle C . 2 k ; C . 2 k 1 , on
voit qu’on peut envisager sereinement de prouver une inégalité du type :
(12)
 n,  k / 0,58  PLn  k   PLn  k  1  PLn  k  1  0,65 .
De même, il y a évidemment un énoncé du type : si n  2 k , PLn  k   PLn  k  1  0,47 mais c’est
le précédent qu’on peut améliorer puis généraliser avec la fonction définie ci-dessous.

n
2k 1

n
2k
e
De même que d k (n) = e
est une (bonne) approximation de p n(k )  p n( k 1) = PLn  k  , la
fonction  k , a , définie pour des entiers positifs k et a quelconques par

k , a ( n) 
r k  a
 d r ( n)  e

n
2 k  a 1
e

n
2k
r k a
est une (bonne) approximation de
 P L
r k
r k
Représentons ci-dessous  7 , a pour a compris entre 0 et
8
n
 r .
On a représenté ci- contre 
k,a
pour a compris entre 0 et 2 et k
compris entre 3 et 6. Une idée
semblant naturelle, consistant à
penser qu’on va obtenir une
bonne minoration de  k , a sur un
intervalle en trouvant les
abscisses des « pieds des
arches », c’est à dire en résolvant,
comme précédemment dans le cas
a = 0, l’équation
 k , a (n)   k  1 , a (n) , est en
fait impraticable (cette équation
est trop difficile, voir l’annexe).
On va se contenter
d’approximations pour les
abscisses des pieds des arches.
On va montrer facilement le résultat suivant :
Pour tout entier a fixé, 0  a  15 , on peut déterminer  a et  a (voir les valeurs dans le tableau cidessous) tels que : si k  Ent ( Ln (n /  a ) / Ln 2) alors
a 
k a
k  a 1
k
(k )
( k  a 1)


p

p

P Ln  r .

n
n
2 k a 2
2 k 3
r k
L’intervention du lemme d’Anne Bauval est encore plus spectaculaire qu’au paragraphe précédent : sans ce lemme, j’avais
obtenu :
a 
4258
k
22
a
.
 
u 0
k a
u
1
2   k  p n( k )  p n( k  a 1)   P Ln  r avec des valeurs de  a différant de moins
 2
r k
d’un millième des précédentes mais sous la condition n 
L’expression
 a . 2 34
et en plusieurs pages harassantes !)
 k , a (n) n’a de sens que si n est entier mais dans un premier temps on considère n comme
une variable réelle en conservant la même notation pour  k , a .
 k , a ' ( n) 
n
1
2
k  a 1
e2
n (12a 1 )
2k  a 1
a 1

1
2 a1


.

2 k  a 1
. Ln (2 a 1 ) .
2 a 1  1
est donc atteint au point (entier) Ent ( x k , a ) ou au point Ent ( x k , a )  1 .
D’où  k , a ' (n)  0 équivaut à
Le maximum de  k , a
1
 ke
2
k  a 1
n  n .2
1 2k a1 
1
k  a 1
 ke
 a 1  e 2
 2
2

n
n
2k
e
Calculons  k , a   k , a ( x k , a ) :
k , a  e
, soit n  x a en posant x k , a 
 Ln ( 2a 1 )
2a 1 1
e
9
2a 1 . Ln ( 2a 1 )
2a 1 1
.
 k , a peut être noté  a car il ne dépend pas de k .
 k , a a, pour toutes valeurs de a et de k , le tableau de
variations ci-contre.
Etudier un cas particulier, ci-dessous : k =7, va donc
être instructif.
Pour chaque valeur de a , a compris entre 0 et
14, on détermine une valeur approchée de  a
en résolvant, dans le cas où k vaut 7,
l’équation  k , a (n)   k , a (2n) .
(on vérifie facilement que les équations
 k , a (n)   k 1 , a (n) et  k , a (n)   k , a (2n)
sont équivalentes, aux solutions 0 et 1 près)
Les valeurs numériques des nombres  a ont été
obtenues graphiquement à l’aide du logiciel
Géogébra et elles n’ont d’aucune façon la
prétention d’être les meilleures possibles.
r k a
 P L
r k
n
 r = p
(k )
n
p
( k  a 1)
n
donc en sommant les inégalités p
n

 k
2





P
L

r

1

e


n
r k

r k  a
obtient

k,a
( n) 
r k  a
d
r k
r
( n)  e

n
2 k  a 1
e

(k )
n
 (1  e

n
2k
)  10
k
, on
2k
n

 

  1  e 2k  a 1   10 (a  1). k .
 

2k
 

n
2k
donc 
(  a .2 )  e
k
k,a

a
2 a 1
e
 a
et 
k,a
(  a .2
k 1
)e

a
2a

 e  2a .

Le tableau de variations de  k , a montre que pour tout entier n dans l’intervalle  a . 2 k ;  a . 2 k 1 ,

k,a
(n)  Min ( 
( a .2 ) ; 
k
k,a
On prend donc  a  Min (e

a
2a 1
k,a
( a .2
 e  a ; e
k 1

) ).
a
2a
 e  2  a ) . La démonstration se termine comme


précédemment puisque k  Ent ( Ln (n /  a ) / Ln 2)  n   a . 2 k ;  a . 2 k 1 .
On obtient les valeurs numériques :
(les mêmes valeurs, à 10  3 près, que celles obtenues avec la méthode initiale en prenant au départ la même valeur pour  a ;
feuille de tableur sur [1] )
0
1
2
3
4
5
6
7
8
9
10
13
a
 a 0,958 1,283 1,663 2,091 2,557 3,051 3,575 4,118 4,675 5,25 5,858 7,667
 a 0,236 0,448 0,623 0,754 0,846 0,906 0,944 0,968 0,982 0,99 0,994 0,999
Une interprétation sommaire de la relative proximité des nombres  a et ( a  1) / 2 (si a  0 ) est la relative proximité du
k
k 1
k
a 1
centre de  a . 2 ;  a . 2  et de l’abscisse x k , a du maximum de  k , a : si a  0 , xk , a  2 . Ln (2 ) et on obtient


3
 a  (a  1) Ln2 . C’est très sommaire car la courbe représentant  k , a sur  a . 2 k ;  a . 2 k 1 n’est pas symétrique par
2
rapport à x  x k , a .
1
0
Ln qui est Ent ( Ln (n /  a ) / Ln 2)  a / 2 n’est
pas la valeur initiale du pari sur une valeur qui est environ Ent ( Ln (n) / Ln 2) : la différence entre les deux est
Par ailleurs la valeur centrale de l’intervalle sur lequel on fait un pari sur
a / 2  Ln ( a )  0 . Par exemple, pour n  1000  210 , on parie sur k  10 mais si on veut parier sur
7 valeurs, a  6 , on parie sur k '  Ent ( Ln (n /  6 ) / Ln 2) qui vaut 8, ce qui donne l’intervalle 8 ; 14 dont le centre est
approximativement
11.
7 ) COMMENTAIRES
1 ) On n’a pas montré plus que ce qui était annoncé, notamment on n’affirme pas que le nombre
r  k  Ent ( Ln (n / C ) / Ln2) réalise le maximum des P Ln  r sur l’intervalle C . 2 k ; C . 2 k 1 : les


valeurs x k  C . 2 k ne sont que des valeurs approchées des abscisses des « pieds des arches ».


2 ) On pourrait facilement obtenir le résultat : sur chaque intervalle C . 2 k ; C . 2 k 1 , P Ln  k 
1
s’approche (autant qu’on le veut à condition de prendre k assez grand) de
(et même dépasse cette
4
valeur, de moins en moins quand k grandit, d’après les observations du tableur, mais ça, je ne l’ai pas
prouvé).
(
x
)

d
(
x
)

5

2

0
,
23607
3) d
est, de notre point de vue, le meilleur candidat pour minorer,
k
k
k
k
1

1
Max
( P Ln  k  ) . On a montré que la probabilité « de gagner » dépasse
uniformément en n ,
k / 1  k  n
n’importe quel nombre inférieur à 5  2 si on suppose que n est assez grand.
On peut aussi montrer que 5  2 est le seul nombre vérifiant cette propriété.
Plus précisément : pour tout  strictement positif, il existe un entier R vérifiant :
pour tout entier q , P LR  q  5  2   . On va prendre R de la forme R  Ent (C.2 k ) et il suffira
évidemment de prouver que P LR  q  5  2   est vrai pour q valant k ou k  1 .
Là encore, tout est extrêmement simplifié avec le lemme d’Anne Bauval : il suffit en effet de prendre k

1  3k
k 1  C  
. e   , E C .2 k 1 , k  et la condition :
assez grand pour avoir EC .2 k , k  k  . e C 
3
2
2  2
 3

1
d k ( x)  d k ( y )  si x  y  k (uniforme continuité de d k ). On a alors :
3
2
P LR  k  p R( k )  p R( k 1)  p R( k )  (1  e

R
2
k
)  p R( k 1)  (1  e

R

2
k 1
) +e
R
2k 1
e
C .2
C .2
C .2
C .2
 k 1
 k
 k 1
 k
 k 1
 k
2
2
2

 (e
 e )  (e 2  e 2 )  (e 2  e 2 ) = 2
3
3
On procède de même avec P LR  k  1 .
R
R
k
k
k

R
2k
k


3
 52
4 ) Il me semble que l’intérêt de ces résultats est qu’ils sont étonnants cependant qu’on peut les expliquer,
disons en prenant cinq minutes !, à vraiment n’importe quelle personne et les prouver à un élève
(théorique !) de Terminale.
On trouve dans la littérature des preuves (à destination du public) de la puissance du calcul des probabilités
qui sont beaucoup plus « économiques » que ce qui précède, par exemple6 : la probabilité d’avoir (au
6
Cet exemple figure dans les commentaires des programmes de classe de seconde des lycées de l’année 2000.
1
1
moins) six résultats consécutifs identiques en lançant 200 fois une pièce (bien équilibrée) est environ
(6)
 0,965.
0,965, soit avec les notations qui précèdent : p 200
Ln a un autre intérêt car elle n’est pas une fonction indicatrice mais une variable aléatoire « concrète »
permettant par exemple de faire des paris sur des valeurs.7
5 ) Soit r un entier positif fixé. Désignons par Yn(r ) la variable aléatoire Yn(r ) = le nombre de suites de
longueur8 (au moins) r obtenues en n lancers. Sa loi est « du même type » que celle de Ln mais elle est
définie par une formule de récurrence sensiblement plus compliquée, voir [1], même si paradoxalement on
n  (r  1)
(r )
obtient facilement E ( Yn ) =
alors que le calcul de E ( Ln ) semble plus difficile (a priori on a
2 r 1
seulement : E ( Ln )   PLn  k    p
k 1
k 1
(k )
n

e

n
2k
…).
kIN
Anecdotiquement, c'est en comparant les lois de Ln et
de Y , car les deux donnent graphiquement, lorsqu’on
représente graphiquement toutes les suites numériques
( P Ln  k ) n et ( P Yn( r )  k  ) n , voir ci-contre un
dessin avec r  6 , la même impression d’une
successions de vagues, voir l'article « Différencier une
suite aléatoire d'une autre qui ne l'est pas9 », lisible sur
[1] et, dans une version courte, dans le bulletin 481 de
l'APMEP (Mars-Avril 2009), que j'ai rencontré les
résultats énoncés dans ce texte.
P (Y_n = k) si k < 8
(r )
n
Longueurs des intervalles (en
n ) sur lesquels ( P (Yn( 6)  k ) ) est
maximum :
0,25
0,2
k=0
P ( Y_n = k )
k=1
0,15
k=2
k=3
k=4
k=5
0,1
k=6
k=7
0,05
0
0
1 2
3
4
5
6
Longueur 110 9 29 31 31 31 32
Après une phase d’initialisation, la longueur est toujours
10
0
10
9
11
8
12
7
13
6
14
5
15
4
16
3
17
2
18
1
19
0
19
9
20
8
21
7
k
n
approximativement 32  2 . Ces vagues-là sont régulières.
5
6 ) Je n’ai pas trouvé de trace de ces résultats sur Internet ou ailleurs, « probablement » parce que leur
énoncé est très simple (au sens où ils ne mettent en jeu que des notions très simples) et date déjà,
cependant que les conséquences énoncées à la note 7 sont vraiment anecdotiques, ou parce que ces
résultats figurent dans des revues payantes (en $). En revanche un problème proche a donné lieu assez
récemment à des publications : il s’agit de la variable aléatoire : longueur de « la » plus longue suite de
7
On peut par exemple parier sur la longueur de la plus longue succession de naissances de filles ou de garçons au sein d’une
famille un peu nombreuse ou, les résultats évoqués ci-dessus étant plus impressionnants si n est grand, au sein de la population
de la planète; un autre pari amusant peut être fait lors d’une élection très disputée à deux candidats : parier sur la longueur de la
plus longue succession de votes, annoncés pour X ou Y lors du dépouillement dans un bureau de vote, ou bien effectifs au cours
de la journée (avec quelques précautions oratoires relatives à la quasi- indépendance des événements)…
8
On trouve plusieurs définitions dans la littérature, longueur r ou au moins r , suites disjointes ou non, séparées par une
(r )
alternance ou non; par exemple dans 011110, combien voit on de suites de longueur 2 ? Dans ce paragraphe, Yn
( 2)
de suites distinctes de longueur exactement r , c'est-à-dire qu’avec cet exemple, Y6
définition pour la variable
est le nombre
 3 . Par contre, il y a bien sûr une seule
Ln .
9
Intéressante activité praticable au lycée ou au delà : chaque élève écrit sur une feuille une liste aléatoire (ou pseudo-aléatoire)
de cinquante 0 ou 1 et une autre telle liste qu'il a inventée, en commençant par celle qu’il veut. On ramasse puis redistribue
aléatoirement (ou presque !) les feuilles. Chaque élève doit alors essayer de retrouver quelle est la liste inventée...
1
2
« pile » consécutifs (longest success run) obtenue à l’issue du n ième lancer d’une pièce. Désignons par Ln'
cette variable aléatoire.
Il ne semble pas facile de ramener une de ces questions à l’autre : à cause des listes contenant k succès et
k échecs, P Ln  k  vaut un peu moins du double de P Ln'  k  ; avec une formule simplette comme
1
P Ln'  k   . PY ( k )  1 Ln  k  , on ne va pas loin. On trouve beaucoup plus de références sur Ln' que
2 n
sur Ln , certainement parce que l’étude de Ln' est une question beaucoup plus difficile : en examinant la
1
preuve de la formule de récurrence ( R ) : p n( k )  p n( k1)  k 1  p n( k) k  qui a été la clef de tout ce qui
2
précède, on voit qu’il semble assez vain d’obtenir une formule de ce type permettant d’étudier Ln' .
On peut cependant lire en [3] une formule exacte de la loi de Ln' , dans le cas général où la pièce n’est pas
nécessairement équilibrée (cas difficile, on n'a plus d'équivalent de ( R ), et pas envisagé dans ce qui
précède). Cette formule repose sur des dénombrements assez virtuoses.
On peut aussi lire en [4] une formule asymptotique de la loi de Ln' , dans le cas où la pièce est équilibrée. Le
problème des « longest success runs » y est traité par des méthodes de « séries génératrices » : voir à la


page 308 la proposition V.1 qui donne la formule asymptotique (pour n grand) : P Ln'  k  e

n
2 k 1
. La
ressemblance avec la formule prouvée dans ce texte est frappante, elle indique que P L  k  
P Ln  k  1 , mais les cadres sont différents, formule vraie pour tout k et asymptotique (pour n grand)
'
n
dans le cas de [4] et vraie pour tous n et k , mais intéressante seulement si n  2 k , dans le cas du présent
texte, cependant qu’il ne semble pas facile de passer de l’un à l’autre. Voir aussi les dessins de la page
311 : les auteurs ne s’étonnent pas des probabilités proches de 0,25 qui sont obtenues, ce qui donne à
penser que les résultats donnés dans le présent texte sont prouvés depuis longtemps et ne disent pas grandchose sur la difficile loi de Ln' .
Par ailleurs, comme on l’a dit au début de la preuve ci-dessus, la formule exacte de la loi de Ln , provenant
(k )
de la formule ( R ) définissant p n , semble inutilisable. La comparaison des formules donnant les lois de
Ln et de Ln' est étonnante car malgré la relative rareté des événements du type Ln  k   {il existe une
suite contenant k succès et k échecs}, qui sont les seuls qui différencient Ln et Ln' , ces formules ont des
expressions très différentes.
Références
[1] Site du lycée Pardailhan à Auch (32) http://pardailhan.entmip.fr/
Papiers de J F Kentzel. Cliquer sur / Rubriques des disciplines / Mathématiques / Documents pour les
enseignants
[2] Site de Jean-Paul Quelen (Strasbourg)
On y trouve, entre dix mille autres choses, des simulations de Ln , y compris pour des très grandes valeurs
de n , et une preuve détaillée de la formule ( R ). http://pagesperso-orange.fr/jpq/proba/pfmax/index.htm
[3] « Simple expressions for success run distributions in Bernoulli trials » de Marco Muselli (Gênes –
1996)
http://www.ieiit.cnr.it/~muselli/papers/spl96.pdf C’est un petit papier de quelques pages.
[4] « Analytic combinatorics » de Philippe Flajolet (INRIA) and Robert Sedgewick (Princeton) - 2008
disponible sur la page web http://algo.inria.fr/flajolet/Publications/publist.html . C’est un cours
monumental de 800 pages !
ANNEXE :
1
3
Remarque 1: Une idée semblant naturelle, consistant à penser qu’on va obtenir une bonne minoration de
 k , a sur un intervalle en résolvant, comme précédemment dans le cas a = 0, l’équation

k,a
( n)  
k 1 , a
n
e
2
k  a 1
e
X X
(n) est en fait impraticable. Cette équation s’écrit :
n
2k
n
e
2a  2 1
2
k a2
e
 1 X
n
2k 1
n
, c'est-à-dire, en posant
X  e2
k a2
et en divisant par X :
2a 1 1
.
Pour a = 0, cette équation est X  X  1  X , c'est-à-dire ( X  1) ( X 2  X  1)  0 , elle a été résolue
pour trouver les abscisses des « pieds des arches » mais pour a  0 elle semble insoluble.
Remarque 2 : cependant, si on ne divise pas par X , la dernière équation s’écrit aussi
3
2 a 2
2 a1
X X
 X  X , soit
2 a1
2 a1
2 a1
( X  X ).( X  X )  X  X
2
X
2 a1
 X 1  0
dont la solution intéressante est donnée
par
. Pour a  1 , cette équation s’écrit X  X  1  0 qui est résoluble
par la méthode de Ferrari ( bien exposée par exemple à la page 446 de l’édition de 1990 du tome 1 du
cours de mathématiques de J. M. Arnaudiès et H. Fraysse aux éditions Dunod-Université) : la solution

1 
y2
 où y  1  3 27  3 849  3 27  3 849  .
réelle positive est donnée par   . y  4

1

y


3  2 2
2 2
2
4



  0,72449 .
n
X  e2

k,a

k 1 , a
k a2
( n)  

k 1 , a
( n)  
k ,a
4
donne alors n  8. Ln( ) . 2 qui est la solution (non entière) de l’équation
k
k
(n) , c'est-à-dire n  4. Ln( ) . 2 pour solution (non entière) de l’équation
( n) .
 4. Ln( )  1,289 cependant qu’on a pris ci-dessus 1,283 pour valeur approchée de  1 .
1
4
Téléchargement