1
Une étude de
)(r
n
L
, la longueur de la plus longue suite de succès
obtenue au moins r fois en n épreuves de Bernoulli jkentz[email protected]
Notations : On considère
n
)1( n
épreuves successives de Bernoulli.
On désigne par
p
)10( p
la probabilité d’un succès. Soit
r
un entier,
nr 1
.
est la variable aléatoire : longueur maximum (d’une suite de succès) obtenue au moins
r
fois,
chacune des
r
suites étant séparée des autres par (au moins) un échec si
1r
.
Exemple avec
20n
: 1111 0 111 0 11 0 1111 0 111 (suite plausible si
p
est assez grand) :
4
)2(
20
)1(
20 LL
,
3
)4(
20
)3(
20 LL
,
2
)5(
20 L
,
0
)(
20
r
L
si
5r
.
La variable aléatoire
)1(
n
L
est bien connue sous le nom de « longest head run ».
1 ) ETUDE D’UNE VARIABLE ALÉATOIRE AUXILIAIRE
Notations : Pour
nk 1
, une
k
-suite est une suite de
k
succès consécutifs.
)(k
n
D
kn
D,
est la variable aléatoire : nombre de
k
-suites, disjointes, et séparées (s’il y en a plusieurs)
par (au moins) un échec, obtenues. Exemple avec la suite considérée ci-dessus :
5
)2(
20
)1(
20 DD
,
4
)3(
20 D
,
2
)4(
20 D
,
0
)(
20
k
D
si
205k
.
Avec
 
rD k
n
)(
=
 
kL r
n
)(
on obtient : si
1k
,
 
kLP r
n)(
)( )( rDP k
n
)( )1( rDP k
n
, (1)
ce qui équivaut à
 
kLP r
n
)(
)( )1( rDP k
n
)( )( rDP k
n
. (1’)
Le calcul de
 
kLP r
n
)(
est ainsi parfaitement connu pour les petites valeurs de
n
et de
k
car on a des
formules de récurrence sur
n
et
r
donnant
)( )( rDP k
n
)( rDP n
pour tout
1r
:
)( rDP n
=
)( 1rDP n
+ [
)1( 1
rDP kn
)( 1rDP kn
] .
 
k
pp1
.
(on peut noter que les résultats au rang
r
nécessitent ceux au rang
1r
.)
2 ) APPROXIMATIONS
On peut prouver par la méthode dite de Stein-Chen [Biblio2] que si
p
est assez petite et si
n
et
k
, surtout
n
, sont assez grands,
)(k
n
D
suit (approximativement) une loi de Poisson de paramètre
 
pnpk1
.
!
)( )( r
X
erDP r
Xk
n
avec
 
pnpXk1
, d’où, avec (1) :
 
kLP r
n
)(
 
1
0!!
r
s
X
s
pX
se
s
X
e
s
pX
1
0)(
!
r
s
XpXs
seep
s
X
. (2)
On désigne par
pr
f,
f
l’application définie par
 
1
0)(
!
r
s
XpXs
seep
s
X
Xf
.
 
 
 
pnpfkLP kr
n1
)(
.
Avec le logiciel Javascool on trace quelques courbes pour
p
= 0,4.
On verra que si on prend
p
plus petit, on a de plus grandes probabilités mais dans ce cas les approximations
exponentielles sont cachées par les courbes exactes ! En effet, avec l’approximation (2) on a une erreur
majorée par
 
45 kpk
, quantité qui ne tend que lentement vers 0 quand
n
, « donc
k
» si on s’intéresse
2
essentiellement au mode de
, tend vers l’infini (cependant qu’on dispose de formules exactes pouvant
être utilisées informatiquement pour les petites valeurs de
n
et
k
) mais l’erreur effective dans (2) est en fait
plus petite que ce majorant (d’autant plus petite que
n
et
k
sont grands et
p
est petite) .
Figure 1
3 ) LES PLUS GRANDES PROBABILITES OBTENUES
L’expression de
 
Xf '
est miraculeusement simple :
 
Xf '
 
 
XpXr
reep
r
X
!1
1
.
L’extrémum de
f
est atteint pour la valeur
p
p
Ln
zr
1
1
.
On pose
 
zfM rp
;
.
Ce nombre
rp
M;
est explicité ci-dessous.
Figure 2
Pour tout
r
entier,
nr 1
, on désigne par
 
   
nn k
r
k
l’approximation (2) de
 
klP r
n
)(
:
Si
1k
,
   
 
   
1
0
11 )(
!
11
r
s
ppnppns
s
k
k
kk eep
spnp
n
.
Puisque
 
pnpXk1
, lorsqu’on prend le nombre d’épreuves
n
pour variable, l’extrémum de
 
n
k
est
atteint lorsque
 
zpnpk1
, soit
2
)1(
1
pp
p
Ln
nk
r
. On désigne ce nombre par
k
z
:
)1( pp z
zk
k
.
3
Puisque
 
 
pnpfn k
k1
,
 
zfzkk
rp
M;
1
0
11
1)(
!
1
r
s
p
r
p
pr
s
s
p
r
ppp
s
p
Ln
.
Ce maximum
rp
M;
est indépendant de
k
.
Figure 3
Pour tout
k
assez grand,
 
)( )( kLP
INn
Max r
n
est très proche de
 
rpkk Mz ;
et est donc quasiment
indépendant de
k
.
rp
M;
est une fonction de
p
qu’on représente graphiquement pour
r
entre 1 et 10 :
Max (sur n) des P (l_n^(r) = k ) en fonction de p
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
0,01
0,06
0,11
0,16
0,21
0,26
0,31
0,36
0,41
0,46
0,51
0,56
0,61
0,66
0,71
0,76
0,81
0,86
0,91
0,96
p
r = 1
r = 2
r = 3
r = 9
r = 10
Figure 4
4 ) UNE MINORATION (uniforme sur n) DE LA PROBABILITÉ DU MODE DE
 
r
n
L
L’équation
 
pxfxf
a une unique solution non nulle.
On la désigne par
yyy rrp
;
.
On désigne par
rp
m;
le nombre
)( ;; rprp yfm
.
Ce nombre
rp
m;
est évidemment indépendant de
k
.
Figure 5
4
On rappelle que
 
 
 
npnpfk
k
1
, c'est-à-dire que les courbes des
k
sont les images de celle de
f
par des affinités (des « étirements vers la droite », d’autant plus marqués que
k
est grand).
L’équation d’inconnue
n
,
)()( 1nn kk
, équivaut à
 
pXfXf
en posant
 
pnpXk1
.
)1( pp y
k
est donc la seule solution, non entière, autre que 0 de cette équation
)()( 1nn kk
.
On la désigne par
11; kkr xx
:
)1(
1pp y
xk
k
.
Figure 6
Pour tout
k
,
 
kk x
)( ;rp
yf
rp
m;
est une bonne approximation d’un minorant de
 
)( )( kLP
INk
Max r
n
.
On peut noter que si
n
est un entier dépassant
1
x
, le nombre entier
 
nkr
 
nk
, mode de
, est obtenu
en résolvant :
   
1
nknk xnx
. On obtient :
 
nkk r
est la partie entière de
 
1
1
1
p
Ln
ypn
Ln
.
Résoudre l’équation
 
pxfxf
n’est
facile que dans de rares cas particuliers.
On a par exemple
236,025
1;
2
1m
.
On représente ci-contre les nombres
pp mm
1;
,
2;p
m
et
3;p
m
en fonction de
p
.
Figure 7
5 ) UNE SIMPLIFICATION POUR LES GRANDES VALEURS DE n
5
 
kLP r
n
)(
, qui dépend a priori des variables
n
et
k
, est en fait, approximativement, une fonction de la
variable
k
pn
, précisément : si
N
et
K
sont des entiers vérifiant
K
pN
k
pn
(3)
alors
 
KLP r
N)(
 
kLP r
n
)(
,
l’erreur étant majorée par
 
45 kpk
 
45 KpK
. (4)
On peut ainsi lire sur un graphique n’importe quelle valeur approchée de
 
kLP r
n
)(
en remplaçant
n
et
k
par
N
et
K
plus petits vérifiant (3) [ mais pas trop petits à cause de (4)].
6 ) UNE REPRESENTATION GRAPHIQUE PARLANTE
On considère l’exemple
1,0p
,
2k
,
3r
et
2000n
.
On utilise (1) :
 
kLP r
n)(
)( )( rDP k
n
)( )1( rDP k
n
et (2) :
!
)( )( r
erDP r
k
n
.
Sur le dessin ci-dessous,
 
kLP r
n
)(
est la différence entre l’aire hachurée et l’aire ombrée.
Figure 8
En 2000 épreuves on a environ (en moyenne) 18 fois l’observation de 011 et environ 1,8 fois celle de 0111.
Il est donc naturel de penser que si on prend un nombre entier
r
entre 2 et 18, mais pas trop proche de 2 ni
de 18, il est probable qu’on aura :
au moins
r
fois l’observation de 011 mais moins de
r
fois l’observation de 0111.
Dès lors parier que
rD
)2(
2000
est un bon pari alors que parier que
rD
)3(
2000
n’en est pas un...
Ce dessin montre qu’on obtient bien des probabilités étonnamment grandes, par exemple ici le record
local est
 
996,02
)(
r
n
LP
si
r
vaut 7 ou 8!, d’autant plus que
p
est petite (plus
p
est petite, plus la
« distance » entre les deux histogrammes ci-dessus augmente).
Bibliographie
[Biblio1] “An extreme value theory for long head runs”
L Gordon, M F Schilling et M S Waterman (Californie) - Probability theory -1986
On y trouve, entre autres, une heuristique conduisant à la deuxième approximation de
)(k
n
D
sans évoquer la méthode de Stein-Chen.
http://www.cmb.usc.edu/papers/msw_papers/msw-070.pdf ) :
[Biblio2] « Two moments suffice for Poisson approximations : the Chen-Stein method » R Arratia, L Goldstein et L Gordon-1989 (voir les
pages 20 et 21) http://projecteuclid.org/DPubS/Repository/1.0/Disseminate?view=body&id=pdf_1&handle=euclid.aop/1176991491)
1 / 5 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!