grandes deviations

publicité
Grandes déviations
I. Introduction
D'après la loi des grands nombres, on sait qu'avec une pièce équilibrée, la probabilité d'avoir 50%
de piles tend vers 1 quand le nombre de lancers augmente. De ce fait, on peut en déduire que la
probabilité d'avoir un autre pourcentage de pile diminue au fur et à mesure que le nombre de lancers
est grand. L'objet de ce paragraphe est donc d'étudier la vitesse à laquelle la probabilité d'avoir un
certain ratio de pile s'éloigne de la probabilité d'avoir 50% de pile.
II. Fonction de taux
1. A l'aide de la formule de Stirling
On sait que la somme de variables aléatoires réelles indépendantes suivant une loi de Bernoulli suit
une loi Binomiale. C'est à dire que :
n
∀i = 1,..., n, X i ∼ B ( p ) ⇒ ∑ X i ∼ B (n, p ).
i =1
On a donc :
n
P (∑ X i = k ) = Cnk p k (1 − p ) n −k =
i =1
positif.
n!
p k (1 − p ) n − k où k est un entier
k !( n − k ) !
On s'intéresse maintenant à la probabilité que la moyenne empirique des Xi soit égale à un
certain taux y ∈ [0,1]. Pour cela on étudie la probabilité que la somme des Xi soit égale à la partie
entière de ny, notée [ny]n :
n!
ny
ny
P (∑ X i = [ ny ]) =
p[ ] (1 − p )n −[ ]
[ ny ]!( n − [ ny ])!
i =1
Or la formule de Stirling nous apprend que n !∼ 2π n ( n / e ) . En faisant tendre n vers
∞
l'infini dans l'égalité précédente, on peut remplacer n! par son équivalent. On obtient donc :
n
n
P (∑ X i = [ ny ]) ∼
i =1
∞
[ny ]
2π ny ( ny / e )
2π n ( n / e )
n
2π (n − ny ) ( (n − ny ) / e )
n −[ ny ]
p[ ] (1 − p )
ny
n −[ ny ]
( n / e)
1
∼
p[ny ] (1 − p )n −[ ny ]
ny
n
−
ny
[
]
[
]
∞
2π ny (1 − y ) ( ny / e ) ( n(1 − y ) / e )
n
( n / e)
1
ny
n − ny
∼
p[ ] (1 − p ) [ ]
[ ny ]
[ ny ]
n
−
ny
[
]
∞
2π ny (1 − y ) y ( n / e ) (1 − y) n −[ny ] ( n / e )
n
n −[ ny ]− n +[ ny ]
(n / e)
1
∼
p[ ny ] (1 − p )n −[ ny ]
ny
n
ny
−
[
]
[
]
∞
2π ny (1 − y ) y (1 − y )
   p [ ny ]  1 − p n −[ ny ]  
1

∼
exp  ln    

∞

  y   1− y 
2π ny (1 − y )

 

 p
 1− p  
1
∼
exp  ny ln   + n(1 − y ) ln 

∞
2π ny (1 − y )
 y
 1− y  

1
∼
exp(n ( y ln( p ) − y ln( y ) + (1 − y ) ln(1 − p ) − (1 − y ) ln(1 − y ))
∞
2π ny (1 − y )
−1 ln(n) 1
∼ exp(n(
− ln(2π y (1 − y )) + y ln( p ) − y ln( y ) + (1 − y ) ln(1 − p ) − (1 − y ) ln(1 − y ))
∞
2 n
2n
On pose alors H ( y, p ) = −( y ln( p ) − y ln( y ) + (1 − y ) ln(1 − p ) − (1 − y ) ln(1 − y )) que l'on appelle
fonction de taux. Cette fonction prédomine à l'infini dans l'approximation ci-dessus. On montre
facilement que cette fonction est positive ∀y, p ∈ [ 0,1] . En effet, en dérivant par rapport à y :
 p
 1− p 
H '( y, p ) = − ln   + ln 
 s'annule en y=p.
 y
 1− y 
1
1
H ''( y, p ) = +
≥ 0.
y 1− y
Il s'agit donc d'une fonction convexe, dont le minimum, atteint en y=p vaut 0.
Cette fonction quantifie donc la vitesse à laquelle la probabilité que la moyenne empirique des Xi
soit égale à un certain taux y, décroît. Concrètement, par exemple dans le cas d'une pièce équilibrée,
p=1/2, on a alors :
H ( y,1/ 2) = ln(2) + y ln( y ) + (1 − y ) ln(1 − y ))
.
H ( y ,1 / 2)
H ( y,1/ 2) = ln(2) + y ln( y ) + (1 − y ) ln(1 − y ))
y
On retrouve cette fonction dans le théorème des grandes déviations.
2. A l'aide du corollaire de Markov
Théorème : des grandes déviations.
n
Soit X i , i ∈ [ 0, n ] , indépendants, suivant une Bernoulli de paramètre p. Soit X = ∑ X i ∼ B (n, p ).
i =1
X

Alors ∀y ∈ [ 0,1] , P  ≥ y  ≤ exp(−nH ( y, p)), avec H ( y, p) = −( y ln( p) − y ln( y) + (1 − y ) ln(1 − p) − (1 − y ) ln(1 − y )).
n

On va démontrer ce résultat à l'aide du corollaire de Markov.
Corollaire de Markov :
Soit ϕ une fonction croissante et positive ou nulle sur l'intervalle I. Soit Y une variable aléatoire
, P), et telle que P(Y ∈ I)=1. Alors :
E [φ (Y) ]
∀b ∈ I , tel que φ (b)>0, P (Y ≥ b) ≤
.
φ (b)
réelle définie sur un espace probabilisé (Ω,
Preuve :
Il suffit d'appliquer l'inégalité de Markov en posant Z= ϕ(Y) et a= ϕ(b). On obtient alors :
E [φ (Y)]
∀b > 0, P(φ (Y) ≥ φ (b)) ≤
.
φ (b)
Or ϕ est croissante donc :
E [φ (Y) ]
P (Y ≥ b) ≤ P(φ (Y) ≥ φ (b)) ≤
.
φ (b)
n
On pose X = ∑ X i et comme dans la première méthode, on a : P(X/n ≥ y)=P(X ≥ ny).
i =1
En passant à l'exponentielle, on obtient : ∀t > 0, P ( X ≥ ny ) = P (etX ≥ etny ). On applique alors le
corollaire de Markov :
E etX 
tX
tny
P (e ≥ e ) ≤
etyn
n
E etX1 
≤
car les X i sont i.i.d.
etyn
(L X1 (t ))n
≤
où L X1 est la transformée de Laplace de X1
etyn
exp(ln(L X1 (t )))n
≤
etyn
exp(l X1 (t )))n
≤
où l X1 (t ) = ln(L X1 (t ))
etyn
≤ exp(n(l X1 (t ) − yt )
(
)
≤ inf (exp(n(l X1 (t ) − yt )) car vrai ∀t > 0
t >0
≤ exp(n(inf (l X1 (t ) − yt ))).
t >0
On a L X1 (t ) = 1 − p + pet d'où l X1 (t ) = ln(1 − p + pet ).
 y (1 − p ) 
Or la bonne inférieure de l X1 (t ) − yt est atteinte en t=ln 
 pour t>0, c'est à dire y>p. Elle
p
(1
−
y
)


vaut donc :
y ln( p ) − y ln( y ) + (1 − y ) ln(1 − p ) − (1 − y ) ln(1 − y )
On a donc bien prouvé le théorème ci-dessus. De plus, on retrouve la fonction de taux définie en 1)
à la différence qu'il s'agit ici d'une inégalité et non une approximation à l'infini. De plus, on a
calculé en 1) la probabilité d'être égal à un taux, et en 2) d'être supérieur ou égal à ce taux.
3. Application du théorème des grandes déviations
On se propose d'appliquer les résultats démontrés précédemment, afin d'étudier la vitesse à laquelle
la moyenne empirique des Xi s'éloigne de ½. Pour cela on peut regarder par exemple P(X/n > x+p),
où X/n est la moyenne empirique des Xi, p la probabilité associée et x un réel appartenant à ]0,1-p].
D'après la partie 2), on obtient simplement que :
X
P ( ≥ x + p) ≤ exp(n(( x + p ) ln( p ) − ( x + p ) ln( x + p ) + (1 − ( x + p )) ln(1 − p ) − (1 − ( x + p )) ln(1 − ( x + p ))).
n
Ce qui donne graphiquement pour p=1/2 et n=100 :
De la même manière on s’intéresse, à P(X/n < p-x). Pour cela il faut reprendre depuis le début. Sous
les mêmes hypothèse on a :
∀t < 0, P ( X ≤ ny ) = P ( − X ≤ −ny ) = P (e −tX ≥ e −tny ).
P (e
− tX
≥e
− tny
)≤
E e −tX 
e −tyn
( E e
≤
≤
− tX 1

)
e −tyn
(L X1 (−t )) n
n
car les X i sont i.i.d.
où L X1 est la transformée de Laplace de X1
e−tyn
exp(l X1 (−t )))n
≤
où l X1 (−t ) = ln(L X1 (−t ))
e −tyn
≤ exp(n(inf (l X1 (−t ) + yt ))) car vrai ∀t < 0.
t <0
−t
On a l X1 (−t ) = ln(1 − p + pe ).
 p (1 − y ) 
La borne inférieure de l X1 (−t ) + yt est atteinte en t=ln 
 pour t<0 c'est à dire y<p et vaut
 y (1 − p ) 
donc :
y ln( p ) − y ln( y ) + (1 − y ) ln(1 − p ) − (1 − y ) ln(1 − y )
On a donc simplement dans cette application, pour x ∈ [p-1,0] :
X
P ( ≤ p − x ) ≤ exp( n(( p − x ) ln( p ) − ( p − x ) ln( p − x ) + (1 − ( p − x )) ln(1 − p ) − (1 − ( p − x )) ln(1 − ( p − x ))).
n
Ce qui donne graphiquement :
Téléchargement