Grandes déviations I. Introduction D'après la loi des grands nombres, on sait qu'avec une pièce équilibrée, la probabilité d'avoir 50% de piles tend vers 1 quand le nombre de lancers augmente. De ce fait, on peut en déduire que la probabilité d'avoir un autre pourcentage de pile diminue au fur et à mesure que le nombre de lancers est grand. L'objet de ce paragraphe est donc d'étudier la vitesse à laquelle la probabilité d'avoir un certain ratio de pile s'éloigne de la probabilité d'avoir 50% de pile. II. Fonction de taux 1. A l'aide de la formule de Stirling On sait que la somme de variables aléatoires réelles indépendantes suivant une loi de Bernoulli suit une loi Binomiale. C'est à dire que : n ∀i = 1,..., n, X i ∼ B ( p ) ⇒ ∑ X i ∼ B (n, p ). i =1 On a donc : n P (∑ X i = k ) = Cnk p k (1 − p ) n −k = i =1 positif. n! p k (1 − p ) n − k où k est un entier k !( n − k ) ! On s'intéresse maintenant à la probabilité que la moyenne empirique des Xi soit égale à un certain taux y ∈ [0,1]. Pour cela on étudie la probabilité que la somme des Xi soit égale à la partie entière de ny, notée [ny]n : n! ny ny P (∑ X i = [ ny ]) = p[ ] (1 − p )n −[ ] [ ny ]!( n − [ ny ])! i =1 Or la formule de Stirling nous apprend que n !∼ 2π n ( n / e ) . En faisant tendre n vers ∞ l'infini dans l'égalité précédente, on peut remplacer n! par son équivalent. On obtient donc : n n P (∑ X i = [ ny ]) ∼ i =1 ∞ [ny ] 2π ny ( ny / e ) 2π n ( n / e ) n 2π (n − ny ) ( (n − ny ) / e ) n −[ ny ] p[ ] (1 − p ) ny n −[ ny ] ( n / e) 1 ∼ p[ny ] (1 − p )n −[ ny ] ny n − ny [ ] [ ] ∞ 2π ny (1 − y ) ( ny / e ) ( n(1 − y ) / e ) n ( n / e) 1 ny n − ny ∼ p[ ] (1 − p ) [ ] [ ny ] [ ny ] n − ny [ ] ∞ 2π ny (1 − y ) y ( n / e ) (1 − y) n −[ny ] ( n / e ) n n −[ ny ]− n +[ ny ] (n / e) 1 ∼ p[ ny ] (1 − p )n −[ ny ] ny n ny − [ ] [ ] ∞ 2π ny (1 − y ) y (1 − y ) p [ ny ] 1 − p n −[ ny ] 1 ∼ exp ln ∞ y 1− y 2π ny (1 − y ) p 1− p 1 ∼ exp ny ln + n(1 − y ) ln ∞ 2π ny (1 − y ) y 1− y 1 ∼ exp(n ( y ln( p ) − y ln( y ) + (1 − y ) ln(1 − p ) − (1 − y ) ln(1 − y )) ∞ 2π ny (1 − y ) −1 ln(n) 1 ∼ exp(n( − ln(2π y (1 − y )) + y ln( p ) − y ln( y ) + (1 − y ) ln(1 − p ) − (1 − y ) ln(1 − y )) ∞ 2 n 2n On pose alors H ( y, p ) = −( y ln( p ) − y ln( y ) + (1 − y ) ln(1 − p ) − (1 − y ) ln(1 − y )) que l'on appelle fonction de taux. Cette fonction prédomine à l'infini dans l'approximation ci-dessus. On montre facilement que cette fonction est positive ∀y, p ∈ [ 0,1] . En effet, en dérivant par rapport à y : p 1− p H '( y, p ) = − ln + ln s'annule en y=p. y 1− y 1 1 H ''( y, p ) = + ≥ 0. y 1− y Il s'agit donc d'une fonction convexe, dont le minimum, atteint en y=p vaut 0. Cette fonction quantifie donc la vitesse à laquelle la probabilité que la moyenne empirique des Xi soit égale à un certain taux y, décroît. Concrètement, par exemple dans le cas d'une pièce équilibrée, p=1/2, on a alors : H ( y,1/ 2) = ln(2) + y ln( y ) + (1 − y ) ln(1 − y )) . H ( y ,1 / 2) H ( y,1/ 2) = ln(2) + y ln( y ) + (1 − y ) ln(1 − y )) y On retrouve cette fonction dans le théorème des grandes déviations. 2. A l'aide du corollaire de Markov Théorème : des grandes déviations. n Soit X i , i ∈ [ 0, n ] , indépendants, suivant une Bernoulli de paramètre p. Soit X = ∑ X i ∼ B (n, p ). i =1 X Alors ∀y ∈ [ 0,1] , P ≥ y ≤ exp(−nH ( y, p)), avec H ( y, p) = −( y ln( p) − y ln( y) + (1 − y ) ln(1 − p) − (1 − y ) ln(1 − y )). n On va démontrer ce résultat à l'aide du corollaire de Markov. Corollaire de Markov : Soit ϕ une fonction croissante et positive ou nulle sur l'intervalle I. Soit Y une variable aléatoire , P), et telle que P(Y ∈ I)=1. Alors : E [φ (Y) ] ∀b ∈ I , tel que φ (b)>0, P (Y ≥ b) ≤ . φ (b) réelle définie sur un espace probabilisé (Ω, Preuve : Il suffit d'appliquer l'inégalité de Markov en posant Z= ϕ(Y) et a= ϕ(b). On obtient alors : E [φ (Y)] ∀b > 0, P(φ (Y) ≥ φ (b)) ≤ . φ (b) Or ϕ est croissante donc : E [φ (Y) ] P (Y ≥ b) ≤ P(φ (Y) ≥ φ (b)) ≤ . φ (b) n On pose X = ∑ X i et comme dans la première méthode, on a : P(X/n ≥ y)=P(X ≥ ny). i =1 En passant à l'exponentielle, on obtient : ∀t > 0, P ( X ≥ ny ) = P (etX ≥ etny ). On applique alors le corollaire de Markov : E etX tX tny P (e ≥ e ) ≤ etyn n E etX1 ≤ car les X i sont i.i.d. etyn (L X1 (t ))n ≤ où L X1 est la transformée de Laplace de X1 etyn exp(ln(L X1 (t )))n ≤ etyn exp(l X1 (t )))n ≤ où l X1 (t ) = ln(L X1 (t )) etyn ≤ exp(n(l X1 (t ) − yt ) ( ) ≤ inf (exp(n(l X1 (t ) − yt )) car vrai ∀t > 0 t >0 ≤ exp(n(inf (l X1 (t ) − yt ))). t >0 On a L X1 (t ) = 1 − p + pet d'où l X1 (t ) = ln(1 − p + pet ). y (1 − p ) Or la bonne inférieure de l X1 (t ) − yt est atteinte en t=ln pour t>0, c'est à dire y>p. Elle p (1 − y ) vaut donc : y ln( p ) − y ln( y ) + (1 − y ) ln(1 − p ) − (1 − y ) ln(1 − y ) On a donc bien prouvé le théorème ci-dessus. De plus, on retrouve la fonction de taux définie en 1) à la différence qu'il s'agit ici d'une inégalité et non une approximation à l'infini. De plus, on a calculé en 1) la probabilité d'être égal à un taux, et en 2) d'être supérieur ou égal à ce taux. 3. Application du théorème des grandes déviations On se propose d'appliquer les résultats démontrés précédemment, afin d'étudier la vitesse à laquelle la moyenne empirique des Xi s'éloigne de ½. Pour cela on peut regarder par exemple P(X/n > x+p), où X/n est la moyenne empirique des Xi, p la probabilité associée et x un réel appartenant à ]0,1-p]. D'après la partie 2), on obtient simplement que : X P ( ≥ x + p) ≤ exp(n(( x + p ) ln( p ) − ( x + p ) ln( x + p ) + (1 − ( x + p )) ln(1 − p ) − (1 − ( x + p )) ln(1 − ( x + p ))). n Ce qui donne graphiquement pour p=1/2 et n=100 : De la même manière on s’intéresse, à P(X/n < p-x). Pour cela il faut reprendre depuis le début. Sous les mêmes hypothèse on a : ∀t < 0, P ( X ≤ ny ) = P ( − X ≤ −ny ) = P (e −tX ≥ e −tny ). P (e − tX ≥e − tny )≤ E e −tX e −tyn ( E e ≤ ≤ − tX 1 ) e −tyn (L X1 (−t )) n n car les X i sont i.i.d. où L X1 est la transformée de Laplace de X1 e−tyn exp(l X1 (−t )))n ≤ où l X1 (−t ) = ln(L X1 (−t )) e −tyn ≤ exp(n(inf (l X1 (−t ) + yt ))) car vrai ∀t < 0. t <0 −t On a l X1 (−t ) = ln(1 − p + pe ). p (1 − y ) La borne inférieure de l X1 (−t ) + yt est atteinte en t=ln pour t<0 c'est à dire y<p et vaut y (1 − p ) donc : y ln( p ) − y ln( y ) + (1 − y ) ln(1 − p ) − (1 − y ) ln(1 − y ) On a donc simplement dans cette application, pour x ∈ [p-1,0] : X P ( ≤ p − x ) ≤ exp( n(( p − x ) ln( p ) − ( p − x ) ln( p − x ) + (1 − ( p − x )) ln(1 − p ) − (1 − ( p − x )) ln(1 − ( p − x ))). n Ce qui donne graphiquement :