Chapitre 8 Convergence en loi et théorème limite central Toutes les variables aléatoires de ce chapitre sont encore définies sur un même espace probabilisé (Ω, A, P). Les résultats du chapitre précédent suggère de répondre à la question : Quelle est la vitesse de convergence de la moyenne empirique vers la moyenne dans la loi des grands nombres ? Le théorème limite central apporte une réponse à cette question. En notant P X̄n = n1 ni=1 Xi la moyenne empirique de n variables aléatoires L2 indépendantes de même loi, on a vu que pour tout α < 12 , nα (X̄n −E(X1 )) admet une variance qui tend vers 0 avec n et √ donc convergence en probabilité vers 0. On va voir que le comportement de n(X̄n −E(X1 )), qui a une variance constante, est bien différent. Pour le caractériser, nous introduisons un nouveau mode de convergence qui ne prendra en compte que la suite des lois successives des Xn . 8.1 Convergence en loi On rappelle que FX désigne la fonction de répartition de la variable aléatoire X et est définie par FX (t) = P(X ≤ t). Définition 8.1.1. Soit (Xn )n≥1 une suite de variables aléatoires. On dit que Xn converge en loi vers une variable aléatoire X si FXn (t) −−−−−→ FX (t) en tout point t où FX est continue. n→+∞ Pourquoi aux points de continuité de FX ? 0 1 Soit Xn tel que P(Xn = 0) = P(Xn = n1 ) = 12 , alors FXn (t) = 2 0 1 si t < 0 si 0 ≤ t < n1 si t ≥ n1 converge si t < 0 si t = 0 qui n’est pas une fonction de répartition. Mais si FX est la fonc 1 si t > 0 tion de répartition de X = 0, on a bien que FXn converge vers FX aux points de continuité de FX , et donc Xn converge en loi vers 0. vers F (t) = 1 2 Remarque 8.1.2. 1. Contrairement aux autres modes de convergence, la convergence en loi ne dépend que des lois PXn des variables Xn et pas de la façon dont les variables sont définies. On notera donc indifféremment, Xn → X en loi, ou PXn → PX , ou carrément Xn → PX en loi. CHAPITRE 8. CONVERGENCE EN LOI ET THÉORÈME LIMITE CENTRAL 2. En particulier, la limite n’est pas unique ! Si Xn → X en loi et si Y a la même loi que X , alors Xn → Y en loi. C’est en revanche la loi de la limite qui est unique. Exemple 8.1.3. 1) Soit Xn ∼ U([0, 1]), n ≥ 1, des variables aléatoires indépendantes. Alors Yn = n min{X1 , . . . , Xn } converge en loi vers une variable aléatoire de loi E(1). En effet, pour tout t > 0 (et n assez grand), FYn (t) = 1 − P(min{X1 , . . . , Xn } > t t t t ) = 1 − P(X1 > ) · · · P(Xn > ) = 1 − (1 − )n n n n n et donc FYn (t) → 1 − e−t . 2) Soit X ∼ B( 21 ) et pour tout n ≥ 0, X2n = X et X2n+1 = 1 − X . Alors pour tout n ≥ 0, Xn ∼ B( 21 ) et donc Xn converge en loi vers X (mais aussi vers 1 − X ). En revanche, pour tout 0 < ε < 1, P(|Xn − X| > ε) = 1 dès que n est impair et donc il n’y a pas convergence en probabilité. Cet exemple montre que la convergence en loi n’entraîne pas la convergence en probabilité. Proposition 8.1.4. La convergence en probabilité entraîne la convergence en loi. Démonstration. Soit (Xn )n≥1 une suite de variables aléatoires de fonctions de répartition Fn et X une variable aléatoire de fonction de répartition F . On suppose que Xn → X en probabilité. Soit t ∈ R un point de continuité de F et ε > 0. Par continuité, il existe η > 0 tel que |x − t| ≤ η implique |F (x) − F (t)| ≤ ε. On montre (exercice) que Xn ≤ t entraîne X ≤ t + η ou Xn − X ≤ −η . On a donc Fn (t) ≤ F (t + η) + P(Xn − X ≤ −η) ≤ F (t) + ε + P(|Xn − X| ≥ η) De même, comme X ≤ t − η et Xn − X < η entraîne Xn ≤ t, on a Fn (t) ≥ F (t − η) − P(Xn − X ≥ η) ≥ F (t) − ε − P(|Xn − X| ≥ η) On en déduit |Fn (t) − F (t)| ≤ ε + P(|Xn − X| ≥ η) − −−−−→ ε. Ceci étant vrai pour tout ε > 0, n→+∞ Fn (t) → F (t). On a vu que la réciproque est fausse en général, mais ... Proposition 8.1.5. Si Xn converge en loi vers une constante c ∈ R, alors Xn converge en probabilité vers c. Démonstration. Soit ε > 0. Comme Xn converge en loi vers c, on a FXn (t) → 1[c,+∞[ (t) pour tout t 6= c. Or, P(|Xn − c| ≥ ε) = P(Xn ≤ c − ε) + P(Xn ≥ c + ε) ε ≤ P(Xn ≤ c − ε) + P(Xn > c + ) 2 ε ≤ FXn (c − ε) + 1 − FXn (c + ). 2 Donc, P(|Xn − c| ≥ ε) → 0 + 1 − 1 = 0 quand n → +∞. En conclusion, on a convergence en probabilité et (*) vraie lorsque la limite est une constante. ⇒ convergence en loi. :∗ 8.2. APPROXIMATIONS DE LOIS 8.2 Approximations de lois Le résultat suivant a déjà été évoqué en introduisant la loi de Poisson. Il justifie le fait que la loi de Poisson est utilisée pour modéliser le nombre d’occurrences d’un évènement rare. Proposition 8.2.1 (Binomiale par Poisson). Soit (Xn )n≥1 une suite de variables aléatoires de loi B(n, pn ), avec n ∈ N et pn ∈ [0, 1]. Si npn → λ > 0 quand n → +∞, alors Xn −−−−−→ P(λ) en loi. n→+∞ k Démonstration. Commençons par montrer que pour tout k ∈ N, P(Xn = k) → e−λ λk! . Pour n assez grand, n k n(n − 1) · · · (n − k + 1) (npn )k P(Xn = k) = pn (1 − pn )n−k = (1 − pn )−k (1 − pn )n k k! nk Or, quand n → +∞, npn → λ, n(n−1)···(n−k+1) nk → 1, pn → 0 et (1 − pn )n = en log(1−pn ) = en(−pn +o(pn )) = e−npn +o(1) → e−λ . On obtient, P(Xn = k) → e−λ λk . k! P(Xn = k) −−−−−→ btc X Maintenant, pour tout t ∈ R, FXn (t) = btc X k=0 n→+∞ e−λ k=0 λk = F (t), k! où F est la fonction de répartition d’une loi P(λ). En pratique ce résultat est utilisé pour remplacer la loi binomiale B(n, p) par une loi de Poisson P(np) lorsque n est grand devant np (par exemple, mais c’est arbitraire, n > 100 et np < 10). On rappelle que si X ∼ B(n, p) alors E(X) = np et V(X) = np(1 − p). La variable Y = √X−np est donc centrée et réduite (i.e. E(Y ) = 0 et V(Y ) = 1). Le résultat suivant np(1−p) est une première approche vers le théorème limite central. Sa démonstration originelle repose sur l’utilisation d’une bonne approximation de n!, comme la formule de Stirling √ n! ∼ 2πn nn e−n . Théorème 8.2.2 (de Moivre-Laplace (1733,1809), Binomiale par Normale). Soit (Xn )n≥1 une suite de variables aléatoires de loi B(n, p), avec n ∈ N et p ∈ [0, 1]. On a X − np p n −−−−−→ N (0, 1) en loi, np(1 − p) n→+∞ où N (0, 1) est la loi normale centrée réduite. C’est-à-dire, que pour tout t ∈ R, P X − np p n ≤t np(1 − p) ! −−−−−→ Φ(t), n→+∞ où Φ est la fonction de répartition de la loi N (0, 1). Applications pratiques. CHAPITRE 8. CONVERGENCE EN LOI ET THÉORÈME LIMITE CENTRAL 1. On reprend un vieil exemple. Un QCM est composé de 100 questions à deux choix (c’est l’exemple 5.3.6). Un candidat répond à chaque question au hasard et de façon indépendante. La loi du nombre de bonnes réponses X est donc une loi B(100, 12 ). Son espérance vaut 50 et sa variance 25. En considérant que n = 100 est grand, le théorème précédent nous dit que X−50 suit approximativement une loi normale 5 N (0, 1). Donc la probabilité d’avoir au moins 61 bonnes réponses, c’est à dire P(X > R +∞ x2 > 2 vaut approximativement √12π 2 e− 2 dx = 1 − Φ(2). En utilisant la table (c.f. section 8.5) on obtient Φ(2) ' 0, 9772 et donc la probabilité cherchée vaut approximativement 0, 0228. Remarquons qu’en utilisant l’inégalité de BienayméTchebychev, on avait trouvé à l’exemple 5.3.6 une majoration par 0, 125. On voit donc 60) = P X−50 5 que la majoration avec Bienaymé-Tchebychev était très grossière. 2. (exercice) Combien doit-on faire de lancers d’une pièce de monnaie équilibrée pour que la proportion de Pile soit comprise entre 0, 45 et 0, 55 ? 8.3 Théorème limite central Le phénomène mis en lumière par le théorème de Moivre-Laplace n’est en fait pas caractéristique des lois binomiales qui, on le rappelle, sont des sommes indépendantes de lois de Bernoulli. Il reste valable pour des sommes de nombreuses autres lois. Théorème 8.3.1 (Théorème limite central). Soit (Xn )n≥1 une suite de variables aléatoires indépendantes, de même loi et dans L2 . En notant m = E(X1 ), σ 2 = V(X1 ) et Sn = X1 + · · · + Xn , on a Sn − nm √ −−−−−→ N (0, 1) en loi. n σ n→+∞ On peut aussi écrire la conclusion du théorème √ X̄n − m n −−−−−→ N (0, 1) en loi, n→+∞ σ où X̄n = n1 Sn est la moyenne empirique, ou encore √ n(X̄n − m) −−−−−→ N (0, σ 2 ) en loi. n→+∞ On remarquera le caractère universel de ce théorème. La loi des variables Xn n’est pas précisée et, bien que restant une loi de probabilité, la limite est parfaitement identifiée. √ Autrement dit, pour n “grand”, n X̄nσ−m reste une variable au comportement aléatoire, mais suivant une loi précise. La loi normale apparaît donc comme une loi universelle. Voyons une application du TLC en estimation statistique. 8.4 Intervalle de confiance On a vu que les lois des grands nombres permettent d’obtenir des estimateurs convergents pour évaluer une probabilité inconnue. On parle d’estimateurs ponctuels. Bien sûr, dans la pratique, on remplace “n → +∞” par “n assez grand”. La donnée d’une estimation ponctuelle est alors assez pauvre puisqu’elle ne prend pas en compte l’erreur d’approximation. La première idée, pour tenir compte de l’erreur est de donner l’estimation sous forme d’un intervalle : la quantité à estimer est comprise entre tant et tant. Mais l’erreur est ici aléatoire. Le théorème précédent nous dit qu’elle tend à être distribuée comme une 8.4. INTERVALLE DE CONFIANCE loi normale dont la variance est de l’ordre de n1 . Pour tenir compte du caractère aléatoire de cette erreur, on ne donnera pas une estimation toujours vraie, mais une estimation qui a une forte probabilité d’être vraie. Définition 8.4.1. Soit X1 , . . . , Xn des variables aléatoires, θ ∈ R fixé et α ∈ [0, 1] (appelé risque). Un intervalle aléatoire I = I(X1 , . . . , Xn ) est un intervalle de confiance au niveau 1 − α pour θ si P(θ ∈ I) ≥ 1 − α. Remarque 8.4.2. 1. En pratique, on choisira le risque α proche de 0. 2. Attention, c’est l’intervalle I qui est aléatoire et non pas θ qui lui est fixé (bien qu’inconnu en pratique). 3. Dans une situation concrète (statistique), on aura à disposition uniquement une réalisation (x1 , . . . , xn ) = (X1 (ω), . . . , Xn (ω)) de l’échantillon (X1 , . . . , Xn ) et donc une réalisation I(x1 , . . . , xn ) de l’intervalle de confiance. Bien sûr, on espère que cet intervalle contiendra effectivement le réel θ à estimer et ceci se produira donc avec probabilité au moins 1 − α. 4. Re-Attention, toujours en pratique, la loi des Xi sera inconnu. On ne pourra donc pas évaluer directement la quantité P(θ ∈ I), puisque la loi de I dépend de celle des Xi . C’est ici que le théorème limite central va jouer un rôle. Avant de donner un exemple, on introduit la notion de fractile. Définition 8.4.3. Soit X une variable aléatoire réelle et α ∈]0, 1[. On dit que u ∈ R est un fractile d’ordre α de la loi PX si P(X ≤ u) = α (i.e. FX (u) = α). Si la fonction de répartition FX est inversible, alors pour tout α ∈]0, 1[, il existe un unique fractile d’ordre α. 0.2 0.3 0.4 Exemple 8.4.4. Pour la loi normale N (0, 1), par parité de la densité, si uα est le fractile d’ordre α ∈]0, 1[ alors −uα est le fractile d’ordre 1 − α. Si u = u1− α est le fractile d’ordre 2 1 − α2 de la loi N (0, 1) et si X ∼ N (0, 1), alors P(−u < X < u) = 1 − α. 0.1 P(− u < X<u)=1−α 0.0 P(X<−u)=α 2 P(X>u)=α 2 −u −3 −2 u −1 0 1 2 Densité de la loi normale centrée réduite. u fractile d'ordre 1 − α 2 3 CHAPITRE 8. CONVERGENCE EN LOI ET THÉORÈME LIMITE CENTRAL Intervalle de confiance pour une moyenne (avec variance connue). On dispose de n observations numériques indépendantes d’un même phénomène gouverné par une loi d’espérance m inconnue, mais de variance σ 2 > 0 connue. On a donc n réalisations x1 , . . . , xn de variables aléatoires indépendantes X1 , . . . , Xn . Le théorème limite central nous dit que √ X̄n − m n −−−−−→ N (0, 1) en loi. n→+∞ σ On en déduit que pour tout a < b ∈ R, √ X̄n − m ≤ b −−−−−→ Φ(b) − Φ(a). P a≤ n n→+∞ σ On va construire un intervalle de confiance avec risque α ∈]0, 1[ qui soit symétrique autour de X̄n qui est l’estimateur ponctuel de la moyenne m. On considère u1− α le fractile d’ordre 2 1 − α2 de la loi N (0, 1). Par symétrie, on a u α = −u1− α et, en prenant a = u α et b = u1− α , 2 ou encore, 2 2 2 √ X̄n − m α α P −u1− 2 ≤ n ≤ u1− 2 −−−−−→ Φ(u1− α2 ) − Φ(u α2 ) = 1 − α, n→+∞ σ σ σ P X̄n − √ u1− α2 ≤ m ≤ X̄n + √ u1− α2 n n −−−−−→ 1 − α. n→+∞ En considérant n suffisamment grand, on prendra comme intervalle de confiance au niveau 1 − α, l’intervalle i h σ σ X̄n − √ u1− α2 , X̄n + √ u1− α2 . n n En pratique, on utilise les valeurs observées x1 , . . . , xn de X1 , . . . , Xn pour avoir la réalisation de cet intervalle donnée par [x̄n − √σn u1− α , x̄n + √σn u1− α ]. 2 2 On pourra trouver qu’il est peu réaliste de supposer la variance connue alors même que l’on cherche à estimer l’espérance inconnue. Il existe une méthode générale qui consiste à remplacer la variance par un estimateur de celle-ci. On se contentera de voir comment on s’en sort dans le cas de l’estimation d’une proportion p (qui est l’espérance de la loi de Bernoulli correspondante). Intervalle de confiance pour une proportion. On souhaite estimer la proportion p d’individus qui vont voter pour le candidat Machin lors des prochaines élections. Pour cela on réalise un sondage sur n personnes qui répondent par oui où par non (on suppose évidemment que personne ne ment). En supposant que ces individus sont pris totalement au hasard et de façon indépendante, on a alors une réalisation (x1 , . . . , xn ) ∈ {0, 1}n de n variables aléatoires X1 ,. . . , Xn indépendantes de loi B(p), où p est l’inconnu à estimer. D’après le théorème limite central (en particulier le théorème de Moivre-Laplace), on a √ X̄n − p np −−−−−→ N (0, 1) en loi. p(1 − p) n→+∞ Soit α ∈]0, 1[ et u1− α le fractile d’ordre 1 − α2 de la loi N (0, 1). Comme précédemment, on a 2 ! p p p(1 − p) p(1 − p) √ √ P X̄n − u1− α2 ≤ p ≤ X̄n + u1− α2 −−−−−→ 1 − α. n→+∞ n n Pour n grand, on aimerait prendre cet encadrement comme intervalle de confiance. Problème, les bornes dépendent de la quantité inconnue p. C’est ennuyeux ! Il y a deux solutions pour remédier à ce problème. 8.4. INTERVALLE DE CONFIANCE méthode approchée : pour tout p ∈ [0, 1], p(1 − p) ≤ 14 et donc √ √ [X̄n − et, p(1−p) √ u1− α2 , X̄n n + p(1−p) √ u1− α2 ] n p p(1 − p) ≤ 12 . L’intervalle 1 est donc inclus dans [X̄n − 2√ u α , X̄n + 2√1 n u1− α2 ] n 1− 2 1 1 lim P X̄n − √ u1− α2 ≤ p ≤ X̄n + √ u1− α2 ≥ 1 − α. n→+∞ 2 n 2 n Donc pour n assez grand, l’intervalle 1 1 I = I(X1 , . . . , Xn ) = [X̄n − √ u1− α2 , X̄n + √ u1− α2 ] 2 n 2 n est un intervalle de confiance pour p au niveau 1 − α. Supposons que pour 1000 personnes interrogées, la moyenne empirique des réponses est x̄1000 = 0, 52 et que l’on veuille un risque α = 0, 05. Alors 1 − α2 = 0, 975 et on donc u1− α = 1, 96 (voir section 8.5). On obtient l’intervalle I = [0, 489 , 0, 550]. 2 √ p(1−p) √ méthode exacte : L’intervalle est décrit par les p tels que |X̄n − p| ≤ u1− α2 . En élen vant au carré, puis en résolvant l’inéquation de degré deux (exercice), on obtient l’intervalle (en notant u = u1− α ), 2 I = I(X1 , . . . , Xn ) = X̄n + u2 2n q X̄n ) − u X̄n (1− + n 1+ u2 n u2 4n2 , X̄n + u2 2n q X̄n ) + u X̄n (1− + n 1+ u2 n Avec le même exemple que précédemment, on obtient I = [0, 495, 0, 545]. u2 4n2 . Remarque 8.4.5. 1. Il y a encore une arnaque, puisqu’on a utilisé la loi limite (la loi N (0, 1)) en considérant que n grand signifie n = +∞. Il faudrait étudier la vitesse de convergence dans le théorème limite central pour être plus précis (ça existe : voir théorème de Berry-Esseen). 2. La longueur de l’intervalle de confiance varie avec n en √1n . Pour avoir une estimation 10 fois plus précise, il faut multiplier le nombre de personnes à interroger par 100.