Convergence en loi et théorème limite central Chapitre 8 (Ω,

publicité
Chapitre 8
Convergence en loi et théorème
limite central
Toutes les variables aléatoires de ce chapitre sont encore définies sur un même espace
probabilisé (Ω, A, P).
Les résultats du chapitre précédent suggère de répondre à la question : Quelle est la
vitesse de convergence de la moyenne empirique vers la moyenne dans la loi des grands
nombres ? Le théorème limite central apporte une réponse à cette question. En notant
P
X̄n = n1 ni=1 Xi la moyenne empirique de n variables aléatoires L2 indépendantes de même
loi, on a vu que pour tout α < 12 , nα (X̄n −E(X1 )) admet une variance qui tend vers 0 avec n et
√
donc convergence en probabilité vers 0. On va voir que le comportement de n(X̄n −E(X1 )),
qui a une variance constante, est bien différent. Pour le caractériser, nous introduisons un
nouveau mode de convergence qui ne prendra en compte que la suite des lois successives
des Xn .
8.1 Convergence en loi
On rappelle que FX désigne la fonction de répartition de la variable aléatoire X et est
définie par FX (t) = P(X ≤ t).
Définition 8.1.1. Soit (Xn )n≥1 une suite de variables aléatoires. On dit que Xn converge
en loi vers une variable aléatoire X si
FXn (t) −−−−−→ FX (t) en tout point t où FX est continue.
n→+∞
Pourquoi aux points de continuité de FX ?

 0
1
Soit Xn tel que P(Xn = 0) = P(Xn = n1 ) = 12 , alors FXn (t) =
 2

 0
1
si t < 0
si 0 ≤ t < n1
si t ≥ n1
converge
si t < 0
si t = 0 qui n’est pas une fonction de répartition. Mais si FX est la fonc
1 si t > 0
tion de répartition de X = 0, on a bien que FXn converge vers FX aux points de continuité
de FX , et donc Xn converge en loi vers 0.
vers F (t) =
1
2
Remarque 8.1.2.
1. Contrairement aux autres modes de convergence, la convergence
en loi ne dépend que des lois PXn des variables Xn et pas de la façon dont les variables
sont définies. On notera donc indifféremment, Xn → X en loi, ou PXn → PX , ou
carrément Xn → PX en loi.
CHAPITRE 8. CONVERGENCE EN LOI ET THÉORÈME LIMITE CENTRAL
2. En particulier, la limite n’est pas unique ! Si Xn → X en loi et si Y a la même loi que
X , alors Xn → Y en loi. C’est en revanche la loi de la limite qui est unique.
Exemple 8.1.3. 1) Soit Xn ∼ U([0, 1]), n ≥ 1, des variables aléatoires indépendantes. Alors
Yn = n min{X1 , . . . , Xn } converge en loi vers une variable aléatoire de loi E(1). En effet,
pour tout t > 0 (et n assez grand),
FYn (t) = 1 − P(min{X1 , . . . , Xn } >
t
t
t
t
) = 1 − P(X1 > ) · · · P(Xn > ) = 1 − (1 − )n
n
n
n
n
et donc FYn (t) → 1 − e−t .
2) Soit X ∼ B( 21 ) et pour tout n ≥ 0, X2n = X et X2n+1 = 1 − X . Alors pour tout n ≥ 0,
Xn ∼ B( 21 ) et donc Xn converge en loi vers X (mais aussi vers 1 − X ). En revanche, pour
tout 0 < ε < 1, P(|Xn − X| > ε) = 1 dès que n est impair et donc il n’y a pas convergence en
probabilité.
Cet exemple montre que la convergence en loi n’entraîne pas la convergence en probabilité.
Proposition 8.1.4. La convergence en probabilité entraîne la convergence en loi.
Démonstration. Soit (Xn )n≥1 une suite de variables aléatoires de fonctions de répartition
Fn et X une variable aléatoire de fonction de répartition F . On suppose que Xn → X en
probabilité. Soit t ∈ R un point de continuité de F et ε > 0. Par continuité, il existe η > 0
tel que |x − t| ≤ η implique |F (x) − F (t)| ≤ ε. On montre (exercice) que Xn ≤ t entraîne
X ≤ t + η ou Xn − X ≤ −η . On a donc
Fn (t) ≤ F (t + η) + P(Xn − X ≤ −η) ≤ F (t) + ε + P(|Xn − X| ≥ η)
De même, comme X ≤ t − η et Xn − X < η entraîne Xn ≤ t, on a
Fn (t) ≥ F (t − η) − P(Xn − X ≥ η) ≥ F (t) − ε − P(|Xn − X| ≥ η)
On en déduit |Fn (t) − F (t)| ≤ ε + P(|Xn − X| ≥ η) −
−−−−→ ε. Ceci étant vrai pour tout ε > 0,
n→+∞
Fn (t) → F (t).
On a vu que la réciproque est fausse en général, mais ...
Proposition 8.1.5. Si Xn converge en loi vers une constante c ∈ R, alors Xn converge en
probabilité vers c.
Démonstration. Soit ε > 0. Comme Xn converge en loi vers c, on a FXn (t) → 1[c,+∞[ (t) pour
tout t 6= c. Or,
P(|Xn − c| ≥ ε) = P(Xn ≤ c − ε) + P(Xn ≥ c + ε)
ε
≤ P(Xn ≤ c − ε) + P(Xn > c + )
2
ε
≤ FXn (c − ε) + 1 − FXn (c + ).
2
Donc, P(|Xn − c| ≥ ε) → 0 + 1 − 1 = 0 quand n → +∞.
En conclusion, on a
convergence en probabilité
et (*) vraie lorsque la limite est une constante.
⇒
convergence en loi.
:∗
8.2. APPROXIMATIONS DE LOIS
8.2 Approximations de lois
Le résultat suivant a déjà été évoqué en introduisant la loi de Poisson. Il justifie le fait
que la loi de Poisson est utilisée pour modéliser le nombre d’occurrences d’un évènement
rare.
Proposition 8.2.1 (Binomiale par Poisson). Soit (Xn )n≥1 une suite de variables aléatoires
de loi B(n, pn ), avec n ∈ N et pn ∈ [0, 1]. Si npn → λ > 0 quand n → +∞, alors
Xn −−−−−→ P(λ) en loi.
n→+∞
k
Démonstration. Commençons par montrer que pour tout k ∈ N, P(Xn = k) → e−λ λk! . Pour
n assez grand,
n k
n(n − 1) · · · (n − k + 1) (npn )k
P(Xn = k) =
pn (1 − pn )n−k =
(1 − pn )−k (1 − pn )n
k
k!
nk
Or, quand n → +∞, npn → λ,
n(n−1)···(n−k+1)
nk
→ 1, pn → 0 et
(1 − pn )n = en log(1−pn ) = en(−pn +o(pn )) = e−npn +o(1) → e−λ .
On obtient,
P(Xn = k) → e−λ
λk
.
k!
P(Xn = k) −−−−−→
btc
X
Maintenant, pour tout t ∈ R,
FXn (t) =
btc
X
k=0
n→+∞
e−λ
k=0
λk
= F (t),
k!
où F est la fonction de répartition d’une loi P(λ).
En pratique ce résultat est utilisé pour remplacer la loi binomiale B(n, p) par une loi de
Poisson P(np) lorsque n est grand devant np (par exemple, mais c’est arbitraire, n > 100 et
np < 10).
On rappelle que si X ∼ B(n, p) alors E(X) = np et V(X) = np(1 − p). La variable
Y = √X−np est donc centrée et réduite (i.e. E(Y ) = 0 et V(Y ) = 1). Le résultat suivant
np(1−p)
est une première approche vers le théorème limite central. Sa démonstration originelle
repose sur l’utilisation d’une bonne approximation de n!, comme la formule de Stirling
√
n! ∼ 2πn nn e−n .
Théorème 8.2.2 (de Moivre-Laplace (1733,1809), Binomiale par Normale). Soit (Xn )n≥1
une suite de variables aléatoires de loi B(n, p), avec n ∈ N et p ∈ [0, 1]. On a
X − np
p n
−−−−−→ N (0, 1) en loi,
np(1 − p) n→+∞
où N (0, 1) est la loi normale centrée réduite.
C’est-à-dire, que pour tout t ∈ R,
P
X − np
p n
≤t
np(1 − p)
!
−−−−−→ Φ(t),
n→+∞
où Φ est la fonction de répartition de la loi N (0, 1).
Applications pratiques.
CHAPITRE 8. CONVERGENCE EN LOI ET THÉORÈME LIMITE CENTRAL
1. On reprend un vieil exemple. Un QCM est composé de 100 questions à deux choix
(c’est l’exemple 5.3.6). Un candidat répond à chaque question au hasard et de façon
indépendante. La loi du nombre de bonnes réponses X est donc une loi B(100, 12 ).
Son espérance vaut 50 et sa variance 25. En considérant que n = 100 est grand,
le théorème précédent nous dit que X−50
suit approximativement une loi normale
5
N (0, 1). Donc la probabilité d’avoir au moins 61 bonnes réponses, c’est à dire P(X >
R +∞ x2
> 2 vaut approximativement √12π 2 e− 2 dx = 1 − Φ(2). En utilisant
la table (c.f. section 8.5) on obtient Φ(2) ' 0, 9772 et donc la probabilité cherchée
vaut approximativement 0, 0228. Remarquons qu’en utilisant l’inégalité de BienayméTchebychev, on avait trouvé à l’exemple 5.3.6 une majoration par 0, 125. On voit donc
60) = P
X−50
5
que la majoration avec Bienaymé-Tchebychev était très grossière.
2. (exercice) Combien doit-on faire de lancers d’une pièce de monnaie équilibrée pour
que la proportion de Pile soit comprise entre 0, 45 et 0, 55 ?
8.3 Théorème limite central
Le phénomène mis en lumière par le théorème de Moivre-Laplace n’est en fait pas caractéristique des lois binomiales qui, on le rappelle, sont des sommes indépendantes de lois
de Bernoulli. Il reste valable pour des sommes de nombreuses autres lois.
Théorème 8.3.1 (Théorème limite central). Soit (Xn )n≥1 une suite de variables aléatoires
indépendantes, de même loi et dans L2 . En notant m = E(X1 ), σ 2 = V(X1 ) et Sn = X1 +
· · · + Xn , on a
Sn − nm
√
−−−−−→ N (0, 1) en loi.
n σ n→+∞
On peut aussi écrire la conclusion du théorème
√ X̄n − m
n
−−−−−→ N (0, 1) en loi,
n→+∞
σ
où X̄n = n1 Sn est la moyenne empirique, ou encore
√
n(X̄n − m) −−−−−→ N (0, σ 2 ) en loi.
n→+∞
On remarquera le caractère universel de ce théorème. La loi des variables Xn n’est pas
précisée et, bien que restant une loi de probabilité, la limite est parfaitement identifiée.
√
Autrement dit, pour n “grand”, n X̄nσ−m reste une variable au comportement aléatoire,
mais suivant une loi précise. La loi normale apparaît donc comme une loi universelle.
Voyons une application du TLC en estimation statistique.
8.4
Intervalle de confiance
On a vu que les lois des grands nombres permettent d’obtenir des estimateurs convergents pour évaluer une probabilité inconnue. On parle d’estimateurs ponctuels. Bien sûr,
dans la pratique, on remplace “n → +∞” par “n assez grand”. La donnée d’une estimation
ponctuelle est alors assez pauvre puisqu’elle ne prend pas en compte l’erreur d’approximation. La première idée, pour tenir compte de l’erreur est de donner l’estimation sous
forme d’un intervalle : la quantité à estimer est comprise entre tant et tant. Mais l’erreur
est ici aléatoire. Le théorème précédent nous dit qu’elle tend à être distribuée comme une
8.4. INTERVALLE DE CONFIANCE
loi normale dont la variance est de l’ordre de n1 . Pour tenir compte du caractère aléatoire
de cette erreur, on ne donnera pas une estimation toujours vraie, mais une estimation qui
a une forte probabilité d’être vraie.
Définition 8.4.1. Soit X1 , . . . , Xn des variables aléatoires, θ ∈ R fixé et α ∈ [0, 1] (appelé
risque). Un intervalle aléatoire I = I(X1 , . . . , Xn ) est un intervalle de confiance au niveau
1 − α pour θ si
P(θ ∈ I) ≥ 1 − α.
Remarque 8.4.2.
1. En pratique, on choisira le risque α proche de 0.
2. Attention, c’est l’intervalle I qui est aléatoire et non pas θ qui lui est fixé (bien qu’inconnu en pratique).
3. Dans une situation concrète (statistique), on aura à disposition uniquement une réalisation (x1 , . . . , xn ) = (X1 (ω), . . . , Xn (ω)) de l’échantillon (X1 , . . . , Xn ) et donc une réalisation I(x1 , . . . , xn ) de l’intervalle de confiance. Bien sûr, on espère que cet intervalle
contiendra effectivement le réel θ à estimer et ceci se produira donc avec probabilité
au moins 1 − α.
4. Re-Attention, toujours en pratique, la loi des Xi sera inconnu. On ne pourra donc pas
évaluer directement la quantité P(θ ∈ I), puisque la loi de I dépend de celle des Xi .
C’est ici que le théorème limite central va jouer un rôle.
Avant de donner un exemple, on introduit la notion de fractile.
Définition 8.4.3. Soit X une variable aléatoire réelle et α ∈]0, 1[. On dit que u ∈ R est un
fractile d’ordre α de la loi PX si P(X ≤ u) = α (i.e. FX (u) = α).
Si la fonction de répartition FX est inversible, alors pour tout α ∈]0, 1[, il existe un unique
fractile d’ordre α.
0.2
0.3
0.4
Exemple 8.4.4. Pour la loi normale N (0, 1), par parité de la densité, si uα est le fractile
d’ordre α ∈]0, 1[ alors −uα est le fractile d’ordre 1 − α. Si u = u1− α est le fractile d’ordre
2
1 − α2 de la loi N (0, 1) et si X ∼ N (0, 1), alors P(−u < X < u) = 1 − α.
0.1
P(− u < X<u)=1−α
0.0
P(X<−u)=α 2
P(X>u)=α 2
−u
−3
−2
u
−1
0
1
2
Densité de la loi normale centrée réduite. u fractile d'ordre 1 − α 2
3
CHAPITRE 8. CONVERGENCE EN LOI ET THÉORÈME LIMITE CENTRAL
Intervalle de confiance pour une moyenne (avec variance connue). On dispose de n
observations numériques indépendantes d’un même phénomène gouverné par une loi d’espérance m inconnue, mais de variance σ 2 > 0 connue. On a donc n réalisations x1 , . . . , xn
de variables aléatoires indépendantes X1 , . . . , Xn . Le théorème limite central nous dit que
√ X̄n − m
n
−−−−−→ N (0, 1) en loi.
n→+∞
σ
On en déduit que pour tout a < b ∈ R,
√ X̄n − m
≤ b −−−−−→ Φ(b) − Φ(a).
P a≤ n
n→+∞
σ
On va construire un intervalle de confiance avec risque α ∈]0, 1[ qui soit symétrique autour
de X̄n qui est l’estimateur ponctuel de la moyenne m. On considère u1− α le fractile d’ordre
2
1 − α2 de la loi N (0, 1). Par symétrie, on a u α = −u1− α et, en prenant a = u α et b = u1− α ,
2
ou encore,
2
2
2
√ X̄n − m
α
α
P −u1− 2 ≤ n
≤ u1− 2 −−−−−→ Φ(u1− α2 ) − Φ(u α2 ) = 1 − α,
n→+∞
σ
σ
σ
P X̄n − √ u1− α2 ≤ m ≤ X̄n + √ u1− α2
n
n
−−−−−→ 1 − α.
n→+∞
En considérant n suffisamment grand, on prendra comme intervalle de confiance au niveau
1 − α, l’intervalle
i
h
σ
σ
X̄n − √ u1− α2 , X̄n + √ u1− α2 .
n
n
En pratique, on utilise les valeurs observées x1 , . . . , xn de X1 , . . . , Xn pour avoir la réalisation de cet intervalle donnée par [x̄n − √σn u1− α , x̄n + √σn u1− α ].
2
2
On pourra trouver qu’il est peu réaliste de supposer la variance connue alors même que
l’on cherche à estimer l’espérance inconnue. Il existe une méthode générale qui consiste
à remplacer la variance par un estimateur de celle-ci. On se contentera de voir comment
on s’en sort dans le cas de l’estimation d’une proportion p (qui est l’espérance de la loi de
Bernoulli correspondante).
Intervalle de confiance pour une proportion. On souhaite estimer la proportion p d’individus qui vont voter pour le candidat Machin lors des prochaines élections. Pour cela
on réalise un sondage sur n personnes qui répondent par oui où par non (on suppose évidemment que personne ne ment). En supposant que ces individus sont pris totalement au
hasard et de façon indépendante, on a alors une réalisation (x1 , . . . , xn ) ∈ {0, 1}n de n variables aléatoires X1 ,. . . , Xn indépendantes de loi B(p), où p est l’inconnu à estimer. D’après
le théorème limite central (en particulier le théorème de Moivre-Laplace), on a
√
X̄n − p
np
−−−−−→ N (0, 1) en loi.
p(1 − p) n→+∞
Soit α ∈]0, 1[ et u1− α le fractile d’ordre 1 − α2 de la loi N (0, 1). Comme précédemment, on a
2
!
p
p
p(1 − p)
p(1 − p)
√
√
P X̄n −
u1− α2 ≤ p ≤ X̄n +
u1− α2 −−−−−→ 1 − α.
n→+∞
n
n
Pour n grand, on aimerait prendre cet encadrement comme intervalle de confiance. Problème, les bornes dépendent de la quantité inconnue p. C’est ennuyeux ! Il y a deux solutions pour remédier à ce problème.
8.4. INTERVALLE DE CONFIANCE
méthode approchée : pour tout p ∈ [0, 1], p(1 − p) ≤ 14 et donc
√
√
[X̄n −
et,
p(1−p)
√
u1− α2 , X̄n
n
+
p(1−p)
√
u1− α2 ]
n
p
p(1 − p) ≤ 12 . L’intervalle
1
est donc inclus dans [X̄n − 2√
u α , X̄n + 2√1 n u1− α2 ]
n 1− 2
1
1
lim P X̄n − √ u1− α2 ≤ p ≤ X̄n + √ u1− α2 ≥ 1 − α.
n→+∞
2 n
2 n
Donc pour n assez grand, l’intervalle
1
1
I = I(X1 , . . . , Xn ) = [X̄n − √ u1− α2 , X̄n + √ u1− α2 ]
2 n
2 n
est un intervalle de confiance pour p au niveau 1 − α.
Supposons que pour 1000 personnes interrogées, la moyenne empirique des réponses
est x̄1000 = 0, 52 et que l’on veuille un risque α = 0, 05. Alors 1 − α2 = 0, 975 et on donc
u1− α = 1, 96 (voir section 8.5). On obtient l’intervalle I = [0, 489 , 0, 550].
2
√
p(1−p)
√
méthode exacte : L’intervalle est décrit par les p tels que |X̄n − p| ≤
u1− α2 . En élen
vant au carré, puis en résolvant l’inéquation de degré deux (exercice), on obtient l’intervalle
(en notant u = u1− α ),
2

I = I(X1 , . . . , Xn ) = 
X̄n +
u2
2n
q
X̄n )
− u X̄n (1−
+
n
1+
u2
n
u2
4n2
,
X̄n +
u2
2n
q
X̄n )
+ u X̄n (1−
+
n
1+
u2
n
Avec le même exemple que précédemment, on obtient I = [0, 495, 0, 545].
u2
4n2

.
Remarque 8.4.5.
1. Il y a encore une arnaque, puisqu’on a utilisé la loi limite (la loi
N (0, 1)) en considérant que n grand signifie n = +∞. Il faudrait étudier la vitesse
de convergence dans le théorème limite central pour être plus précis (ça existe : voir
théorème de Berry-Esseen).
2. La longueur de l’intervalle de confiance varie avec n en √1n . Pour avoir une estimation
10 fois plus précise, il faut multiplier le nombre de personnes à interroger par 100.
Téléchargement