Théorèmes de convergence pour les sommes de variables

publicité
Université d’Artois
Faculté des Sciences Jean Perrin
Probabilités (Master 1 Mathématiques-Informatique)
Daniel Li
Chapitre 3
Théorèmes de convergence
pour les sommes de variables
aléatoires indépendantes
1
Existence de suites de variables aléatoires
indépendantes suivant une loi donnée
Définition 1.1 Soit F un ensemble de v.a.r. X : Ω → R. On dit que les v.a.r.
de F sont indépendante si X1 , . . . , Xn sont indépendantes pour tout choix d’un
nombre fini de v.a.r. X1 , . . . , Xn dans F .
Pour une suite (Xn )n>1 de v.a.r., dire qu’elle est indépendante revient à dire
que X1 , . . . , Xn sont indépendantes pour tout n > 1.
1.1
Cas de deux variables aléatoires réelles
Soit Q une mesure de probabilité sur R.
Considérons sa fonction de répartition, définie, pour x ∈ R, par :
F (x) = Q(] − ∞, x]) .
On sait que F est croissante et continue à droite.
Lorsque F est continue et strictement croissante, F a un inverse. Dans le cas
général, on peut définir un pseudo-inverse (ou inverse généralisé de Paul
Lévy), à partir de la remarque suivante : pour tout t ∈] 0, 1 [, l’ensemble :
{s ∈ R ; F (s) > t}
est un intervalle. On définit le pseudo-inverse de F en posant, pour t ∈] 0, 1 [ :
G(t) = inf{s ∈ R ; F (s) > t} .
1
Comme F est continue à droite, la borne inférieure est atteinte et l’on a :
{s ∈ R ; F (s) > t} = [G(t), +∞ [ .
(1.1)
G est clairement croissante, et elle est continue à gauche ; en effet, si
tn % t, alors :
\
[G(tn ), +∞ [= [G(t), +∞ [ ,
n>1
car, si s > G(tn ) pour tout n > 1, on a F (s) > tn pour tout n > 1 ; donc
F (s) > t.
On pourra vérifier à titre d’exercice que G[F (s)] 6 s pour tout s ∈ R et que
F [G(t)] > t pour tout t ∈] 0, 1 [.
Proposition 1.2 (Paul Lévy) Le pseudo-inverse G : ] 0, 1 [→ R de la fonction
de répartition de Q est une v.a.r. et sa loi est Q.
Plus généralement, si U : Ω →] 0, 1 [ est une v.a.r. de loi uniforme sur ] 0, 1 [,
alors H = G ◦ U : Ω → R est une v.a.r. dont la loi est Q.
Preuve. G est mesurable car elle est croissante ; c’est donc une v.a.r. .
Notons maintenant que (1.1) s’écrit :
G(t) 6 s
⇐⇒
F (s) > t ;
donc :
FH (x) = PH ] − ∞, x] = P (H 6 x) = P {ω ; G U (ω) 6 x}
= P {ω ; F (x) > U (ω)} = FU F (x) = F (x) ,
2
ce qui prouve que PH = Q.
Notons qu’avec Ω =] 0, 1 [, on peut prendre U (ω) = ω.
On en déduit le résultat suivant.
Proposition 1.3 Etant données deux lois de probabilité Q1 et Q2 sur R, on
peut trouver un espace de probabilité (Ω, A , P ) et deux v.a.r. indépendantes
X1 , X2 : Ω → R dont les lois sont Q1 et Q2 respectivement.
Preuve. Par la proposition précédente, il existe deux v.a.r. G1 , G2 : ] 0, 1 [→ R
de lois respectives Q1 et Q2 . Il s’agit de les rendre indépendantes.
Considérons Ω =] 0, 1 [×] 0, 1 [, muni de sa tribu borélienne et de la mesure
de Lebesgue P = λ2 . Posons, pour ω = (t1 , t2 ) ∈] 0, 1 [2 :
X1 (t1 , t2 ) = G1 (t1 )
X2 (t1 , t2 ) = G2 (t2 ) .
Les v.a.r. X1 et X2 ont pour lois Q1 et Q2 :
FXj (x) = P Xj (t1 , t2 ) 6 x = P Gj (tj ) 6 x = Qj (] − ∞, x]) ,
et comme :
P(X1 ,X2 ) ([a, b] × [c, d]) = P G1 (x1 ) ∈ [a, b] et G2 (x2 ) ∈ [c, d])
−1
= λ2 G−1
1 ([a, b]) × G2 ([c, d])
−1
= λ G−1
1 ([a, b]) .λ G2 ([c, d])
−1
= λ2 G−1
1 ([a, b])×] 0, 1 [ .λ2 ] 0, 1 [×G2 ([c, d])
= λ2 X1−1 ([a, b]) .λ2 X2−1 ([c, d])
= PX1 ([a, b]).PX2 ([c, d]) ,
on a P(X1 ,X2 ) = PX1 ⊗ PX2 , ce qui prouve que X1 et X2 sont indépendantes. Cette méthode s’étend pour obtenir une suite infinie de v.a.r. indépendantes
de lois données. Mais pour cela, il faudrait d’abord définir ce qu’est un produit
infini d’espaces de probabilité. On ne le fera pas et nous allons voir une autre
méthode. Il est néanmoins essentiel d’en retenir l’idée : les v.a.r. indépendantes
s’obtiennent comme fonctions définies sur des espaces-produits et qui ne sont
fonctions que de coordonnées différentes.
3
1.2
Cas général
Nous allons définir une suite infinie particulière de v.a.r. indépendantes.
Commençons par rappeler que tout nombre réel t ∈ [0, 1[ a un unique développement dyadique :
∞
X
εn (t)
t=
,
2n
n=1
avec εn (t) = 0 ou 1 et les εn (t) n’étant pas tous égaux à 1 à partir d’un certain
rang (développement dyadique propre – de toute façon, l’ensemble des t qui
ont un développement dyadique impropre est dénombrable, et donc de mesure
nulle).
Prouvons d’abord que les fonctions εn : [0, 1[→ {0, 1} sont mesurables ; ce
seront donc des v.a.r., définies sur Ω = [0, 1[, avec pour probabilité la mesure
de Lebesgue.
Notons que si
+∞
X
εk (t)
,
t=
2k
k=1
alors, si E (x) est la partie entière de x, et An ∈ N :
+∞
2n−1 t = An +
εn (t) εn+1 (t)
εn (t) X εn+k (t)
n−1
+
·
·
·
=
E
(2
t)
+
+
·
2
22
2
2k+1
k=1
Comme le développement dyadique de t est propre, une infinité des εk (t), pour
k > n + 1, est nulle ; on a donc :
+∞
X
εn+k (t)
2k+1
k=1
Ainsi :


 εn (t) = 0
<
+∞
X
k=1
1
2k+1
=
1
·
2
1
0 6 2n−1 t − E (2n−1 t) <
2
1

 εn (t) = 1 ⇐⇒
6 2n−1 t − E (2n−1 t) < 1.
2
Introduisons alors la fonction indicatrice R : R → {0, 1} définie par :
0 si 0 6 t − E (t) < 1/2
R(t) =
1 si 1/2 6 t − E (t) < 1;
⇐⇒
on a, d’après ce qui précède :
εn (t) = R(2n−1 t).
Il est alors clair que chaque εn est mesurable et que (P étant la mesure de
Lebesgue sur [0, 1[) :
P (εn = 0) = P (εn = 1) =
4
1
;
2
Ce sont donc des v.a.r. de Bernoulli.
Pour voir que la suite (εn )n>1 est indépendante, raisonnons par récurrence ;
supposons ε1 , . . . , εn indépendantes, et soit, pour a1 , . . . , an+1 ∈ {0, 1} :
An = {t ∈ [0, 1[ ; ε1 (t) = a1 , . . . , εn (t) = an } .
An est l’intervalle [tn , 1[ des nombres t dont le développement dyadique commence par :
0, a1 a2 . . . an .
La v.a.r. εn+1 prend la valeur 0 sur la première moitié de cet intervalle et la
valeur 1 sur la seconde moitié. Donc :
P (An ∩ {εn+1 = an+1 ) =
1
P (An ) ,
2
de sorte que, grâce à l’hypothèse de récurrence :
P (ε1 = a1 , . . . , εn = an , εn+1 = an+1 ) =
1
2n+1
=
n+1
Y
P (εk = ak ) ,
k=1
ce qui achève la preuve.
Proposition 1.4 Soit (Zn )n>1 une suite indépendante de v.a.r. de Bernoulli,
prenant les valeurs 0 et 1 avec probabilité 1/2. Alors la somme :
U=
∞
X
Zn
2n
n=1
suit la loi uniforme sur [0, 1[.
Preuve. Comme on ne s’intéresse qu’aux lois, on peut prendre des réalisations
particulir̀es des v.a.r. ; et, avec les réalisations ci-dessus en termes de développement dyadique ; dans ce cas, la proposition exprime simplement le fait que,
pour tout t ∈ [0, 1[, on a :
∞
X
εn (t)
t=
·
2n
n=1
Théorème 1.5 Pour toute suite Pk de lois de probabilité sur R, il existe une
suite indépendante de v.a.r. Xk : [0, 1[→ R telle que, pour tout k > 1, la loi PXk
de Xk soit Pk .
Preuve. Donnons-nous une bijection :
N∗ × N ∗
(k, l)
−→
7−→
5
N∗
n(k, l) ,
et posons, pour tout k > 1 :
Uk =
∞
X
εn(k,l)
2l
l=1
·
La Proposition 1.4 nous dit que les Uk , k > 1, suivent toutes la loi uniforme
sur [0, 1[ ; elles sont de plus indépendantes, car la définition de chacune d’elles
ne fait intervenir que des éléments différents de la suite indépendante (εn )n>1 .
Notons maintenant Gk le pseudo-inverse de la fonction de répartition de Pk ;
la Proposition 1.2 nous dit que Xk = Gk ◦ Uk suit la loi Pk . De plus, la suite
(Xk )k>1 est indépendante puisque (Uk )k>1 l’est.
2
Modes de convergence
2.1
Convergence presque sûre et convergence en moyenne
Ces convergences sont bien connues ; nous allons simplement faire quelques
rappels.
Soit (Xn )n>1 une suite de v.a.r., définies sur le même espace de probabilité
(Ω, A , P ).
• On dit que (Xn )n>1 converge presque sûrement (en abrégé : p.s.) vers la
p.s.
v.a.r. X, et l’on notera Xn −−−→ X, si :
n→∞
P {ω ∈ Ω ; Xn (ω) −−−→ X(ω)} = 1 .
n→∞
r
• Si r > 1, et que Xn , X ∈ L (P ) (c’est-à-dire qu’elles ont des moments
d’ordre r), on dit que (Xn )n>1 converge en moyenne d’ordre r, et l’on écrit
Lr
k kr
n→∞
n→∞
Xn −−−→ X ou Xn −−−→ X, si :
kXn − Xkr −−−→ 0.
n→∞
Les cas les plus usuels sont r = 1 ; on dit alors qu’il y a convergence en moyenne,
et r = 2 ; on dit alors qu’il y a convergence en moyenne quadratique.
On a les liens suivant entre ces convergences.
1) Comme P (Ω) = 1, si r1 6 r2 , on a :
kXn − Xkr1 6 kXn − Xkr2 ;
en particulier la convergence en moyenne quadratique entraîne la convergence
en moyenne.
p.s.
2) Le Théorème de convergence dominée dit que si Xn −−−→ X et s’il existe
Y ∈ Lr (Ω) telle que |Xn | 6 Y p.s., pour tout n > 1, alors
Lr
n→∞
Lr
Xn −−−→ X.
n→∞
3) D’autre part, si Xn −−−→ X, on peut extraire une sous-suite (Xnk )k>1 qui
n→∞
converge p.s. vers X.
6
2.2
Convergence en probabilité
Définition 2.1 On dit que la suite de v.a.r. Xn )n>1 converge en probabilité vers la v.a.r. X si, pour tout ε > 0, on a :
P {|Xn − X| > ε −−−→ 0 .
n→∞
P
On notera Xn −−−→ X.
n→∞
On notera que, dans la dans la définition de la convergence en probabilité,
on peut toujours se resteindre à prendre ε plus petit qu’un nombre ε0 > 0 donné
à l’avance, puisque, plus ε est petit, plus la probabilité P (|Xn − X| > ε) est
grande. D’autre part, on peut remplacer P (|Xn − X| > ε) par P (|Xn − X| > ε).
Il est utile de remarquer que l’on a le critère suivant :
Proposition 2.2 La suite (Xn )n>1 converge en probabilité vers X si et seulement si :
(∀ε > 0)
(∃N > 1)
n > N =⇒ P (|Xn − X| > ε) 6 ε.
Preuve. Que la condition soit nécessaire est clair. Inversement, si l’on a cette
condition, pour tout a > 0 donné, on a, si 0 < ε 6 a, pour n > N :
P (|Xn − X| > a) 6 P (|Xn − X| > ε) 6 ε,
ce qui montre que P (|Xn − X| > a) −→ 0.
n→∞
Exemple. Sur Ω = [0, 1[, la suite définie, pour n = 2k + l, 0 6 l 6 2k − 1, k > 0,
par :
Xn = 1I l , l+1 2k
2k
converge en probabilité vers 0, car, pour ε 6 1, on a :
P (|Xn | > ε) =
1
2k
si 2k 6 n < 2k+1 .
Toutefois, cette suite ne converge en aucun point de Ω.
P
P
P
n→∞
n→∞
n→∞
Il est immédiat de voir que si Xn −−−→ X et Yn −−−→ Y , alors Xn +Yn −−−→ X +Y
P
et aXn −−−→ aX, pour tout a ∈ R. On a aussi :
n→∞
P
P
P
n→∞
n→∞
n→∞
Proposition 2.3 Si Xn −−−→ X et Yn −−−→ Y , alors Xn Yn −−−→ XY .
7
Preuve. Soit ε > 0 et δ > 0 donnés, arbitraires.
On a |Xn Yn − XY | 6 |X| |Yn − Y | + |Yn | |Xn − X|, donc :
P (|Xn Yn − XY | > ε) 6 P (|X| |Yn − Y | > ε/2) + P (|Yn | |Xn − X| > ε/2).
P
Soit a > 0 tel que P (|X| > a) 6 δ/4. Comme Yn −−−→ Y , il existe n0 > 1 tel
n→∞
que, pour n > n0 , on ait P (|Yn − Y | > ε/2a) 6 δ/4. Alors, pour n > n0 :
P (|X| |Yn − Y | > ε/2) 6 P (|X| > a) + P (|X| 6 a et |X| |Yn − Y | > ε/2)
6 P (|X| > a) + P (|Yn − Y | > ε/2a) 6 δ/2.
Choisissons maintenant b > 0 tel que P (|Y | > b) 6 δ/8. On a :
P (|Yn | |Xn − X| > ε/2) 6 P (|Yn − Y | > ε/2a) + P (|Y | > b)
+ P (|Yn − Y | 6 ε/2a ; |Y | 6 b et |Yn | |Xn − X| > ε/2);
et comme |Yn − Y | 6 ε/2a et |Y | 6 b entraînent |Yn | 6 b + ε/2a, on obtient :
P (|Yn | |Xn − X| > ε/2) 6 P (|Yn − Y | > ε/2a) + P (|Y | > b)
+ P (|Xn − X| > ε/[2b + ε/a]).
P
Alors, comme Xn −−−→ X, il existe n1 > 1, que l’on peut choisir > n0 , tel que,
n→∞
pour n > n1 , on ait P (|Xn − X| > ε/[2b + ε/a]) 6 δ/8. Comme n1 > n0 , on a
donc, pour n > n1 :
P (|Yn | |Xn − X| > ε/2) 6 δ/4 + δ/8 + δ/8 = δ/2 ,
et donc P (|Xn Yn − XY | > ε) 6 δ.
0
Remarque. Soit L (Ω, P ) l’espace de toutes les (classes de) v.a.r. X : Ω → R.
La convergence en probabilité peut être définie, comme on pourra le vérifier en
exercice, par l’une des deux distances suivantes :
|X − Y | 1 + |X − Y |
d2 (X, Y ) = inf{ε > 0 ; P (|X − Y | > ε) 6 ε} .
d1 (X, Y ) = E
Pour ces distances, L0 (P ) est un espace vectoriel topologique, non localement
convexe, et il est complet pour ces distances.
Voyons quels liens il y a avec les convergences précédentes.
Proposition 2.4 La convergence en moyenne d’ordre r entraîne la convergence
Lr
P
en probabilité : si Xn −−−→ X, alors Xn −−−→ X.
n→∞
n→∞
Preuve. Il suffirait de le faire pour r = 1, puisque la convergence dans Lr
entraîne la convergence en moyenne ; mais cela résulte immédiatement de l’inégalité très utile suivante :
8
Lemme 2.5 (inégalité de Markov) Pour toute Y ∈ Lr (P ), on a, pour tout
ε>0:
1
P (|Y | > ε) 6 r E (|Y |r ) .
ε
mais dont la preuve est immédiate :
Z
r
E (|Y | ) >
|Y |r dP > εr P (|Y | > ε) .
{|Y |>ε}
Cette inégalité est souvent appelée inégalité de Bienaymé-Tchebychev,
qui en est un cas particulier, pour r = 2, lorsque l’on centre la v.a.r. :
P (|Y − E (Y )| > ε) 6
1
Var (Y ) .
ε2
Proposition 2.6
1) La convergence presque sûre entraîne la convergence en probabilité : si
p.s.
P
Xn −−−→ X, alors Xn −−−→ X.
n→∞
n→∞
P
2) Si Xn −−−→ X, on peut extraire une sous-suite qui converge presque sûren→∞
ment vers X.
On retrouve le fait que s’il y a convergence en moyenne d’ordre r, alors il y
a une sous-suite qui converge presque sûrement.
Cette proposition peut se prouver directement, mais il est plus intéressant de
passer par le lemme suivant, qui est fondamental pour la convergence presque
sûre : il exprime la convergence presque sûre comme une convergence uniforme
en probabilité. Il explique aussi pourquoi, lorsque l’on veut montrer des convergences presque sûres, on a besoin de montrer ce que l’on appelle des inégalités
maximales, c’est-à-dire des inégalités portant sur la borne supérieure de familles
de fonctions, ou plutôt de leur valeurs absolues.
Lemme 2.7 (Lemme fondamental pour la convergence presque sûre)
Une suite de v.a.r. (Xn )n>1 converge presque sûrement vers 0 si et seulement
si :
P
Yn = sup |Xk | −−−→ 0 .
n→∞
k>n
P
Preuve. Remarquons tout d’abord que Yn −−−→ 0 si et seulement si, pour tout
n→∞
ε > 0, on a P (|Yn | > ε) −−−→ 0 (on a mis > ε au lieu de > ε).
n→∞
Pour tout ε > 0 et tout n > 1, posons :
En (ε) = {|Xn | > ε}
et :
E(ε) = lim En (ε) =
n→∞
\ [
n>1 k>n
9
Ek (ε) .
Remarquons maintenant que Xn (ω) −−−→ 0 si et seulement si :
n→∞
(∀ε > 0)
(∃n > 1)
|Xk (ω)| 6 ε ;
(∀k > n)
par conséquent :
{ω ∈ Ω ; Xn (ω) −−
−→ 0} =
n→∞
[
[
E(ε) =
ε>0
E(1/j) ,
j>1
de sorte que :
p.s.
Xn −−−→ 0
P E(ε) = 0 ,
⇐⇒
n→∞
∀ε > 0 .
S
Mais P E(ε) = limn→∞ P
k>n Ek (ε) , et cela donne le résultat puisque :
[
Ek (ε) =
n
o
sup |Xk | > ε .
k>n
k>n
Preuve de la Proposition 2.6. Le 1) résulte immédiatement du lemme.
Pour le 2), on utilisera un autre lemme, qui donne un critère pratique de
convergence presque sûre.
Lemme 2.8 Soit (Xk )k>1 une suite de v.a.r. . Si l’on a :
∞
X
P (|Xk | > ε) < +∞
k=1
p.s.
pour tout ε > 0, alors Xk −−−→ 0.
k→∞
Preuve. Il suffit de remarquer que la condition entraîne :
P E(ε) = P lim Ek (ε) = 0,
k→∞
par le Lemme de Borel-Cantelli.
P
On peut alors terminer la preuve de la Proposition 2.6 : si Xn −−−→ X, on
k→∞
peut trouver une suite strictement croissante d’entiers nk , k > 1, tels que :
P (|Xnk − X| > 1/2k ) 6
1
·
2k
Alors, pour tout ε > 0, on a, lorsque 1/2k 6 ε :
P (|Xnk − X| > ε) 6 P (|Xnk − X| > 1/2k ) 6
de sorte que
P∞
k=1
P (|Xnk − X| > ε) < +∞.
10
1
,
2k
P∞
BienPsûr, la condition : k=1 P (|Xnk − X| > ε) < +∞, ∀ε > 0, est équiva∞
lente à k=1 P (|Xnk − X| > ε) < +∞, ∀ε > 0. Elle est vérifiée dès qu’il existe
un r > 1 tel que :
∞
X
kXk krLr (P ) =
k=1
∞
X
E (|Xk |r ) < +∞ ,
k=1
p.s.
d’après l’inégalité de Markov. Mais, dans ce cas, la conclusion Xk −−−→ 0 résulte
k→∞
du Théorème de convergence monotone :
X
Z X
∞
∞ Z
∞
X
r
r
|Xk | dP =
|Xk | dP =
E (|Xk |r ) < +∞ ,
Ω
k=1
qui entraîne
p.s.
Xk −−−→ 0.
Ω
k=1
P∞
k=1
r
|Xk |
k=1
< +∞ presque sûrement, et donc, en particulier,
k→∞
3
Convergence des séries de variables aléatoires
réelles indépendantes
3.1
Loi du 0–1 de Kolmogorov
Soit Bn n>1 une suite de sous-tribus de A .
On note :
σ(Bn , Bn+1 , . . .)
la tribu engendrée par Bn , Bn+1 , . . . .
Définition 3.1 La tribu :
B∞ =
\
σ(Bn , Bn+1 , . . . )
n>1
est appelée tribu asymptotique de la suite Bn
n>1
.
Intuitivement, les événements
de B∞ décrivent se qui se passe à l’infini,
relativement à la suite Bn n>1 .
L’exemple de base est donné par la :
Proposition 3.2 Si An ∈ Bn pour tout n > 1, alors :
lim An ∈ B∞
et
n→∞
11
lim An ∈ B∞ .
n→∞
Remarque. Etant donnés An ∈ A , n > 1, on peut toujours choisir Bn =
{∅, An , Acn , Ω} ; les événements lim An et lim An sont donc toujours asympn→∞
n→∞
totiques (pour ce choix de tribus).
c
Preuve. Comme lim An =
lim Acn , il suffit de montrer que lim An ∈
n→∞
n→∞
n→∞
B∞ .
Or, pour tout n > m, on a :
\
Ak ∈ σ(Bm , Bm+1 , . . . ) .
k>n
Ak n>1 est croissante, on a, pour tout m > 1 :
[\
[ \
Ak =
Ak ∈ σ(Bm , Bm+1 , . . . ) ,
lim An =
Comme la suite
n→∞
T
k>n
n>1
n>m
k>n
k>n
ce qui donne bien le résultat annoncé.
Proposition 3.3 Si, pour tout n > 1, Xn : Ω → R est une v.a.r. Bn mesurable, alors lim Xn et lim Xn sont des v.a.r. B∞ -mesurables.
n→∞
n→∞
Preuve. Il suffit de faire la preuve pour X = lim Xn . La v.a.r. Yn = inf k>n Xk
n→∞
est σ(Bn , Bn+1 , . . .)-mesurable ; donc supn>m Yn est σ(Bm , Bm+1 , . . .)-mesurable. Mais, pour tout m > 1, X = supn>m Yn ; donc X est σ(Bm , Bm+1 , . . .)mesurable pour tout m > 1, et donc B∞ -mesurable.
Corollaire 3.4 L’ensemble de convergence :
{ω ∈ Ω ;
lim Xn (ω)
n→+∞
existe}
est dans la tribu asymptotique B∞ .
Remarque. Les v.a.r. Xn étant données, on peut toujours prendre Bn =
σ(Xn ), ou Bn = σ(Xn , Xn+1 , . . .) ; dans ces deux cas, on a σ(Bn , Bn+1 , . . .) =
σ(Xn , Xn+1 , . . .), et l’ on a donc la même tribu asymptotique.
L’intérêt de la tribu asymptotique est :
Théorème 3.5 (loi du 0–1 de Kolmogorov)
Si les tribus Bn , pour n > 1, sont indépendantes, alors tout B ∈ B∞
est indépendant de lui-même, et donc P (B) = 0 ou P (B) = 1 .
12
Preuve. Pour tout m < n, les deux tribus :
σ(B1 , . . . , Bm ) et σ(Bn , Bn+1 , . . .)
sont indépendantes ; donc σ(B1 , . . . , Bm ) et B∞ sont indépendantes pour tout
m > 1.
Notons :
[
C =
σ(B1 , . . . , Bm ).
m>1
C est stable par intersection finie (car la suite σ(B1 , . . . , Bm ) m>1 est croissante), contient Ω, et tout élément de C est indépendant de tout élément de B∞ .
Par le critère d’indépendance vu au Chapitre 1 (Proposition 4.9), les tribus :
σ(C ) = σ(B1 , B2 , . . .) et B∞
sont indépendantes.
Comme B∞ ⊆ σ(B1 , B2 , . . .), B∞ est indépendante d’elle-même, et donc,
pour tout B ∈ B∞ , on a :
P (B) = P (B ∩ B) = P (B).P (B) ;
donc P (B) = 0 ou P (B) = 1.
Corollaire 3.6 Si les v.a.r. Xn , n > 1, sont indépendantes, alors les v.a.r.
lim Xn et lim Xn sont p.s. constantes.
n→∞
n→∞
Preuve. Prenons Bn = σ(Xn ). On sait que X = lim Xn est B∞ -mesurable.
n→∞
p.s.
Si P (X = −∞) = 1 (respectivement P (X = +∞) = 1), alors X = −∞
(respectivement +∞).
Sinon, comme les tribus B1 , B2 , . . . sont indépendantes, on a, par la loi du
0–1 : P (X = −∞) = P (X = +∞) = 0. X est donc p.s. à valeurs dans R. De
plus, pour tout x ∈ R :
FX (x) = P (X 6 x) = 0 ou 1 ;
donc si l’on pose a = sup{x ∈ R ; FX (x) = 0}, alors a ∈ R, et FX (x) = 0 pour
x < a, FX (x) = 1 pour x > a. Comme FX est continue à droite, on a FX (a) = 1.
p.s.
Donc FX = 1I[a,+∞ [ , de sorte que X = a.
Remarque. Nous avons vu que si les événements An , n > 1, sont indépendants,
alors lim An est asymptotique, et donc de probabilité 0 ou 1 par la loi du 0–1.
n→∞
On peut en fait voir cela directement, et même le préciser.
13
Proposition 3.7 (Lemme de Borel-Cantelli) Si les événements An , n >
1, sont indépendants, on a :
∞
X
a)
P ( lim An ) = 0 ⇐⇒
P (An ) < +∞ ;
n→∞
n=1
P ( lim An ) = 1
b)
n→∞
∞
X
⇐⇒
P (An ) = +∞.
n=1
Preuve. Nous avons déjà vu que, même sans indépendance :
+∞
X
P (An ) < +∞
=⇒
P (limn→∞ An ) = 0 .
=⇒
P (limn→∞ An ) = 1 ;
n=1
Mais, d’autre part, on a aussi :
∞
X
P (An ) = +∞
n=1
en effet, comme les Acn , n > 1, sont indépendants, on a :
P
N
\
Ack
=
k=n
N
Y
P (Ack )
k=n
6
N
Y
=
N
Y
1 − P (Ak )
k=n
N
X
exp − P (Ak ) = exp −
P (Ak ) −−−−→ 0 ;
k=n
donc P
T
k>n
k=n
Ack = 0, et donc :
\
Ack = 0 .
P lim Acn = P
n→∞
N →+∞
k>n
Exemple. Si l’on joue à “pile ou face”, et que An est l’événementP“obtenir “face”
∞
au nème lancer”, comme P (An ) = 1/2 pour tout n > 1, on a n=1 P (An ) =
+∞, donc P ( lim An ) = 1 : presque sûrement, on aura une infinité de fois
n→∞
“face”. De même, on aura une infinité de fois “pile”.
Remarque. L’indépendance
est essentielle. Par exemple, si Ω = [0, 1] et An =
P∞
P
∞
[0, 1/n], on a n=1 P (An ) = n=1 n1 = +∞, mais lim An = {0}.
n→∞
3.2
Convergence des séries de variables aléatoires réelles
indépendantes
Nous supposerons ici que les v.a.r. Xn prennent leurs valeurs dans R, et pas
dans R .
Commençons par un corollaire de la loi du 0–1 .
14
Proposition 3.8 Soit (Xn )n>1 une suite de v.a.r. indépendantes. Alors :
X
C = ω ∈ Ω;
Xn (ω) converge
n>1
est de probabilité 0 ou 1.
Preuve. Posons Sn = X1 + · · · + Xn .
Il faut faire attention que les v.a.r. S1 , S2 , . . . ne sont pas indépendantes.
Néanmoins, si l’on prend Bn = σ(Xn ), les tribus B1 , B2 , . . . sont indépendantes, et, pour tout n > 1 :
n
o
X
C = ω ∈ Ω;
Xk (ω) converge ∈ σ(Bn , Bn+1 , . . .) ;
k>n
donc C ∈ B∞ .
Un premier critère de convergence pour la série est donné par le :
Théorème 3.9 (Théorème de Kolmogorov) Si les v.a.r. Xn , n > 1, sont
dans L2 (P ), sont indépendantes et centrées : E (Xn ) = 0, alors :
∞
X
n=1
kXn k22 =
∞
X
E (Xn2 ) < +∞
=⇒
n=1
∞
X
Xn
converge p.s. .
n=1
Exemple. Soit (εn )n>1 une suite indépendante de v.a.r. telles quePP (εn =
εn
−1) = P (εn = 1) = 1/2 (choix de signes aléatoire), alors la série
n>1 nα
converge p.s. dès que α > 1/2 (alors qu’elle ne converge pour tout choix de
P
signes que si α > 1). Si εn (ω0 ) = (−1)n , pour tout n > 1, alors n>1 εnn(ωα 0 ) est
alternée et converge pour tout α > 0.
Si l’on ne suppose pas les Xn centrées, les Xn −E (Xn ) le sont de toute façon,
et le théorème devient :
Corollaire 3.10 Si les Xn , n > 1, sont dans L2 (P ) et sont indépendantes,
alors :
∞
X
n=1
Var (Xn ) < +∞
=⇒
∞
X
Xn − E (Xn )
converge p.s. .
n=1
Remarque. Les Xn étant indépendantesP
et centrées, elles
sont orthogonales
P∞
∞
2
dans L2 (P ). Par conséquent, la condition
kX
k
=
E (Xn2 ) < +∞
n
2
n=1
n=1
P∞
équivaut à la convergence de la série
n=1 Xn pour la norme dans l’espace
L2 (P ) (c’est-à-dire en moyenne quadratique). Il en résulte qu’il y a convergence
15
de la série en probabilité. Cela entraîne qu’une sous-suite de la suite des sommes
partielles converge presque sûrement. Le Théorème de Kolmogorov donne la
convergence presque sûre de la suite des sommes partielles elle-même.
En fait, nous verrons un théorème, dû à Paul Lévy, disant P
que pour des v.a.r.
indépendantes Xn , la convergence en probabilité de la série n>1 Xn équivaut
à sa convergence presque sûre. Mais il est préférable de connaître la remarquable
inégalité de Kolmogorov, ci-dessous, qui donne directement le théorème. On peut
donner une preuve directe du théorème de Paul Lévy utilisant les mêmes idées
(voir D. Revuz, p. 138, ou L. Breiman, p. 45–46), mais on suivra un chemin
légèrement différent.
Théorème 3.11 (inégalité de Kolmogorov) Si les v.a.r. Xn , n > 1, sont
dans L2 (P ) et sont indépendantes et centrées, alors, pour tout a > 0, on
a:
n
∞
X
1 X
Xk > a 6 2
E (Xk2 ) .
P sup a
n>1
k=1
k=1
C’est ce que l’on appelle une “inégalité maximale” ; il est naturel, comme on
l’a dit, de devoir montrer une telle inégalité, puisque l’on cherche à prouver une
convergence presque sûre. Cette inégalité de Kolmogorov généralise l’inégalité de
Bienaymé-Tchebychev (Markov) qui correspond au cas d’une seule v.a.r. (c’està-dire si X2 = X3 = · · · = 0). Contrairement à celle de Bienaymé-Tchebychev,
sa preuve n’est pas évidente.
peut aussi remarquer que l’orthogonalité des Xn permet d’écrire que
On
Pn
Pn
2
2
E
=
k=1 Xk
k=1 E (Xk ), et donc l’inégalité de Bienaymé-Tchebychev
s’écrit :
n
n
∞
X
1 X
1 X
Xk > a 6 2
E (Xk2 ) 6 2
E (Xk2 ) ;
P a
a
k=1
k=1
k=1
on voit donc le renforcement apporté par l’inégalité de Kolmogorov ; c’est ce
qui permet de passer de la convergence en probabilité à la convergence presque
sûre.
Preuve du Théorème à partir de l’inégalité. On applique l’inégalité pour
la suite Xm+1 , Xm+2 , . . . :
P
n
X
1
sup Xk > a 6 2
a
n>m
k=m+1
Posons Sn =
Comme :
Pn
k=1
∞
X
E (Xk2 ) .
k=m+1
Xk .
Sn2 − Sn1 6 |Sn2 − Sm | + |Sn1 − Sm | ,
16
on a :
sup Sn − inf Sn 6 2 sup |Sn − Sm | ,
n>m
n>m
n>m
donc :
1
P sup Sn − inf Sn > 2a 6 P sup |Sn −Sm | > a 6 2
n>m
a
n>m
n>m
∞
X
E (Xk2 ) −−−→ 0 .
m→∞
k=m+1
Comme
lim Sn − lim Sn = lim
n→∞
n→∞
m→∞
sup Sn − inf Sn = inf sup Sn − inf Sn ,
n>m
n>m
m>1
n>m
n>m
on a, pour tout m > 1 :
sup Sn − inf Sn > 2a ⊇ lim Sn − lim Sn > 2a ;
n>m
n→∞
n>m
n→∞
on obtient donc :
P
lim Sn − lim Sn > 2a = 0 .
n→∞
n→∞
Comme c’est vrai pour tout a > 0, cela signifie que :
lim Sn = lim Sn
n→∞
p.s. .
n→∞
La suite (Sn )n>1 a donc presque sûrement une limite. Cette limite est presque
sûrement finie car on a vu, juste
P avant la preuve, que, grâce à l’orthogonalité
des Xn dans L2 (P ), la série n>1 Xn converge en probabilité vers une v.a.r.
X ∈ L2 (P ). Cette v.a.r. X est finie p.s. et est limite en probabilité de la suite
(Sn )n>1 . Elle coïncide donc avec sa limite presque sûre, qui est donc bien finie
presque sûrement.
Preuve de l’inégalité de Kolmogorov. Introduisons la v.a.r. :
νa : Ω → {1, 2, . . . , +∞}
définie par :

n
X



Xk (ω) 6 a , ∀n > 1 ,

 +∞ si k=1
X
νa (ω) =
n
o
n



min
n
>
1
;
X
(ω)
>
a
sinon.

k

k=1
On a :
ν(ω) < +∞
νX
a (ω)
Xk (ω) > a .
=⇒
k=1
17
.
νa (ω) est le premier instant (c’est-à-dire le premier indice) où la somme va
dépasser a.
On a :
m
o
[ n X
(3.1)
Xk (ω) > a ;
{νa 6 n} =
m6n
k=1
donc :
{νa < +∞} =
[
{νa 6 n} =
n>1
=
n
m
o
[ n X
>a
X
(ω)
k
m>1
k=1
m
o
X
sup Xk (ω) > a ,
m>1
k=1
et il s’agit par conséquent de montrer que :
P (νa < +∞) 6
∞
1 X
E (Xn2 ) .
a2 n=1
Introduisons alors les v.a.r. Yn définies par :
Xn (ω) si n 6 νa (ω)
Yn (ω) = Xn (ω)1I{νa >n} (ω) =
0
si n > νa (ω) .
On a :
∞
X
n=1
νa (ω)
Yn (ω) =
X
Xn (ω) ,
n=1
de sorte que, pour calculer la somme des Yn (ω), on calcule celle des Xn (ω), en
s’arrêtant à l’indice νa (ω). On dit que la v.a.r. νa est un temps d’arrêt.
Maintenant :
• comme |Yn | 6 |Xn |, on a Yn ∈ L2 (P ) ;
• la suite (Yn )n>1 est orthogonale dans L2 (P ). En effet, commençons par
remarquer que (3.1) entraîne :
{νa 6 n} ∈ σ(X1 , . . . , Xn ),
∀n > 1 ;
donc :
{νa > m} = {νa 6 m − 1}c ∈ σ(X1 , . . . , Xm−1 ) ,
et donc Ym est σ(X1 , . . . , Xm )-mesurable. Par conséquent, pour m < n, la v.a.r.
1I{νa >n} Ym est σ(X1 , . . . , Xn−1 )-mesurable, donc indépendante de Xn . Il en résulte que :
E (Yn Ym ) = E (Xn .1I{νa >n} Ym ) = E (Xn ) E (1I{νa >n} Ym ) = 0 ;
18
Comme :
νa (ω) < +∞
=⇒
νX
a (ω)
Xn (ω) > a
n=1
=⇒
X
∞
Yn (ω) > a ;
n=1
on obtient :
X
∞
Yn (ω) > a
P (νa < +∞) 6 P n=1
1
6 2E
a
X
∞
2 Yn
(Bienaymé-Tchebychev)
n=1
=
∞
1 X
kYn k2L2 (P )
a2 n=1
6
∞
∞
1 X
1 X
2
kX
k
=
E (Xn2 ) .
2
n L (P )
a2 n=1
a2 n=1
(par orthogonalité)
Le Théorème de Kolmogorov a une réciproque partielle.
Théorème 3.12 Si les v.a.r. Xn , n > 1, sont indépendantes, et centrées,
P
et si |Xn | 6 M , ∀n > 1 , alors la convergence p.s. de la série
n>1 Xn
P+∞
2
entraîne n=1 E (Xn ) < +∞ .
Remarquons que, puisque |Xn | 6 M , on a Xn ∈ L∞ (P ), donc Xn ∈ L2 (P ).
Nous allons donner deux preuves de ce résultat. La première reprend les
idées de la preuve du Théorème de Kolmogorov ; la seconde, plus élémentaire,
utilise une inégalité très utile, bien que très simple, due à Paley et Zygmund.
Preuve 1. On utilisera de nouveau le temps d’arrêt νa .
1) Fixons n > 1.
n−1 X
a) Par définition, sur l’ensemble {νa = n}, on a Xk 6 a .
k=1
Comme |Xn | 6 M par hypothèse, on a :
X
n
Xk 6 a + M sur {νa = n} .
k=1
b) Comme {νa = n} ∈ σ(X1 , . . . , Xn ), on a, par indépendance, pour
k>n:
Z
Xk2 dP = E 1I{νa =n} Xk2 = E 1I{νa =n} E (Xk2 ) = P (νa = n) E (Xk2 ) .
{νa =n}
19
c) De même, puisque E (Xk ) = 0, on a, pour k > n et k 6= k 0 :
Z
Xk0 Xk dP = E (1I{νa =n} Xk0 ) E (Xk ) = 0 .
{νa =n}
d) Donc, pour N > n :
N
X
Z
{νa =n}
Xk
2
n
X
Z
dP =
{νa =n}
k=1
Xk
2
Z
N
X
dP +
k=1
k=n+1
Xk2 dP .
{νa =n}
On obtient ainsi :
N
X
Z
{νa =n}
Xk
2
dP 6 (a + M )2 P (νa = n) + P (νa = n)
k=1
N
X
E (Xk2 )
k=n+1
N
X
E (Xk2 ) .
6 P (νa = n) (a + M )2 +
k=n+1
2) En sommant pour 1 6 n 6 N , cela donne :
X
N
Z
{νa 6N }
2
Xk
N
X
dP 6 P (νa 6 N ) (a + M )2 +
E (Xk2 ) .
k=1
(3.2)
k=1
3) Notons maintenant que :
νa > N
N
X 6 a;
X
k
=⇒
k=1
donc :
N
X
Z
{νa >N }
Xk
2
dP 6 a2 P (νa > N ) 6 (a + M )2 P (νa > N ) .
(3.3)
k=1
4) En additionnant (3.2) et (3.3), on obtient :
E
X
N
Xk
2 6 (a + M )2 + P (νa 6 N )
k=1
N
X
E (Xk2 ) .
k=1
Mais, les v.a.r. Xn , n > 1, étant indépendantes et centrées, sont orthogonales ;
h P
2 i P
N
N
donc E
= k=1 E (Xk2 ), et l’on obtient :
k=1 Xk
P (νa > N )
N
X
E (Xk2 ) 6 (a + M )2 .
k=1
20
Faisons tendre N vers +∞ ; cela donne :
P (νa = +∞)
∞
X
E (Xk2 ) 6 (a + M )2 .
k=1
5) Utilisons maintenant la convergence p.s. de la série
plique qu’il existe a > 0 tel que :
P
n>1
Xn . Elle im-
n
X
P sup Xk 6 a > 0 ,
n>1
k=1
P
n
car sinon on aurait P supn>1 k=1 Xk > m = 1, pour tout m > 1, et l’on
P
n
aurait donc P supn>1 k=1 Xk = +∞ = 1.
Mais cela signifie que pour cet a > 0 :
P (νa = +∞) > 0 ,
ce qui termine la démonstration.
Preuve 2. On commencera par montrer une inégalité simple, mais utile.
Proposition 3.13 (inégalité de Paley-Zygmund) Soit X une v.a.r. positive, non nulle, et dans L2 . Alors, pour tout λ ∈]0, 1[, on a :
[E (X)]2
P X > λ E (X) > (1 − λ)2
·
E (X 2 )
Preuve. Soit A l’événement X > λ E (X) . Utilisons l’inégalité de CauchySchwarz pour écrire :
E (X) = E (X1IAc ) + E (X1IA ) 6 λ E (X) + [E (X 2 )]1/2 [E (1IA )]1/2
= λ E (X) + P (A)1/2 [E (X 2 )]1/2 ;
d’où (1 − λ) E (X) 6 P (A)1/2 [E (X 2 )]1/2 , ce qui donne le résultat.
Preuve 2 du Théorème 3.12. On utilisera seulement le fait que la v.a.r. :
S = sup |Sn | = sup |X1 + · · · + Xn |
n>1
n>1
est finie presque sûrement.
Sans perdre de généralité, on peut supposer que M = 1.
Comme X1 , . . . , XN sont indépendantes et centrées, elles sont orthogonales
N
P
2
2
dans L2 (P ), et donc
E (Xn2 ) = E (SN
). Notons cette valeur par σN
.
n=1
21
L’inégalité de Paley-Zygmund donne :
2
2
2
P (S 2 > σN
/2) > P (SN
> σN
/2) >
4
1 σN
4 ) ·
4 E (SN
4
Majorons E (SN
). On a :
4
SN
=
X
4!
αN
X α1 · · · XN
,
α1 ! . . . αN ! 1
où la somme porte sur tous les N -uples d’entiers tels que α1 + · · · + αN = 4.
D’où, par indépendance :
4
E (SN
)=
X
4!
αN
E (X1α1 ) · · · E (XN
).
α1 ! · · · αN !
Mais un αi égal à 1 donne une contribution nulle car les Xi sont centrées ; donc :
4
E (SN
)=
X
4!
2βN
E (X12β1 ) · · · E (XN
),
(2β1 )! · · · (2βN )!
où la somme porte cette fois sur tous les N -uples d’entiers tels que β1 +· · ·+βN =
2. Comme |Xn | 6 1, on obtient :
4
E (SN
)
N
X
X
E (Xi4 ) +
E (Xi2 )E (Xj2 )
66
i=1
i6=j
N
X
X
2
4
E (Xi2 ) +
E (Xi2 )E (Xj2 ) 6 6(σN
+ σN
).
66
i=1
i6=j
Revenant à l’inégalité de Paley-Zygmund, on obtient donc :
2
P (S 2 > σN
/2) >
4
1
σN
2
4 ·
24 σN + σN
2
Si l’on avait σ 2 = limN →∞ σN
= +∞, cela donnerait, par passage à la limite
2
monotone : P (S =P
+∞) > 1/24 , ce qui contredirait P (S < +∞) = 1.
∞
On a donc bien n=1 E (Xn2 ) = σ 2 < +∞.
On peut supprimer l’hypothèse que les variables soient centrées (E (Xn ) = 0)
de la façon suivante.
Corollaire 3.14 Si lesPXn sont indépendantes
P∞ et si |Xn | 6 M , ∀n > 1, alors
la convergence p.s. de n>1 Xn entraîne n=1 Var (Xn ) < +∞.
Preuve. Soit (Xn0 )n>1 une suite indépendante de v.a.r., et elle-même indépendante de la suite (Xn )n>1 , telle que Xn0 ait la même loi que Xn pour tout
n > 1.
La v.a.r. Xns = Xn − Xn0 est appelée la symétrisée de Xn .
22
0
Elle est centrée : EP
(Xns ) = E (Xn )−E (Xn0 )P
= 0, et |Xns | 6 |Xn |+|XP
n | 6 2M .
0
De plus, si la série n>1 Xn converge p.s., n>1 Xn aussi, et donc n>1 Xns
aussi.
P∞
Le Théorème 3.12 dit alors que n=1 E (Xns 2 ) < +∞. Mais :
E (Xns 2 ) = Var (Xns ) = Var (Xn − Xn0 ) = Var (Xn ) + Var (Xn0 ) = 2Var (Xn ) . Nous pouvons maintenant énoncer le résultat principal.
Théorème 3.15 (Théorème des trois séries de Kolmogorov)P
Si les Xn , n > 1, sont des v.a.r. indépendantes, alors la série n>1 Xn
converge presque sûrement si et seulement si les trois séries de nombres suivantes convergent :
a)
P
n>1
[M ]
où Xn
P (|Xn | > M ) ;
b)
[M ]
P
n>1
Var (Xn ) ;
[M ]
est la v.a.r. Xn tronquée en M : Xn
c)
P
n>1
[M ]
E (Xn ) ,
= Xn .1I{|Xn |6M } .
On remarquera que si les conditions b) et c) sont vérifiées pour un M > 0,
elles le sont pour tout M > 0 : il suffit de multiplier les variables Xn par une
même constante.
Preuve.
P
1) Supposons que n>1 Xn converge p.s.. Alors :
p.s.
a) Xn −−−→ 0 ; on a donc P ( lim |Xn | > M ) = 0. Mais
n→∞
n→∞
n
lim |Xn | > M
n→∞
o
⊇ lim {|Xn | > M } .
n→∞
Comme les événements
P∞An = {|Xn | > M } sont indépendants, le lemme de
Borel-Cantelli donne n=1 P (|Xn | > M ) < +∞.
[M ]
b) Les v.a.r. Xn étant indépendantes et bornées par M , on peut utiliser
P
[M ]
le Théorème 3.12 (ou plutôt le Corollaire 3.14) puisque n>1 Xn converge
p.s.
p.s. : en effet, on a Xn −−−→ 0 ; donc, presque sûrement, |Xn | 6 M , pour n
n→∞
[M ]
assez grand, c’est-à-dire que, presque sûrement, Xn (ω) = Xn (ω), pour n assez
P
[M ]
grand ; on obtient donc n>1 Var (Xn ) < +∞.
[M ]
c) Le Théorème de Kolmogorov appliqué à la v.a.r. centrée Xn −
P
[M ]
[M ]
[M ] E (Xn ) donne alors la convergence p.s. de n>1 Xn − E (Xn ) , et donc
P
P
[M ]
[M ]
la convergence de n>1 E (Xn ) puisque n>1 Xn converge p.s. par le b).
2) Réciproquement, si les trois séries convergent, la condition b) permet,
[M ]
[M ]
comme ci-dessus, d’appliquer le Théorème de Kolmogorov à Xn − E (Xn )
23
et d’obtenir la convergence p.s. de
P
n>1
[M ]
Xn
[M ] − E (Xn ) . La condition c)
P
[M ]
entraîne alors la convergence p.s. de n>1 Xn .
Par ailleurs, la condition a) entraîne que P lim {|Xn | > M } = 0, via
n→∞
[M ]
le lemme de Borel-Cantelli ; comme {|Xn | > M } = {Xn 6= Xn }, on a donc
[M ]
X
Pn = Xn p.s., pour n assez grand, et l’on obtient la convergence p.s. de
n>1 Xn .
[M ]
Remarque. 1) Si les Xn sont symétriques, alors les Xn aussi ; on a donc
[M ]
E (Xn ) = 0 ; la condition c) est par conséquent automatiquement vérifiée.
2) Si les Xn sont positives, alors :
2
Var (Xn[M ] ) 6 E (Xn[M ] ) 6 E (M.Xn[M ] ) = M.E (Xn[M ] ) ,
et dans ce cas, la condition b) résulte de la condition c).
Donnons une application, importante, de ce théorème.
Théorème 3.16 Soit (an )n>1 une suite de nombres complexes,
et (Zn )n>1
P
une suite i.i.d. centrée non nulle, dans L2 . Alors la série n>1 an Zn converge
P∞
presque sûrement si et seulement si n=1 |an |2 < +∞.
Preuve. On peut supposer les an réels et aussi kZ1 k2 = 1 (et donc kZn k2 = 1
pour tout n > P
1).
∞
Si la série n=1 |an |2 converge,
P∞le Théorème de Kolmogorov donne immédiatement la convergence p.s. de n=1 an Zn , puisque kZn k2 = 1.
Réciproquement, si la série converge p.s., appliquons le Théorème des trois
séries à laPsuite (an Zn )n>1 , avec le troncage en M = 1.
∞
On a n=1 P (|Z1 | > 1/|an |) < +∞ ; donc, en particulier :
P (|Z1 | 6 1/|an |) −−−→ 1 .
n→∞
Mais E (Y 1IA ) −−−−→ E (Y ) pour toute v.a.r. intégrable Y ; donc :
P (A)→1
E
[1/|an |] 2 Z1
−−−→ E (Z12 ) = kZ1 k22 = 1 .
n→∞
[1/|a |] De même E Z1 n −−−→ E (Z1 ). Comme la v.a.r. Z1 est centrée, on a E (Z1 ) =
n→∞
0, et donc :
[1/|a |] 2 [1/|a |]
[1/|a |] 2
Var (Z1 n ) = E Z1 n
− E Z1 n
−−−→ 1 ,
n→∞
[1/|a |]
P∞
de sorte que a2n Var (Z1 n ) ∼ a2n , et donc n=1 a2n < +∞, puisque le ThéoP∞
[1/|a |]
rème des trois séries nous dit que n=1 a2n Var (Z1 n ) < +∞.
24
4
Lois des grands nombres
On appelle ainsi les théorèmes donnant l’existence de limites pour les moyennes empiriques :
X1 + · · · + Xn
Xn =
·
n
Il y a beaucoup d’énoncés de ce type. On distingue les lois faibles des
grands nombres, qui donnent des limites en probabilité (en fait souvent en
moyenne ou en moyenne quadratique), et les lois fortes des grands nombres,
qui donnent des limites presques sûres. Il est bien sûr plus intéressant de savoir
qu’il se passe quelquechose presque sûrement, que de savoir que cela se passe
en moyenne. On donne en général les deux types de lois car les lois faibles sont
plus faciles à prouver. De plus, bien que, basiquement, on suppose les v.a.r. Xn
indépendantes et de même loi, on peut affaiblir les hypothèses pour obtenir des
lois faibles, alors que les lois fortes n’ont pas lieu. Il existe donc un grand nombre
de types d’énoncés. Nous allons en donner quelques-uns.
4.1
Lois faibles des grands nombres
Dans le premier énoncé, dû à Tchebychev, nous supposons les v.a.r. dans L2
et non corrélées.
Théorème 4.1 (Tchebychev) Loi faible des grands nombres, cas L2
Si les v.a.r. Xn ∈ L2 sont centrées et non corrélées, et si :
n
1 X
E (Xk2 ) −−−→ 0 ,
n→∞
n2
k=1
alors :
Xn =
En particulier :
X1 + · · · + Xn L2
−−−→ 0 .
n→∞
n
P
X1 +···+Xn
−−−→ 0 .
n
n→∞
Preuve. La preuve est très simple. Notons d’abord que, les v.a.r. étant centrées
et non corrélées, elles sont orthogonales dans L2 ; donc :
kX n k22 =
n
n
1 X
1 X
2
kX
k
=
E (Xk2 ) −−−→ 0 .
k 2
n→∞
n2
n2
k=1
k=1
Cas particulier. Si les Xn ∈ L2 sont centrées, non corrélées, et de même loi,
alors E (Xk2 ) = σ 2 , pour tout k > 1 ; donc :
n
1 X
1
E (Xk2 ) = 2 · (nσ 2 ) −−−→ 0 .
n→∞
n2
n
k=1
25
On obtient donc :
Corollaire 4.2 Si les Xn ∈ L2 sont i.i.d., de moyenne m, alors :
Xn =
X1 + · · · + Xn L2
−−−→ m .
n→∞
n
Avant de donner un énoncé valable dansR L1 , rappelons que si X ∈ L1 , alors :
• (∀ε > 0)
Z (∃δ > 0) P (A) 6 δ =⇒ A |X| dP 6 ε (absolue continuité) ;
• lim
a→+∞
|X| dP = 0 .
{|X|>a}
Pour une partie F ⊆ L1 (P ), ces propriétés peuvent être vérifiées uniformément :
Définition 4.3 Si F ⊆ L1 (P ), on dit que :
1) F est équicontinue si :
(∀ε > 0) (∃δ > 0)
P (A) 6 δ
=⇒
Z
|X| dP 6 ε , ∀X ∈ F ;
A
2) F est équi-intégrable si :
Z
lim
sup
a→+∞
X∈F
|X| dP = 0 .
{|X|>a}
Exemple. S’il existe Y ∈ L1 (P ) telle que |X| 6 Y , pour tout X ∈ F , alors F
est équi-intégrable.
On pourra vérifier à titre d’exercice que F est équi-intégrable si et seulement
si elle est équicontinue et bornée dans L1 (P ).
D’autre part, on montre (Théorème de Dunford-Pettis) que F est équiintégrable si et seulement si F est relativement compact pour la topologie faible
de L1 (P ).
On a :
Théorème 4.4 (Loi faible des grands nombres, cas L1 )
Si les v.a.r. Xn sont indépendantes, dans L1 , et ont la même moyenne
P
m = E (Xn ), et si {Xn ; n > 1} est équi-intégrable, alors X n −−−→ m .
n→∞
26
Corollaire 4.5 (Khintchine) Si les Xn ∈ L1 sont i.i.d., alors :
P
X n −−−→ m = E (X1 ) .
n→∞
Preuve. Comme les Xn ∈Z L1 ont la même loi, elles ont d’une part la même
espérance, et d’autre part
|Xn | dP ne dépend pas de n, de sorte que
{|Xn |>a}
{Xn ; n > 1} est équi-intégrable.
Preuve du Théorème. On peut supposer m = 0. Soit ε > 0.
Par l’équi-intégrabilité, il existe M > 0 tel que :
E |Xn | 1I{|Xn |>M } 6 ε2 .
Tronquons les Xn en M :
Yn = Xn[M ] = Xn .1I{|Xn |6M } ,
et posons Zn = Xn − Yn = Xn .1I{|Xn |>M } .
On a :
X n = X n − E (X n ) = [Y n − E (Y n )] − [Z n − E (Z n )] ;
donc :
P (|X n | > 2ε) 6 P (|Y n − E (Y n )| > ε) + P (|Z n − E (Z n )| > ε) .
Or :
• l’inégalité de Bienaymé-Tchebychev donne :
1
P (|Y n − E (Y n )| > ε) 6 2 Var (Y n )
ε
n
1 X Var (Yk )
= 2
(par indépendance)
ε
n2
6
1
ε2
k=1
n
X
k=1
2
E (Yk2 )
1 1
6 2 2 × nM 2
2
n
ε n
(car |Yk | 6 M )
M
;
nε2
• d’autre part, par l’inégalité de Markov :
1
1
P (|Z n − E (Z n )| > ε) 6 E (|Z n − E (Z n )|) 6 × 2 E (|Z n |)
ε
ε
n
2
1X
6 ×
E (|Zk |)
ε n
=
k=1
n
2 X
2
6
E (|Xk | 1I{|Xk |>M } ) 6
× nε2 = 2ε .
nε
nε
k=1
27
Donc :
P (|X n | > 2ε) 6
M2
+ 2ε 6 3ε
nε2
P
pour n assez grand. Par la Proposition 2.2, cela montre que X n −→ 0.
n→∞
4.2
Lois fortes des grands nombres
Théorème 4.6 (Rajchman) Loi forte des grands nombres, cas L2
Si les Xn sont dans L2 , sont indépendantes et centrées, alors, pour
toute suite croissante de nombres réels un > 0 tendant vers +∞, on a :
∞
X
E (Xn2 )
< +∞
u2n
n=1
=⇒
n
1 X
p.s.
Xk −−−→ 0 .
n→∞
un
k=1
Le cas le plus usuel est un = n ; on obtient en particulier :
Corollaire 4.7 Si les Xn ∈ L2 sont i.i.d., de moyenne m, alors :
n
1X
p.s.
Xn =
Xk −−−→ m .
n→∞
n
k=1
Preuve. En effet, on peut appliquer le théorème à Xn − m car E (Xn − m)2 =
Var (Xn ) = σ 2 ne dépend pas de n et donc :
∞
∞
X
X
E (Xn − m)2
1
2
=
σ
< +∞ .
2
2
n
n
n=1
n=1
Remarque. Avec les hypothèses
du corollaire et les v.a.r. Xn centrées, on peut
√
même prendre un = n(log n)α pour tout α > 1/2 ; on a donc, pour tout
α > 1/2 :
n
X
1
p.s.
√
(4.1)
Xk −−−→ 0 .
α
n→∞
n(log n)
k=1
Preuve du Théorème 4.6. Le Théorème de Kolmogorov, appliqué à Xn /un
X Xn
nous dit que la série
converge p.s. . Il suffit donc d’utiliser le lemme
un
n>1
suivant.
28
Lemme 4.8 (Lemme de Kronecker) Pour toute suite croissante de nombres réelsX
un > 0 tendant vers +∞, et pour toute suite de nombres réels xn
xn
telle que
converge dans R, on a :
un
n>1
n
1 X
xk −−−→ 0 .
n→∞
un
k=1
Preuve. Posons u0 = 0 et, pour n > 1 :
vn = un − un−1 > 0 ,
zn =
n
X
xk
k=1
Alors :
∞
X
uk
·
vn = +∞
n=1
et
z = lim zn
n→∞
existe dans R.
On a, en posant z0 = 0 :
n
X
k=1
xk =
n
X
n
uk
k=1
X
xk
=
uk (zk − zk−1 )
uk
k=1
= u1 (z1 − z0 ) + u2 (z2 − z1 ) + · · · + un (zn − zn−1 )
= u1 z0 + (u1 − u2 )z1 + (u2 − u3 )z2 + · · · + (un−1 − un )zn−1 + un zn
= −(v1 z0 + v2 z1 + · · · + vn zn−1 ) + (v1 + · · · + vn )zn
n
X
=
vl (zn − zl−1 ).
l=1
Donnons-nous ε > 0 et choisissons pε > 1 tel que pour n > p > pε on ait :
sup |zn − zl−1 | 6 ε.
l>p
Alors, pour n > p > pε :
p
n
n
1 X
1 X
1 X
vl |zn − zl−1 | +
xk 6
vl sup |zn − zl−1 |
un
un
un
l>p
k=1
l=1
l=p+1
p
n
1 X 1 X
6
vl 2 sup |zl | +
vl ε
un
un
l>1
l=1
l=p+1
1
1
=
up .2 sup |zl | +
(un − up ) ε ;
un
un
l>1
29
d’où, en faisant tendre n vers +∞ :
n
1 X
lim xk 6 ε,
n→∞ un
k=1
ce qui prouve le lemme, puisque ε > 0 était arbitraire.
Théorème 4.9 (Kolmogorov) Loi forte des grands nombres, cas L1
Si les Xn sont dans L1 et sont i.i.d., de moyenne m, on a :
n
1X
p.s.
Xn =
Xk −−−→ m .
n→∞
n
k=1
Preuve. On peut supposer, en remplaçant Xn par Xn − E (Xn ) que m = 0.
Nous allons nous ramener au cas L2 , en utilisant les v.a.r. tronquées :
Yn = Xn 1I{|Xn |6n} .
Comme |Yn | 6 n, on a Yn ∈ L2 ; les Yn0 = Yn − E (Yn ) sont donc dans L2 , et
elles sont indépendantes et centrées. De plus :
Z
∞
∞
∞
∞
2
X
E (Y 0 n ) X Var (Yn ) X E (Yn2 ) X 1
=
6
=
x2 1I{|x|6n} dPX1 (x)
2
2
2
2
n
n
n
n
R
n=1
n=1
n=1
n=1
Z
Z
∞
X
1
=
x2
1
I
dP
(x)
6
(1 + |x|) dPX1 (x) < +∞ ,
X1
{n>|x|}
n2
R
R
n=1
car :
X 1
1
6 2+
n2
x
n>|x|
X
n>nx +1
1
1
6 2+
n2
x
Z
+∞
nx
30
dt
1
6 2+
t2
x
Z
+∞
|x|
dt
1
1
= 2+
.
t2
x
|x|
Par conséquent, le cas L2 de la loi forte des grands nombres dit que :
n
1 X 0 p.s.
Yk −−−→ 0 .
n→∞
n
k=1
Mais :
E (Yn ) = E (Xn .1I{|Xn |6n} ) = E (X1 .1I{|X1 |6n} ) −−−→ E (X1 ) = 0 ,
n→∞
par convergence dominée. Donc :
n
1X
E (Yk ) −−−→ 0 ,
n→∞
n
k=1
et :
n
n
n
k=1
k=1
k=1
1X 0 1X
1X
p.s.
Yk =
Yk +
E (Yk ) −−−→ 0 .
n→∞
n
n
n
Il reste à voir que limn→∞ (Xn − Yn ) = 0 presque sûrement. Mais cela résulte
du lemme de Borel-Cantelli :
Z X
∞
∞
∞
X
X
1I{|x|>n} dPX1 (x)
P (Xn 6= Yn ) =
P (|Xn | > n) =
n=1
R
n=1
n=1
Z
|x| dPX1 (x) = E (|X1 |) < +∞
6
R
entraîne :
P ( lim |Xn − Yn | > 0) 6 P ( lim {|Xn − Yn | > 0}) = P ( lim {Xn 6= Yn }) = 0 .
n→∞
n→∞
n→∞
5
5.1
Le Théorème-Limite Central
Introduction
Nous avons vu (voir (4.1)) que si les Xn ∈ L2 sont i.i.d. et centrées, alors
Sn = X1 + · · · + Xn vérifie, pour tout α > 1/2 :
√
Sn
p.s.
−−−→ 0 .
n(log n)α n→∞
Une question naturelle est de trouver
√ l’ordre de grandeur de Sn . Nous venons
de voir que Sn croît moins vite que n(log n)α pour tout α > 1/2.
Sn
D’un autre côté, si Xn ∼ N (0, 1) pour tout n > 1, alors √ aussi. Donc
n
pour tout R > 0, on a :
Z +∞
S
2
1
N
P √ >R = √
e−x /2 dx = KR > 0 .
2π R
N
31
Or :
\n
n>1
o n
o
Sk
Sn
sup √ > R ⊆ lim √ > R ;
n→∞
n
k
k>n
donc :
S
Sn
Sk
n
P lim √ > R > lim↓ P sup √ > R > lim P √ > R = KR > 0.
n→∞
n
n
n→∞
n→∞
k
k>n
Sn
Comme lim √ est p.s. constante par la loi du 0–1, cette constante ne peut
n→∞
n
Sn p.s.
être que +∞ ; donc lim √ = +∞, de sorte que, dans ce cas, Sn croît plus
n→∞
n
√
vite que n.
√
√
L’ordre de grandeur doit donc se trouver entre n et n(log n)α , α > 1/2.
Il revient à Khintchine d’avoir trouvé cet ordre de grandeur pour les v.a.r. de
Bernoulli (1924) ; le cas général est dû à Hartman et Wintner (1941).
Théorème 5.1 (Loi du logarithme itéré) Si les v.a.r. Xn ∈ L2 sont
i.i.d. et centrées, d’écart-type σ, alors, presque sûrement, l’ensemble des va√
√
Sn
leurs d’adhérence de p
est tout l’intervalle [−σ 2, +σ 2] .
n log(log n)
√
√
Sn
p.s.
= σ 2 et lim p
= −σ 2.
n→∞
n→∞
n log(log n)
n log(log n)
La preuve est difficile, et on ne la donnera pas. Il faut en retenir qu’il n’y
a pas de limite p.s. , et pas de “bon” ordre de grandeur pour avoir une limite
presque sûre.
En particulier lim p
Sn
p.s.
Pour trouver un ordre de grandeur, nous allons introduire une notion de
convergence plus faible : la convergence en loi.
5.2
Convergence en loi
Définition 5.2 On dit que la suite de v.a.r. (Xn )n>1 converge en loi (ou
aussi converge en distribution) vers la v.a.r. X si :
E f (Xn ) −−−→ E f (X) ,
n→∞
L
On note Xn −−−→ X .
n→∞
32
∀f ∈ Cb (R) .
Cb (R) est l’ensemble des fonctions continues bornées sur R. f (X) et f (Xn )
sont des notations pour f ◦ X et f ◦ Xn .
Remarque importante. La condition s’écrit aussi :
Z
Z
f (x) dPXn (x) −−−→ f (x) dPX (x) , ∀f ∈ Cb (R) ;
n→∞
R
R
on voit donc que cette convergence ne fait intervenir que la loi des v.a.r. Xn et
X. C’est donc une convergence concernant les lois des v.a.r. et pas les v.a.r. ellemêmes. En particulier, et contrairement aux autres convergences, les différentes
v.a.r. Xn et X peuvent très bien ne même pas être définies sur le même espace
de probabilité.
Il en résulte des comportements d’apparence inhabituels pour cette convergence.
Exemple. Soit deux v.a.r. différentes X et Y , mais ayant la même loi. Alors,
L
L
si l’on pose Xn = X, pour tout n > 1, on a Xn −−−→ X et Xn −−−→ Y , bien que
n→∞
n→∞
X 6= Y .
Supposons maintenant que X soit symétrique, i.e. ait la même loi que (−X)
(par exemple X ∼ N (0, 1), ou X v.a.r. telle que P (X = 1) = P (X = −1) =
L
1/2), alors, en prenant Xn = X pour tout n > 1, et Y = −X, on a Xn −−−→ X
L
L
n→∞
n→∞
n→∞
2
et Xn −−−→(−X), bien que 2X = Xn + Xn −−6 −→ X + (−X) = 0, et X =
L
(Xn )(Xn ) −−−
6 →(X)(−X) = −X 2 .
n→∞
Ces précautions étant prises, on a :
P
L
n→∞
n→+∞
Proposition 5.3 Si Xn −−−→ X, alors Xn −−−−→ X.
Nous utiliserons le lemme suivant, disant que, dans la définition de la convergence en loi, il suffit de tester sur les fonctions continues à support compact, au
lieu de toutes les fonctions continues bornées sur R.
L
Lemme 5.4 Pour que Xn −−−→ X, il suffit (et il faut) que :
n→∞
E f (Xn ) −−−→ E f (X) ,
n→∞
Preuve. Soit f ∈ Cb (R) arbitraire.
33
∀f ∈ K (R) = D 0 (R) .
Prenons une suite croissante vers 1I de fonctions positives ϕk ∈ K (R). Alors
f ϕk ∈ K (R), et l’on a :
|E [f (Xn )] − E [f (X)]| 6 |E [(f ϕk )(Xn )] − E [(f ϕk )(X)]|
Z
Z
+ kf k∞
(1I − ϕk ) dPXn + (1I − ϕk ) dPX .
R
R
Mais, pour k fixé, on a : E [(f ϕk )(Xn )] −−−→ E [(f ϕk )(X)] et donc :
n→∞
Z
Z
(1I − ϕk ) dPXn = 1 −
Z
ϕk dPXn −−−→ 1 −
R
n→∞
R
Z
(1I − ϕk ) dPX .
ϕk dPX =
R
R
(On Rnotera qu’il
R est essentiel que PX et PXn soient des probabilités, de sorte
que R dPXn = R dPX = 1 : il n’y a pas de perte de masse).
Donc :
Z
lim |E [f (Xn )] − E [f (X)]| 6 2 kf k∞ (1I − ϕk ) dPX .
n→∞
R
Il reste à faire tendre k vers l’infini, et à utiliser le Théorème de convergence
monotone pour obtenir :
lim E [f (Xn )] − E [f (X)] = 0 .
n→∞
Preuve de la Proposition 5.3.
Si f ∈ K (R), alors f est uniformément continue.
Soit alors ε > 0, et choisissons δ > 0 tel que :
|x − x0 | 6 δ
|f (x) − f (x0 )| 6 ε .
=⇒
Choisissons ensuite N > 1 tel que :
n>N
=⇒
P (|Xn − X| > δ) 6 ε .
Alors, pour n > N :
Z
|E [f (Xn )] − E [f (X)]| 6
Z
|f (Xn )
{|Xn −X|6δ}
− f (X)| dP +
|f (Xn )
{|Xn −X|>δ}
− f (X)| dP
6 ε + 2kf k∞ P (|Xn − X| > δ)
6 (1 + 2kf k∞ ) ε .
En général, la convergence en loi n’entraîne pas la convergence en probabilité,
L
L
puisque l’on peut avoir Xn −−−→ X et Yn −−−→ Y sans que Xn + Yn ne converge
n→∞
n→∞
en loi vers X + Y . Toutefois, dans certains cas, c’est cependant vrai. Voyons-en
un tout de suite.
Proposition 5.5 Si les Xn sont définies sur le même espace de probabilité, et
L
P
si Xn −−−→ a1I, la limite étant une v.a.r. constante, alors Xn −−−→ a1I .
n→∞
n→∞
34
Preuve. En effet, soit ε > 0 et ϕε continue sur R, nulle hors de [a − ε, a + ε]
telle que 0 6 ϕε 6 1 et ϕε (a) = 1 . Alors :
Z
L
Xn −−−→ a1I =⇒ E [ϕε (Xn )] −−−→ E [ϕε (a1I)] =
ϕε dδa = ϕε (a) = 1 .
n→∞
n→∞
R
Donc, pour tout ε > 0 :
Z
P (|Xn − a1I| > ε) = 1 − P (Xn ∈ [a − ε, a + ε]) = 1 − 1I[a−ε,a+ε] dPXn
R
Z
6 1 − ϕε dPXn = 1 − E [ϕε (Xn )] −−−→ 0 .
n→∞
R
Le critère suivant est d’un usage constant.
L
Théorème 5.6 Xn −−−→ X si et seulement si :
n→∞
ΦXn (t) −−−→ ΦX (t) ,
n→∞
∀t ∈ R .
Preuve. La condition nécessaire est évidente car x 7→ eixt est continue et bornée
sur R.
Inversement, si ΦXn (t) −−−→ ΦX (t) pour tout t ∈ R, alors, pour toute f ∈
n→∞
L1 (R), on a, en utilisant les Théorèmes de Fubini et de convergence dominée :
Z
Z Z
−2πixt
ˆ
f (x) dPXn (x) =
f (t) e
dt dPXn (x)
R
ZR R
=
f (t)ΦXn (−2πt) dt
R
Z
Z
−−−→ f (t)ΦX (−2πt) dt =
fˆ(x) dPX (x) .
n→∞
R
R
Comme F L1 (R) = {fˆ ; f ∈ L1 (R)} est dense dans C0 (R), on obtient, pour
toute g ∈ C0 (R) ⊇ K (R) :
Z
Z
g(x) dPXn (x) −−−→ g(x) dPX (x) .
R
n→∞
R
On peut alors démontrer le Théorème-Limite central (TLC), parfois appelé
Théorème de la limite centrée.
35
Théorème 5.7 (Paul Lévy) Théorème-Limite Central
Soit (Xn )n>1 une suite i.i.d. de v.a.r. Xn ∈ L2 (P ), de moyenne m et de
variance σ 2 . Alors :
X1 + · · · + Xn − nm L
√
−−−→ Z0 ∼ N (0, 1) .
n→∞
σ n
Remarque. Posons Sn = X1 + · · · + Xn ; le théorème s’écrit :
Sn − nm L
√
−−−→ Z0 ∼ N (0, 1) .
σ n n→∞
On notera que la loi forte des grands nombres dit que :
S − nm
p.s.
√n
−−−→ 0 ,
σ n(log n)α n→∞
∀α >
1
,
2
et que la loi du logarithme itéré dit que :
Sn − nm
Sn − nm
p.s. √
p.s. √
= 2;
lim p
= − 2.
lim p
n→∞ σ n log(log n)
n→∞ σ n log(log n)
Le bon ordre de grandeur de (Sn − nm)/σ pour la convergence presque sûre est
p
n log(log n), mais il√n’y a pas de limite ; lorsque l’on remplace cette valeur par
la valeur plus petite n, on a une convergence, en loi, vers N (0, 1).
Preuve. Soit Φ la f.c. commune des v.a.r. centrées Xk0 = Xk − m. Comme
Xk0 ∈ L2 , Φ est deux fois dérivable et a donc un développement limité d’ordre 2
au voisinage de 0 :
σ2 2
u + o (u2 ),
Φ(u) = 1 −
2
2
(puisque Φ0 (0) = iE (Xk0 ) = 0 et que Φ00 (0) = −E (Xk0 ) = −σ 2 ).
Alors, si :
n
1 X
Yn = √
(Xk − m) ,
σ n
k=1
l’indépendance donne :
h t in h
t2 in
2
t2
ΦYn (t) = Φ √
= 1−
+ on
−−−→ e−t /2 .
n→∞
2n
n
σ n
2
On notera que le o n tn apparaissant dans la formule ci-dessus est un terme
k+1
P∞
complexe. Toutefois, on peut définir log(1 + u) = k=1 (−1)k uk pour u ∈ C
de module |u| < 1 ; le calcul habituel reste donc valable.
Il y a eu beaucoup de perfectionnements du T LC. Il est souhaitable, par
exemple, de supprimer la condition, trop forte, que les v.a.r. Xn possèdent la
même loi. Dans cette direction, on citera le résultat suivant.
36
Théorème 5.8 (TLC de Lindeberg, 1922) Soit Xn ∈ L2 (P ) des v.a.r. centrées et indépendantes, et notons σSn l’écart-type de Sn = X1 + · · · + Xn .
Si l’on a la condition de Lindeberg :
(∀ε > 0)
gn (ε) =
n Z
1 X
Xk2 dP −−−→ 0 ,
n→∞
σS2 n
{|Xk |>εσSn }
(L)
k=1
alors :
Sn L
−−−→ Z0 ∼ N (0, 1) .
σSn n→∞
La preuve est un peu calculatoire.
Il faut noter que la condition de Lindeberg (L) est vérifiée si les Xn ont la
même loi (ce qui donne le T LC), ou encore si elles sont bornées par une même
constante. Elle peut paraître artificielle, mais Feller a montré (1935) qu’elle était
nécessaire, à condition de demander que :
Var (Xk )
−−−→ 0 ,
Var (Sn ) n→∞
max
k6n
condition qui est vérifiée lorsque la condition de Lindeberg l’est :
Z
Var (Xk ) =
x2 dPXk +
|x|<εσSn
5.3
Z
x2 dPXk 6 ε2 σS2 n +
|x|>εσSn
n Z
X
j=1
x2 dPXk .
|x|>εσSn
Convergence en loi et fonction de répartition
L
Proposition 5.9 On a Xn −−−→ X si et seulement si FXn (x) −−−→ FX (x)
n→∞
n→∞
pour tout x ∈ R tel que FX soit continue en x.
Bien sûr, s’il y a convergence des fonctions de répartition pour tout x ∈ R, il y
aura convergence en loi ; mais la convegence en loi n’entraîne pas la convergence
partout des fonctions de répartition.
Exemple. Si P (Xn
et :

 0
1/2
FXn (x) =

1
= −1/n) = P (Xn = 1/n) = 1/2, on a Xn ∼ 21 (δ−1/n +δ1/n ),

si x < −1/n
si x < 0
 0
si −1/n 6 x < 1/n −−−→ F ∗ (x) =
1/2 si x = 0
n→∞

si x > 1/n
1
si x > 0 .
F ∗ n’est pas une fonction de répartition (elle n’est pas continue à droite en 0),
mais, pour tout x 6= 0, on a F ∗ (x) = 1I[0,+∞[ (x), qui est la fonction de répartition
L
de X = 0. Donc Xn −−−→ 0 .
n→∞
37
P
En fait, Xn −−−→ 0 car, lorsque n > 1/ε, on a P (|Xn | > ε) = 0.
n→∞
Notons que si la v.a.r. limite X a une densité, alors sa fonction de répartition FX est continue sur R ; dans ce cas, la convergence en loi équivaut à
la convergence des fonctions de répartitions en tout point. En particulier, si
Z0 ∼ N (0, 1), FZ0 est continue et le TLC signifie que pour tous les a < b, on
a:
Z b
2
1
Sn − nm
√
e−x /2 dx .
6 b −−−→ √
P a6
n→∞
σ n
2π a
Preuve de la Proposition.
L
1) Supposons que Xn −−−→ X .
n→∞
Soit, pour chaque k > 1, ϕk : R → R définie par :

si t 6 x
 1
affine sur [x, x + 1/k]
ϕk (t) =

0
si t > x + 1/k .
Alors ϕk est continue et bornée sur R, 0 6 ϕk 6 1I, et la suite (ϕk )k>1 décroît
vers 1I] −∞,x] .
Pour k fixé :
FXn (x) 6 E [ϕk (Xn )] −−−→ E [ϕk (X)] 6 FX (x + 1/k) .
n→∞
Donc lim FXn (x) 6 FX (x), en utilisant la continuité à droite de FX .
n→∞
De même, si ψk : R → R est définie par :

si t 6 x − 1/k
 1
affine sur [x − 1/k]
ψk (t) =

0
si t > x ,
ψk est continue et bornée sur R, 0 6 ψk 6 1I, et la suite (ψk )k>1 croît vers
1I] −∞,x[ ; et, puisque, pour k fixé :
FXn (x) > E [ψk (Xn )] −−−→ E [ψk (X)] > FX (x − 1/k) ,
n→∞
on obtient, en utilisant l’hypothèse sur la continuité de FX en x :
lim FXn (x) > FX (x) .
n→∞
2) Inversement, soit ∆ l’ensemble des points de discontinuité de FX . Pour
a, b 6∈ ∆, on a, par hypothèse :
PXn (]a, b]) = FXn (b) − FXn (a) −−−→ FX (b) − FX (a) = PX (]a, b]) .
n→∞
Soit f ∈ K (R) = D 0 (R) continue à support compact, et soit ε > 0.
38
Comme ∆ est dénombrable (car FX est croissante), on peut trouver, grâce
à la continuité uniforme de f sur R, une fonction en escalier :
ϕ=
k
X
cj 1I]aj ,bj ] ,
j=1
avec aj , bj 6∈ ∆, pour tout j 6 k, telle que kf − ϕk∞ 6 ε . Alors :
Z
ϕ dPXn =
R
k
X
cj PXn (]aj , bj ]) −−−→
n→∞
j=1
k
X
Z
cj PX (]aj , bj ]) =
ϕ dPX ;
R
j=1
donc :
Z
Z
Z
Z
|f − ϕ| dPXn + |f − ϕ| dPX
lim f dPXn − f dPX 6 lim
n→∞
n→∞
R
R
R
R
6 2ε .
6
Quelques utilisations de la convergence en loi
6.1
Espaces gaussiens
Théorème 6.1 Toute limite en loi de v.a.r. gaussiennes est encore gaussienne.
Rappelons que l’on considère les constantes comme des v.a.r. gaussiennes
(dégénérées).
L
Preuve. Soit Xn ∼ N (mn , σn2 ) telles que Xn −−−→ X. On a :
n→∞
1
ΦX (t) = lim ΦXn (t) = lim exp i mn t − σn2 t2 ,
n→∞
n→∞
2
∀t ∈ R .
Alors :
a) la suite (σn )n>1 converge.
En effet, on a :
1
2 2
|ΦX (t)| = lim e− 2 σn t ,
n→∞
∀t ∈ R .
Or ΦX (0) = 1 et ΦX est continue ; donc pour |t| 6 δ, on a |ΦX (t)| > 1/2 > 0,
de sorte que l’on peut écrire :
log |ΦX (t)| = lim
n→∞
39
1
− σn2 t2 ,
2
et cela entraîne la convergence de (σn )n>1 .
b) la suite (mn )n>1 converge.
Notons pour cela σ = limn→∞ σn . On a donc :
1
lim ei mn t = ΦX (t)e 2 σ
2 2
t
n→∞
= l(t) ,
∀t ∈ R .
Nous allons alors montrer que :
i) la suite (mn )n>1 est bornée.
Z
En effet, comme |l(t)| = 1, il existe un borélien B borné tel que
l(t) dt 6= 0
B
(sinon, on aurait l = 0 presque partout) ; on a donc, par convergence dominée :
Z
Z
ei mn t dt =
l(t) dt 6= 0 .
lim
n→∞
B
B
Si (mn )n>1 n’étaitpas bornée, elle aurait une sous-suite (mnk )k>1 telle que
|mnk | −−−→ +∞ . Mais, cela contredirait le fait que la transformée de Fourier
k→∞
d’une fonction intégrable tend vers 0 à l’infini :
Z
x
= 0.
lim
eixt dt = lim 1c
IB −
2π
|x|→+∞ B
|x|→+∞
ii) la suite (mn )n>1 n’a qu’une seule valeur d’adhérence.
En effet, si m et m0 sont deux valeurs d’adhérence, on doit avoir :
0
l(t) = eimt = eim t
pour tout t ∈ R, d’où m = m0 en dérivant par rapport à t, puis en prenant
t = 0.
c) Il résulte de ce qui précède que ΦX (t) = exp imt − 21 σ 2 t2 , et par conséquent X ∼ N (m, σ 2 ) (si σ = 0, ΦX (t) = eimt , et X est presque sûrement
constante, égale à m).
Conséquence importante. Rappelons d’abord que si X est une gaussienne,
alors X ∈ Lr (P ) pour tout r > 1. Si maintenant G ⊆ Lr (P ) est une partie de
Lr (P ) formée de gaussiennes, son adhérence est encore formée de gaussiennes,
puisque la convergence dans Lr (P ) entraîne la convergence en probabilité, donc
la convergence en loi. Dans la définition suivante, la condition que G soit fermé
est donc peu importante, car son adhérence sera aussi composée de gaussiennes.
Définition 6.2 On appelle sous-espace gaussien tout sous-espace vectoriel
fermé G de L2 (P ) qui est entièrement formé de v.a.r. gaussiennes.
Remarque importante. Par contre, le fait que G soit un sous-espace vectoriel
a la conséquence essentielle suivante : pour tout choix de X1 , . . . , Xn ∈ G , on
40
a a1 X1 + · · · + an Xn ∈ G ; donc a1 X1 + · · · + an Xn est une gaussienne, et ceci
pour tous a1 , . . . , an ∈ R. Cela signifie que le vecteur aléatoire (X1 , . . . , Xn ) est
un vecteur gaussien.
Il en résulte en particulier que si une suite (Xn )n>1 de v.a.r. centrées est
orthogonale dans L2 (P ) (en particulier, si c’est une base orthonormée de L2 (P )),
alors cette suite est indépendante.
On a :
Théorème 6.3 Si G est un sous-espace gaussien de L2 (P ), il est fermé dans
tous les espaces Lr (P ) pour 1 6 r < +∞, et toutes les normes k kr sont
équivalentes sur G .
En particulier, G est un sous-espace hilbertien (donc réflexif ) de L1 (P ).
Preuve. C’est un principe général pour tout sous-espace vectoriel fermé de L2
qui est contenu dans tous les Lr . En effet :
a) Si r > 2 : et si des Xn ∈ G vérifient kXn − Xkr −−−→ 0, alors, puisque
n→∞
kXn − Xk2 6 kXn − Xkr , on a kXn − Xk2 −−−→ 0, et donc X ∈ G . G est donc
n→∞
fermé dans Lr , et il résulte du Théorème des isomorphismes de Banach qu’il
existe Cr > 0 telle que : kXkr 6 Cr kXk2 , pour tout X ∈ G .
b) Si 1 6 r 6 2, comme kXk1 6 kXkr 6 kXk2 , il suffit de montrer que k k1
et k k2 sont équivalentes sur G . Mais l’inégalité de Cauchy-Schwarz donne :
kXk22
Z
=
2
Z
|X|
X dP =
Ω
1/2
3/2
|X|
|X| dP
dP 6
Ω
1/2
3/2
1/2
6 kXk1
d’où kXk2 6 C33 kXk1 .
C3 kXk2
3
1/2
|X| dP
Ω
= kXk1 kXk3
6.2
1/2 Z
Z
Ω
3/2
,
Séries de v.a.r. indépendantes
Théorème 6.4 (Paul Lévy) Si des v.a.r. Xn , n > 1, sont indépendantes,
les convergences presque sûre, en probabilité, et en loi de la série
P
X
sont équivalentes.
n
n>1
Pour montrer cela, il suffit de montrer, puisque la convergence p.s. entraîne toujours la convergence en probabilité, qui elle-même entraîne toujours
la convergence en loi, que cette dernière entraîne la convergence p.s. pour les
séries de v.a.r. indépendantes.
Il sera pratique d’utiliser le résultat suivant, sorte de “critère de Cauchy”
pour la convergence en loi.
41
Théorème 6.5 (Théorème de continuité de Paul Lévy) Soit (Xn )n>1
une suite de variables aléatoires réelles. Si les fonctions caractéristiques ΦXn ,
n > 1, convergent ponctuellement vers une fonction Φ continue en 0, alors
(Xn )n>1 converge en loi vers une v.a.r. X et Φ est la fonction caractéristique
de X.
Preuve. Posons µn = PXn . Comme l’ensemble des probabilités sur R est une
partie de la boule unité du dual de l’espace de Banach séparable C0 (R), on peut
extraire une sous-suite w∗ -convergente (µnk )k>1 , vers une mesure µ de norme
6 1. µ est clairement une mesure positive.
Il s’agit maintenant de montrer que µ est une probabilité, c’est-à-dire qu’il
n’y a pas de perte de masse, et donc que µ(R) = 1. Cela terminera la preuve
puisque si X est une v.a.r. de loi PX = µ, les Φk = ΦXnk , k > 1, convergeront
donc ponctuellement vers ΦX , et ainsi on aura Φ = ΦX . Ensuite, comme la
suite entière (ΦXn )n>1 , converge vers Φ = ΦX , on a bien convergence en loi de
(Xn )n>1 vers X.
Pour la conservation de la masse, notons d’abord que, puisque ΦXn (0) = 1,
1
on a Φ(0) = 1. Considérons le noyau de Cauchy K(x) = π(1+x
2 ) et l’unité
approchée :
n
Kn (x) =
·
π(1 + n2 x2 )
Comme (Kn )n>1 est une unité approchée, et comme Φ est continue en 0, on a :
Z
Kn (x)Φ(x) dx = (Kn ∗ Φ)(0) −−−→ Φ(0) = 1.
n→∞
R
Mais, pour tout n > 1, le Théorème de convergence dominée (puisque |Φk (x)| 6
1 et Kn ∈ L1 (R)) et le Théorème de Fubini donnent :
Z
Z
Kn (x)Φ(x) dx = lim
Kn (x)Φk (x) dx
k→∞ R
R
Z
Z
t t K̂n −
K̂n −
= lim
dµnk (t) =
dµ(t) ,
k→∞ R
2π
2π
R
puisque K̂n ∈ C0 (R). Il reste à remarquer que K̂n (−t/2π) = e−|t|/n −−−→ 1, de
n→∞
sorte que :
Z
Z
K̂n (−t/2π) dµ(t) −−−→
dµ = µ(R) .
R
n→∞
On a donc µ(R) = Φ(0) = 1.
R
Remarque. On n’a utilisé que la continuité de Φ en 0, mais elle entraîne la
continuité sur R ; en effet,
l’inégalité de Cauchy-Schwarz donne |Φn (t + h)2 −
Φn (t)|2 6 2 1 −
Re
Φ
(h)
, et donc, en passant à la limite : |Φ(t + h) − Φ(t)| 6
n
2 1 − Re Φ(h) .
42
Maintenant, pour prouver le Théorème 6.4, allons utiliser les inégalités suivantes, qui permettrons d’appliquer le Théorème des trois séries.
Proposition 6.6 (inégalités de troncature) Pour toute v.a.r. X, on a,
pour tout t > 0 :
Z 1/t
Z
3
2
1)
x dPX (x) =
X 2 1I{|X|61/t} dP 6 2 1 − Re ΦX (t) .
t
−1/t
ZΩ
7 t
1 − Re ΦX (u) du .
2) P |X| > 1/t) 6
t 0
Preuve.
1) Utilisons l’inégalité :
1 − cos u >
u2
u4
,
−
2
24
valable pour tout u ∈ R. Elle donne :
Z
Z
1 2 2
t2 x2 1 − Re ΦX (t) =
1 − cos(tx) dPX (x) >
t x 1−
dPX (x)
12
R 2
Z
ZR
11 2
1 2 2 11
t x ×
dPX (x) =
t
x2 dPX (x) .
>
2
12
24
|x|<1/t
|x|<1/t
2) Utilisons le théorème de Fubini :
Z
Z
Z
1 t
1 t
1 − Re ΦX (u) du =
1 − cos(ux) dPX (x) du
t 0
t
R
Z 0
sin(tx) =
1−
dPX (x)
tx
ZR
sin(tx) >
1−
dPX (x)
tx
|x|>1/t
1
> P |X| > 1/t ,
7
car :
sin v
6
|v| > 1 =⇒
6 ,
v
7
qui est évident si v > 7/6, et vient de :
sin v
v2
v4
101
7
61−
+
= ϕ(v) 6 ϕ(1) =
<
v
6
120
120
6
pour 1 6 v 6 7/6.
Preuve du Théorème 6.4. Posons Sn = X1 + · · · + Xn . Par hypothèse
L
Sn −−−→ X .
n→∞
43
Pour tout t ∈ R, on a :
ΦX (t) = lim ΦXn (t) = lim ΦX1 (t) . . . ΦXn (t) =
n→∞
n→∞
∞
Y
ΦXk (t) .
k=1
Comme on l’a dit, les inégalités de troncature vont servir à vérifier les conditions du Théorème des trois séries. Comme ces inégalités ne font intervenir que
les parties réelles des fonctions caractéristiques, nous allons nous ramener à
des v.a.r. dont la fonction caractéristique est réelle, grâce au lemme suivant,
immédiat à vérifier.
Lemme 6.7 Pour toute v.a.r. X, la fonction caractéristique de sa symétrisée
X s vaut ΦX s (t) = |ΦX (t)|2 , pour tout t ∈ R .
Il sera pratique ici de définir la symétrisée X s , non pas sur Ω, mais sur Ω×Ω.
On posera donc :
Xs :
Ω × Ω −→
(ω, ω 0 ) 7−→
R
X(ω) − X(ω 0 ) .
Ecrivons alors :
ΦX s (t) = |ΦX (t)|2 =
∞
Y
|ΦXk (t)|2 =
k=1
∞
Y
ΦXks (t) .
k=1
Comme ΦX s (0) = 1, et comme ΦX s est continue, il existe δ > 0 tel que
ΦX s (t) > 1/2 pour |t| 6 δ. Pour ces valeurs, on a :
∞
∞
X
X
− log ΦX s (t) =
− log ΦXks (t) >
1 − ΦXks (t) .
k=1
k=1
Vérifions alors les hypothèses du Théorème des trois séries pour
(a) la deuxième inégalité de troncature s’écrit :
7
P |Xks | > 1/δ 6
δ
Z
0
P
k>1
Xks :
δ
1 − ΦXks (t) dt ,
d’où, puisque 1 − ΦXks (t) > 0 :
∞
X
k=1
P
|Xks |
7
> 1/δ 6
δ
Z
7
6
δ
Z
δ
∞
hX
0
0
i
1 − ΦXks (t) dt
k=1
δ
h
i
7
− log ΦX s (t) dt 6 × δ log 2 = 7 log 2 < +∞ ;
δ
(b) les v.a.r. Xks étant symétriques, les variables tronquées en 1/δ :
Xks
[1/δ]
= Xks .1I{|Xks |61/δ}
44
[1/δ] sont aussi symétriques ; donc E Xks
= 0, et ainsi la convergence de la
[1/δ] P
série k>1 E Xks
est évidente ;
[1/δ] [1/δ] [1/δ] 2 (c) puisque E Xks
= 0, on a Var Xks
= E Xks
; la
première inégalité de troncature permet alors d’écrire :
∞
X
Var
Xks
[1/δ] =
k=1
∞ Z
X
−1/δ
k=1
6
1/δ
x2 dPXks (x)
∞
3
3 X
1 − ΦXks (δ) 6 2 − log ΦX s (δ) < +∞ .
2
δ
δ
k=1
P
Le Théorème des trois séries nous dit alors que la série k>1 Xks converge
presque
que pour presque tout (ω, ω 0 ) ∈ Ω × Ω, la série
sûrement, c’est-à-dire
P
0
Théorème de Fubini, cela signifie aussi
k>1 Xk (ω) − Xk (ω ) converge. Par leP
0
que, pour presque tout ω ∈ Ω, la série k>1 Xk (ω) − Xk (ω 0 ) converge pour
presque
tout ω ∈ Ω. Fixons un tel ω 0 ∈ Ω, et posons ak = −Xk (ω 0 ). La série
P
donc p.s. . Elle converge donc en loi.
k>1 (Xk + ak ) converge P
Mais, par hypothèse, k>1 Xk converge en loi. Bien qu’en général on ne
puisse pas conclure sur la convergence en loi de la différence, ici les ak sont des
constantes, et cela
P∞va permettre de terminer.
Posons Z = k=1 (Xk + ak ). Puisque ΦX (0) = ΦZ (0) = 1, il existe δ > 0 tel
que |ΦZ (t)| > 1/2 et |ΦX (t)| > 1/2 pour |t| 6 δ. Comme :
ΦZ (t) = lim
n→∞
on obtient : lim
n→∞
n
Y
n
Y
Φ(Xk +ak ) (t) = lim
n→∞
k=1
eiak t =
k=1
n
Y
ia t
e k ΦXk (t) ,
k=1
Pn
ΦZ (t)
· Notons sn =
k=1 ak ; d’après ce qui
ΦX (t)
précède, la suite (eitsn )n>1 converge pour |t| 6 δ. Mais l’ensemble des t ∈ R pour
lesquels cette suite converge est un sous-groupe de R (car si eitsn −−−→ L(t) et
0
n→∞
0
eit sn −−−→ L(t0 ), alors ei(t−t )sn −−−→ L(t)L(t0 )). Comme il contient l’intervalle
n→∞
n→∞
[−δ, δ], c’est donc R tout entier. Ainsi eitsn −−−→ L(t) pour tout t ∈ R, et la
n→∞
ΦZ (t)
sur [−δ, δ]. Comme
fonction L est continue en 0, puisqu’elle est égale à Φ
X (t)
itsn
e
= Φsn 1I (t) est la fonction caractéristique de la v.a.r. constante sn 1I, cela
prouve, grâce au Théorème de continuité de Paul Lévy, que (sn 1I)n>1 converge
en loi. Mais la loi de sn 1I est la masse de Dirac δsn , et il est maintenant facile
de voir que si (δsn )n>1 converge
vers une mesure µ non nulle pour la topologie
∗-faible σ M (R), C0 (R) , la suite (sn )n>1 converge dans R. En effet, d’abord,
la suite (sn )n>1 est bornée, car si elle ne l’était pas, on pourait en extraire
une sous-suite (snk )k>1 tendant vers −∞ ou vers +∞ ; mais alors, pour toute
f ∈ C0 (R), on aurait f (snk ) −−−→ 0, et donc µ(f ) = limk→∞ f (snk ) = 0, c’estk→∞
à-dire µ = 0, ce qui a été exclu. Ensuite, si (sn )n>1 est bornée par M , en
45
prenant une fonction f0 ∈ C0 (R) telle que f0 (x) = x pour |x| 6 M , on a
sn = f0 (sn ) = δsn (f0 ) −−−→ µ(f0 ).
n→∞
P
Ainsi donc, la série
ak est convergente.
k>1
P
Il nePreste plus qu’à dire que la convergence de k>1 ak et
P la convergence
p.s. de k>1 (Xk + ak ) entraînent la converge p.s. de la série k>1 Xk .
46
Téléchargement