Notes de cours

publicité
Intégration et probabilités
Grégory Miermont
L3 2014–2017
ENS de Lyon
Avant-propos
Ces notes correspondent au cours « Intégration et probabilités » donné au second
semestre de 2014 à 2017 à l’Ecole Normale Supérieure de Lyon. Les prérequis de ce
cours sont les fondamentaux de la théorie de la mesure : mesures positives, intégrales
par rapport à une mesure, théorèmes limites usuels, mesure de Lebesgue, espaces L p.
Le cours contient deux parties. Outre quelques compléments d’intégration sur
la convolution et le changement de variables, la première partie donne les bases de
l’analyse de Fourier : séries de Fourier pour les fonctions périodiques sur R, et la
transformation de Fourier des fonctions intégrables et des mesures de probabilités
sur Rd. La seconde partie est une introduction à la théorie moderne des probabilités,
en se focalisant sur les notions fondamentales suivantes :
•
espaces de probabilités, variables aléatoires
•
théorèmes limites : lois des grands nombres et théorème central limite.
•
indépendance
Ces points sont illustrés par des exemples concrets, ponctués par deux chapitres de
compléments.
3
Table des matières
Avant-propos
I
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Introduction à l’analyse de Fourier . . . . . . . . . . . . . . . . 11
. . . . . . . . . . . . . . . . . . . .
15
.
.
.
.
.
.
.
.
.
.
15
15
16
17
19
2 Séries de Fourier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
2.1
2.2
2.3
2.4
.
.
.
.
.
.
.
24
25
27
28
28
30
31
. . . . . . . . . . . . . . . . . . . . .
33
1 Quelques compléments d’intégration
1.1
1.2
1.3
1.4
Quelques notations . .
Compléments sur les espaces L p
Lemme de Riemann-Lebesgue .
Convolution . . . . . . . . . . . .
Approximations de l’unité . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Polynômes et séries trigonométriques . . . . .
Série de Fourier d’une fonction . . . . . . . . .
Convergence des séries de Fourier dans L2 .
Convergence ponctuelle des séries de Fourier
2.4.1 Le cas C 1 par morceaux . . . . . . . . . .
2.4.2 Convergence de Cesaro . . . . . . . . . .
2.5 *Preuve du théorème de Stone-Weierstrass .
3 La transformée de Fourier dans Rd
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3.1 Transformée de Fourier d’une fonction intégrable . . .
b. Continuité, lemme de Riemann-Lebesgue
c. Régularité . . . . . . . . . . . . . . . . . . . .
d. Lien avec la convolution . . . . . . . . . . .
3.2 L’exemple de la densité gaussienne. . . . . . . . . . . .
3.3 La formule d’inversion . . . . . . . . . . . . . . . . . . . .
3.4 La transformée de Fourier L2 . . . . . . . . . . . . . . . .
3.5 Transformée de Fourier d’une mesure signée . . . . . .
3.6 Une application à l’analyse de l’équation de la chaleur
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
47
47
48
50
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4.1
4.2
4.3
4.4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
47
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4 Changement de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
33
34
35
37
37
38
40
42
45
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Mesure image . . . . . . . . . . . .
Coordonnées polaires dans Rd . .
Changement de variables linéaire
Changement de variables C 1 . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6
Table des matières
II Bases des probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5 Bases de la théorie des probabilités . . . . . . . . . . . . . . . . . . . . .
53
5.1 Espaces de probabilités, variables aléatoires . . . . . . . . .
Premiers exemples d’espaces de probabilités. . .
Une infinité de lancers de pièces ? . . . . . . . . .
Variables aléatoires. . . . . . . . . . . . . . . . . . .
Variables aléatoires discrètes. . . . . . . . . . . . . . . . . . . . . .
Variables aléatoires à densité. . . . . . . . . . . . . . . . . . . . . .
5.2 Espérance d’une variable aléatoire . . . . . . . . . . . . . . .
a. Définition et formule de transfert . . . . . . . .
b. Caractérisation de la loi à l’aide de l’espérance
c. Moments d’une variable aléatoire . . . . . . . .
d. Variance et covariance . . . . . . . . . . . . . . .
e. Médiane et quantiles . . . . . . . . . . . . . . . .
5.3 Fonctions associées à une variable aléatoire . . . . . . . . . .
a. Fonction de répartition . . . . . . . . . . . . . . .
b. Fonction génératrice . . . . . . . . . . . . . . . .
c. Fonction caractéristique . . . . . . . . . . . . . .
d. Transformée de Laplace . . . . . . . . . . . . . .
5.4 Exemples fondamentaux de lois de variables aléatoires . . .
a. Lois discrètes . . . . . . . . . . . . . . . . . . . . .
Loi uniforme sur un ensemble fini . . . . . . . . . . . . . . . . . . .
Loi de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Loi binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Loi géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
b. Lois à densité . . . . . . . . . . . . . . . . . . . .
Loi uniforme sur un sous-ensemble mesurable de Rd. . . . . . .
Lois exponentielles . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Lois gaussiennes sur R. . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
53
53
54
55
56
57
57
57
58
59
60
62
63
63
64
65
66
67
67
67
68
68
68
68
69
69
69
70
6 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
71
6.1
6.2
6.3
6.4
71
72
73
75
75
75
76
78
80
80
Probabilités conditionnelles élémentaires . . . . . . . . . . .
Indépendance d’événements . . . . . . . . . . . . . . . . . . .
Indépendance de σ-algèbres . . . . . . . . . . . . . . . . . . . .
Indépendance de variables aléatoires . . . . . . . . . . . . . .
a. σ-algèbre associée à une variable aléatoire . . .
b. Indépendance de variables aléatoires . . . . . .
c. Critères d’indépendance de variables aléatoires
6.5 Sommes de variables aléatoires indépendantes . . . . . . . .
6.6 Lemme de Borel-Cantelli . . . . . . . . . . . . . . . . . . . . .
6.6.1 L’énoncé, et un exemple . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7
Table des matières
Exemple. Nombre de « pile » consécutifs . . . . . . . . . . . . . . . . . . . . . .
6.6.2 Lemme « réciproque » . . . . . . . . . . . . . . . . . . . . . . . . . . .
Une mesure « uniforme » sur N ? . . . . . . . . . . . . . . . . . . . . . . . . . .
Motifs dans une suite de pile ou face . . . . . . . . . . . . . . . . . . . . . . . . .
6.7 Loi du 0-1 de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.8 Complément : existence d’une suite de variables aléatoires indépendantes
.
.
.
.
.
80
82
83
83
84
86
7 Lois des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
89
7.1 Différentes notions de convergence pour des variables aléatoires .
a. Convergence presque sure . . . . . . . . . . . . . . . . .
b. Convergence Lp . . . . . . . . . . . . . . . . . . . . . . .
c. Convergence en probabilité . . . . . . . . . . . . . . . .
7.2 La loi forte des grands nombres . . . . . . . . . . . . . . . . . . . . .
7.2.1 Le cas L4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2.2 Le cas L2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2.3 Le cas L1 par la méthode d’écrêtement . . . . . . . . . . . . .
7.2.4 Le cas L1 : une seconde preuve . . . . . . . . . . . . . . . . . .
7.2.5 Quelques ramifications de la loi des grands nombres . . . . .
Cas d’une espérance bien définie, mais infinie . . . . . .
Cas où l’espérance n’existe plus nécessairement . . . . .
7.3 Quelques applications . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.3.1 Marches aléatoires non centrées . . . . . . . . . . . . . . . . . .
7.3.2 Approximation d’intégrales par la méthode de Monte-Carlo
89
89
89
90
92
93
94
95
97
98
98
98
98
98
99
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
8 Convergence en loi et théorème central limite . . . . . . . . . . . . . . 101
8.1 Convergence étroite, convergence en loi . . . . . . . . . . . . . . . . . . . . . 101
8.1.1 Exemples élémentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
Lois sur N . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
Lemme de Scheffé et convergence ponctuelle de densités . . . . 103
Exemple d’approximation de la mesure de Lebesgue . . . . . . . 104
8.1.2 Liens avec les autres notions de convergence. . . . . . . . . . . . . . . 104
Convergence en probabilité . . . . . . . . . . . . . . . . . . . . . . . 104
Convergence en variation totale . . . . . . . . . . . . . . . . . . . . 105
8.1.3 Caractérisations de la convergence en loi . . . . . . . . . . . . . . . . . 105
8.2 Le théorème central limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
Application aux statistiques : estimation paramétrique et intervalles
de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
8.3 Vecteurs aléatoires gaussiens et théorème central limite multidimensionnel
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
8.3.1 Vecteurs aléatoires gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . 112
8.3.2 Théorème central limite : le cas de Rd . . . . . . . . . . . . . . . . . . . 115
8.3.3 Une application : le test d’adéquation du χ2 . . . . . . . . . . . . . . . 116
8.4 L’inégalité de Hœffding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
9 Récurrence et transience pour la marche aléatoire simple sur Zd . 121
8
Table des matières
10 Processus de branchement . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
Phase sous-critique : m < 1 . . . . . . . . . . . . . . . . . . . . . . . 129
Phase critique : m = 1 . . . . . . . . . . . . . . . . . . . . . . . . . . 129
Phase sur-critique : m > 1 . . . . . . . . . . . . . . . . . . . . . . . . 130
Références . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
Partie I
Introduction à l’analyse de Fourier
Table des matières
11
Chapitre 1
Quelques compléments d’intégration
Quelques notations
Pd
d
Si d >
p1 est un entier, notons hx, y i = i=1 xi yi le produit scalaire usuel de R ,
et |x| = hx, xi la norme euclidienne.
On considérera des fonctions mesurables définies sur l’espace mesuré (Rd , B(Rd),
λd), où B(Rd) est la tribu borélienne de Rd, et λd est la mesure de Lebesgue. On
notera en général
Z
Z
f (x)λd(dx).
f (x)dx =
Rd
Rd
Sauf mention contraire, les fonctions considérées seront à valeurs dans le corps C
des nombres complexes, lui-même muni de la tribu borélienne.
1.1 Compléments sur les espaces L p
Soit p ∈ [1, ∞[. On note L p = L p(Rd , B(Rd), λd) l’ensemble des telles fonctions f
mesurables telles que |f | p est intégrable, et on note L∞ l’ensemble des fonctions
mesurables essentiellement bornées, c’est-à-dire telles qu’il existe M > 0 tel que
λd({|f | > M }) = 0.
On note également L p l’ensemble quotient L p/≡, où l’on a noté f ≡ g si λd({f =
/
p
g }) = 0. On le munit de la norme L usuelle notée k·k p.
Nous aurons recours au résultat suivant. Si f : Rd → C est une fonction mesurable,
et y ∈ Rd, on note
τ yf(x) = f (x − y) ,
x ∈ Rd
Lemme 1.1. Pour tout p ∈ [1, ∞] et tout y ∈ Rd, l’application f 7→ τ yf définit une
isométrie linéaire de L p sur lui-même. De plus, si 1 6 p < ∞ et si f ∈ L p, l’application
y 7→ τ yf est uniformément continue de Rd dans L p.
Démonstration. Fixons d’abord y ∈ Rd. Il est évident que deux fonctions f et g
sont égales presque partout au sens de Lebesgue si et seulement s’il en est de même
de τ yf et τyg, et donc τ y induit bien une transformation de L p, qui est clairement
linéaire et préserve la norme (y compris pour p = ∞).
On se donne alors p =
/ ∞. Soit f ∈ L p, et ε > 0. Soit g une fonction continue à
support compact telle que kf − g k p < ε/3. Alors pour tout x, y ∈ Rd, on a
Z
2ε
kτ yf − τxf k p 6 2kf − g k p + kτ yg − τxg k p 6 +
|g(z − (x − y)) − g(z)|dz,
3
Rd
13
14
Quelques compléments d’intégration
où l’on a utilisé l’inégalité triangulaire et la propriété d’isométrie de τ y et τx, et
un changement de variable affine simple. Comme g est à support compact, si l’on
suppose que |x − y | 6 1, on voit que la dernière intégrale est égale à la même
intégrale restreinte au compact K = V1(supp(g)), où par définition Vr(A) = {x ∈ Rd:
inf y∈A |x − y| 6 r} est le r-voisinage fermé de A. Le compact K ne dépend plus de
x et y, et par conséquent on conclut que la dernière intégrale ci-dessus (une fois
restreinte à K) converge vers 0 lorsque |x − y | → 0, par convergence dominée. On a
bien montré qu’il existe un α > 0 tel que |x − y | < α implique que kτ yf − τxf k p 6 ε,
comme voulu.
Question: où a-t-on utilisé le fait que p < ∞ ?
Exemple 1.2. Si A ⊂ R est un ensemble mesurable avec λ(A) > 0, alors l’ensemble
A − A = {x − y : x, y ∈ A} contient un voisinage de 0.
En effet, supposons sans perte de généralité que λ(A) ∈ ]0, ∞[, quitte à prendre
l’intersection avec un intervalle compact assez grand. Alors 1A est dans L1, et par
conséquent τh1A converge dans L1 vers 1A lorsque h → 0. Mais τh1A(x) = 1A+h(x)
et donc kτh1A − 1A k1 = λ(A∆(A + h)) converge vers 0 lorsque h → 0, où ∆ désigne
la différence symétrique.
Or on a λ(A ∩ (A + h)) = λ(A ∪ (A + h)) − λ(A∆(A + h)), qui est supérieur à
λ(A) − λ(A∆(A + h)), et on conclut que A ∩ (A + h) est non vide car de mesure
strictement positive pour tout |h| assez petit. cela revient à dire que h appartient
à A − A dès que |h| est assez petit.
1.2 Lemme de Riemann-Lebesgue
Le théorème ci-dessous traite du comportement à l’infini de certaines intégrales
« oscillantes ». Nous verrons très vite que l’intégrale définie dans l’énoncé est, à
quelques détails près, la transformée de Fourier de f en ξ.
Théorème 1.3. (Lemme de Riemann-Lebesgue) Pour tout élément f ∈ L1 ,
l’intégrale
Z
f (x) exp (ihξ, xi) dx
Rd
est bien définie pour tout ξ ∈ Rd, et converge vers 0 lorsque |ξ | → ∞.
Démonstration. Tout d’abord, il est clair que pour tout ξ, l’intégrale ci-dessus est
bien définie puisque |f (x)exp(ihξ, xi)| = |f (x)| est intégrable en x.
Q d On démontre d’abord le résultat pour f de la forme f (x) = 1 Q(x), où Q =
[a j , bj [ est un pavé. Dans ce cas,
j =1
Z
d iξjb j
Y
e
− eiξjaj
f (x) exp (ihξ, xi) dx =
iξ j
Rd
j =1
15
1.3 Convolution
où le j-ème terme du produit s’interprète comme (b j − a j ) si ξ j = 0. Clairement,
ce produit tend vers 0 lorsque |ξ | → ∞. Par linéarité, on obtient le même résultat
pour les fonctions f qui sont combinaisons linéaires de telles indicatrices. En se
restreignant aux pavés Q dyadiques, c’est-à-dire pour lesquels il existe des entiers n,
k1, ..., kd tels que ai = ki2−n et bi = (ki + 1)2−n avec les notations ci-dessus, on constate
par un argument aisé de compacité que les telles combinaisons linéaires sont denses
dans l’ensemble Cc(Rd) des fonctions continues à support compact, pour la norme L1.
En utilisant la densité de Cc(Rd) dans L1, on conclut que pour tout f ∈ L1, et pour
tout ε > 0, il existe une fonction g qui est une combinaison linéaire d’indicatrices de
pavés telle que kf − g k1 < ε. On a alors
Z
Z
,
6 kf − g k1 + g(x)
exp
(ihξ,
xi)
dx
f
(x)
exp
(ihξ,
xi)
dx
Rd
Rd
et on déduit que la limite supérieure du membre de gauche lorsque |ξ | → ∞ est
majorée par ε. Comme ε est arbitraire, on conclut.
On peut avoir recours à une autre méthode, également instructive. Tirant parti
de la formule eiπ = −1, on peut réécrire
Z
Z
πξ
exp i ξ, x + 2
f (x) exp (ihξ , xi) dx = −
f (x)dx
|ξ |
Rd
Rd
Z
πξ
= −
exp (ihξ, xi)f x − 2 dx.
|ξ |
Rd
De ce fait, on a
Z
Z
f(x) exp (ihξ , xi) dx =
2
Rd
Rd
πξ
exp (ihξ , xi) f (x) − f x − 2
dx,
|ξ |
et on déduit par l’inégalité triangulaire que le module est majoré par
kτπξ/|ξ |2 f − f k1.
Lorsque |ξ | → ∞, on a ξ/|ξ |2 → 0, et par conséquent la preuve découle immédiatement du Lemme 1.1.
1.3 Convolution
Soit f , g ∈ L1. Le produit de convolution de f par g, noté f∗g, est défini par la
formule
Z
Z
f(y)g(x − y)dy =g∗f (x),
f (x − y)g(y)dy =
f ∗ g(x) =
Rd
Rd
ce qui a bien un sens à condition que
R
Rd
|f (x − y)g(y)|dy < ∞.
Proposition 1.4. La formule ci-dessus est bien définie pour λd-presque tout x, et
définit un élément de L1 pour lequel on a kf∗g k1 6 kf k1kgk1.
16
Quelques compléments d’intégration
Démonstration. La fonction (x, y) 7→ |f (x − y)g(y)| est mesurable et positive sur
l’espace produit Rd × Rd muni de la tribu produit, et de plus, par le théorème de
Fubini, son intégrale est
Z
Z
|f (x − y)|dx = kf k1kg k1 < ∞.
dy |g(y)|
Rd
Rd
Par conséquent, on déduit des résultats généraux sur les espaces produit que la
fonction (x, y) 7→ f (x − y)g(y) est dans L1(Rd × Rd , λd ⊗ λd) et que son intégrale par
rapport à la variable y est finie pour λd-presque tout x, et intégrable en la variable
x. La majoration de la norme provient alors de l’inégalité triangulaire.
Il existe de nombreuses autres situations où la formule définissant la convolution
est bien définie. On donne deux tels exemples.
Proposition 1.5. Supposons que f ∈ L p et g ∈ L q, où p, q ∈ [1, ∞] et (1/p) +(1/q) =
1. Alors f∗g(x) est bien défini pour tout x, et définit une fonction uniformément
continue et bornée sur Rd.
Démonstration. Pour le fait que f∗g(x) est bien défini et est borné en x, il suffit
de constater que par l’inégalité de Hölder,
Z
|f (x − y)g(y)|dy 6 kτ−xf k p kg k q =kf k p kg k q ,
Rd
ce qui fait que y 7→ f (x − y)g(y) est bien intégrable pour tout x ∈ Rd. Ensuite, on
écrit, toujours par l’inégalité de Hölder,
|f∗g(x) − f∗g(y)| 6 kτ−xf − τ−yf k p kg k q
et on conclut par le lemme 1.1 si p < ∞, dans le cas contraire on échange les rôles
de f et g.
On voit dans le résultat précédent la première expression d’un fait général : la
convolution a tendance à régulariser les fonctions. Si par exemple f est une fonction
de classe Cc∞(Rd), on pourra par exemple montrer aisément que pour tout g ∈ L p(Rd)
pour un p ∈ [1, ∞], f ∗g est de classe C ∞(Rd), avec toutes ses dérivées bornées.
Dans la suite, nous aurons besoin d’une troisième situation où le produit de
convolution est bien défini.
Proposition 1.6. Soit f ∈ L1 et g ∈ L p pour un p ∈ [1, ∞]. Alors le produit de
convolution f∗g(x) est bien défini pour λd-presque tout x, et définit un élément de
L p. De plus, on a kf ∗ gk p 6 kf k1kg k p.
Démonstration. Le résultat pour p = ∞ est traité par la proposition précédente.
On suppose donc p < ∞, et que f n’est pas nulle presque partout (le résultat est
trivial dans le cas contraire). On utilise alors le fait que pour tout x, la mesure |f (x −
y)|dy/kf k1 est une mesure de probabilités, ce qu’il permet d’utiliser l’inégalité de
Jensen :
p
Z
Z
Z
Z
|f (x − y)|
p
dy
dx
|f (x − y)g(y)|dy 6 kf k1
dx
|g(y)| p
kf
k
d
d
d
d
1
R
R
R
R
17
1.4 Approximations de l’unité
et le majorant vaut kf k1p kg k pp , qui est fini par hypothèse. Cela montre que f∗g(x)
est bien défini pour presque tout x, et la conclusion suit aisément par inégalité
triangulaire.
Enfin, notons que le produit de convolution s’étend aux mesures de la façon
suivante.
Définition 1.7. Soit µ, ν deux mesures positives finies, ou signées, sur Rd. Le
produit de convolution de µ par ν, noté µ∗ν, est la mesure sur Rd définie comme
mesure image de la mesure produit µ ⊗ ν par l’application (x, y) 7→ x + y de Rd × Rd
dans Rd. Autrement dit, pour toute fonction f mesurable bornée, on a
Z
Z
f (x + y)µ(dx)ν(dy) .
f (z)µ∗ν(dz) =
Rd
Rd ×Rd
Notons que si µ(dx) = f (x)dx est absolument continue, avec (nécessairement)f
dans L1, le produit de convolution µ∗ν est la mesure absolument continue dont la
densité est donnée par f∗ν définie par :
Z
f (x − y)ν(dy) .
f∗ν(x) =
Rd
La preuve est aisée, et laissée en exercice. Si à son tour ν(dx) = g(x)dx est à densité,
on a f∗ν = f∗g.
1.4 Approximations de l’unité
Avec les notations de la fin de la section précédente, notons que f∗δ0 = f pour toute
fonction f dans L1. On peut montrer (cela sera facile avec la transformée de Fourier)
qu’il n’existe pas de fonction g qui puisse remplacer la mesure δ0 dans ce rôle, c’està-dire telle que f∗g = f pour toute fonction f dans L1. Néanmoins, on peut trouver
des fonctions qui remplissent presque ce rôle. Il s’agit de fonctions d’intégrale 1
(comme δ0) qui sont « très concentrées » autour de 0, au sens suivant.
Définition 1.8. On dit que la suite de fonctions mesurables (γn , n > 0) est une
approximation de l’unité si
•
•
•
supn>0 kγn k1 < ∞,
R
γ (x)dx = 1 pour tout n > 0, et
Rd n
R
pour tout δ > 0 on a {|x|>δ } |γn(x)|dx → 0.
Une classe importante de partitions de l’unité s’obtient en se donnant une fonction γ ∈ L1 d’intégrale 1, et en posant γn(x) = ndγ(nx), ou plus généralement
γn(x) = adnγ(anx) pour une suite (an , n > 0) de limite +∞. Remarquons que si γn > 0
pour tout n, le premier point est impliqué par le second.
18
Quelques compléments d’intégration
Proposition 1.9. Soit (γn , n > 0) une approximation de l’unité et f une fonction
continue bornée sur Rd. Alors γn ∗ f converge vers f uniformément sur les compacts.
Si de plus f est à support compact, alors γn ∗ f converge uniformément sur Rd.
Démonstration. Comme γn est positive d’intégrale 1, on a pour tout x ∈ Rd, et
tout δ ∈ ]0, 1[,
Z
|γn ∗ f (x) − f (x)| = γn(y)dy(f (x − y) − f (x))
Z Rd
|γn(y)|dy|f (x − y) − f (x)|
6
Rd
Z
|γn(y)|dy
6 2kf k∞
{|y |>δ }
+C sup {|f (x − y) − f (x)|: |y | 6 δ}.
où C est un majorant uniforme des normes kγn k1.
Si x prend ses valeurs dans un compact K donné, on peut utiliser l’uniforme
continuité de f sur le 1-voisinage fermé V1(K) = {x ∈ Rd : ∃y ∈ K , |x − y| 6 1} de K
pour obtenir le résultat : pour un ε > 0 donné, on choisit δ ∈ ]0, 1[ tel que le deuxième
terme du majorant soit plus petit que ε/2, et on a alors que pour tout n assez
grand, le premier terme est majoré par ε/2. Si de plus f est à support compact, on
a automatiquement l’uniforme continuité de f partout, et il n’est pas nécessaire de
restreindre x à un compact dans l’argument précédent.
Proposition 1.10. Fixons p ∈ [1, ∞[. Soit (γn , n > 0) une approximation de l’unité,
et f ∈ L p. Alors kγn ∗ f − f k p → 0 lorsque n → ∞.
Démonstration. On écrit, en utilisant que γn est d’intégrale 1,
p
Z
Z
p
γn(y)(f(x − y) − f (x))dy .
dx
kγn ∗ f − f k p =
d
d
R
R
Ensuite, on utilise l’inégalité triangulaire, et on divise et remultiplie γn par sa norme
1 pour obtenir que ceci est majoré par
Z
p
Z
|γn(y)|
p
dx
kγn k1
|f(x − y) − f (x)|dy
Rd kγn k1
Rd
comme la mesure |γn(y)|dy/kγn k1 est une mesure de probabilités, on peut majorer
par l’inégalité de Jensen, et on trouve le majorant
Z
Z
|γn(y)|
p
|f (x − y) − f(x)| p dy
dx
kγn k1
kγ
k
d
d
n
1
R
R
À ce stade, on applique le théorème de Tonelli pour changer l’ordre d’intégration,
et on majore kγn k1 uniformément par une constante C, ce qui donne le majorant
Z
Z
p−1
p−1
C
|γn(y)|dy kτ yf − f k p 6 2C kf k p
|γn(y)|dy
Rd
+C
p−1
{|x|>δ }
sup {kτ yf − f k p : |y| 6 δ }
19
1.4 Approximations de l’unité
pour tout δ > 0. Si l’on se donne ε > 0, on peut choisir δ > 0 tel que le second terme
de droite soit borné supérieurement par ε, par le lemme 1.1. En faisant alors tendre
n → ∞ pour ce choix de δ, le premier terme de droite converge vers 0 par définition
d’une approximation de l’unité, ce qui donne le résultat.
Comme exemple d’application, citons le théorème d’approximation de Weierstrass pour les polynômes.
Théorème 1.11. Soit f une fonction continue sur un intervalle compact [a, b].
Alors pour tout ε > 0, il existe un polynôme P réel tel que sup {|f (x) − P (x)|:
x ∈ [a, b]} < ε.
Démonstration. Quitte à changer f en f (2(b − a)x + (3a − b)/2), on peut supposer
que a = 1/4 et b = 3/4 sans perte de généralité. On prolonge la fonction f à R tout
entier par la valeur 0 en dehors de [0, 1], et par des fonctions affines sur [0, 1/4] et
[3/4, 1] de sorte que la fonction prolongée, encore appelée f , soit continue à support
dans [0, 1]. Posons γn(x) = cn(1 − x2)n1{|x|61}, où
cn = R
1
−1
1
(1 − x2)n dx
R
de sorte que R γn = 1. Comme γn > 0, on aura montré que (γn , n > 0) est une
R
approximation de l’unité si |y|>δ γn(y)dy → 0 pour tout δ > 0. Pour cela, on montre
aisément (cn−1 est une intégrale de Wallis d’ordre impair) que
q
n
(2n + 1)!
∼
cn =
2.4n(n!)2 n→∞ π
où l’on a utilisé la formule de Stirling pour trouver l’équivalent. On voit donc que
pour tout δ ∈ ]0, 1[,
Z
cn
|y |>δ
(1 − y 2)n dy 6 2cn (1 − δ 2)n −→ 0,
n→∞
ce qui montre bien que (γn , n > 0) est une approximation de l’unité. Or
Z 1
f(y)(1 − (x − y)2)n 1{|x− y|61}dy .
γn ∗f (x) = cn
0
Pour x, y ∈ [0, 1] on a que |x − y | 6 1, et par conséquen on peut enlever l’indicatrice
dans l’intégrale précédente. En développant le produit, on voit qu’en restriction
à [0, 1], la fonction γn∗f (x) est un polynôme (en x) de degré au plus 2n. Par la
proposition 1.9, on a convergence uniforme vers la fonction f . D’où le résultat. Chapitre 2
Séries de Fourier
Dans ce chapitre, on étudie la décomposition d’une fonction périodique de R dans C
en termes de « signaux » élémentaires, les fonctions trigonométriques. Nous allons
nous concentrer sur les fonctions 2π-périodiques, sachant que toute la discussion de
ce chapitre peut être faite dans le cas d’une période quelconque. À l’origine de cette
théorie, Fourier s’intéresse à l’équation décrivant la propagation de la chaleur dans
R, donnée par
∂u 1 ∂ 2u
=
∂t 2 ∂x2
et dont l’inconnue est une fonction u(t, x) de deux variables, décrivant la température d’un milieu donné au point x et au temps t. On s’intéresse de plus à des
solutions définies sur un domaine [0, ∞[ × [−π, π]. Fourier note que pour tout n ∈ N
et an , bn ∈ R, les fonctions
(t, x) 7→ exp (−n2t/2)(an cos (nx) + bn sin (nx))
sont des solutions, ainsi que toute somme d’un nombre fini d’entre elles. Il stipule
alors que toute solution est une superposition, éventuellement infinie, de telles solutions élémentaires. Cela pose une double question
•
sous quelles conditions une série infinie de fonctions de la forme ci-dessus
converge-t-elle ?
•
sous quelles condition une fonction peut-elle se représenter sous la forme
d’une telle série ?
Dans la suite, on note T = R/2πZ, que l’on identifie à l’intervalle ]−π, π], muni de
la restriction de la mesure de Lebesgue λ(dx) = dx1{−π <x6π }/2π. La renormalisation
par 2π de la mesure de Lebesgue est utile en de nombreuses occasions, et elle sera
systématique. En particulier, si f , g sont deux fonctions intégrables sur T, on
adoptera la notation renormalisée
Z
1 π
f (x − y)g(y)dy .
f∗g(x) =
2π −π
Une fonction f sur T est naturellement associée à une fonction f˜: R → C périodique
de période 2π, et vice-versa. Pour k > 0, on notera C k(T, C) l’espace des fonctions sur
T dont l’extension à R tout entier est de classe C k(R, C). On notera L p(T) = Lp(T,
B(T), λ).
21
22
Séries de Fourier
L’espace L2(T) est muni du produit scalaire hermitien usuel, qui en fait un espace
de Hilbert
Z
1 π
(f , g) =
f (x) g(x) dx.
2π −π
2.1 Polynômes et séries trigonométriques
Pour tout n ∈ Z, notons en la fonction en(x) = exp (inx), qui est continue et 2πpériodique.
Lemme 2.1. La famille (en , n ∈ Z) est orthonormale dans L2(T).
Démonstration. Il suffit de constater que si n =
/ m,
π
Z
1 π
exp (i(n − m)x)
(en , em) =
= 0,
exp (i(m − n)x) =
2π −π
i(n − m)
−π
et que cette même intégrale vaut 1 si m = n.
Définition 2.2. Une combinaison linéaire des fonctions (en , n ∈ Z) est appelée
un polynôme trigonométrique. Le degré d’un polynôme trigonométrique est la plus
grande valeur de |n| pour laquelle le coefficient de en est non nul.
P
Notons que l’écriture n∈Z cn en d’un polynôme trigonométrique, où (cn , n ∈ Z)
est une suite à support fini, est unique, puisque (en , n ∈ Z) est une famille libre.
Théorème 2.3. (Théorème d’approximation de Weierstrass) L’espace
Vect(en , n ∈ Z) est dense dans C(T, C) : toute fonction continue sur T est limite
uniforme d’une suite de polynômes trigonométriques.
Ce théorème est la conséquence d’un résultat très général.
Théorème 2.4. (Stone-Weierstrass) Soit X un espace topologique compact, et
A une algèbre de fonctions continues X → C contenant au moins une fonction
constante, stable par conjugaison complexe f 7→ f, et qui sépare les points, au sens
où pour tout x, y ∈ X avec x =
/ y, il existe f ∈ A telle que f (x) =
/ f (y).
Alors A est dense dans C(X , C) pour la norme uniforme.
On laisse en exercice le soin de vérifer que le théorème s’applique dans le cas
où X = T et où A est l’algèbre des polynômes trigonométriques. Nous donnerons
un peu plus loin deux autres preuves, plus directes et ad hoc, du Théorème 2.3. Le
théorème de Stone-Weierstrass sera démontré à la fin du chapitre.
Une série trigonométrique est une somme infinie de la forme
X
cn e n .
n∈Z
Bien sûr une telle série n’est pas définie pour tout choix de (cn , n ∈ Z). On a
néanmoins le résultat suivant.
2.2 Série de Fourier d’une fonction
23
Proposition 2.5. Soit (cn , nP∈ Z) une suite sommable de nombres complexes.
Alors la série trigonométrique n∈Z cnen converge normalement vers une fonction
f continue sur T. De plus, on a que cn = cn(f ) pour tout n ∈ Z.
Démonstration. La convergence normale est immédiate puisque ken k∞ = 1. On
déduit le résultat du théorème classique d’interversion entre somme et intégrale,
conséquence de la convergence dominée.
Un exemple important P
de séries trigonométriques est donné à partir de séries
entières. En effet, si S(z) = n>0 sn z n est une série entière de rayon de convergence
P
r nsneinx converge
R > 0, alors pour tout r ∈ [0, R[, la série S(r eix) =
n>0
normalement.
Exemple 2.6. La série trigonométrique suivante converge normalement pour tout
r ∈ [0, 1[.
X
1 − r2
r |n|einx =
,
2
1
−
2r
cos
(x)
+
r
n∈Z
on l’appelle le noyau de Poisson, il joue un rôle important en analyse.
P
Si f = n∈Z cn en est la somme d’une série entière normalement convergente, on
peut retrouver le coefficient cn par la formule
Z
1 π
f (x) e−inxdx= (en , f ).
cn =
2π −π
Il suffit pour le voir d’intervertir la somme et l’intégrale (ce qui est valide car la série
converge uniformément, et l’intégrale est sur un compact), et utiliser le lemme 2.1.
Ceci motive la définition ci-dessous.
2.2 Série de Fourier d’une fonction
Soit f ∈ L1(T). Le n-ème coefficient de Fourier de f, où n ∈ Z, est par définition le
nombre
Z
1 π
cn(f ) =
f (x)exp(−inx)dx.
2π −π
Si f ∈ L2(T), ce nombre est bien sûr égal au produit scalaire (en , f ), mais la quantité
ci-dessus est bien définie dès que f est intégrable. La définition et le lemme de Riemann-Lebesgue montré au chapitre précédent donnent immédiatement le résultat
suivant.
Proposition 2.7. Soit f ∈ L1(T). Alors on a que |cn(f )| 6 kf k1 pour tout n ∈ Z.
De plus, cn(f ) → 0 lorsque |n| → ∞.
Remarque 2.8. En revanche, il n’est pas vrai que toute suite de nombre complexes
de limite nulle à l’infinie est la suite des coefficients de Fourier d’une fonction intégrable.
24
Séries de Fourier
Pour N > 0, la N -ème somme de Fourier de f est par définition le polynôme
trigonométrique
N
X
S Nf =
cn(f ) en .
n=−N
Soit f ∈ L1(T). Notons que l’on a une autre écriture de cette somme, en regroupant
les termes deux par deux. En effet, pour tout n > 0,
Z
1 π
inx
−inx
f (y)cos(n(x − y))dy
cn(f )e + c−n(f )e
=
π −π
= an(f )cos(nx) + bn(f )sin(nx)
où
1
an(f ) =
π
Z
π
1
bn(f ) =
π
f (x)cos(nx) dx ,
−π
Avec la convention a0(f ) = (1/π)
SNf (x) =
R
π
−π
Z
π
f (x)sin(nx) dx.
−π
f (x)dx = 2c0(f ), on obtient ainsi que
N
a0(f ) X
+
(an(f ) cos (nx) + bn(f ) sin (nx)) .
2
n=1
On appelle cette expression l’écriture réelle de la somme de Fourier de f . Noter que
les coefficients an(f ), bn(f ), sont des nombres complexes en général.
Proposition 2.9. Si f est à valeurs réelles, on a
an(f ) = 2ℜ(cn(f )),
et
bn(f ) = −2ℑ(cn(f )).
La question que l’on se pose alors est celle de la convergence de SNf , lorsque
N → ∞. Un cas particulier relativement simple est quand la suite de coefficients de
Fourier est sommable.
Proposition 2.10. Soit f ∈ L1(T) telle que la famille
P (cn(f ), n ∈ Z) est sommable,
1
c’est-à-dire dans ℓ (Z). Alors sa série de Fourier n∈Z cn(f ) en converge normalement, et est de plus égale à f presque partout.
Lemme 2.11. Soit f , g ∈ L1(T) telles que cn(f ) = cn(g) pour tout n ∈ Z. Alors f = g.
Démonstration. Posons h = f − g ∈ L1(T), de sorte que cn(h) = 0 pour tout n ∈ Z.
Alors on a que pour tout polynôme trigonométrique P ,
Z
1
P (x)h(x)dx = 0.
2π T
R
Par le théorème de Weierstrass, on en déduit que T ψ(x)h(x)dx = 0 pour toute
fonction ψ continue sur T. En utilisant la densité des fonctions continues dans
l’espace L1(T, h(x)dx), on obtient la même identité pour tout ψ dans cet espace.
En appliquant le résultat à |h(x)|1{h(x)=/ 0}/h(x), qui est bornée par 1 en module et
R
donc dans cet espace, on obtient que T |h(x)|dx = 0. Donc h = 0.
2.3 Convergence des séries de Fourier dans L2
25
Démonstration de la proposition 2.10. Le fait que la série trigonométrique
P
c (f ) en converge normalement vers une fonction continue g telle que cn(g) =
n∈Z n
cn(f ) pour tout n ∈ Z est une conséquence de la proposition 2.5. On en déduit que
f = g presque partout par le lemme 2.11.
2.3 Convergence des séries de Fourier dans L2
La réponse la plus simple à la question précédente est que dans le cadre L2 hilbertien,
cette convergence a toujours lieu.
Une conséquence du théorème d’approximation de Weierstrass est que la famille
{en , n ∈ Z} forme une base hilbertienne de L2(T), c’est-à-dire que tout élément de
L2(T) se décompose comme série sur cette base. Rappelons la preuve de ce fait, qui
est un résultat général sur les espaces de Hilbert.
Théorème 2.12. Pour toute fonction f ∈ L2(T), la famille (cn(f ), n ∈ Z) est de
carré sommable, et de plus, l’application f 7→ (cn(f ), n ∈ Z) réalise une isométrie de
L2(T) sur ℓ2(Z), muni de la structure hilbertienne usuelle :
Z
X
1 π
2
kf kL2(T) =
|cn(f )|2 = k(cn(f ), n ∈ Z)kℓ22(Z) .
|f (x)|2dx =
2π −π
n∈Z
Cette identité s’appelle égalité de Parseval.
Démonstration. Ce résultat est un théorème général sur les espaces de Hilbert
munis d’une base hilbertienne, c’est-à-dire une famille orthonormale qui engendre
un sous-espace dense. Nous la redonnons dans le cas particulier qui nous intéresse.
Pour tout N > 0, soit TN = Vect(en , −N 6 n 6 N ) l’espace des polynômes
trigonométriques de degré au plus N . Par définition, la somme de Fourier SNf est
la projection orthogonale de f sur TN . On a alors par le théorème de Pythagore
kf k22 = kf
− SNf k22 + kSNf k22 = kf
− SNf k22 +
Comme tous les termes sont positifs, on a que
pour tout N , et donc
kf k22 >
kf k22 >
N
X
n=−N
X
n∈Z
N
X
n=−N
|cn(f)|2 .
|cn(f )|2
|cn(f)|2 ,
ce que l’on appelle l’inégalité de Bessel. On utilise alors le théorème d’appproximation de Weierstrass : comme Vect(en , n ∈ Z) est dense dans C(T, C) pour la norme
uniforme, la même chose est vraie pour la norme L2, et par densité des fonctions
continues dans les fonction L2, on déduit que Vect(en , n ∈ Z) est dense pour la
norme L2 dans L2(T). On en déduit que pour tout ε > 0, il existe un polynôme
trigonométrique P tel que kf − P k2 < ε. Mais si le degré de P est N0, on voit que
kf − SN0 f k2 6 kf − P k2 < ε ,
26
Séries de Fourier
par la propriété de la projection orthogonale : SN0 f est le point de TN0 le plus
proche de f en norme L2. On en déduit immédiatement que SNf → f dans L2(T).
Finalement, on a bien que l’inégalité de Bessel est une égalité.
Il reste à montrer que l’application f 7→ (cn(f ), n ∈ Z) est surjective sur ℓ2(Z).
P
Mais si (cn , n ∈ Z) est de carré sommable, alors n∈Z cn en converge dans L2(T) et
définit un élément f , tel que cn(f ) = (en , f ) = cn, d’où le résultat.
P
Corollaire 2.13. Pour tout f ∈ L2(T), on a que la somme n∈Z cn(f) en converge
dans L2(T) et est égale à f. C’est également la limite de SNf dans L2(T) lorsque
N → ∞.
Il convient cependant de ne pas se laisser abuser par l’énoncé précédent. En effet,
il ne stipule absolument pas que les deux fonctions
X
f (x)
et
cn(f)exp(inx)
n∈Z
sont égales en tout x, ni même en un seul x : en fait, la convergence de la série à
droite en un point donné n’est pas garantie, puisque cn(f ) est seulement supposée
de carré sommable.
2.4 Convergence ponctuelle des séries de Fourier
La question de savoir si l’on a convergence en un point x de la série de Fourier
d’une fonction est un problème en général très difficile. Nous allons donner quelques
résultats très partiels en ce sens. De façon évidente à partir de nos résultats sur les
séries trigonométriques, on a que SNf converge uniformément vers f dès lors que
P
|c (f )| < ∞. Nous allons montrer que cela est impliqué par une condition de
n∈Z n
régularité de f .
2.4.1 Le cas C 1 par morceaux
Une remarque importante est que la série de Fourier peut être représentée par un
produit de convolution.
Définition 2.14. Le noyau de Dirichlet d’ordre N est la fonction
DN (x) =
N
X
n=−N
einx =
sin ((N + 1/2)x)
,
sin (x/2)
x ∈ T.
Pour vérifier la formule annoncée, il suffit de constater que la somme est géométrique, et vaut (ei(N +1)x − e−iN x)/(eix − 1) et factoriser haut et bas par eix/2.
Lemme 2.15. Soit f ∈ L1(T). La N-ème somme de Fourier de f est donnée par
SNf (x) = DN ∗f (x) ,
x ∈ T.
27
2.4 Convergence ponctuelle des séries de Fourier
La preuve est immédiate : par définition
Z
Z
N
X
1 π
1 π
in(x−y)
SNf (x) =
f (y)e
dy =
f (y)DN (x − y) dy .
2π −π
2π −π
n=−N
Il est assez tentant d’appliquer les résultats sur les approximations de l’unité du
chapitre précédent. Malheureusement, la famille (DN , n > 0) n’est pas une approximation de l’unité, même si l’on a la propriété que
Z
1 π
DN (x) dx = 1,
2π −π
ce qui est clair à partir de la définition de DN comme somme de fonctions trigonométriques.
Théorème 2.16. Soit f : T → C une fonction de classe C 1(T, C) par morceaux.
Pour tout x ∈ T, on a la convergence
f (x + ) + f (x − ) ˜
= f (x) ,
N →∞
2
SNf (x) −→
où f (x − ), f (x + ) désignent les limites à gauche et à droite de f en x.
Démonstration. Fixons x ∈ T. On écrit, en utilisant le fait que DN est une fonction
paire
Z
Z
1 π
1 π
f(x − y) DN (y)dy +
f (x + y)DN (y)dy .
SNf (x) = DN ∗f (x) =
2π 0
2π 0
Comme DN est d’intégrale (normalisée) 1, on en déduit que
Z
1 π
˜
f (x − y) + f (x + y) − 2f˜(x) DN (y)dy .
SNf (x) − f (x) =
2π 0
Notons g(y) = f (x − y) + f(x + y) − 2f˜(x) /sin (y/2) pour y =
/ 0, et g(0) =
′
′
f (x + ) − f (x − ). Alors la fonction g est continue sur T, et
Z π
1
1
SNf (x) − f˜(x) =
y dy −→ 0
g(y) sin
N+
N →∞
2π 0
2
par le lemme de Riemann-Lebesgue.
De même, on montrerait le résultat suivant par la même méthode.
Proposition 2.17. Soit f : T → C une fonction Hölder-continue d’exposant α ∈ ]0,
1], c’est-à-dire telle qu’il existe C ∈ ]0, ∞[ avec
|f (x) − f (y)| 6 C |x − y |α ,
x, y ∈ T.
Alors SNf (x) converge en tout point vers f.
On peut se demander si le résultat précédent peut se renforcer en une convergence
uniforme. Clairement, si f n’est pas continue, il n’est pas possible de l’approcher
uniformément par une suite de fonctions continues, donc par un polynôme trigonométrique. Nous allons
28
Séries de Fourier
Proposition 2.18. Soit f : T → C une fonction de classe C 1(T, C), ou plus généralement continue, et de classe C 1 par morceaux. Alors
cn(f ′) = incn(f ) .
P
|cn(f )| < ∞. En particulier, la série de Fourier converge
De plus, on a que
n∈Z
normalement vers f, et les sommes de Fourier SNf convergent uniformément vers f.
Démonstration. L’identité sur les coefficients de Fourier est immédiate par intégration par parties
Z π
Z π
′
−inx
−inx π
f (x)e−inx dx ,
f (x)e
dx = [f (x)e
]−π + in
−π
−π
en constatant que le terme de crochet est nul par périodicité. Comme on a supposé
que f ′ est une fonction continue sur T, elle est en particulier dans L2 et donc ses
coefficients de Fourier forment une famille de carré sommable. Ainsi
X
|ncn(f )|2 < ∞ .
n∈Z
Ensuite, on utilise l’inégalité de Cauchy-Schwarz en écrivant cn(f ) = ncn(f )/n :
s
X
X 1
X
|ncn(f )|2 ·
|cn(f )| 6
<∞
n2
n∈Z
n∈Z
n∈Z
et on en déduit que (cn(f ), n ∈ Z) est sommable. De ce fait, les sommes de Fourier
SNf convergent uniformément, et la limite est f par le théorème 2.16.
Notons que cette proposition n’utilise pas les résultats que nous avons énoncés
sur le cas hibertien, à l’exception de l’inégalité de Bessel stipulant que
X
|cn(g)|2 6 kg k22
n∈Z
pour toute fonction g de carré intégrable, ce qui est simplement une conséquence
du théoème de Pythagore. Or, en constatant que SNf est un polynôme trigonométrique pour tout N , ceci montre par un argument différent la densité des polynômes
trigonométriques dans C 1(T, C) pour la norme uniforme, et donc dans C 0(T, C)
(théorème de Weierstrass).
2.4.2 Convergence de Cesaro
Enfin, une manière d’obtenir une convergence uniforme pour des fonctions continues
est de remplacer la convergence des sommes de Fourier par leur moyenne de Cesaro
CNf (x) =
S0 f (x) + ··· + SN −1(x)
.
N
Théorème 2.19. Soit f ∈ C 0(T, C). Alors la suite (CNf , N > 1) converge uniformément vers f.
29
2.5 *Preuve du théorème de Stone-Weierstrass
Démonstration. On constate d’abord que
PN −1
−1
CNf = KN ∗f
Dk(x) est le noyau de Féjer . Ceci est une conséquence directe
où KN (x) = N
k=0
du fait que SNf = DN ∗f et de la définition de CN . On constate alors que
k
N −1
N −1
1 X ei (k+1)x − e−ikx
1 X X inx
e
=
KN (x) =
N
eix − 1
N
k=0 n=−k
k=0
iNx
e − 1 1 − e−iNx
1
=
−
1 − e−ix
N(eix − 1) 1 − e−ix
2−2 cos (Nx) 1 sin2 (Nx/2)
=
=
N |eix − 1|2
N sin2 (x/2)
R π
À partir de la définition de KN , on voit que −π KN (y)dy = 2π, et par la formule
précédente, on a KN > 0. Enfin, on a clairement que pour tout δ ∈ ]0,π[,
Z π
2π
1
−→ 0.
KN (y)1{|y |>δ }dy 6
2
N sin (δ/2) N →∞
−π
Donc (KN , N > 1) est une approximation de l’unité, et le résultat découle de la
proposition 1.9.
Remarquons que CNf est un polynôme trigonométrique pour tout N , et donc ce
résultat nous donne une troisième preuve, encore différente des deux autres, de la
densité des polynômes trigonométriques dans C 0(T, C).
2.5 *Preuve du théorème de Stone-Weierstrass
On montre d’abord que la fonction x 7→ |x| peut être approximée uniformément sur
[−1, 1] par une suite de polynômes réels. Pour cela, on peut utiliser le théorème
d’approximation
pour les polynômes. Ou bien, on peut utiliser le
p de Weierstrass
P
2
fait que |x| = 1 − (1 − x ) = n>0 1/2
(−(1 − x2))n, du fait du développement en
n
√
série entière de la fonction z 7→ 1 − z , où la convergence des sommes partielles de
la série a lieu uniformément sur [−1, 1].
Supposons d’abord que l’algèbre A soit formée de fonctions à valeurs réelles.
Notre but est de montrer que l’adhérence de A est égale à C 0(X , R), et sans perte
de généralitén on peut supposer que A est fermée. Dans ce cas, pour toute fonction
f ∈ A, on a que P (f ) ∈ A pour tout polynôme réel P , puisque A contient les fonctions
constantes. Comme f est continue sur X compact, elle est bornée, et f /kf k∞ prend
ses valeurs dans [−1, 1]. Par le résultat d’approximation de la valeur absolue rappelé
plus haut, et comme A est fermée, on en déduit que |f |/kf k∞ ∈ A, et donc |f | ∈ A.
On en déduit alors que pour tout f , g ∈ A, les fonctions
f ∧g=
sont aussi dans A.
f + g − |f − g |
,
2
f ∨g=
f + g + |f − g |
2
30
Séries de Fourier
Fixons maintenant une fonction f ∈ C(X , R), et x ∈ X. Pour tout y ∈ X, comme
A sépare les points, on peut trouver une fonction gx,y ∈ A telle que gx,y(x) = f (x)
et gx,y (y) = f (y). Pour tout ε > 0, il existe alors un voisinage Vx,y de y tel que
gx,y(z) > f (z) − ε pour tout z ∈ Vx,y. Par compacité, on peut recouvrir X par un
nombre fini de tels voisinages, disons Vx,y1, ..., Vx,yk. Notons gx = max (gx,y1, ..., gx,yk),
de sorte qu’on a gx ∈ A par ce que l’on a montré ci-dessus. La construction étant
valide pour tout x ∈ X, on obtient une famille de fonctions (gx , x ∈ X) telles que
gx(x) = x et gx(z) > f (z) − ε pour tout z ∈ X.
Pour tout x, on peut alors trouver un voisinage Vx de x tel que gx(z) < f (z) + ε
pour tout z ∈ Vx. Comme précédemment, on peut trouver un sous-recouvrement
fini par Vx1, ..., Vxl disons. Si l’on pose g = min (gx1, ..., gxl) ∈ A, on obtient que pour
tout z ∈ X, on a f (z) − ε < g(z) < f(z) + ε, c’est-à-dire que kf − gk∞ < ε. D’où le
résultat dans le cas où A est constitué de fonctions réelles.
Dans le cas complexe, on utilise le fait que A est stable par conjugaison pour
obtenir que si f ∈ A, alors ℜf et ℑf sont aussi dans A. Donc A contient une
algèbre de fonctions réelles qui séparent les points, et qui contient les fonctions
constantes, et donc son adhérence contient C(X , R). Donc l’adhérence de A contient
C(X , C) en approchant partie réelle et partie imaginaire de la fonction que l’on essaie
d’approcher.
Chapitre 3
La transformée de Fourier dans Rd
Dans tout ce chapitre, nous travaillerons avec la mesure de Lebesgue sur Rd renormalisée par (2π)d/2, que nous noterons λd(dx) = dx/(2π)d/2, plutôt qu’avec la mesure
de Lebesgue standard. La raison de ce choix apparaîtra un peu plus tard.
3.1 Transformée de Fourier d’une fonction intégrable
Définitions
Soit f ∈ L1 = L1(Rd , B(Rd), λd). Pour tout ξ ∈ Rd, on note
Z
1
ˆ
f (ξ) =
exp (−ihξ, xi)f (x)dx
d/2
(2π)
Rd
Z
exp (−ihξ , xi)f (x)λd(dx)
=
Rd
Comme l’intégrande a pour module |f (x)|, qui est intégrable, cette intégrale est bien
définie pour tout ξ ∈ Rd. On dit que la fonction fˆ est la transformée de Fourier de
f. Plus généralement, si f ∈ L1, alors la formule ci-dessous détermine également une
fonction fˆ indépendante du choix du représentant de f dans L1. Par la suite, nous
ne préciserons pas toujours si l’on travaille avec une fonction mesurable ou avec une
classe de fonctions égales presque partout.
Il est légitime de se demander pourquoi la normalisation ci-dessus a été choisie.
Notons que formellement, on peut noter
fˆ(ξ) = heξ , f iL2
où h., .iL2 est leR produit scalaire hermitien usuel sur L2 = L2(Rd , B(Rd), λd) défini
par hf , g iL2 = Rd f(x)g(x)dx/(2π)d/2, et eξ(x) = exp (ihξ , xi). Bien sûr, eξ n’est
pas un élément de L2, donc cette écriture est seulement formelle. La raison pour la
renormalisation par (2π)d/2 apparaîtra plus clairement plus loin, lorsque l’on verra
que l’application f 7→ fˆ est une isométrie sur une partie dense de L2.
a. Propriétés élémentaires.
La transformée de Fourier est clairement C-linéaire: si f , g sont intégrables et
a ∈ C, on a af + g = afˆ + ĝ .
Si f est une fonction mesurable, et y ∈ Rd, on note
τyf (x) = f (x − y)
et
e yf (x) = eihy,xi f (x),
31
x ∈ Rd
La transformée de Fourier dans Rd
32
Soit f ∈ L1 et y ∈ Rd. Alors
τ yf = e−yfˆ ,
eyf = τyfˆ.
et
(3.1)
La première formule s’obtient par un simple changement de variable, et la seconde
est une conséquence immédiate de la définition.
Si maintenant M est une matrice de GLd(R), et si g(x) = f (M −1x), où f est
toujours supposée intégrable, on a
ĝ (ξ) = |det M |fˆ(M ∗ ξ)
(3.2)
où M ∗ est la matrice transposée de M . À nouveau, ceci s’obtient facilement par un
changement de variables3.1 linéaire (poser u = M −1x) dans l’intégrale
Z
1
ĝ (ξ) =
e−ihξ,xi f (M −1x)dx,
(2π)d/2 Rd
en notant que hξ, Mui = hM ∗ ξ, ui. Par exemple, pour M la matrice diagonale
dont tous les coefficients diagonaux sont égaux à un réel non nul a, on obtient
g(x) = f (x/a) et
ĝ (ξ) = |a|dfˆ(aξ).
(3.3)
Pour a = −1, ceci donne, si l’on note Rf (x) = f (−x), la formule
Rf (ξ) = fˆ(−ξ) = Rfˆ(ξ).
Par ailleurs, notons que
fˆ(−ξ) =
1
(2π)d/2
Z
e−ihξ,xi f (x)dx = fˆ (ξ),
Rd
où z̄ est le complexe conjugué de z. On peut réécrire cela sous la forme concise
¯
fˆ = Rf¯ˆ .
(3.4)
Noter que si f est réelle, alors cela se simplifie en fˆ(ξ) = fˆ(−ξ), et si on suppose
que f est réelle et paire, alors clairement fˆ(ξ) = fˆ(−ξ) et on en déduit que fˆ est
une fonction paire à valeurs réelles.
b. Continuité, lemme de Riemann-Lebesgue
Proposition 3.1. Soit f une fonction de L1. Alors la fonction fˆ est continue, et
vérifie
fˆ 6 kf k1 .
∞
En particulier, l’application linéaire f 7→ fˆ de L1 dans L∞ est continue. Par ailleurs,
on a
lim fˆ(ξ) = 0.
|ξ |→∞
3.1. Nous verrons au le chapitre suivant quelques compléments concernant le changement de variables,
dont une justification de cette formule
3.1 Transformée de Fourier d’une fonction intégrable
33
Noter que la proposition implique en particulier que fˆ est uniformément continue
(exercice). Le fait qu’une transformée de Fourier (d’une fonction intégrable) soit
nulle à l’infini est appelé Lemme de Riemann-Lebesgue. Noter également le fait suivant: même si l’on suppose que f est un élément de L1, la même conclusion est vraie:
rappelons qu’une transformée de Fourier de fonction L1 est bien définie partout, et
définit bien une vraie fonction et non une classe de fonctions. En particulier, parler
de continuité de fˆ a bien un sens.
Démonstration. La continuité est une conséquence triviale de (3.1) et de la continuité sous le signe intégrale.
Le fait qu’une transformée de Fourier soit une fonction mesurable bornée
implique que, si f , φ sont toutes deux dans L1, alors fφˆ et fˆφ sont dans L1. L’énoncé
suivant est appelé « formule de réciprocité ».
Proposition 3.2. Soit f , φ ∈ L1. Alors on a
Z
Z
ˆ
fˆ(ξ)φ(ξ)dξ.
f (x)φ (x)dx =
Rd
Rd
Démonstration. La fonction (x, ξ) 7→ eihξ,xi f (x)φ(ξ) est intégrable par rapport
à dxdξ, ce qui est exactement ce dont on a besoin pour appliquer le théorème de
Fubini permettant l’interversion suivante:
Z
Z
Z
Z
dξ
dx
−ihx,ξ i
e
φ(ξ)
f (x)dx
e−ihξ,xi f (x)
φ(ξ)dξ
=
,
d/2
(2π)
(2π)d/2
Rd
Rd
Rd
Rd
ce qui est exactement ce qu’on voulait.
c. Régularité
Proposition 3.3. Soit f ∈ L1 une fonction telle que x 7→ |x|f (x) est intégrable.
Alors la fonction fˆ est de classe C 1(Rd , C) et de plus, pour tout j ∈ {1, 2, ..., d}, on a
Z
dx
∂fˆ
e−ihξ,xiix jf(x)
(ξ) = −
,
∂ξ j
(2π)d/2
Rd
qui est la transformée de Fourier de x 7→ ixjf (x).
Plus généralement, si x 7→ |x|kf (x) est intégrable pour un entier k > 1, alors fˆ est
Pd
de classe C k(Rd , C), et pour tout α = (α1, ..., αd) ∈ Nd tel que |α| = j =1 α j 6 k, on a
Z
∂ |α| fˆ
dx
e−ihξ,xi(−ix)αf (x)
,
αd (ξ) =
α1
∂ξ1 ...∂ξd
(2π)d/2
Rd
où l’on note par convention xα = xα1 1...xαd d.
Pour simplifier, on notera par la suite ∂xαh = ∂ |α|h/∂xα1 1...∂xαd d les dérivées partielles d’une fonction x 7→ h(x). Par exemple, si h est une fonction de deux variables
x et y, on pose ∂xh = ∂h/∂x, ou ∂xyh = ∂ 2h/∂x∂y.
Démonstration. C’est une conséquence immédiate du théorème de dérivation sous
le signe intégrale, en remarquant que |eihξ,xi(ix)αf (x)| 6 |x|k |f (x)|.
La transformée de Fourier dans Rd
34
On voit donc qu’une propriété de décroissance à l’infini de f implique une propriété de régularité de fˆ. Nous allons montrer une sorte de propriété duale de celle
ci: la régularité de f implique une propriété de décroissance à l’infini de fˆ.
Proposition 3.4. Soit f ∈ L1 ∩ C 1(Rd , C) une fonction de classe C 1 intégrable, telle
que ∂f /∂x j est intégrable pour tout j ∈ {1, 2, ..., d}. Alors on a
∂f
(ξ) = iξ jfˆ(ξ).
∂x j
Plus généralement, si l’on suppose qu’il existe un entier k > 1 tel que f ∈ C k(Rd , C)
et ∂xαf ∈ L1 pour tout multi-indice α vérifiant |α| 6 k, alors on a, pour ces mêmes
multi-indices,
∂xαf (ξ) = (iξ)αfˆ(ξ).
Remarque. En réalité l’hypothèse que f est de classe C 1(Rd , C) est superflue, il
suffit de supposer que les dérivées partielles considérées existent en tout point (mais
pas seulement en presque tout point !). En utilisant le Théorème 7.21 du livre de
Rudin, stipulant que si f estR dérivable en tout point d’un intervalle [a, b] et a sa
y
dérivée f ′ dans L1, alors on a x f ′(z)dz = f (y) − f (x), la preuve ci-dessous s’adapte
verbatim.
Démonstration. Supposons sans perte de généralité que j = 1. Pour un (x2, x3, ...,
xd) ∈ Rd−1 fixé, on a
Z y
∂x1 f (z, x2, x3, ..., xd)dz.
f (y, x2, x3, ..., xd) − f (x, x2, x3, ..., xd) =
x
Comme f et ∂x1 f sont supposées intégrables, le théorème de Fubini montre que pour
λd−1-presque tout (x2, ..., xd), les fonction x 7→ f (x, x2, ..., xd) et x 7→ ∂x1 f (x, x2, ..., xd)
sont intégrables. On déduit de la formule précédente que pour λd−1-presque tout
(x2, ..., xd), la fonction x 7→ f (x, x2, ..., xd) admet une limite en ±∞. Comme f est
intégrable, cette limite est nulle pour λd−1-presque tout (x2, ..., xd), par une nouvelle
application du théorème de Fubini. On écrit alors, en notant x ′ = (x2, ..., xd) et
ξ ′ = (ξ2, ..., ξd),
Z
Z K
d/2
−ihξ ′,x ′i
′
(2π) ∂x1 f (ξ) =
e
dx lim
e−iξ1x1∂x1 f (x1, x ′)dx1
d−1
K→∞
−K
ZR
−ihξ ′,x ′i
′
=
e
dx
Rd−1
!
Z
K
e−iξ1x1 f (x1, x ′)dx1
+ iξ1
× lim [e−iξ1x1 f (x1, x ′)]xx1=K
1=−K
K→∞
−K
Z ∞
Z
′
′
e−iξ1x1 f (x1, x ′)dx1 = (2π)d/2iξ1 fˆ(ξ).
e−ihξ ,x idx ′
= iξ1
Rd −1
−∞
Ici, on a utilisé le théorème de Fubini à la première et dernière étapes, et les observations précédentes conjointement à une intégration par parties pour les autres étapes.
Le résultat plus général s’obtient par une récurrence aisée, qui est laissée au
lecteur.
35
3.2 L’exemple de la densité gaussienne.
Le lemme de Riemann-Lebesgue appliqué à ∂xαf , conjointement au précédent
résultat, donne le résultat suivant.
Corollaire 3.5. Si l’on suppose qu’il existe un entier k > 1 tel que f ∈ C k(Rd , C) et
∂xαf ∈ L1 pour tout multi-indice α vérifiant |α| 6 k, alors on a
1
ˆ
f (ξ) = o
.
|ξ |k
d. Lien avec la convolution
La transformée de Fourier est un morphisme multiplicatif pour la convolution
dans L1. Nous noterons, lorsque cela a un sens,
Z
1
f ∗g(x) =
f (x − y)g(y)dy ,
d/2
(2π)
Rd
Z
f (x − y)g(y)λd(dy)
=
Rd
avec la normalisation par (2π)d/2, contrairement à la convention adoptée au premier
chapitre.
Proposition 3.6. Soit f , g ∈ L1 , alors on a f ∗ g (ξ) = fˆ(ξ)ĝ (ξ) pour tout ξ ∈ Rd.
Démonstration. On écrit simplement
f ∗ g (ξ) =
=
Z
ZRd
Rd
−ihξ,xi
Z
f (x − y)g(y)λd(dy)
Z
e−ihξ,y i g(y)λd(dy),
g(y) λd(dy) τyf (ξ) = fˆ(ξ)
e
λd(dx)
Rd
Rd
où l’on a appliqué le théorème de Fubini dans la deuxième inégalité, (x, y) 7→
e−ihξ,xi f (x − y)g(y) étant clairement intégrable par rapport à dxdy.
Cette propriété élémentaire est l’une des plus importantes de la transformée de
Fourier. On verra en particulier le rôle qu’elle joue lorsqu’on somme des variables
aléatoires indépendantes.
3.2 L’exemple de la densité gaussienne.
Pour σ > 0, on note
1
|x|2
gσ(x) = d exp − 2 ,
σ
2σ
x ∈ Rd ,
que l’on appelle densité gaussienne isotrope dans Rd. Notons que l’on a la relation
élémentaire de changement d’échelle suivante : pour tout σ > 0,
x
1
gσ(x) = d g1
,
x ∈ Rd.
(3.5)
σ
σ
La transformée de Fourier dans Rd
36
Proposition 3.7. Pour tout σ > 0, on a que
R
Rd
gσ(x)λd(dx) = 1.
Démonstration. Du fait de la relation (3.5), il suffit de montrer ce résultat pour
Qd
2
σ = 1. Par ailleurs, comme g1(x) = i=1 exi /2 , le théorème de Tonelli montre qu’il
suffit de traiter le cas où d = 1.
On utilise alors le théorème de Tonelli et un changement de variables en coordonnées polaires pour obtenir :
r=∞
Z
2 Z
Z
Z π
x2
x2 + y 2
r2
r2
−
−
−
−
= 2π,
e 2 dxdy =
rdre 2
e 2 dx =
dθ = 2π −e 2
R2
R
R+
−π
r=0
d’où le résultat.
Comme g1 est une fonction positive, noter que pour la relation (3.5) implique que
pour toute suite (σn , n > 0) strictement positive de limite nulle, la suite (gσn , n > 0)
est une approximation de l’unité.
Il est évident que la fonction gσ est une fonction de classe C ∞(Rd , C), et de
surcroît que |x|k∂xαgσ(x) est de limite nulle lorsque |x| → ∞ pour tout k > 0 et
tout multi-indice α. On dit que gσ est un élément de la classe de Schwartz S. En
particulier, gσ et toutes ses dérivées partielles sont dans L1, et on peut bien parler
de leur transformée de Fourier.
Proposition 3.8. On a, pour tout ξ ∈ Rd,
σ 2|ξ |2
1
ĝσ(ξ) = exp −
= d g1/σ(ξ).
2
σ
Démonstration. Du fait de la relation (3.5), les propriétés usuelles de la transformée de Fourier donnent que ĝσ(ξ) = ĝ1(σξ), et il suffit donc de traiter le cas où
σ = 1. Par ailleurs, de façon similaire à la preuve de la proposition 3.7, il suffit, par
une application du théorème de Fubini, de montrer le résultat pour d = 1. On suppose
donc maintenant que σ = 1, d = 1, et on pose g = g1. Les remarques précédant l’énoncé
de la proposition, jointes aux propositions 3.3 et 3.4, montrent que
Z
Z
x2
dx
− 2 dx
−iξx
′
e−iξxg ′(x) √ = igˆ′(ξ) = −ξ ĝ (ξ).
e
xe √ = i
ĝ (ξ) = −i
2π
2π
Rd
Rd
La fonction ĝ est donc solution de l’équation différentielle h ′(ξ) = −ξh(ξ), et donc
on a
2
et comme ĝ (0) =
R
Rd
ĝ (ξ) = ĝ (0)e−ξ /2,
ξ ∈ R,
√
g(x)dx/ 2π = 1 par la proposition 3.7, on conclut.
3.3 La formule d’inversion
Le résultat principal de ce chapitre dit que, lorsque l’on peut prendre la transformée
de Fourier de fˆ, cette transformée égale Rf presque partout.
37
3.3 La formule d’inversion
Théorème 3.9. Soit f ∈ L1 une fonction telle que fˆ ∈ L1. Alors si l’on pose
Z
1
g(x) =
eihx,ξ i fˆ(ξ)dξ ,
d/2
d
(2π)
R
on a que f (x) = g(x) pour λd-presque tout x, c’est-à-dire que f = g dans L1. De
façon concise, si Rf (x) = f (−x),
ˆ
Rfˆ =f
Remarque. Noter que ce théorème admet la conséquence suivante, du fait de la
proposition 3.1 : si f ∈ L1 est telle que fˆ ∈ L1, alors f (et fˆ) est égale presque partout
à une fonction continue de limite nulle à l’infini. Cela restreint donc sensiblement
l’ensemble des fonctions auxquelles le théorème précédent est susceptible de s’appliquer !
Avant de donner la preuve, notons qu’une approche naïve consisterait à appliquer
la formule de réciprocité (Proposition 3.2) dans la définition de g(x), et à écrire
Z
1
g(x) =
eihx,·i(y)f (y)dy.
d/2
d
(2π)
R
Le problème est que cette expression n’a pas de sens bien défini, car ex = eihx,·i
n’est pas un élément de L1. Néanmoins, on peut se convaincre que la seule valeur «
naturelle » à donner à ex̂ (y) est 0 si y =
/ x et +∞ si y = x, ce qui semble indiquer que
la « fonction » eˆx est la masse de Dirac en x. On peut donner un sens à cela dans
le cadre de la théorie des distributions qui sera étudiée en M1 : en fait, le théorème
3.9 permet de définir eˆx = δx .
Démonstration du théorème 3.9. Comme l’approche naïve décrite ci-dessus ne
peut pas fonctionner, l’idée est de « lisser » les fonctions considérées par convolution
avec une gaussienne. On remplace donc f par fσ = gσ∗f avec les notations du
ˆ par la proposition 3.6. En utilisant la
paragraphe 3.2, et on rappelle que fˆσ = gˆf
σ
proposition 3.8 donnant gσ̂ , et la formule de réciprocité, on calcule alors
Z
Z
1
ihx,ξ i ˆ
eihx,ξ i g1/σ(ξ)fˆ(ξ)λd(dξ)
(3.6)
e
fσ(ξ)λd(dξ) = d
σ ZRd
Rd
1
= d
ex g1/σ (y)f (y)λd(dy)
Zσ Rd
gσ(y − x)f (y)λd(dy)
=
Rd
= fσ ,
où l’on a utilisé à nouveau la proposition 3.8 et les propriétés élémentaires de la
transformée de Fourier à l’avant-dernière étape, et la parité de la fonction gσ à la
dernière étape. Lorsque σ → 0, on a que fσ → f dans L1 par la proposition 1.10 et
les remarques effectuées après la proposition 3.7. Par ailleurs,
2
2
1 ihx,ξ i
e
g1/σ(ξ)fˆ(ξ) = eihx,ξ ie−σ |ξ | /2 fˆ(ξ) −→ eihx,ξ i fˆ(ξ),
d
σ→0
σ
La transformée de Fourier dans Rd
38
la convergence étant dominée par fˆ(ξ) , qui est dans L1 par hypothèse. On en
conclut que le membre de gauche de (3.9) converge ponctuellement vers g(x) lorsque
σ → 0. On en conclut bien que g = f presque partout, et c’est ce qu’on voulait
démontrer.
Corollaire 3.10. La transformée de Fourier est injective : si f , g ∈ L1 sont telles
que fˆ = ĝ, alors f = g.
Remarque. Attention au fait que cette égalité est valide dans L1 ! Si f , g sont de
vraies fonctions dans L1, alors l’énoncé dit seulement que fˆ = ĝ implique que f = g,
λd-presque partout.
Démonstration. Si fˆ = ĝ , alors f − g = 0 par linéarité, et comme 0 est évidemment
intégrable, on a que f − g = R0̂ = 0.
3.4 La transformée de Fourier L2
La formule d’inversion de la transformée de Fourier L1 est un analogue direct de la
proposition 2.10 pour les séries de Fourier. On peut se demander s’il existe également
un analogue de la théorie hilbertienne de ces séries.
Rappelons que la théorie L2 des séries de Fourier stipule que l’application f 7→
(cn(f ), n ∈ Z) est une isométrie, en fait un isomorphisme d’espaces de Hilbert, de
L2(T, B(T), λ) sur ℓ2(Z) par la formule de Bessel-Parseval :
X
|cn(f )|2.
kf k2 =
n∈Z
Une différence notable entre séries et transformée de Fourier vient du fait que L2(Rd ,
B(Rd), λd) n’est pas inclus dans L1(Rd , B(Rd), λd), du fait que la mesure λd est infinie,
et que la transformée de Fourier d’une fonction f ∈ L2(Rd , B(Rd), λd) n’est pas un
objet bien défini a priori . Néanmoins, on a bien la propriété d’isométrie suivante.
Proposition 3.11. Soit f ∈ Cc∞(Rd , C) une application infiniment dérivable, et à
support compact. Alors fˆ appartient à L2 , et de plus l’application f 7→ fˆ de Cc∞(Rd , C)
dans L2 , est une isométrie si l’on munit ces deux espaces de la norme k·k2.
Démonstration. Comme f et ses dérivées sont continues à support compact, elles
sont dans L1, donc la proposition 3.1 et le corollaire 3.5 impliquent que fˆ est dans
tous les ensembles L p pour p ∈ [1, ∞]. Pour montrer la propriété d’isométrie, on
écrit, pour f ∈ Cc∞(Rd , C), (et avec Rf (x) = f (−x)),
Z
Z
Z
Z
ˆ
ˆ
ˆ
fˆ(ξ)fˆ(ξ)dξ =
fˆ(ξ)Rf¯ (ξ)dξ =
f (x)Rf¯ (x)dx =
f (x)f (x)dx
Rd
Rd
Rd
Rd
où l’on a utilisé (3.4), la formule de réciprocité, puis la formule d’inversion, qui
s’applique puisque f¯ˆ ∈ L1.
3.4 La transformée de Fourier L2
39
Comme Cc∞(Rd , C) est dense dans L2, et qu’une isométrie est uniformément
continue, on en déduit qu’il existe un unique prolongement continu de f 7→ fˆ de L2
dans L2, qui demeure une isométrie linéaire. Pour le distinguer de la transformée de
Fourier classique, on le note F: L2 → L2, que l’on appelle parfois la transformée de
Fourier-Plancherel.
Théorème 3.12. L’application F prolonge la transformée de Fourier L1 , au sens
où, si f ∈ L1 ∩ L2 , alors Ff = fˆ presque partout. De plus, F est une isométrie de L2
sur lui-même.
Démonstration. Soit f ∈ L1 ∩ L2, et fσ = gσ ∗ f où gσ est la densité gaussienne
du paragraphe 3.2. On sait par la proposition 1.10 que fσ converge vers f dans L1
et dans L2, et de plus, la fonction fσ est de classe C ∞(Rd , C) par une application
aisée du théorème de dérivation sous le signe somme, en utilisant que gσ et toutes
ses dérivées partielles sont bornées.
Pour qu’on puisse lui appliquer la proposition précédente, on tronque fσ en
introduisant une fonction ψ de Cc∞(Rd , C), à valeurs dans [0, 1], telle que ψ(x) = 1
si |x| 6 1 et ψ(x) = 0 si |x| > 2. On laisse au lecteur le soin de construire une telle
fonction explicitement. Pour tout entier n > 1, posons alors hn(x) = ψ(x/n)f1/n(x),
de sorte que hn ∈ Cc∞(Rd) pour tout n. On a alors, pour p ∈ [1, ∞[,
khn − f k p 6 kψ(·/n)(f1/n − f )k p + k(1 − ψ(·/n))f k p
1/p
Z
p
|f (x)| 1{|x|>n}λd(dx)
6 kf1/n − f k p +
Rd
ce qui converge vers 0 lorsque n → ∞. Ceci est valable en particulier pour p = 1 et
p = 2, et de la continuité de F : L2 → L2 et de ˆ:
· L1 → L∞, on en déduit que Fhn = hˆn
converge respectivement dans L2 et dans L∞ vers Ff et fˆ. En particulier, ces deux
fonctions sont égales presque partout.
Il ne reste plus qu’à démontrer la surjectivité de F . Or on peut construire
une seconde application F̃ prolongeant la transformée de Fourier inverse f 7→ Rfˆ
de Cc∞(Rd , C) dans L2, qui est une isométrie linéaire pour les mêmes raisons que
précédemment. On a alors FF̃f = f pour toute fonction f ∈ Cc∞(Rd , C), et par
densité et continuité, on en conclut que la même chose est vraie pour tout f ∈ L2.
Donc F est inversible à droite, et en particulier, elle est surjective.
Remarque. Attention, si f ∈ L2 on n’a pas en général la formule
Z
1
Ff (ξ) =
e−ihξ,xi f (x)dx,
d/2
(2π)
Rd
(3.7)
car cette formule n’a pas toujours de sens ! En revanche, on peut noter que pour
tout A > 0, la formule
Z
1
e−ihξ,xi f (x)dx,
ξ ∈ Rd
FAf (ξ) =
d/2
(2π)
[−A,A]d
La transformée de Fourier dans Rd
40
a bien un sens, puisqu’une fonction dans L2 est localement intégrable par l’inégalité
de Cauchy-Schwarz. Comme f 1[−A,A]d converge dans L2 vers f lorsque A → ∞, on
en déduit que FAf = F (f1A) converge dans L2 vers Ff , ce qui est une façon de
donner un sens à l’intégrale impropre (3.7).
3.5 Transformée de Fourier d’une mesure signée
Comme on l’a mentionné brièvement un peu plus haut, la transformée de Fourier
s’étend naturellement au-delà des fonctions de L1, et peut être définie même pour des
objets qui ne sont pas des fonctions (les distributions). Même si nous n’allons pas
traiter de cela ici, il nous sera très utile en théorie des probabilités de manipuler la
transformée de Fourier de mesures de probabilités. Il est cependant utile de traiter
le cas plus général des mesures signées. Si µ est une telle mesure, on note |µ| la
mesure de variation totale associée, et on rappelle qu’il s’agit d’une mesure positive
finie, dont la masse totale est notée |µ|(Rd) = kµk, et appelée norme de variation
totale de µ.
Soit donc µ une mesure signée sur Rd. On définit la transformée de Fourier de
µ par la formule
Z
1
µ̂(ξ) =
e−ihξ,xi µ(dx),
ξ ∈ Rd.
d/2
(2π)
Rd
Un cas particulier important sera celui des mesures à densité (sous-entendu par
rapport à λd), c’est-à-dire des mesures µ qui s’écrivent sous la forme
µ(dx) = f (x)dx/(2π)d/2
pour une fonction f ∈ L1 à valeurs réelles3.2. Il est immédiat par définition que dans
ce cas on a µ̂(ξ) = fˆ(ξ). Ceci permet d’étendre strictement le cadre des fonctions
L1, au moins à valeurs réelles. De fait, un certain nombre de propriétés que nous
avons étudiées dans le cadre L1 restent vraies ici.
d
Proposition 3.13. La transformée de Fourier d’une mesure de
R signéek µ sur R est
une fonction continue, et bornée par kµk. De plus, si l’on a Rd |x| |µ|(dx) < ∞,
alors µ̂ est de classe C k(Rd , C), et l’on a pour tout multi-indice α tel que |α| 6 k,
Z
(−ix)αe−ihξ,xi µ(dx).
∂xαµ̂(ξ) =
Rd
Enfin, si µ et ν sont deux mesures de probabilités, on a la formule de réciprocité
Z
Z
µ̂(ξ)ν(dξ) =
ν̂ (x)µ(dx).
Rd
Rd
3.2. En fait, on pourrait aussi définir la transformée de Fourier d’une mesure complexe, c’est-à-dire
d’une application s’écrivant sous la forme µ = µ1 + iµ2, avec µ1 et µ2 des mesures signées. Ceci permettrait
d’étendre strictement le cadre L1 étudié ici, et les énoncés de ce paragraphe restent tous vrais dans cette
situation. On renvoie au chapitre 6 du livre de Rudin, Real and complex analysis pour les rudiments sur
les mesures complexes.
41
3.5 Transformée de Fourier d’une mesure signée
La preuve est exactement la même que pour les fonctions L1, et est laissée en
exercice.
Remarque. Attention, le lemme de Riemann-Lebesgue n’est plus vrai dans ce
contexte ! Par exemple, la mesure de Dirac δ0 vérifie δˆ0 = 1, et n’est donc pas de
limite nulle en l’infini.
Une autre propriété importante qui est conservée est celle de morphisme multiplicatif par rapport à la convolution. Si µ est une mesure signée, rappelons qu’elle
peut s’écrire de façon unique sous la forme µ = µ+ − µ− où µ+ et µ− sont deux
mesures positives finies de supports disjoints (décomposition de Jordan), auquel cas
on a |µ| = µ+ + µ− . La mesure produit de deux mesures signées µ et ν est alors
définie comme
µ ⊗ ν = µ+ ⊗ ν+ − µ+ ⊗ ν− − µ− ⊗ ν+ + µ− ⊗ ν−,
et définit une nouvelle mesure signée, de variation totale |µ| ⊗ |ν |. Dans ce cadre,
le théorème de Fubini s’énonce ainsi :
Théorème 3.14. Soit µ et ν deux mesures signées, et soit f une fonction mesurable
intégrable par rapport à |µ| ⊗ |ν |, alors on a
Z
Z
Z
Z
Z
µ(dx) f (x, y)ν(dy) = ν(dy) f (x, y)µ(dx) = f (x, y)µ ⊗ ν(dxdy).
Définition 3.15. La convolution de deux mesures signées µ et ν est la mesure image
par l’application (x, y) 7→ x + y de la mesure produit µ ⊗ ν, et on la note µ∗ν. La
mesure µ∗ν est caractérisée par le fait que
Z
Z
f (x + y)µ(dx)ν(dy)
f (z)µ∗ν(dz) =
Rd ×Rd
Rd
pour toute fonction f mesurable bornée.
On laisse au lecteur le soin de montrer que l’opération ∗ est associative et
commutative sur l’ensemble des mesures signées, et admet δ0 pour élément neutre.
Si µ est une mesure à densité, µ(dx) = f (x)λd(dx), notons que pour toute fonction
h mesurable bornée, on a par le théorème de Tonelli
Z Z
Z
h(x + y)f (x)λd(dx )ν(dy)
h(z)µ∗ν(dz) =
d
d
R
R
Rd
Z
Z
f (z − y)ν(dy),
h(z)λd(dz)
=
Rd
Rd
ce qui signifie que µ∗ν admet une densité par rapport à λd, cette densité étant
Z
f (x − y)ν(dy).
f∗ν(x) =
Rd
On notera que si à son tour ν est à densité, disons ν(dx) = g(x)λd(dx), alors
f ∗ν = f ∗ g.
La transformée de Fourier dans Rd
42
Proposition 3.16. Si µ est ν sont deux mesures signées, on a µ∗ν = µ̂ν̂.
La preuve est laissée en exercice. On a également une sorte de généralisation de
la formule d’inversion.
Théorème 3.17. Soit µ une mesure signée telle que µ̂ ∈ L1. Alors µ admet une
densité par rapport à λd, qui est égale presque partout à la fonction
Z
1
eihx,ξ i µ̂(ξ)dξ ,
x ∈ Rd.
d/2
(2π)
Rd
Démonstration. La preuve est similaire à celle du théorème 3.9. On remplace à
nouveau la mesure µ par la fonction µσ = gσ ∗ µ, où gσ est la densité gaussienne du
paragraphe 3.2. On a alors µ̂σ = ĝσ µ̂. Alors les mêmes manipulations que pour la
preuve du théorème 3.9 donnent
Z
Z
1
ihx,ξ i
eihx,ξ i g1/σ(ξ)µ̂(ξ)λd(dξ)
e
µ̂σ(ξ)λd(dξ) = d
σ
d
d
R
ZR
1
= d
ex g1/σ (y)µ(dy)
Zσ Rd
=
gσ(y − x)µ(dy)
Rd
= µσ(x).
Et toujours comme auparavant, le théorème de convergence dominée (par |µ̂ |)
montre que la seconde intégrale de cette chaîne d’égalités converge lorsque σ → 0 vers
Z
1
eihx,ξ i µ̂(ξ)dξ,
d/2
d
(2π)
R
que l’on notera f (x). Notons aussi que ces intégrales sont toutes majorées par kµ̂ k1.
Il reste à montrer que f est la densité de µ par rapport à λd. Pour cela, soit h une
fonction continue à support compact. On a alors, par une nouvelle application du
théorème de Fubini Z
Z
h(x)µσ(x)λd(dx) =
Rd
Rd
gσ∗h(x)µ(dx).
Par ce qui précède,
et le théorème de convergence dominée, le membre de gauche
R
converge vers Rd h(x)f (x)λd(dx). Par ailleurs, comme gσ∗h converge vers h uniformément sur les compacts par la proposition 1.9, tout en restant bornée par
khk
R ∞, on conclut par convergence dominée que le membre de droite converge vers
h(x)µ(dx). Comme ceci est valable pour tout choix de h, continue à supRd
port compact, on déduit par un argument de densité que µ(dx) = f (x)λd(dx). Corollaire 3.18. La transformée de Fourier définie sur les mesures signées est une
application injective : si µ et ν sont deux mesures signées telles que µ̂ = ν̂, alors µ = ν.
Démonstration. Sous ces hypothèses, on a µ − ν = 0, qui est dans L1, et on déduit
que µ − ν est à densité, et que cette densité est nulle. Donc µ = ν.
3.6 Une application à l’analyse de l’équation de la chaleur
43
3.6 Une application à l’analyse de l’équation de la
chaleur
Soit f une fonction intégrable sur Rd. L’équation de la chaleur sur Rd × R+ avec
condition initiale f est le système d’équations suivant, d’inconnue une fonction
u = u(x, t) sur Rd × R+ :
(
1
∂tu = 2 ∆u sur Rd × ]0, ∞[
.
(3.8)
u(·, 0) = f
Ici, ∆ désigne le laplacien de Rd agissant sur la première coordonnée :
d
X
∂ 2u
∆u(x, t) =
(x, t).
∂x2j
j =1
Cette équation décrit la température u(x, t) au point x et à l’instant t d’un matériau
homogène, étant donnée la condition initiale u(x, 0) = f (x).
En supposant que la solution u soit assez « régulière » pour qu’on puisse en
prendre la transformée de Fourier û = û(ξ , t), en la variable x, et pour que les
formules usuelles sur la transformée de Fourier des dérivées partielles de u soient
autorisées, on obtient que l’équation de la chaleur revient à


|ξ|2
∂tû = − 2 û sur Rd × ]0, ∞[
 û(·, 0) = fˆ
On résout cette équation en
û(ξ, t) = e
−t
|ξ|2
2
fˆ(ξ) = g√t (ξ)fˆ(ξ) = g√t ∗f (ξ),
où gσ est comme d’habitude la densité gaussienne. Par injectivité de la transformée
de Fourier, cela conduit à u = g√t ∗f .
Rétrospectivement, le théorème de dérivation sous l’intégrale, joint au fait que la
fonction (x, t) 7→ g√t(x) vérifie la première équation de (3.8), implique que u = g√t ∗f
la satisfait aussi. En revanche, il convient de s’interroger sur la mesure dans laquelle
la condition initiale est bien vérifiée, puisque g0 n’est pas définie a priori. Cependant,
les résultats sur les approximations de l’identité montrent que g√t ∗f converge dans
L1 vers f , ce qui peut s’interpréter comme une version faible de la condition initiale.
Si f est plus régulière, par exemple continue et bornée sur Rd, alors la proposition 1.9
montre que la convergence est au sens ponctuel, et même uniforme sur les compacts.
On dit que la fonction (x, t) 7→ g√t (x) est la solution fondamentale de l’équation de
la chaleur dans Rd,
Bien sûr, nous n’avons pas parlé ici du problème d’unicité de la solution, qui
n’est d’ailleurs pas vérifiée ici.
La transformée de Fourier est un outil tout aussi commode pour analyser d’autres
équations aux dérivées partielles, comme l’équation des ondes
(
1
∂ttu = 2 ∆u sur Rd × ]0, ∞[
,
u(·, 0) = f , ∂tu(·, 0) = g
44
La transformée de Fourier dans Rd
ou l’équation de Schrödinger
(
1
i∂tu + 2 ∆u = 0 sur Rd × ]0, ∞[
.
u(·, 0) = f
On laisse au lecteur le soin de proposer des solutions (plus ou moins) explicites de
ces équations.
Remarque. La méthode de résolution d’une équation différentielle ou aux dérivées
partielles consistant à « passer aux transformées de Fourier » présuppose toujours
une régularité et une décroissance à l’infini a priori sur les solutions, et elle peut
donner en principe que des solutions particulières. On pourra par exemple s’en
convaincre en essayant de trouver une solution à l’équation différentielle y ′ = y + f
par cette méthode.
Chapitre 4
Changement de variables
Ce court chapitre a pour objet de faire quelques commentaires sur la notion de
mesure image et de changement de variables.
4.1 Mesure image
Rappelons que si (E , E) et (F , F ) sont deux espaces mesurables, si µ est une mesure
(disons positive, même si la discussion peut s’étendre naturellement au cas signé) sur
(E , E) et si f : E → F est une fonction mesurable (par rapport aux tribus E et F ),
alors on peut définir une nouvelle mesure f∗ µ sur (F , F ), appelée la mesure-image
de µ par f , par la formule
f∗ µ(A) = µ(f −1(A)) ,
A∈F.
De facon équivalente, pour toute fonction g: F → R+ mesurable positive, on a que
Z
Z
g(f (x))µ(dx) .
g(y)f∗ µ(dy) =
F
E
Pour le voir, constatons que cette formule est exactement équivalente à la définition
dans le cas où g = 1A est une indicatrice, avec A ∈ F , et que l’on déduit la formule
ci-dessus par un argument standard, en commençant par les fonctions étagées, puis
en passant par une limite monotone à toutes les fonctions mesurables positives.
On voit avec cette formule qu’un calcul de mesure image est un « changement
de variables », où la variable d’intégration y devient f (x).
4.2 Coordonnées polaires dans Rd
Pour calculer des intégrales sur Rd, il est souvent commode d’avoir recours aux
coordonnées polaires, surtout lorsque la fonction intégrée ne dépend que de la norme
(euclidienne) f (x) = f˜(|x|). C’est-à-dire qu’on veut décrire un point x ∈ Rd \{0}
par sa norme et son « argument » (|x|, x/|x|), la quantité x/|x| étant un point
Pd
de la sphère unité Sd−1 = x ∈ Rd: j =1 x2j = 1 . On munit ce dernier espace de
la topologie induite par Rd (ainsi un ouvert de Sd−1 est de la forme U ∩ Sd−1, où
U est un ouvert de Rd) et de la tribu borelienne B(Sd−1) associée. La fonction θ:
x 7→ x/|x| est continue, donc mesurable, de Rd \ {0} dans Sd−1. On la prolonge de
façon arbitraire au point 0, ce qui ne jouera pas de rôle dans ce qui suit.
45
46
Changement de variables
Définition 4.1. La mesure uniforme sur Sd−1 est la mesure image de ddx1B d(0,1)(x)
par l’application θ, où B d(0, 1) est la boule euclidienne fermée {x ∈ Rd: |x| 6 1}. On
la note ωd. Plus explicitement, pour A ∈ B(Sd−1), on a
ωd(A) = d Leb({rx: x ∈ A, r ∈ [0, 1]}) .
La masse totale de ωd est donnée par
ωd(Sd−1) = d Leb(B d(0, 1)) =
2π d/2
,
Γ(d/2)
de sorte que (ωd(Sd−1), d > 1) = (2, 2π, 4π, 2π 2, ...). En particulier
ω1 = δ−1 + δ1 ,
ω2 est l’image de la mesure de Lebesgue sur ]−π, π] par l’application x 7→ eix, si
l’on identifie Rd à C (ce qu’on laisse en exercice), et sa masse totale est 2π, la
circonférence du cercle unité.
Proposition 4.2. La mesure image de la mesure de Lebesgue sur Rd par l’application ϕ: x 7→ (|x|, x/|x|) (définie de façon arbitraire en x = 0) de Rd dans R+ × Sd−1
est la mesure produit r d−1dr1{r>0}ωd(du).
Démonstration. Fixons 0 6 a < b et A ∈ B(Sd−1), et montrons que
Z
Z
d−1
r dr ωd(du) ,
ϕ∗Leb(]a, b] × A) =
]a,b]
A
la conclusion s’ensuira par un lemme de classe monotone, puisque les ensembles de
la forme ]a, b] × A ci-dessus engendrent la tribu produit, et que l’on peut recouvrir
Rd \{0} par une réunion dénombrable de tels ensembles, par exemple ]2n , 2n+1] ×
Sd−1, n ∈ Z. Or
ϕ−1(]a, b] × A) = bC(A)\aC(A)
où C(A) = {x ∈ B(0, 1): x/|x| ∈ A} est tel que Leb(C(A)) = ωd(A)/d par définition.
Par les propriétés élémentaires de la mesure de Lebesgue, on a donc
Z
bd − ad
ϕ∗Leb(]a, b] × A) =
r d−1drωd(A)
ωd(A) =
d
]a,b]
comme voulu.
On en déduit le changement de variables en « coordonnées polaires » dans Rd :
Z
Z
Z
d−1
ωd(du) f (ru)
r dr
f (x)dx =
Rd
R+
Sd−1
pour toute fonction f mesurable positive de Rd dans R.
4.3 Changement de variables linéaire
La mesure image de la mesure de Lebesgue par un isomorphisme affine s’exprime
très simplement.
4.3 Changement de variables linéaire
47
Proposition 4.3. Soit M ∈ Md(R) une matrice carrée, et a ∈ Rd. Alors pour tout
A ∈ B(Rd), on a que
Leb(MA + a) = |det (M )|Leb(A) ,
où MA + a = {Mx + a: x ∈ A}.
En particulier, pour a = 0 et A = [0, 1]d, on obtient que la mesure de Lebesgue
du parallélépipède déterminé par les vecteurs colonne de M , c’est-à-dire l’ensemble
M [0, 1]d, a pour volume |det (M )|. Un déterminant est un volume !
Démonstration. Si M n’est pas inversible, son image est continue dans un hyperplan de Rd, dont la mesure est nulle (par une transformation orthogonale, on peut
toujours ramener un tel hyperplan sur {x1 = 0}, dont la mesure est nulle par le
théorème de Fubini). On obtient bien le résultat dans ce cas. Donc supposons
M ∈ GLd(R). Par invariance de la mesure de Lebesgue par les translations, on peut
aussi supposer que a = 0.
La formule µ(A) = Leb(M A), avec A ∈ B(Rd), définit de façon évidente une
mesure (car M est inversible), qui est de plus invariante par translation puisque pour
tout b ∈ Rd,
µ(A + b) = Leb(MA + Mb) = Leb(MA) = µ(A).
Par conséquent, µ est nécessairement un multiple scalaire de la mesure de Lebesgue,
c’est-à-dire qu’il existe c > 0 tel que µ(A) = c Leb(A) pour tout A. Clairement, on a
c > 0. Il reste à montrer que c = |det (M )|.
Si M ∈ Od(R) est orthogonale, c’est l’invariance de la mesure de Lebesgue par
les transformations orthogonales que nous avons déjà utilisé ci-dessus, mais que
nous pouvons redémontrer facilement en constatant que Leb(MB(0, 1)) = Leb(B(0,
1)) > 0, puisqu’une transformation orthogonale préserve la norme euclidienne. On
en tire immédiatement que c = 1 = |det (M )|.
Si M ∈ Sd++(R) est symétrique définie positive, le théorème spectral stipule qu’on
peut trouver une matrice orthogonale U telle que MP = P ∆, où ∆ = diag(a1, ..., ad)
est la matrice diagonale dont les coefficients diagonaux sont les valeurs propres de
M , qui sont strictement positives par hypothèse. On obtient alors que
µ(P [0, 1]d) = Leb(MP [0, 1]d) = Leb(P ∆[0, 1]d) = Leb(∆[0, 1]d)
où l’on a utilisé le cas précédent. Cette dernière quantité est la mesure du pavé
[0, a1] × ... × [0, ad], de mesure a1...ad = det (M ). Mais par ailleurs, ceci vaut
c Leb(P [0, 1]d) = c Leb([0, 1]d) = c, en utilisant encore le cas orthogonal. Le résultat
s’ensuit.
Dans le cas général, on peut écrire M ∈ GLd(R) de façon unique sous la forme
M = OS avec O ∈ Od(R) orthogonale, et S ∈ Sd++(R) symétrique définie positive.
C’est la décomposition polaire des matrices : il est facile de voir que S est l’unique
racine carrée symétrique positive de la matrice M ∗ M , et que O = MS −1 est bien
orthogonale dans ce cas... On déduit des deux cas précédents que
µ(A) = Leb(OSA) = Leb(SA) = det (S)Leb(A) = |det (M )|Leb(A) .
D’où le résultat.
48
Changement de variables
4.4 Changement de variables C 1
Nous concluons par un théorème très utile en pratique.
Théorème 4.4. Soit D un ouvert de Rd et f un C 1-difféomorphisme de D sur son
image f (D). Alors pour toute fonction g: Rd → R+ mesurable, on a
Z
Z
g(y)dy ,
g(f (x))J f (x)dx =
D
f (D)
où le Jacobien J f (x) = |det Dfx | est la valeur absolue du déterminant de la différentielle de f en x. Autrement dit, la mesure image de dx1D(x) par f est la mesure
dy1f (D)(y)/J f (f −1(y)).
La preuve est omise.
Partie II
Bases des probabilités
Chapitre 5
Bases de la théorie des probabilités
Dans ce chapitre, nous donnons les premières notions de la théorie moderne des
probabilités (issue des années 1930)
5.1 Espaces de probabilités, variables aléatoires
L’objet de base de la théorie des probabilités est un espace de probabilités, souvent
noté
(Ω, F , P) ,
qui est un espace mesuré, où P est une mesure de probabilités sur (Ω, F), c’està-dire une mesure positive telle que P(Ω) = 1. Intuitivement, les éléments de Ω,
parfois appelés « événements élémentaires », correspondent aux issues possibles
d’une expérience aléatoire donnée, et les parties mesurables A ⊂ F sont appelés des
événements. La quantité P(A) désigne la probabilité que l’événement A soit observé.
On dit que l’événement A est presque sûr si P(A) = 1.
Premiers exemples d’espaces de probabilités. L’exemple le plus familier et le
plus élémentaire d’expérience aléatoire consiste à choisir uniformément un élément
dans un ensemble E fini. Un choix naturel d’espace de probabilités adapté est de
prendre Ω = E, F = 2Ω la tribu des parties de E, et P la mesure uniforme sur E,
définie par
X
1
δx ,
P=
card(E)
x∈E
ou plus explicitement,
P(A) =
card(A)
,
card(E)
A ⊂ E.
Par exemple, si l’on cherche à modéliser un jeu de pile-ou-face équilibré, on peut
poser Ω = {0, 1} et F = {∅, {0}, {1}, {0, 1}} = 2Ω, et enfin P = (δ0 + δ1)/2 est la
mesure de Bernoulli. Un lancer de n pièces successivement est modélisé par l’espace
produit Ω = {0, 1}n, muni de la tribu des parties 2Ω et de la mesure uniforme
P({ω1, ..., ωn }) =
1
,
2n
qui est aussi la mesure produit des mesures de Bernoulli.
De même, un lancer de dé équilibré à 6 faces peut être modélisé en posant
P6
Ω = {1, 2, 3, 4, 5, 6}, F = 2Ω et P la mesure uniforme sur Ω : P = 6−1 i=1 δi , et n
lancers successifs correspondent à l’espace produit n fois.
51
52
Bases de la théorie des probabilités
Une infinité de lancers de pièces ? Il est plus difficile de considérer l’expérience
(de pensée !) consistant à jeter une pièce ou un dé une infinité de fois. Il est naturel
∗
de considérer l’espace produit Ω = {0, 1}N de toutes les suites à valeurs dans {0, 1}.
Mais cette fois on ne va pas considérer la σ-algèbre de tous les sous-ensembles, qui
est trop grande. Si ε1, ..., εn ∈ {0, 1}, notons
Aε1,...,εn = {ω = (ω1, ω2, ...) ∈ Ω: ω1 = ε1, ..., ωn = εn } .
Soit F la plus petite σ-algèbre rendant mesurable les ensembles Aε1,...,εn pour tout
choix de ε1, ..., εn. C’est aussi la plus petite σ-algèbre rendant mesurable les applications de projection Xi: Ω → {0, 1} définies par Xi(ω) = ωi. On dit que F est la σalgèbre produit sur l’espace produit Ω. Enfin, on munit l’espace (Ω, F ) de la mesure
produit P, qui est l’unique mesure de probabilités vérifiant
P(Aε1,...,εn) =
1
,
2n
pour tout ε1, ..., εn ∈ {0, 1}.
Notons que, si elle existe, cette mesure est bien unique par le lemme de classe
monotone, les événements Aε1,...,εn formant une famille stable par intersection finie,
et qui engendre F . L’existence de P est plus subtile. Nous allons la construire
explicitement à l’aide d’un espace de probabilités annexe ([0, 1[, B([0, 1[), λ) où λ est
la mesure de Lebesgue sur [0, 1[.
À tout x ∈ [0, 1[, on associe une suite (ω1(x), ω2(x), ...) donnant le développement
dyadique de x :
∞
X
ωi(x)
x=
.
2i
i=1
Pour que cette suite soit définie de façon unique, on suppose que l’on choisit si
nécessaire la suite (ωi(x), i > 1) de sorte qu’elle ne stationne pas à 1. Ainsi, par
exemple, on associe la suite (1, 0, 0, 0...) au nombre 1/2, et non la suite (0, 1, 1, 1, ...).
Les applications ωi : [0, 1[ → {0, 1} sont alors mesurables. En effet, si l’on pose
θ(x) = 2x − ⌊2x⌋ la partie fractionnaire de 2x, on a la formule explicite ω1(x) = ⌊2x⌋,
et pour tout i > 1,
ωi(x) = ⌊2θ◦(i−1)(x)⌋ =⌊2ix⌋ − 2⌊2i−1x⌋,
où θ◦ i est la composée de θ avec elle-même i fois. De ce fait, l’application ϕ: x 7→
(ω1(x), ω2(x), ...) de ([0, 1[, B([0, 1[) dans (Ω, F ) est mesurable, puisque les applications coordonnées ωi : x 7→ ωi(x) le sont. On laisse au lecteur le soin de vérifier ces
assertions. Posons alors P la mesure image de λ par ϕ. On a que pour tout ε1, ...,
εn ∈ {0, 1},
P(Aε1,...,εn) = λ(ϕ−1(Aε1,...,εn)) = λ({x ∈ [0, 1[: ω1(x) = ε1, ..., ωn(x) = εn }) =
1
,
2n
la dernière égalité s’obtenant en remarquant que ϕ−1(Aε1,...,εn) est le sous-intervalle
" n
"
n
X εi X
εi 1
,
+
.
2i
2i 2n
i=1
i=1
5.1 Espaces de probabilités, variables aléatoires
53
Ainsi, la mesure P répond bien à la définition de la mesure produit, ce qui donne
l’existence de cette dernière. Notons que l’espace (Ω, F , P) que nous venons de
construire est d’une complexité similaire à l’espace ([0, 1[, B([0, 1[), λ), au sens précis
que ϕ réalise entre ces espaces un isomorphisme d’espaces mesurés. L’inverse de ϕ
est en effet mesurable à son tour, et l’on a λ = (ϕ−1)∗P. En ce sens, construire un
espace de probabilités modélisant une infinité de lancers de pièces équilibrées est
donc du même ordre de difficulté que de construire la mesure de Lebesgue sur R.
Exercice. Construire un espace de probabilités modélisant une infinité de lancers de pile-ouface, mais où la probabilité d’obtenir pile est un nombre p ∈ [0, 1] quelconque.
Variables aléatoires. Le choix d’un espace de probabilités correspondant à une
situation concrète donnée n’est pas (jamais !) unique. Si l’on peut considérer les
deux exemples ci-dessus comme « minimaux » en un sens, considérons par exemple
l’expérience consistant à jeter deux dés à 6 faces et à observer le résultat de la
somme des chiffres indiqués. Une première possibilité consiste à lister les résultats
possibles, qui sont Ω1 = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}. On munit Ω1 de la tribu F1 de
l’ensemble des parties. Le choix de la mesure de probabilités P1 nécessite un temps
de réflexion : l’on pose
P1 =
δ2 + 2δ3 + 3δ4 + 4δ5 + 5δ6 + 6δ7 + 5δ8 + 4δ9 + 3δ10 + 2δ11 + δ12
.
36
En effet, parmi les 36 possibilités de résultats des deux dés (i, j) ∈ {1, 2, 3, 4, 5, 6}2,
où la première coordonnée donne le résultat du premier dé et la seconde coordonnée
donne le résultat du second dé, il y en a une, (1, 1), qui donne le résultat 2, deux,
(1, 2) et (2, 1), qui donnent le résultat 3, et ainsi de suite. On a donc fait une petite
excursion par un autre espace de probabilités, qui est l’espace Ω2 = {1, 2, 3, 4, 5, 6}2,
muni de la tribu F2 des parties, et de la mesure de probabilité uniforme P2. Cette
tribu modélise le résultat des deux lancers de dés, et quand on s’intéresse seulement
à la probabilité P1({k }) que la somme des résultats fasse k ∈ Ω1, on voit que ceci
est la probabilité de l’événement {(i, j) ∈ Ω2 : i + j = k}, c’est-à-dire que l’on pose :
P1({k }) = P2({(i, j) ∈ Ω2 : i + j = k }).
On peut réexprimer cela en introduisant l’application X: Ω2 → Ω1 définie par X((i,
j)) = i + j, en disant que pour tout k,
P1({k }) = P2(X −1({k})),
et ceci reste évidemment valable si l’on remplace {k } par n’importe quelle partie
de Ω1. Autrement dit, la mesure P1 est la mesure image de P2 par l’application X.
On appelle les applications mesurables entre espaces de probabilités des variables
aléatoires, et ces dernières sont, en quelque sorte, les objets qui permettent de
passer d’un choix d’espace de probabilités à un autre. Souvent, c’est l’étude des
variables aléatoires qui est prépondérante en probabilités, bien plus que l’espace
(Ω, F , P), qu’il suffit en général de choisir « assez gros ». Nous reviendrons sur ces
considérations plus tard.
54
Bases de la théorie des probabilités
Noter que dans le choix de Ω2, nous avons distingué les deux dés, comme s’il
y en avait un rouge et un noir par exemple. On aurait pu procéder autrement, et
poser Ω3 = {{i, j }: i, j ∈ {1, 2, 3, 4, 5, 6}} l’ensemble des parties de {1, 2, 3, 4, 5, 6} à
au plus deux éléments : l’événement élémentaire {i} est interprété par le fait que
les deux dés ont donné le résultat i. On pose alors P3({i, j }) = 1/18 si i =
/ j et
P3({i}) = 1/36. La variable aléatoire donnant la somme des dés est l’application
X ′ telle que X ′({i, j }) = i + j si i =
/ j et X3({i}) = 2i. Bien sûr, ce choix est plutôt
maladroit, mais il donne le même résultat que ci-dessus : P1 est aussi la mesure
image de P3 par X ′.
Exercice. Trouver une variable aléatoire X ′′:Ω2 → Ω3 envoyant la mesure P2 sur P3, et telle
que X = X ′ ◦ X ′′.
Définition 5.1. Une variable aléatoire sur l’espace de probabilités (Ω, F , P) est une
application mesurable X: (Ω, F ) → (E , E) où (E , E) est un ensemble mesurable.
Remarque. Certains ouvrages appellent variable aléatoire une application mesurable d’un espace de probabilités dans R ou C, et vecteur aléatoire une application
mesurable d’un espace de probabilités dans Rd ou Cd, nous préférons ici nous placer
dans la plus grande généralité.
Définition 5.2. La loi de la variable aléatoire X est alors la mesure image PX =
X∗P de P par X, définie par
PX (A) = P(X −1(A)) ,
A ∈ E.
C’est une mesure de probabilités sur (E , E), définissant un nouvel espace de probabilités (E , E , PX ).
Remarque. Noter que, stricto sensu, une variable aléatoire est seulement définie
sur un espace mesurable (Ω, F ) plutôt que sur un espace de probabilités (la mesure
P n’intervient pas). En revanche, la loi d’une variable aléatoire en dépend de façon
cruciale, et c’est pourquoi on fait rentrer P dans la définition de X pour parler de
la loi de X. Les puristes diront qu’une variable aléatoire est un couple (X , P), ou
un sextuplet (Ω, F , P, E , E , X), etc...
Remarque. On adopte souvent l’écriture suivante
PX (A) = P(X ∈ A),
c’est-à-dire qu’on écrit X −1(A) = {ω : X(ω) ∈ A} = X ∈ A, ce qui est encore une
façon d’effacer le rôle de Ω. Par extension, cela donne l’écriture parfois utilisée
PX (dx) = P(X ∈ dx) pour la loi de X.
Variables aléatoires discrètes. Notons que, si X est à valeurs dans un ensemble
dénombrable E (on parle de variable aléatoire discrète), muni de la tribu 2E , alors
on a, pour tout A ⊂ E,
X
[
X
P(X = x) .
PX ({x}) =
{x} =
P(X ∈ A) = PX (A) = PX
x∈A
x∈A
x∈A
55
5.2 Espérance d’une variable aléatoire
Autrement dit, la connaissance de la loi de X revient à celle des quantités px =
P(X = x), et l’on a
X
PX (dx) =
px δx.
x∈E
Variables aléatoires à densité. Soit X une variable aléatoire à valeurs dans Rd.
On dit que X est à densité si sa loi est absolument continue par rapport à λd. Dans
ce cas, le théorème de Radon-Nikodym implique qu’il existe une fonction mesurable
positive fX : Rd → R+ d’intégrale 1 par rapport à λd, telle que
PX (dx) = fX (x)dx.
On appelle cette fonction la densité de (la loi de) X, même si elle n’est définie que
λd-presque partout.
Remarque. Soit (E , E) un espace mesurable, et µ une mesure de probabilités sur
(E , E). On peut naturellement poser la question suivante : existe-t-il un espace de
probabilités (Ω, F , P) et une variable aléatoire X: Ω → E sur cet espace, telle que
X a pour loi µ, c’est-à-dire que PX = µ. La réponse est oui : il suffit de prendre
(Ω, F , P) = (E , E , µ) et de prendre pour X la fonction identité de E. On a bien
PX = X∗P = X∗ µ = µ.
Définition 5.3. L’application X construite ci-dessus est appelée la variable aléatoire
canonique de loi µ.
5.2 Espérance d’une variable aléatoire
a. Définition et formule de transfert
Soit (Ω, F , P) un espace de probabilités et X: Ω → R une variable aléatoire à
valeurs réelles. Si X est positive, ou si X ∈ L1(Ω, F , P) est intégrable, on note
Z
X(ω)P(dω)
E[X] =
Ω
l’intégrale de X par rapport à P, et on l’appelle l’espérance de X, ou encore la
moyenne de X. On définit de même l’espérance d’une variable aléatoire intégrable
à valeurs complexes. Plus généralement, si X: Ω → Cd est à valeurs vectorielles, on
note E[X] = (E[X1], ..., E[Xd]) où X1, ..., Xd sont les coordonnées de X, qui sont à
leur tour des variables aléatoires.
Si par exemple X = 1A est l’indicatrice de l’événement A ∈ F , on a
E[1A] = P(A).
C’est ce dont on s’est servi pour montrer la formule d’inclusion-exclusion.
L’espérance hérite des propriétés de linéarité et de positivité de l’intégrale.
Proposition 5.4. Pour tout scalaire a et toutes variables aléatoires X et Y, on a
E[aX + Y ] = aE[X] + E[Y ]
56
Bases de la théorie des probabilités
dès lors que X , Y sont intégrables, ou bien que X , Y , a sont positifs.
De plus, si X > 0, on a E[X] > 0 avec égalité si et seulement si X = 0 P-presque
partout.
La preuve est immédiate.
Proposition (Formule de transfert). Soit X: Ω → E est une variable aléatoire
à valeurs dans un espace mesurable (E , E), et si f : E → R+ est une application
mesurable positive, alors f (X) = f ◦ X est une variable aléatoire positive, et on a
Z
Z
f (x)PX (dx).
f (X(ω))P(dω) =
E[f (X)] =
Ω
E
Si maintenant f : E → R+ est mesurable, on a que f (X) ∈ L1(Ω, F , P) si et seulement
si f ∈ L1(E , E , PX ), et dans ce cas cette même formule reste valable.
Démonstration. Pour f de la forme 1A avec A ∈ E c’est juste la définition de la
mesure image, et par linéarité on déduit la formule pour toutes les fonctions étagées, puis toutes les fonctions mesurables positives par un argument de convergence
monotone. Enfin, on obtient le résultat pour toutes les fonctions f intégrables en
décomposant f = f + − f −, où l’on rappelle que x+ = x ∨ 0 et x− = (−x)+.
Noter que le dernier membre de la formule de transfert ne fait plus intervenir X
qu’à travers sa loi PX , et en particulier, elle ne fait pas intervenir l’espace (Ω, F , P).
Comme mentionné plus haut, les probabilistes aiment bien se débarrasser de l’espace
de probabilités à la première occasion !
b. Caractérisation de la loi à l’aide de l’espérance
Notons que la formule de transfert permet de caractériser efficacement la loi
d’une variable aléatoire.
Proposition 5.5. Soit X une variable aléatoire à valeurs dans un espace mesurable E. Alors la loi de X est caractérisée par les espérances E[f (X)], où f décrit
l’ensemble des fonctions mesurables bornées.
Démonstration. La preuve est triviale : si X et X ′ sont deux telles variables
aléatoires telles que E[f (X)] = E[f (X ′)] pour toute fonction f mesurable bornée,
on prend f = 1A avec A ∈ E pour obtenir que PX (A) = PX ′(A), et donc PX = PX ′
puisque ceci est valable pour tout A ∈ E.
Par exemple, soit X = (X1, X2, ..., Xd) une variable aléatoire à valeurs dans Rd.
On suppose que la loi de X admet une densité fX . Alors la loi de Xi admet à son
tour une densité, donnée par
Z
fX (x1, ..., xi−1, x, xi+1, ..., xd)dx1...dxi−1dxi+1...dxd .
fXi(x) =
Rd −1
57
5.2 Espérance d’une variable aléatoire
En effet, si h: R → R est une fonction mesurable bornée, on a par le théorème de
Fubini (et en notant dxi = dx1···dxi−1dxi+1···dxd)
Z
h(xi)fX (x1, ..., xd)dx1···dxd
E[h(Xi)] =
Z
ZRd
fX (x1, ..., xi−1, x, xi+1, ..., xd)dxi
h(x)dx
=
Rd−1
ZR
=
h(x) fXi(x)dx
R
et l’on reconnaît la formule de E[h(Y )] où Y est une variable aléatoire de densité
fXi. Noter que fXi est bien une fonction positive d’intégrale 1, ce qu’on obtient en
prenant h = 1 dans le calcul précédent.
Remarque (lois marginales). En général, si X = (X1, ..., Xd) est une variable
aléatoire à valeurs dans un espace produit E1 × ... × Ed, la loi de Xi, qui est une loi sur
Ei, est appelée la i-ème loi marginale de X. Il est vrai que la loi de X caractérise la
loi de ses marginales : la i-ème loi marginale est en effet la mesure image de PX par la
i-ème application de projection E1 × ... × Ed → Ei. En revanche, la réciproque est
fausse ! Pour s’en convaincre, on peut prendre X1(i, j) = i et X2(i, j) = j, variables
aléatoires définies sur Ω = {0, 1}2, muni de la mesure produit (δ0/2 + δ1/2)⊗2, et
constater que X = (X1, X2) et Y = (X1, X1) ont les mêmes lois marginales (uniformes
sur {0, 1}), tandis que X et Y n’ont certainement pas même loi, puisque
P(X1 = X2) = 1/2 =
/ 1 = P(X1 = X1).
En pratique, il est utile de caractériser la loi d’une variable aléatoire X en calculant E[f (X)] pour le moins de fonctions f possible. Par exemple :
Exercice. Soit d > 1 un entier fixé, et H un sous-ensemble de Cc(Rd , R) dense pour la norme
uniforme. Si X est une variable aléatoire à valeurs dans Rd, alors sa loi est caractérisée par
les espérances (E[f (X)], f ∈ H).
On reviendra plus abondamment au paragraphe 5.3 sur d’autres critères de
caractérisation de la loi d’une variable aléatoire.
c. Moments d’une variable aléatoire
Définition 5.6. Soit X une variable aléatoire à valeurs dans R ou C, et k > 0 un
nombre entier. Si X ∈ Lk(Ω, F , P), le nombre E[X k] est appelé le moment d’ordre
k de X. On appelle également la quantité E[|X |k] le moment absolu d’ordre k de X.
Notons encore une fois que le moment d’ordre k ne dépend que de la loi de X,
puisque
Z
k
xk PX (dx)
E[X ] =
R
dès que cette intégrale a un sens, par la formule de transfert. ROn parle donc aussi
des moments d’une mesure de probabilités µ sur R, égaux à R xkµ(dx) si x 7→ x
est dans Lk(R, B(R), µ).
58
Bases de la théorie des probabilités
Ainsi, le moment d’ordre 1 de X n’est autre que l’espérance de X , lorsqu’elle
est bien définie. Notons que, comme une mesure de probabilités est une mesure
finie, l’inégalité de Hölder implique que les espaces L p(Ω, F , P) forment une famille
décroissante en p ∈ [0, ∞] (par définition on note L0(Ω, F , P) l’ensemble de toutes
les fonctions mesurables, définies P-presque partout). En particulier, si X admet un
moment d’ordre k, alors X admet un moment d’ordre k ′ pour tout entier k ′ 6 k.
Les moments de variables aléatoires sont des outils très utiles pour étudier la
queue de distribution d’une variable aléatoire réelle X, que l’on définit comme la
fonction x 7→ P(X > x).
Proposition (inégalité de Markov). Soit X une variable aléatoire positive. Alors
on a, pour tout réel p > 0,
P(X > x) 6
E[X p]
,
xp
x > 0.
Démonstration. Quitte à remplacer X par X p, il suffit de traiter le cas p = 1. On
a alors
E[X1{X >x}]
X
P(X > x) = E
1{X >x} 6
,
X
x
et on conclut en majorant l’indicatrice par 1. Noter cependant que cette étape
intermédiaire est parfois utile.
Par ailleurs, en appliquant l’inégalité de Markov à la variable aléatoire positive
eλX , on obtient
Corollaire (inégalité de Chernov). Soit X une variable aléatoire à valeurs
réelles, alors pour tout λ > 0 et tout x ∈ R on a
P(X > x) 6 e−λx E[eλX ].
Cette borne est le point de départ de la théorie des grandes déviations de sommes
de variables aléatoires indépendantes, dont nous toucherons un mot plus bas.
d. Variance et covariance
Définition 5.7. Soit X ∈ L2(Ω, F , P) une variable aléatoire de carré intégrable. La
quantité
Var(X) = E[(X − E[X])2] = kX − E[X]k22
p
est appelée la variance de X. La quantité
Var(X) = kX − E[X]k2 est appelée
l’écart-type de X.
Notons que l’écart-type de X est la distance au sens L2 de X à la constante
E[X]. Comme par définition E[(X − E[X])·1] = 0, on en déduit que X − E[X]
est orthogonale (au sens du produit scalaire dans L2(Ω, F , P)) au sous-espace des
fonctions constantes. Par conséquent, l’écart-type est également la distance de X
(au sens L2) à ce sous-espace, et
Var(X) = inf E[(X − c)2] .
c∈R
59
5.2 Espérance d’une variable aléatoire
De plus, cet infimum est atteint uniquement en E[X], qui est donc la meilleure
approximation possible de X par une constante, au sens des moindres carrés.
En développant le carré dans la définition de la variance, et par linéarité de
l’espérance, on trouve la formule utile suivante :
Var(X) = E[X 2] − E[X]2 ,
valable pour tout X ∈ L2(Ω, F , P). Notons que, par définition, une variable aléatoire
de carré intégrable est constante presque sûrement si et seulement si Var(X) = 0.
En appliquant l’inégalité de Markov à la variable aléatoire |X − E[X]| et avec
p = 2, on obtient le résultat très utile suivant.
Corollaire (inégalité de Bienaymé-Chebychev). Soit X une variable aléatoire
dans L2(Ω, F , P). Alors on a, pour tout x > 0,
P(|X − E[X]| > x) 6
Var(X)
.
x2
Ainsi, la variance permet d’estimer la probabilité qu’une variable aléatoire
s’écarte de sa moyenne.
Définition 5.8. Soit X , Y ∈ L2(Ω, F , P) des variables aléatoires de carré intégrable.
La covariance de X et Y est définie par
Cov(X , Y ) = E[(X − E[X])(Y − E[Y ])].
La covariance est donc le produit scalaire dans L2(Ω, F , P) des variables aléatoires X − E[X] et Y − E[Y ]. Une formule alternative est donnée par
Cov(X , Y ) = E[XY ] − E[X]E[Y ].
On a évidemment Cov(X , X) = Var(X) et Cov(X , Y ) = Cov(Y , X).
On appelle parfois corrélation de X et Y la quantité normalisée
Corr(X , Y ) = p
Cov(X , Y )
,
Var(X)Var(Y )
qu’on peut interpréter comme le cosinus de l’angle formé dans l’espace L2(Ω, F , P)
par les vecteurs X − E[X] et Y − E[Y ]. C’est une quantité dans [−1, 1] par l’inégalité
de Cauchy-Schwarz.
Si maintenant X est une variable aléatoire à valeurs dans Rd pour un entier
d > 1, on note Xi , 1 6 i 6 d les applications coordonnées de X, qui sont à leur tour
des variables aléatoires à valeurs dans R. La matrice de variance-covariance de X
est alors donnée par
ΣX = (Cov(Xi , X j ))16i,j6d ∈ Md(R) .
Il s’agit d’une matrice symétrique positive. En effet, pour tout x ∈ Rd, on a, par
linéarité,
hx, ΣXxi = Var(hx, X i) > 0
60
Bases de la théorie des probabilités
e. Médiane et quantiles
Soit X une variable aléatoire à valeurs réelles. Soit α ∈ ]0, 1[. On dit que qα est
un α-quantile de la loi de X (ou simplement de X) si
P(X 6 qα) > α
et
P(X > qα) > 1 − α.
Notons que tout nombre q est un FX (q)-quantile de X, puisque
P(X 6 q) + P(X > q) = 1 + P(X = q) >1.
Plus précisément, un même nombre q peut être un α-quantile de X pour différentes
valeurs de α. Cela arrive si et seulement si {q} est un atome de PX , et dans ce cas
les valeurs correspondantes de α sont [FX (q − ), FX (q)].
Par ailleurs, en général, il n’y a pas unicité d’un α-quantile. Plus exactement, si
l’on note
qα− = sup {x ∈ R: FX (x) < α}
et
qα+ = inf { x ∈ R: FX (x) > α}
alors l’ensemble des α-quantiles de X est l’intervalle [qα−, qα+]. Si qα− < qα+, alors
]qa−, qα+[ est l’intervalle ouvert maximal où FX est constante égale à α, et l’on a
P(qα− < X < qα+) = 0.
Enfin, si qα et qβ sont respectivement un α-quantile et un β-quantile de X avec
α < β, alors qα < q β .
Définition 5.9. On appelle médiane de la loi de X (ou plus simplement médiane
de X) un 1/2-quantile de X. De façon équivalente, m est une médiane de X si
P(X > m) > 1/2
et
P(X 6 m) > 1/2.
En général il n’y a pas unicité de la médiane de X.
Nous avons vu que l’espérance s’interprète comme meilleure approximation de X
par une fonction constante au sens des moindres carrés. Une interprétation similaire
de la médiane est possible, mais au sens L1.
Proposition 5.10. Soit X une variable aléatoire dans L1. Alors m est une médiane
de X si et seulement si
E[|X − m|] = inf E[|X − c|] ,
c∈R
c’est-à-dire si m réalise la distance pour la norme L1 de X à l’espace des fonctions
constantes.
Démonstration. Notons que la fonction φ: c 7→ E[|X − c|] est une fonction convexe
sur R, et comme E[|X − c|] > |c| − E[|X |] cette fonction tend vers +∞ quand
|c| → +∞. Par conséquent, elle atteint son minimum sur un intervalle [a, b].
Si l’on dérive cette fonction formellement au point c, on obtient E[1{X <c} −
1{X >c}] = P(X < c) − P(X > c). Soyons plus précis : on a pour tout h =
/ 0, et x, c ∈ R,
|x − (c + h)| − |x − c| 61
h
61
5.3 Fonctions associées à une variable aléatoire
et l’accroissement (|x − (c + h)| − |x − c|)/h tend vers 1{x<c} − 1{x>c} lorsque h↓0,
et vers 1{x6c} − 1{x>c} lorsque h↑0. On en déduit par la convergence dominée que
φ est dérivable à gauche et à droite en c, de dérivées
φ g′ (c) = P(X < c) − P(X > c)
et
φd′ (c) = P(X 6 c) − P(X > c)
Ces fonctions sont bien sûr croissantes, vérifient φ g′ 6 φd′ , et elles sont non nulles si c
est un α-quantile de X avec α =
/ 1/2. Si c est une médiane de X on a φ g′ (c) 6 0 6 φd′ (c).
On conclut que le minimum de φ est atteint exactement aux médianes de X.
Toute variable aléatoire admet une médiane même si elle n’admet pas d’espérance, et même si c’est le cas, les deux notions peuvent donner des résultats très
différents. Le résultat suivant montre de façon quantitative que si on considère des
variables L2, alors espérance et médiane sont proches.
Proposition 5.11. Si X p
est une variable aléatoire dans L2 et m est une médiane
de X, alors |E[X] − m| 6 Var(X) .
Démonstration. Pour toute constante c, on a kX − ck1 6 kX − ck2 par l’inégalité
de Cauchy-Schwarz. Par conséquent, on obtient infc∈R kX − ck1 6 infc∈R kX − ck2.
À gauche, on reconnaît E[|X − m|] pour toute médiane m, et à droite, on reconnaît
p
Var(X) . On conclut par inégalité triangulaire.
5.3 Fonctions associées à une variable aléatoire
Nous allons maintenant associer à une variable aléatoire à valeurs scalaires ou
vectorielles un certain nombre de fonctions qui caractérisent la loi des variables
considérées
a. Fonction de répartition
Soit X une variable aléatoire à valeurs dans R, définie sur un espace de probabilités (Ω, F , P). On définit sa fonction de répartition par la formule
FX (x) = P(X 6 x),
x ∈ R.
Par la propriété de continuité des mesures de probabilités par réunion croissante et
intersection décroissante, on déduit que FX est une fonction croissante, continue à
droite. Plus précisément, la limite à gauche de FX en un point x ∈ R, notée FX (x − ),
est donnée par
FX (x − ) = P(X < x),
ou autrement dit,
FX (x) − FX (x − ) = P(X = x).
En particulier, la fonction FX est également continue si et seulement si la loi de X
est sans atome, puisque P(X = x) = PX ({x}) par définition. En termes de théorie
de la mesure, la loi PX de X n’est autre que la mesure de Stieltjes dFX associée à la
fonction FX , c’est-à-dire l’unique mesure µ sur R telle que µ(]a, b]) = FX (b) − FX (a)
pour tout a 6 b. En particulier la fonction de répartition d’une variable aléatoire
réelle X caractérise sa loi.
62
Bases de la théorie des probabilités
Proposition 5.12. Soit X et X ′ deux variables aléatoires à valeurs dans R, telles
que FX = FX ′. Alors X et X ′ ont la même loi.
Noter que, dans l’énoncé précédent, comme dans ceux, similaires, qui sont à venir
dans ce chapitre, on ne suppose pas que X et X ′ sont définies sur le même espace
de probabilités (Ω, F , P).
La fonction de répartition FX est un outil pratique pour calculer des moments.
Exercice. Soit X une variable aléatoire positive, et p ∈ [1, ∞[, alors
Z ∞
E[X p] =
px p−1P(X > x) dx.
0
Notons que la fonction GX (x) = 1 − FX (x − ) = P(X > x) a déjà été considérée
plus haut, sous le nom de la queue de distribution de X.
b. Fonction génératrice
Soit X une variable aléatoire à valeurs dans N= {0, 1, 2...}. On définit sa fonction
génératrice comme la série entière
X
P(X = n)z n .
gX (z) = E[z X ] =
n∈N
Comme par définition la somme des coefficients P(X = n) vaut 1, le rayon de
convergence de cette série entière est supérieur ou égal à 1, et la formule ci-dessous
est bien définie pour z un nombre complexe dans le disque fermé D̄= {z ∈ C: |z | 6 1},
et définit une fonction continue sur D̄. De plus, gX est analytique sur le disque
ouvert D = {z ∈ C: |z | < 1} et l’on a
(n)
P(X = n) =
gX (0)
,
n!
n ∈ N.
En particulier, on voit que la fonction génératrice caractérise la loi de X, puisqu’on
retrouve à partir de ces quantités toutes les probabilités P(X ∈ A) avec A ⊂ N.
Proposition 5.13. Si X et X ′ sont deux variables aléatoires à valeurs dans N
telles que gX (z) = gX ′(z) pour tout z ∈ [0, 1](ou plus généralement pour tout z dans
un sous-ensemble de D ayant au moins un point d’accumulation), alors X et X ′ ont
même loi, c’est-à-dire dans ce cas que P(X = n) = P(X ′ = n) pour tout n ∈ N.
Démonstration. On utilise le fait que si les zéros d’une fonction analytique sur
un ouvert connexe D ont un point d’accumulation dans D, alors cette fonction est
nulle.
Un des intérêts de la fonction génératrice est son lien avec les moments de la
variable aléatoire X. En effet, le théorème de dérivation sous le signe intégrale (ou
le théorème de dérivation des séries entières) montre que pour tout z ∈ D, on a
X
′
nP(X = n)z n−1.
gX
(z) = E[Xz X −1] =
n>1
Si l’on prend z ∈ [0, 1[ et que l’on fait tendre z ր 1, le théorème de convergence
monotone montre que
′
E[X] = gX
(1 − ),
5.3 Fonctions associées à une variable aléatoire
63
et cette limite à gauche existe toujours (elle peut valoir +∞). Plus généralement,
on a le résultat suivant.
(k)
Proposition 5.14. Pour tout k > 0, la limite à gauche de gX
en 1 existe dans
[0, +∞], et vaut
(k)
gX
(1 − ) = E[X(X − 1)...(X − k + 1)] .
Démonstration. En dérivant k fois gX en un point z de D, on trouve
X
(k)
n(n − 1)...(n − k + 1)P(X = n)z n−1,
gX
(z) =
n>k
et ceci converge vers la quantité voulue lorsque z converge vers 1 le long de [0, 1[.
Noter que l’on aurait pu faire partir la somme de n = 0 plutôt que de n = k, puisque
les k premiers termes sont nuls : de même, dans l’énoncé, on peut invariablement
ajouter l’indicatrice de l’événement {X > k} dans l’espérance.
c. Fonction caractéristique
Fixons d > 1 un entier, et soit X une variable aléatoire à valeurs dans Rd. La
fonction caractéristique de X est définie par
ϕX (ξ) = E[eihξ,X i],
ξ ∈ Rd .
Par la formule de transfert, ceci n’est autre que
Z
eihξ,xiPX (dx) = (2π)d/2PX (−ξ) ,
ϕX (ξ) =
Rd
où PX est la transformée de Fourier de la loi de X. La propriété d’injectivité de la
transformée de Fourier sur les mesures signées implique (c’est bien le moins) que la
fonction caractéristique d’une variable aléatoire caractérise la loi de cette variable.
Proposition 5.15. Soit X et X ′ deux variables aléatoires à valeurs dans Rd telles
que ϕX = ϕX ′. Alors X et X ′ ont même loi.
Remarque. Attention, on doit bien supposer que ϕX (ξ) = ϕX ′(ξ) pour tout ξ ∈ Rd.
La situation est différente de celle pour les fonctions génératrices.
Les propriétés de la transformée de Fourier que nous avons étudiées impliquent
que la régularité de la fonction caractéristique est intimement liée à l’existence de
moments.
Proposition 5.16. Soit X une variable aléatoire à valeurs dans R. Si X admet un
moment d’ordre k, alors ϕX est de classe C k(R, C), et l’on a
E[X k] = (−i)kϕ(k)
X (0) .
Démonstration. Sous nos hypothèses, les théorèmes de dérivation sous le signe
k iξX
intégrale s’appliquent et donnent ϕ(k)
]. On peut aussi appliquer
X (ξ) = E[(iX) e
la formule de transfert et invoquer les résultats de dérivation des transformées de
Fourier.
64
Bases de la théorie des probabilités
d. Transformée de Laplace
Soit X une variable aléatoire à valeurs dans R+. On peut alors définir sa transformée de Laplace par la formule
LX (λ) = E[e−λX ],
λ > 0.
La transformée de Laplace est étroitement liée à la fonction génératrice : si X est à
valeurs dans N, on a
LX (λ) = gX (e−λ).
Proposition 5.17. Si X et X ′ sont deux variables aléatoires positives telles que
LX = LX ′ , alors X et X ′ ont la même loi.
Démonstration.
Soit A l’ensemble des fonctions de [0, ∞] dans R de la forme
Pk
x 7→ i=1 ai e−λi x, avec a1, ..., ak dans R et λ1, ..., λk dans R+. Alors A est une
algèbre de fonctions continues sur le compact [0, ∞], séparant les points de ce
compact. Le théorème de Stone-Weierstrass montre que A est dense dans l’ensemble
C([0, ∞], R) des fonctions continues sur R+ admettant une limite à l’infini, pour
la norme uniforme. Par linéarité, si LX = LX ′ alors on a E[f (X)] = E[f (X ′)] pour
tout f ∈ A, et par densité, le même résultat est valable pour f ∈ C([0, ∞], R). Par
un argument d’approximation, on en déduit que P(X ∈ I) = P(X ′ ∈ I) pour tout
intervalle ouvert I ∈ R+, c’est-à-dire que PX (I) = PX ′(I) et on conclut par le lemme
de classe monotone.
Proposition 5.18. La transformée de Laplace d’une variable aléatoire positive est
une fonction continue sur R+ , et de classe C ∞(]0, ∞[, R). Par ailleurs, on a pour
tout entier k > 0,
E[X k] = (−1)kL(k)
X (0 + ) ,
la limite à droite en 0 de L(k)
X .
Démonstration. La dérivée k-ième de λ 7→ e−λx est (−x)ke−λx, et pour tout intervalle compact I ⊂ ]0, ∞[, on a
sup {xke−λx : x ∈ R+, λ ∈ I } < ∞.
On peut donc appliquer le théorème de dérivation sous le signe intégrale et obtenir
le caractère C ∞ sur ]0, ∞[. La continuité sur R+ est similaire, et utilise juste que
e−λx 6 1 pour tout λ, x > 0. Enfin, on déduit que pour tout λ > 0, on a
k −λX
(−1)kL(k)
],
X (λ) = E[X e
et on conclut en faisant tendre λ ց 0, et par convergence monotone.
Noter que la définition de la transformée de Laplace s’étend verbatim à tout
nombre complexe λ tel que ℜ(λ) > 0, et que LX (iξ) = ϕX (ξ) est la fonction caractéristique de X. De plus, la preuve précédente montre que LX est en fait holomorphe
sur le demi-plan ouvert {λ ∈ C: ℜ(λ) > 0}. En particulier, ceci implique que pour
vérifier que X et X ′ ont même loi, il suffit de montrer que LX (λ) = LX ′(λ) pour tout
λ dans un sous-ensemble de R+ ayant au moins un point d’accumulation dans ]0, ∞[.
5.4 Exemples fondamentaux de lois de variables aléatoires
65
On notera aussi que s’il existe ε > 0 tel que E[eεX ] < ∞ (on dit alors que X admet
des moments exponentiels), alors la définition de la transformée de Laplace s’étend à
tout λ ∈ [−ε, ∞[, et même5.1 à {λ ∈ C: ℜ(λ) > −ε}. Si c’est le cas, le développement
en série entière de LX au voisinage de 0 donne, du fait de la proposition 5.18,
LX (λ) =
X
E[X k]
k>0
(−λ)k
,
k!
λ ∈ ]−ε, ∞[.
On appelle de ce fait LX la fonction génératrice des moments.
Corollaire 5.19. Soit X une variable aléatoire positive. Supposons qu’il existe ε > 0
tel que E[eεX ] < ∞. Alors la suite (E[X k], k > 1) des moments de X caractérise sa
loi.
En particulier, une loi de probabilités sur R à support borné est caractérisée par
ses moments.
Même si nous avons considéré ici des variables aléatoires positives, toutes les
considérations précédentes s’étendent mutatis mutandis à des variables aléatoires
réelles telles que E[eλX ] < +∞ pour tout λ dans un intervalle [a, b] contenant 0 et
non réduit à un point, auquel cas LX (λ) = E[e−λX ] définit une fonction holomorphe
dans la bande {λ ∈ C: ℜ(λ) ∈ ]−b, −a[}.
5.4 Exemples fondamentaux de lois de variables
aléatoires
Dans toute cette partie, X désignera une variable aléatoire définie sur un espace de
probabilités (Ω, F , P).
a. Lois discrètes
Loi uniforme sur un ensemble fini
Soit E un ensemble fini, alors X: Ω → E est de loi uniforme sur E si
P(X = x) =
1
,
card(E)
x ∈ E.
Ceci implique évidemment que P(X ∈ A) = card(A)/card(E) pour tout A ⊂ E.
Plus généralement, si E est un ensemble fini ou dénombrable et (px , x ∈ E) est
une famille de nombres réels positifs de somme 1, on lui associe une loi de probabilité
par la formule
P(X = x) = px ,
P
c’est-à-dire que P(X ∈ A) = x∈A px. Noter qu’il n’y a pas de loi uniforme sur un
ensemble strictement dénombrable !
5.1. Dans ce cas, la fonction caractéristique ϕX s’étend donc en une fonction holomorphe sur un
domaine ouvert de C contenant R.
66
Bases de la théorie des probabilités
Loi de Bernoulli
Soit p ∈ [0, 1], on dit que X: Ω → {0, 1} suit une loi de Bernoulli de paramètre p
(ou encore, que X est une variable aléatoire de Bernoulli de paramètre p) si
P(X = 0) = 1 − p.
P(X = 1) = p ,
On a alors E[X] = p, Var(X) = p(1 − p), gX (z) = 1 − p + pz. Pour p = 1/2, c’est la
loi uniforme sur {0, 1}. Ceci modélise un lancer d’une pièce, biaisée si p =
/ 1/2.
Loi binomiale
Soit n ∈ N, p ∈ [0, 1]. On dit que X: Ω → {0, 1, 2, ..., n} suit une loi binomiale de
paramètres (n, p) si
n k
p (1 − p)n−k ,
0 6 k 6 n.
P(X = k) =
k
On a alors E[X] = np, Var(X) = np(1 − p), gX (z) = (1 − p + pz)n. Ceci correspond au
nombre de pile lorsqu’on lance n fois une pièce biaisée, avec probabilité p d’obtenir
pile. Formellement, c’est la loi de la variable aléatoire X: {0, 1}n → N définie par
X(ω1, ..., ωn) = ω1 + ··· + ωn
n
sur l’espace de probabilités ({0, 1}n , 2{0,1} , Ber(p)⊗n) où Ber(p) = pδ1 + (1 − p)δ0 est
la loi de Bernoulli.
Nous anticipons un peu sur le prochain chapitre en notant qu’une telle loi est
obtenue en prenant la somme de n variables de Bernoulli de paramètre p indépendantes.
Loi géométrique
Soit p ∈ ]0, 1]. On dit que X: Ω → N suit une loi géométrique de paramètre p si
P(X = k) = p(1 − p)k−1,
k > 1.
On notera que les conventions diffèrent selon les ouvrages : notre choix est motivé
par la définition suivante : X a la même loi que le premier temps de succès dans une
suite de tirages de variables de Bernoulli indépendantes (un succès étant interprété
comme le fait que la variable aléatoire prenne la valeur 1). En effet, si (X1, X2, ...) est
une suite de lancers de pile-ou-face biaisés, la variable aléatoire T = inf {k > 1: Xk = 1}
a bien la loi voulue, puisque
P(T = k) = P(X1 = 0, ..., Xk −1 = 0, Xk = 1) = (1 − p)k −1 p.
Noter que la variable aléatoire T est à valeurs dans N ∪ {∞}, puisqu’elle prend la
valeur ∞ sur la suite constante égale à 0. Cependant, cette suite n’est pas chargée
∗
par la mesure produit Ber(p)N , et on a donc que P(T < ∞) = 1.
On a E[X] = 1/p, Var(X) = (1 − p)/p2,
gX (z) =
Loi de Poisson
pz
.
1 − (1 − p)z
67
5.4 Exemples fondamentaux de lois de variables aléatoires
Soit θ > 0. On dit que X: Ω → N suit une loi de Poisson de paramètre θ si
P(X = k) = e−θ
θk
,
k!
k > 0.
On a que E[X] = θ, Var(X) = θ, gX (z) = exp (−θ(1 − z)). Mentionnons dès
maintenant qu’une variable de loi de Poisson de paramètre θ peut être vue comme
une variable de Bernoulli de paramètres n, θ/n pour n très grand : une loi de Poisson
correspond donc au nombre d’occurrence d’un phénomène très rare (de probabilité
inversement proportionnelle au nombre d’expériences réalisées), et s’appelle parfois
la loi des événements rares. En effet, pour tout k fixé, on a, pour tout k > 0 fixé,
k
θ
θ n−k
θk
n
1−
−→ e−θ .
n→∞
k n
n
k!
b. Lois à densité
Loi uniforme sur un sous-ensemble mesurable de Rd.
Soit A ∈ B(Rd) un borélien tel que 0 < λd(A) < ∞. On dit que la variable aléatoire
X: Ω → Rd est de loi uniforme sur A si
PX (dx) =
dx
1A(x).
λd(A)
Par exemple, si d = 1 et A = [a, b] est un intervalle avec a < b, la loi uniforme est
dx1[a,b](x)/(b − a). La fonction de répartition associée est
FX (x) = 0 ∨
x−a
∧ 1,
b−a
x ∈ R,
où nous notons x ∨ y = max {x, y } et x ∧ y = min {x, y }.
La fonction caractéristique est donnée par
ϕX (ξ) =
a+b
sin ((b − a)ξ)
eibξ − eiaξ
iξ
=e 2 ·
,
(b − a)ξ
iξ(b − a)
ξ ∈ R\{0},
ϕX (0) = 1.
Lois exponentielles
Soit θ > 0. La variable aléatoire X: Ω → R suit la loi exponentielle de paramètre
θ si
PX (dx) = θe−θx 1R+(x) dx.
La fonction de répartition est FX (x) = 1 − e−θx pour tout x > 0, et FX (x) = 0 si x < 0.
On travaille plutôt avec la queue de distribution GX (x) = e−θx.
La propriété fondamentale des variables exponentielles est l’absence de mémoire :
si X a une loi exponentielle alors GX (x + y) = GX (x)GX (y) pour tout x, y > 0, ce
qui se traduit par
P(X > x + y) = P(X > x)P(X > y)
ou encore par
P(X > x + y|X > x) = P(X > y).
68
Bases de la théorie des probabilités
On parle également de « non-vieillissement » de la loi exponentielle. Cette propriété
est caractéristique des lois exponentielles (si l’on accepte en plus la masse de Dirac
en 0 comme loi exponentielle de paramètre +∞). La fonction caractéristique de X
et la transformée de Laplace sont données par
ϕX (ξ) =
θ
,
θ − iξ
LX (λ) =
θ
.
θ+λ
Lois gaussiennes sur R.
On a vu que la densité gaussienne gσ(x) = exp (−x2/2σ 2)/(2πσ 2)1/2 est une
fonction positive d’intégrale 1 par rapport à la mesure de Lebesgue sur R (on parle
de densité de probabilité). On dit que la variable aléatoire X: Ω → R admet une loi
gaussienne de moyenne m et de variance σ 2 si sa loi est donnée par
PX (dx) = gσ(x − m)dx.
Comme on l’a vu au chapitre précédent, sa fonction caractéristique est donnée par
σ 2|ξ |2
ϕX (ξ) = exp imξ −
.
2
En dérivant, on en déduit que l’espérance de X est m, et sa variance est σ 2, ce qui
est cohérent avec la définition.
Il est par ailleurs facile de constater que E[eλX ] < ∞ for every λ ∈ R, puisque
2
2
e−x /2σ décroît bien plus vite à l’infini que e−ax, pour tout a > 0. Donc la transformée
de Laplace existe bien (au sens étendu que nous avons donné à la fin du paragraphe
sur cette transformée), et vaut
σ 2 λ2
.
LX (λ) = exp −λm +
2
On parlera plus tard, au paragraphe 8.3, de la famille des lois gaussiennes sur Rd.
Chapitre 6
Indépendance
Dans tout ce chapitre, on fixe l’espace de probabilités (Ω, F , P).
6.1 Probabilités conditionnelles élémentaires
Soit (Ω, F , P) un espace de probabilités, et B ∈ F un événement tel que P(B) > 0.
On définit alors, pour tout A ∈ F ,
P(A|B) =
P(A ∩ B)
,
P(B)
et on l’appelle probabilité de A sachant B. Comme P(Ω|B) = P(B)/P(B) = 1, on
obtient que l’application A 7→ P(A|B) est une mesure de probabilités. Intuitivement,
l’espace de probabilités (Ω, F , P(·|B)) est l’espace correspondant à une expérience
aléatoire pour laquelle on sait a priori que l’événement B est réalisé. Si A et B
sont tous deux des événements tels que P(A)P(B) > 0, alors on obtient facilement
la formule de Bayes
P(A|B)P(B)
P(B |A) =
.
P(A)
Soit I un ensemble d’indices fini ou dénombrable. Si (Bi , i ∈ I) est une partition
mesurable de Ω, c’est-à-dire que les ensembles Bi sont des événements deux-à-deux
disjoints et de réunion Ω, alors pour tout événement A, on a la formule des probabilités totales
X
P(A) =
P(A|Bi)P(Bi),
i∈I
où l’on pose par convention P(A|Bi) = 0 si P(Bi) = 0. Cette formule est également
aisée à démontrer. À l’aide de cette formule, on peut réécrire la formule de Bayes
sous la forme
P(A|B)P(B)
P(B |A) =
.
P(A|B)P(B) + P(A|B c)P(B c)
69
70
Indépendance
Exemple. Les probabilités conditionnelles sont réputées donner des résultats parfois inattendus. En voici un exemple. Supposons qu’une certaine maladie frappe
un individu sur 100, c’est-à-dire qu’un individu donné a une probabilité 0, 01 d’en
être affecté. On suppose que l’on dispose d’un test de dépistage de la maladie,
mais qu’il n’est fiable qu’à 99%, c’est-à-dire qu’il a une probabilité 0, 01 de donner
un résultat positif quand on l’utilise sur un individu sain (faux positif), et une
probabilité 0, 01 de donner un résultat négatif quand on l’utilise sur un individu
malade. Supposons qu’un individu donné soit testé positif. Quelle est la probabilité
qu’il soit effectivement malade ?
En notant ⊕ et ⊖ les événements « être diagnostiqué » positif/négatif, et par
M , S les événements « être malade/sain », les données du problème sont
P(M ) =
1
=1 − P(S),
100
P(⊕|M ) =
99
,
100
P(⊕|S) =
1
.
100
On cherche à calculer P(M |⊕), et la formule de Bayes donne
P(⊕|M )P(M )
P(M |⊕) =
=
P(⊕|M )P(M ) + P(⊕|S)P(S)
99 1
·
100 100
99 1
1
99
· + 100 · 100
100 100
=
1
.
2
En y réfléchissant un peu, comme peu d’individus sont effectivement malades, si
toute la population fait le test, il y aura clairement beaucoup plus de faux positifs
que de faux négatifs ! Ceci illustre le fait que pour qu’un test soit efficace, il vaut
mieux qu’il soit pratiqué a priori sur une population considérée comme « à risque ».
6.2 Indépendance d’événements
Soit A, B ∈ F deux événements. On dit que A et B sont indépendants si
P(A ∩ B) = P(A)P(B) .
Autrement dit, si de plus P(B) > 0, ceci signifie que P(A|B) = P(A), c’est-à-dire
que l’information donnée par B n’a aucune influence sur la probabilité que A ait
lieu. Plus généralement, si A1, A2, ..., An sont des événements, on dit qu’ils sont
indépendants si pour tout I ⊂ {1, 2, ..., n}, on a
\ Y
Ai =
P(Ai) .
(6.1)
P
i∈I
i∈I
Il convient de faire attention ici :
•
Si les événements (A1, ..., An) sont indépendants, alors ils sont aussi indépendants deux-à-deux (prendre pour I les paires d’éléments de {1, ..., n}),
mais la réciproque n’est pas vraie. Par exemple, si l’on jette deux pièces
équilibrées, et qu’on note ω1, ω2 ∈ {0, 1} les résultats (0 face, 1 pile), alors les
événements {ω1 = 0}, {ω2 =0}, {ω1 = ω2 } sont indépendants deux-à-deux, mais
pas indépendants. On parle parfois « d’indépendance dans leur ensemble »
des événements (A1, ..., An) pour insister sur ce point.
•
Dans la définition, il ne suffit pas de vérifier P(A1 ∩ ... ∩ An) = P(A1)···P(An),
puisque par exemple on peut avoir A1 = ∅.
71
6.3 Indépendance de σ-algèbres
La définition précédente s’étend à une famille quelconque (A j , j ∈ J) d’événements :
on dit que ces événements sont indépendants si l’on a (6.1) pour tout sous-ensemble
I ⊂ J fini.
Remarque. Si A1, A2, ..., An sont des événements indépendants, alors Ac1, A2, ..., An
sont également indépendants. En effet, pour tout 1 < i2 < ... < ik 6 n, on a
P(Ac1 ∩ Ai2 ∩ ... ∩ Aik) = P(Ai2 ∩ ... ∩ Aik) − P(A1 ∩ Ai2 ∩ ... ∩ Aik)
k
Y
= (1 − P(A1))
P(Aij)
j=2
= P(Ac1)P(Ai2)···P(Aik).
Cela suffit clairement pour conclure.
6.3 Indépendance de σ-algèbres
Rappelons que si C est une classe de sous-ensembles d’un même ensemble Ω, on note
σ(C) la plus petite σ-algèbre contenant C. Par ailleurs, si (Fi , i ∈ I) est une famille
quelconque de sous-σ-algèbres d’une même σ-algèbre F, on note
[ _
Fi = σ
Fi
i∈I
i∈I
la plus petite σ-algèbre contenant toutes les Fi , i ∈ I.
Soit F1, ..., Fn des sous-σ-algèbres de F . On dit qu’elles sont indépendantes si
et seulement si l’on a
! n
n
Y
\
P
P(Ai) ,
pour tout A1 ∈ F1, ..., An ∈ Fn.
Ai =
i=1
i=1
Proposition 6.1. Les σ-algèbres F1, ..., Fn sont indépendantes si et seulement si
pour tout A1 ∈ F1, ..., An ∈ Fn, les événements A1, ..., An sont indépendants.
Démonstration. Le sens direct est le seul sens non trivial à démontrer. Supposons
donc que les σ-algèbres F1, ..., Fn sont indépendantes et prenons A1 ∈ F1, ..., An ∈ Fn.
Soit I ⊂ {1, ..., n}, posons Bi = Ai si i ∈ I et Bi = Ω si i ∈
/ I. Alors pour tout i ∈ {1, ...,
n} on a Bi ∈ Fi, et la définition de l’indépendance de σ-algèbres implique que
! n
\ n
Y
Y
\
P
Ai = P
P(Bi) =
P(Ai).
Bi =
i∈I
i=1
i=1
Ceci montre que A1, ..., An sont indépendants.
i∈I
Exercice. Montrer que A1, ..., An sont indépendants si et seulement si les σ-algèbres
σ({A1}), ..., σ({An }) sont indépendantes, où σ({A}) = {∅, A, Ac , Ω} est la plus petite
σ-algèbre contenant A.
72
Indépendance
Plus généralement, si (Fi , i ∈ I) est une famille quelconque de σ-algèbres, on dit
qu’elles sont indépendantes si les σ-algèbres (F j , j ∈ J ) sont indépendantes pour
toute partie finie J ⊂ I.
En pratique, il n’est pas nécessaire de vérifier la formule de factorisation ci-dessus
pour tous les événements, comme le montre le résultat suivant.
Lemme 6.2. Soit C1, ..., Cn des sous-ensembles des σ-algèbres F1, ..., Fn, stables par
intersection finie, contenant Ω, et tels que σ(Ci) = Fi pour tout i ∈ {1, 2, ..., n}. On
suppose que pour tout choix de Ci ∈ Ci , i ∈ {1, 2, ..., n} on a
! n
n
Y
\
P
P(Ci) .
Ci =
i=1
i=1
Alors les σ-algèbres F1, ..., Fn sont indépendantes.
Démonstration. Fixons C2, ..., Cn dans leurs classes C2, ..., Cn respectives, et notons
M1 = {A ∈ F1 : P(A ∩ C2 ∩ ... ∩ Cn) = P(A)P(C2)...P(Cn)}.
Alors M1 contient C1 par hypothèse (et donc Ω ∈ M1 en particulier), et est une classe
monotone : elle contient ∅, est stable par réunion dénombrable disjointe, et enfin
par complémentaire, puisque Ω ∩ C2 ∩ ... ∩ Cn \A ∩ C1 ∩ ... ∩ Cn = Ac ∩ C2 ∩ ... ∩ Cn, et
P(Ac) = P(Ω) − P(A). Par le lemme de classe monotone, on a donc M1 = σ(C1) = F1.
Ensuite, on fixe A1 ∈ F1 et C3, ..., Cn dans leurs classes respectives C3, ..., Cn, et on note
M2 = {A ∈ F2 : P(A1 ∩ A ∩ C3 ∩ ... ∩ Cn) = P(A1)P(A)P(C3)...P(Cn)}.
Pour les mêmes raisons que ci-dessus, on a que M2 = F2. En procédant ainsi par
récurrence, on obtient que
! n
n
\
Y
Ai =
P(Ai) ,
pour tout A1 ∈ F1, ..., An ∈ Fn ,
P
i=1
i=1
ce qu’on voulait démontrer.
On en déduit le lemme de « regroupement par paquets ».
Lemme 6.3. Soit (Fi , i ∈ I) une famille de σ-algèbres indépendantes,
et (Ij , j ∈ J)
W
Fi , j ∈ J sont indépendantes.
une partition de I. Alors les σ-algèbres
i∈I j
Démonstration.
Soit K ⊂ J un sous-ensemble fini. Il suffit de montrer que les
W
σ-algèbres i∈Ij Fi , j ∈ K sont indépendantes. Pour cela, on définit C j comme
S
l’ensemble des intersections finies d’éléments de i∈I j Fi pour tout j ∈ K, et on
applique le lemme 6.2. En effet, un élément C j de C j s’écrit sous la forme A1j ∩ ... ∩
j
j
où les événements Am
sont dans des σ-algèbres Fim distinctes, avec im ∈ I j . En
Ak(j)
choisissant les C j de cette forme, la propriété d’indépendance de (Fi , i ∈ I) implique
clairement que
!
\
Y k(j)
Y
Y
j
Cj =
P(Am
)=
P(C j ) .
P
j ∈K
j ∈K m=1
j ∈K
6.4 Indépendance de variables aléatoires
73
On conclut par le lemme 6.2.
6.4 Indépendance de variables aléatoires
a. σ-algèbre associée à une variable aléatoire
À toute variable aléatoire X à valeurs dans un espace mesurable (E , E), on
associe une σ-algèbre (tribu)
σ(X) = {X −1(A): A ∈ E } ,
qui est une sous-σ-algèbre de F , appelée la σ-algèbre engendrée par la variable
aléatoire X. On interprète la σ-algèbre σ(X) comme l’information contenue dans la
variable X, ou encore les événements mesurables par rapport à X.
Exercice. Soit Y une variable aléatoire à valeurs dans un espace mesurable (E , E), et soit X
une variable aléatoire à valeurs dans R telle que X est mesurable par rapport à σ(Y ). Alors il
existe un fonction mesurable f de (E , E) dans (R, B(R)) telle que X = f (Y ). [Pour montrer
cela on peut commencer par supposer que X est une fonction indicatrice, et on rappelle qu’une
fonction mesurable positive est limite croissante de fonctions étagée presque partout.]
Plus généralement, si (Xi , i ∈ I) est une famille quelconque de variables aléatoires,
on lui associe la tribu engendrée par cette famille comme
_
σ(Xi) .
σ(Xi , i ∈ I) =
i∈I
b. Indépendance de variables aléatoires
Définition 6.4. Soit X1, ..., Xn des variables aléatoires, respectivement à valeurs
dans les espaces mesurables (Ei , Ei), 1 6 i 6 n. On dit que ces variables aléatoires
sont indépendantes si les tribus σ(Xi), 1 6 i 6 n sont indépendantes. Ceci signifie
que pour tout choix d’ensembles mesurables Ai ∈ Ei , 1 6 i 6 n, on a
P(Xi ∈ Ai , 1 6 i 6 n) =
n
Y
i=1
P(Xi ∈ Ai) .
(6.2)
Plus généralement, on dit que les variables aléatoires d’une famille quelconque
(Xi , i ∈ I) sont indépendantes si toutes les sous-familles finies (X j , j ∈ J) avec J fini
inclus dans I sont formées de variables aléatoires indépendantes.
Remarque. Si les σ-algèbres (Fi , i ∈ I) sont indépendantes, et si les variables
aléatoires (Xi , i ∈ I) sont telles que, pour tout i ∈ I, Xi est mesurable par rapport à
Fi, alors les variables aléatoires (Xi , i ∈ I) sont indépendantes.
Proposition 6.5. Soit X1, X2, ..., Xn des variables aléatoires, respectivement à
valeurs dans des espaces mesurables (E1, E1), (E2, E2), ..., (En , En). Ces variables
aléatoires sont indépendantes si et seulement si la loi de (X1, X2, ..., Xn) est la loi
produit des marginales :
P(X1,...,Xn) = PX1 ⊗ PX2 ⊗ ... ⊗ PXn.
74
Indépendance
Démonstration. Supposons que X1, X2, ..., Xn sont indépendantes. Par la définition de l’indépendance, les deux mesures de probabilités apparaissant dans l’énoncé
de part et d’autre de l’égalité sont égales sur les pavés mesurables de E1 × E2 × ... ×
En. Elles sont donc égales partout par le lemme des classes monotones. La réciproque
est immédiate.
Exemple. On a construit au chapitre 5.1 une suite infinie de variables aléatoires
indépendantes uniformes sur {0, 1}, à l’aide de l’écriture dyadique d’une variable
aléatoire de loi uniforme sur [0, 1[.
Corollaire 6.6. Soit X1, ..., Xn des variables aléatoires indépendantes, respectivement à valeurs dans un espace mesurable (Ei , Ei), et pour tout i ∈ {1, ..., n}, soit fi:
Ei → R une fonction mesurable. On suppose, ou bien que toutes les fonctions fi sont
positives, ou bien que fi ∈ L1(PXi) pour tout i ∈ {1, ..., n}. Alors
" n
# n
Y
Y
E
fi(Xi) =
E[fi(Xi)] .
i=1
i=1
En particulier, si fi ∈ L1(PXi) pour tout i ∈ {1, ..., n}, alors
Qn
i=1
fi(Xi) ∈ L1(P).
Par exemple, soit X1, ..., Xn des variables aléatoires à valeurs réelles, intégrables,
et indépendantes, alors X1···Xn est aussi intégrable et E[X1···Xn] = E[X1]···E[Xn].
Remarque. Soit X , Y deux variables aléatoires indépendantes et dans L2. Alors les
variables aléatoires X − E[X] et Y − E[Y ] sont indépendantes et dans L2, et l’on a
Cov(X , Y ) = E[(X − E[X])(Y − E[Y ])] = 0.
On dit que des variables aléatoires indépendantes sont décorrélées (de corrélation
nulle). La réciproque n’est pas vraie. Si (ε, X) sont deux variables aléatoires indépendantes, où P(ε = 1) = P(ε = −1) = 1/2 et où X est une variable aléatoire gaussienne
N (0, 1), alors les variables aléatoires X et εX sont décorrélées. En effet, on a
facilement E[X] = E[εX] = 0, et
Cov(X , εX) = E[εX 2] = E[ε]E[X 2] = 0.
Cependant, les variables aléatoires X et εX ne sont clairement pas indépendantes,
sinon la loi de (X , εX) serait à densité sur R2. Or il est clair que la loi de (X , εX)
est en fait portée par les bissectrices {(x, x) : x ∈ R} ∪ {(x, −x) : x ∈ R}.
c. Critères d’indépendance de variables aléatoires
Proposition 6.7. Soit X1, ..., Xn des variables aléatoires discrètes, à valeurs dans
des ensembles E1, ..., En. Alors ces variables sont indépendantes si et seulement si
l’on a, pour tout (x1, ..., xn) dans E1 × ··· × En
P(X1 = x1, ..., Xn = xn) = P(X1 = x1)···P(Xn = xn) .
La preuve de ce résultat est évidente.
75
6.4 Indépendance de variables aléatoires
Proposition 6.8. Soit X1, ..., Xn des variables aléatoires à valeurs dans R. Alors
elles sont indépendantes si et seulement si l’on a, pour tout x1, ..., xn ∈ R,
P(X1 6 x1, ..., Xn 6 xn) =
n
Y
FXi(xi).
i=1
Démonstration. Pour le voir, il suffit d’appliquer le lemme 6.2 en prenant pour Ci
la classe des intervalles de la forme ]−∞, x], ou égaux à R tout entier. Noter que la
factorisation ci-dessus a encore lieu si l’on prend certains xi = ∞, par la continuité
des mesures de probabilités par limite monotone. La réciproque est évidente.
Proposition 6.9. Soit X1, ..., Xn sont des variables aléatoires réelles, alors elles
sont indépendantes si et seulement si pour tout ξ = (ξ1, ..., ξn) ∈ Rn, on a
ϕ(X1,...,Xn)(ξ) =
n
Y
ϕXj(ξ j ) .
j =1
Ceci est une application immédiate du lemme 6.6 et de l’injectivité de la transformée de Fourier.
Exemple : variables aléatoires gaussiennes. Soit σ > 0 et m = (m1, ..., md) ∈ Rd.
On dit que la variable aléatoire X = (X1, ..., Xd) à valeurs dans Rd est gaussienne
de moyenne m et de matrice de variance-covariance σ 2Id si la loi de X a pour
densité gσ(x − m) par rapport à λd, où gσ(x) = (2πσ 2)−d/2 exp (−|x|2/2σ 2). On note
généralement N (m, σ 2Id) cette loi. Par les propriétés de la transformée de Fourier
des densités gaussiennes, on a que
Y
d
σ 2 ξ j2
σ 2|ξ |2
=
exp im j ξ j −
.
(6.3)
ϕX (ξ) = exp imξ −
2
2
j=1
En prenant ξ = ξ ′ej , où ξ ′ ∈ R et où e j est le j-ème vecteur de la base canonique de
Rd, on en déduit en particulier que
σ 2(ξ ′)2
′
′
ϕXj (ξ ) = exp im j ξ −
,
2
c’est-à-dire que X j suit la loi gaussienne N (m j , σ 2) sur R. De plus, la formule 6.3
implique que les variables aléatoires X1, ..., Xd sont indépendantes.
Remarquons enfin que l’espérance de X est bien égale à m, et sa matrice de
variance-covariance est ΣX = σ 2Id. Ceci peut s’obtenir en dérivant la fonction caractéristique, et nous laissons la vérification en exercice. Pour simplifier, noter que X
suit la loi N (m, σ 2Id) si et seulement si X − m suit la loi N (0, σ 2Id). En effet, pour
toute fonction f : Rd → R mesurable bornée,
Z
Z
f (x)gσ(x)dx ,
f (x − m)gσ(x − m)dx =
E[f (X − m)] =
Rd
Rd
et la réciproque est similaire. De ce fait, à une translation près par un vecteur de
Rd, on peut se ramener à l’étude des lois N (0, σ 2Id).
76
Indépendance
Enfin, voici un dernier exemple de critère d’indépendance pratique pour des
variables aléatoires à densité.
Proposition 6.10. Soit X = (X1, ..., Xd) une variable aléatoire à valeurs dans
Rd. On suppose que la loi de X admet une densité fX, et qu’il existe des fonctions
mesurables fi: R → R+ pour 1 6 i 6 d telles que
fX (x) =
d
Y
fi(xi).
i=1
Alors les variables aléatoires X1, ..., Xd sont indépendantes, et il existe des nombres
réels ci > 0, 1 6 i 6 d tels que fXi = cifi, où fXi est la densité de la loi de Xi.
Rappelons que sous nos hypothèses, les variables Xi sont bien à densité, du fait
de la discussion suivant la proposition 5.5.
Démonstration. Soit h1, ..., hd : R → R des fonctions mesurables bornées. Alors on
a
# Z
" d
d
d Z
Y
Y
Y
hi(xi)fi(xi)dxi =
hi(y)fi(y)dy ,
hi(Xi) =
E
Rd i=1
i=1
i=1
Rd
−1
R
par le théorème de Fubini. Posons ci =
f
(y)dy
. En prenant toutes les
i
R
fonctions hi ≡ 1 dans l’équation précédente, on obtient c1 ···cd = 1, et en particulier,
les nombres ci sont tous strictement positifs et finis. On réécrit donc l’équation
précédente sous la forme
# d Z
" d
Y
Y
hi(Xi) =
hi(y) cifi(y)dy .
E
i=1
i=1
Rd
En prenant toutes les fonctions hi ≡ 1 sauf une (disons h j ), on déduit de ceci que la
loi de X j admet pour densité la fonction c jfj . Enfin, on a obtenu que
" d
# d
Y
Y
E
hi(Xi) =
E[hi(Xi)] ,
i=1
i=1
pour toutes les fonctions hi mesurables bornées, ce qui montre l’indépendance des
variables aléatoires X1, ..., Xd.
Comme exemple d’application, on peut montrer une nouvelle fois que les composantes d’une variable aléatoire gaussienne N (m, σ 2Id) sont indépendantes.
6.5 Sommes de variables aléatoires indépendantes
Soit X et Y deux variables aléatoires à valeurs dans Rd, définies sur un espace de
probabilités (Ω, F , P). On suppose X et Y indépendantes.
Lemme 6.11. La loi de la variable aléatoire X + Y est la convolée PX ∗PY.
77
6.5 Sommes de variables aléatoires indépendantes
Démonstration. Soit f une fonction mesurable bornée. Comme X et Y sont
indépendantes, la loi de (X , Y ) est la mesure PX ⊗ PY , et donc
Z
Z
f (z)(PX ∗PY )(dz),
f (x + y)PX (dx)PY (dy) =
E[f (X + Y )] =
Rd
Rd ×Rd
par définition de la convolée. D’où le résultat.
Par récurrence, on en déduit que si X1, X2, ..., Xn sont des variables aléatoires
indépendantes à valeurs dans Rd, la loi de la somme X1 + X2 + ··· + Xn est la convolée
PX1∗PX2 ∗...∗PXn. En particulier, la fonction caractéristique de X1 + ··· + Xn est
donnée par
n
Y
ξ ∈ Rd .
ϕX1+···+Xn(ξ) =
ϕXi(ξ) ,
i=1
Si l’on a une suite de variables aléatoires X1, X2, ... indépendantes et de même loi
(on abrège cela en i.i.d., pour « indépendantes et identiquement distribuées »), la
suite des sommes partielles
n
X
n>0
Xi ,
Sn =
i=1
est appelée une marche aléatoire à pas i.i.d.
Notons que si l’on suppose que les variables aléatoires réelles X1, ..., Xn sont de
carré intégrable, alors
Var(X1 + ··· + Xn) =
n
X
Var(Xi) + 2
X
Cov(Xi , X j ).
16i<j6n
i=1
En particulier, si les variables aléatoires X1, ..., Xn sont de plus indépendantes, on a
Var(X1 + ··· + Xn) =
n
X
Var(Xi) .
i=1
Corollaire (loi faible L2 des grands nombres). Soit X1, X2, ... une suite de
variables aléatoires réelles indépendantes et de même loi, telles que E[X12] < ∞. Alors
X1 + ··· + Xn
−→ E[X1] ,
n→∞
n
la convergence ayant lieu dans l’espace L2(Ω, F , P).
Démonstration. On constate simplement que, comme E[X1] = E[X2] = ...,
2 X1 + ··· + Xn − E[X1 + ··· + Xn] 2
X1 + ··· + Xn
− E[X1]
= E E n
n
X1 + ··· + Xn
= Var
n
n
1X
1
= 2
Var(Xi) = Var(X1) ,
n
n
i=1
78
Indépendance
ce qui tend vers 0 lorsque n → ∞.
On remarquera que l’on a utilisé uniquement le fait que les variables aléatoires
X1, ..., Xn ont même espérance et variance, et sont décorrélées, c’est-à-dire que
Cov(Xi , X j ) = 0 pour tout i =
/ j. Comme on l’a vu, cette condition est plus faible
que la condition i.i.d.
6.6 Lemme de Borel-Cantelli
Si A1, A2, ... est une suite d’événements, on définit
\ [
limsup An =
An
n→∞
k>1 n>k
qu’on peut voir comme l’ensemble des ω ∈ Ω qui appartiennent à une infinité des
événements An. De même, on pose
[ \
liminf An =
An
n→∞
k>1 n>k
qui est l’ensemble des ω ∈ Ω qui appartiennent à tous les événements An, sauf peutêtre un nombre fini d’entre eux. Les sous-ensembles limsupn→∞An et liminfn→∞An
sont eux-mêmes des événements. Par ailleurs on a clairement
c
c
c
c
liminf An = limsupAn .
limsup An = liminf An ,
n→∞
n→∞
n→∞
n→∞
6.6.1 L’énoncé, et un exemple
Le lemme de Borel-Cantelli est une observation simple mais extrêmement utile.
P
P(An) < ∞, alors
Lemme 6.12. Soit A1, A2, ... une suite d’événements. Si
n>1
P(limsupn→∞ An) = 0.
P
Démonstration. L’hypothèse stipule que E n>1 1An < ∞. Ceci implique que
P
1 < ∞ presque surement, c’est-à-dire que presque tout ω ∈ Ω n’appartient
n>1 An
qu’à un nombre fini des événements An. Autrement dit, P(liminfn→∞ Acn) = 1, et on
conclut en passant au complémentaire.
La conclusion importante du lemme est que P(liminfn→∞ Acn) = 1, c’est-à-dire que
les événements Acn ont lieu à partir d’un certain rang. En pratique, si l’on cherche
à montrer que des événements ont lieu à partir d’un certain rang, on estime donc
les probabilités des complémentaires (An est donc un « mauvais » événement) et on
essaie de montrer que ces probabilités sont petites (au sens où elles sont sommables).
Illustrons ceci par un exemple instructif.
Exemple. Nombre de « pile » consécutifs
79
6.6 Lemme de Borel-Cantelli
Soit (X1, X2, ...) une suite de variables aléatoires de Bernoulli de paramètre 1/2
indépendantes. Pour tout n > 1, on note Rn le nombre maximal des Xi consécutifs
valant 1, à partir de l’indice n. Formellement
Rn = sup {m > 1: Xn = Xn+1 = ... = Xn+m−1 = 1}.
Remarquons alors que pour tout K > 0,
P(Rn > K) 6 P(Xn = Xn+1 = ... = Xn+K −1 = 1}) =
1
.
2K
Prenons K = K(n) = ⌊(1 + ε) log2 (n)⌋ où ε > 0 est fixé. On voit alors que si
An = {Rn > K(n)}, on a
1
2
P(An) 6 (1+ε) log (n)−1 6 1+ε
2
n
2
Par conséquent, le lemme de Borel-Cantelli implique que Rn 6 (1 + ε) log2 (n)
pour tout n assez grand, disons n > n0(ε) où n0(ε) est aléatoire, mais fini presque
surement. En prenant ε de la forme 2−k pour k > 0, on obtient que presque surement,
limsup
n→∞
Rn
6 1.
log2 (n)
Notons Mn = max (R1, R2, ..., Rn). Avec la notation ci-dessus, pour tout n > n0(ε),
Mn 6 max (R1, ..., Rn0(ε)) ∨ (1 + ε)log2(n)
et on déduit que l’on a également
limsup
n→∞
Mn
6 1.
log2 (n)
Nous montrons à présent le résultat suivant.
Proposition 6.13. On a presque surement
Mn
= 1.
n→∞ log2 (n)
lim
Par exemple, une suite de 2n lancers de pile ou face contient au moins un bloc
ayant environ n valeurs 1 consécutives si n est assez grand. Par exemple, pour 1000
valeurs consécutives, on devrait vraisemblablement trouver des blocs d’environ 10
valeurs identiques consécutives, mais pas beaucoup plus.
Démonstration. Fixons ε ∈ ]0, 1[, et notons ln = ⌊(1 − ε)log2(n)⌋, et Nn = ⌊n/ln ⌋.
On note alors B j = {jln + 1, jln + 2, ..., (j + 1)ln } pour 0 6 j 6 Nn − 1, de sorte que
les ensembles B j sont disjoints deux-à-deux, de cardinal ln et de réunion incluse
dans {1, 2, ..., n}. Clairement, s’il existe j ∈ {0, ..., Nn − 1} tel que Xi = 1 pour tout
i ∈ B j , alors on a Mn > ln. Montrons donc que cela arrive presque surement à partir
d’un certain rang.
Pour cela, notons
An = {∀j ∈ {0, ..., Nn − 1}, ∃i ∈ Bj : Xi = 0} ,
80
Indépendance
et notons que par le lemme de regroupement par paquets, les tribus σ(Xi , i ∈ B j ),
j ∈ {0, ..., Nn − 1} sont indépendantes. Par conséquent
P(An) =
=
NY
n −1
j =0
NY
n −1
j =0
=
P(∃i ∈ B j : Xi = 0)
(1 − P(∀i ∈ Bj : Xi = 1))
1
1 − ln
2
N
n
1
6 1 − 1−ε
2n
N
n
,
où l’on a utilisé une nouvelle fois l’indépendance des Xi à la dernière étape. Par
conséquent
n
1
1
= exp −
−1
(1 + o(1))
P(An) = exp Nn ln 1 − 1−ε
log2 (n)
2n1−ε
2n
ce que l’on peut borner par exp (−nε/2) pour tout n assez grand. Ce majorant est
sommable, et le lemme de Borel-Cantelli permet de conclure que Mn > ln à partir
d’un certain rang, comme on l’a vu. Ainsi, on obtient que pour tout ε ∈ ]0, 1[ on a
liminf
n→∞
Mn
>1−ε
log2 (n)
presque sûrement, et on conclut.
6.6.2 Lemme « réciproque »
Noter que le lemme de Borel-Cantelli ne fait aucunement intervenir une hypothèse
d’indépendance des événements An ! En revanche, une telle hypothèse est nécessaire
pour l’énoncé « réciproque » ci-dessous.
P
P(An) = ∞,
Lemme 6.14. Soit A1, A2, ... des événements indépendants. Si
n>1
alors P(limsupn→∞ An) = 1.
Démonstration. Pour tout k > 1, on a par le théorème de convergence dominée,
#
" N
#
!
"
N
Y
Y
Y
\
c
c
c
1An = lim E
E[1Acn] ,
Ak = E
1An = lim
P
n>k
n>k
N →∞
n=k
N →∞
n=k
où l’on a utilisé l’indépendance à la dernière étape. Cette limite vaut
!
X
Y
−P(An) = 0,
(1 − P(An)) 6 exp
n>k
n>k
où l’on a utilisé la borne 1 − x 6 e−x, et l’hypothèse de divergence de
en déduit que
!
X
\
Ack = 0,
P
P liminf Acn 6
n→∞
k>1
et on conclut par passage au complémentaire.
P
P(An). On
n>k
81
6.6 Lemme de Borel-Cantelli
Exercice. L’hypothèse d’indépendance de ce lemme est indispensable ! Donner un ou des
contre-exemples naturels si les événements ne sont pas indépendants.
Nous donnons maintenant deux applications de la seconde version du lemme de
Borel-Cantelli.
Une mesure « uniforme » sur N ?
Comme première application, on montre qu’il n’existe pas de mesure de probabilités P « bien répartie » sur N, au sens où P(nN) = 1/n pour tout n > 1. En effet, si
tel était le cas, les événements A p = pN seraient tous indépendants lorsque p décrit
l’ensemble des nombres premiers. En effet, on aurait, pour tous les nombres p1, ...,
pk premiers distincts,
k
Y
1
P(A p1 ∩ ... ∩ Apk) = P(p1···pkN) =
=
P(A pi).
p1···pk
i=1
Comme p 1/p = ∞, où la somme porte sur l’ensemble des nombres premiers, on
en déduirait, par la seconde version du lemme de Borel-Cantelli que P-presque tout
entier n est dans une infinité des ensembles pN avec p premier, ce qui est clairement
impossible.
P
Motifs dans une suite de pile ou face
Donnons une autre application simple de ce lemme. Considérons une suite X1,
X2, ... de variables aléatoires de Bernoulli de paramètres respectifs pi. En posant
Ai = {Xi = 1} et en applicant les deux lemmes précédents, on obtient
P∞
• Si i=1 pi < ∞ alors presque surement, seul un nombre fini des Xi est non
nul.
P∞
p = ∞ et si les variables aléatoires X1, X2, ... sont indépendantes,
• Si
i=1 i
alors, presque surement, une infinité des variables Xi valent 1.
Ceci a une conséquence intéressante sur les nombres réels. Rappelons que, si U est
une variable aléatoire de loi uniforme sur [0, 1[, alors la suite X = (X1, X2, ...) de son
développement dyadique propre
X Xi
U=
2i
i>1
est une suite de variables aléatoires de loi de Bernoulli de paramètre 1/2, indépendantes. Fixons ε = (ε1, ..., εn) ∈ {0, 1}n une suite finie quelconque, et un entier k > 0, et
∗
posons Aε(k) = {ω ∈ {0, 1}N : (ωk+1, ..., ωk+n) = ε}. Soit Bε = limsupk→∞ {X ∈ Aε(k)}
l’événement que la suite ε apparaisse une infinité de fois dans le développement
dyadique propre de X.
Les événements {X ∈ Aε(k)} = {Xk+1 = ε1, ..., Xk+n = εn }, k > 0 ne sont pas
indépendants. En revanche, les événements {X ∈ Aε(kn)}, k > 0 sont respectivement
mesurables par rapport aux σ-algèbres σ(Xkn+1, ..., X(k+1)n), qui sont indépendantes
par le regroupement par paquets. De plus, P(X ∈ Aε(kn)) = 1/2n pour tout ε et
tout k. La somme sur k des probabilités de ces événements est donc infinie, et le
deuxième lemme de Borel-Cantelli implique donc que
P(Bε) > P limsup {X ∈ Aε(kn)} = 1.
k→∞
82
Indépendance
Comme l’ensemble des suites finies de 0 et de 1 est dénombrable, on en déduit
que, si B est l’intersection des événements Bε sur toutes les suites finies ε, alors
P(B) = 1. Nous avons montré qu’avec probabilité 1, toute suite finie apparaît une
infinité de fois dans le développement dyadique de la variable aléatoire U . Autrement
dit, presque tout nombre (pour la mesure de Lebesgue) satisfait cette propriété, et
contient en particulier une infinité de fois tous les romans du monde codés en binaire,
ainsi que ceux qui restent à écrire. On peut y trouver également des tentatives de
preuve ou de réfutation assez convaincantes de l’hypothèse de Riemann...
6.7 Loi du 0-1 de Kolmogorov
Soit (F1, F2, ...) une suite de σ-algèbres. Notons
\
_
G n.
Fk et
G∞ =
Gn =
n>1
k>n
On dit que G∞ est la σ-algèbre asymptotique associée à la suite (F1, F2, ...).
Théorème 6.15. Si les σ-algèbres F1, F2, ... sont indépendantes, alors la tribu
asymptotique est triviale au sens où pour tout A ∈ G∞ , on a P(A) ∈ {0, 1}.
Démonstration. Par le lemme de regroupement par paquets, on a que Gn+1 est
indépendante de Fi, ce pour tout n > 1 et i ∈ {1, 2, ..., n}. Comme G∞ ⊂ Gn+1, on en
déduit
que G∞ est indépendante de Fi pour tout i > 1. Donc G∞ est indépendante de
W
F
i = G1, à nouveau par le lemme de regroupement par paquets. Mais comme
i>1
G∞ ⊂ G1, on en déduit que G∞ est indépendante d’elle-même„ ce qui signifie que
P(A) = P(A ∩ A) = P(A)2 pour tout A ∈ G∞, CQFD.
Comme exemple d’application, on en déduit le résultat suivant sur une marche
aléatoire (Sn , n > 0) à pas i.i.d. X1, X2, ...
Proposition 6.16. Soit (Xn , n > 1) une suite de variables aléatoires réelles indépendantes, et soit Sn = X1 + ··· + Xn pour tout n > 1, S0 = 0. Alors les événements
n
o
limsup Sn = ∞ ,
liminf Sn =−∞ ,
n→∞
n→∞
sont de probabilité 0 ou 1.
Démonstration. Il suffit de montrer le résultat pour le premier événement, quitte
à changer la suite (Xn , n > 1) en leurs opposés.
On a que pour tout k > 1, {limsupn→∞ Sn = ∞} = {limsupn→∞ (Sn − Sk) = ∞},
et cette dernière limite supérieure est
limsup (Xk+1 + Xk+2 + ··· + Xn) ,
n→∞
83
6.7 Loi du 0-1 de Kolmogorov
W
qui est mesurable par rapport à Gk+1 = σ(Xk+1, Xk+2, ...) = i>k+1 σ(Xi). En
particulier, {limsupn→∞ Sn = ∞} est mesurable par rapport à la σ-algèbre Gk pour
tout k > 1, et donc par rapport à la tribu asymptotique G∞. Comme les σ-algèbres
σ(Xi), i > 1 sont indépendantes par hypothèse, la loi du 0-1 de Kolmogorov s’applique
et donne le résultat.
Corollaire 6.17. Supposons que les variables Xn , n > 1 sont i.i.d. et que
1
.
2
Alors la marche aléatoire Sn = X1 + ··· + Xn oscille, au sens où
P limsup Sn = ∞, liminf Sn = −∞ = 1
P(X1 = 1) = P(X1 = −1) =
n→∞
n→∞
Démonstration. On sait que les événements {liminfn→∞ Sn = ∞}, {limsupn→∞ Sn =
−∞} sont de probabilité 0 ou 1. Mais comme la loi de (Sn , n > 0) est la même que
celle de (−Sn , n > 0) par symétrie de la loi des variables aléatoires Xn , n > 0, ces
deux événements ont aussi la même probabilité.
Nous allons montrer que la suite (Sn , n > 0) n’est pas bornée avec probabilité 1.
Ceci signifie que
!
n
o
P limsup Sn = ∞ ∪ liminf Sn = −∞
= 1.
n→∞
n→∞
Par conséquent, l’un au moins des deux événements est de probabilité strictement
positive. Par les remarques ci-dessus, la probabilité est en fait 1 pour ces deux
événements.
Il reste à montrer que (Sn , n > 0) n’est pas bornée avec probabilité 1. Introduisons
l’événement
AK = {|Sn | 6 K pour tout n > 0},
où K est un entier donné. Posons N = 2K + 1, et constatons que
[
{XkN +1 = 1, ..., X(k+1)N = 1} ⊂ AcK .
k>0
Or P(XkN +1 = 1, ..., X(k+1)N = 1) = 1/2N > 0, et de plus les événements {XkN +1 =
1, ..., X(k+1)N = 1}, k > 0 sont indépendants. Par conséquent,
!
Y
\
1
c
1 − N = 0,
{XkN +1 = 1, ..., X(k+1)N = 1} =
P
2
k>0
k>0
et on en déduit que P(AK ) = 0 pour tout K. En prenant la réunion sur K, on en
déduit le résultat.
Exercice. Généraliser le résultat précédent à une marche aléatoire Sn = X1 + ··· + Xn à pas
i.i.d. dont la loi est symétrique, c’est-à-dire que X1 et −X1 ont même loi, dès que cette loi n’est
pas δ0.
84
Indépendance
6.8 Complément : existence d’une suite de variables
aléatoires indépendantes
Soit (E , E , µ) un espace de probabilités. Rappelons que l’on peut toujours construire
une variable aléatoire X de loi µ, en choisissant par exemple la variable aléatoire
canonique. Le théorème suivant montre qu’on peut faire beaucoup mieux.
Théorème 6.18. Soit (En , En , µn), n > 1 une suite d’espaces de probabilités. Alors il
existe un espace de probabilités sur lequel est définie une suite de variables aléatoires
(Xn , n > 1) indépendantes, de lois respectives PXn = µn.
N
Ce théorème est un résultat d’existence de la mesure produit µ = n>1 µn sur
l’espace produit E = E1 × E2 × ... muni de la tribu produit E = E1 ⊗ E2 ⊗ ..., qui est
la plus petite tribu rendant mesurables les applications de projection de Xn: E → En.
Si elle existe, la mesure produit µ est définie par
µ(X1 ∈ A1, ..., Xn ∈ An) =
n
Y
µi(Ai) ,
i=1
A1 ∈ E1, ..., An ∈ En ,
et une telle mesure est nécessairement unique par le théorème de classe monotone.
Sous réserve que cette mesure existe bien, il suffit de prendre pour X = (X1, X2, ...)
la variable canonique sur (E , E , µ).
Noue n’allons pas montrer ce théorème en toute généralité, mais expliquons comment on peut l’obtenir pour En = R pour tout n > 1. Rappelons que l’on a construit
au chapitre 5.1 une suite infinie (Y1, Y2, ...) de variables aléatoires indépendantes
uniformes dans {0, 1}. On peut alors réindexer cette suite en (Zn,m : n, m > 1), en
prenant une bijection ϕ: N∗ × N∗ → N∗ et en posant
Zn,m = Y ϕ(n,m) .
La famille (Zn,m : n, m > 1) est clairement formée de variables aléatoires indépendantes uniformes dans {0, 1}. Pour tout n > 1, on pose alors
Un =
X Zn,m
,
m
2
m>1
ce qui définit une suite de variables uniformes (Un , n > 1) qui sont respectivement
mesurables par rapport à (Zn,m : m > 1), et dont indépendantes par regroupement
par paquets. Ces variables aléatoires sont de plus clairement uniformes dans [0, 1]
par lemme de classe monotone, puisque la probabilité que Un soit dans l’intervalle
dyadique [k2−m , (k + 1)2−m[ est égale à
1
P Zn,1 = ω1, ..., Zn,m = ωm = m
2
P
m
où k2−m s’écrit i=1 ωi2−i. Pour conclure, on peut utiliser la technique de simulation
de variables aléatoires réelles par l’inverse de la fonction de répartition. Soit Fn(x) =
µn(]−∞, x]) la fonction de répartition d’une variable aléatoire de loi µn, et
Fn−1(u) = inf {x ∈ R: Fn(x) > u} ,
u ∈ ]0, 1[.
6.8 Complément : existence d’une suite de variables aléatoires indépendantes
85
Notons que pour tout x ∈ R et u ∈ ]0, 1[, on a Fn−1(u) 6 x si et seulement si u 6 Fn(x).
En effet, si Fn−1(u) 6 x alors par définition et croissance de Fn, cela implique que
Fn(y) > u pour tout y > x. En faisant tendre y vers x par valeurs supérieures, on
obtient Fn(x) > u par continuité à droite de Fn. La réciproque est immédiate par
définition. Posons alors
Xn = Fn−1(Un) ,
n > 1,
ce qui définit une suite de variables aléatoires indépendantes, puisqu’elles sont respectivement mesurables par rapport aux σ-algèbres indépendantes σ(Un). Mais par
ailleurs, on a, pour tout x ∈ R,
P(Xn 6 x) = P(Un 6 Fn(x)) = Fn(x) ,
ce qui signifie que Xn a pour fonction de répartition Fn, et donc que Xn a pour loi
µn. Le théorème est donc démontré dans le cas où les mesures µn sont définies sur
(R, B(R)).
Remarque. L’approche présentée ci-dessus peut se généraliser (avec un certain
effort !) au cas où les espaces (En , En , µn) sont des espaces métriques séparés complets, munis de leurs tribus boréliennes et d’une mesure de probabilités. Pour autant,
le théorème reste vrai sans cette contrainte en plus, et se démontre en toute généralité par une application du théorème de prolongement de mesures de Carathéodory.
Chapitre 7
Lois des grands nombres
Nous allons maintenant étudier un résultat fondamental en probabilités, stipulant
essentiellement qu’une somme de variables aléatoires indépendantes se comporte en
première approximation comme sa moyenne. Nous avons déjà vu au chapitre précédent que si l’on a des variables aléatoires X1, X2, ... dans L2 qui sont indépendantes
(ou décorrélées) et de même loi, alors
X1 + ··· + Xn L2
−→ E[X1].
n→∞
n
Nous allons voir de nombreuses variantes de cette loi « faible » des grands nombres.
Comme il s’agit d’un résultat asymptotique, nous allons dans un premier temps
décrire quelques-uns des modes de convergence de variables aléatoires qui sont usuellement considérés en théorie des probabilités.
7.1 Différentes notions de convergence pour des
variables aléatoires
Soit (Xn , n > 1) une suite de variables aléatoires, et X une autre variable aléatoire,
toutes étant définies sur un espace de probabilités (Ω, F , P), et à valeurs dans R ou
C.
a. Convergence presque sure
p.s.
On dit que (Xn , n > 1) converge vers X presque surement, et on note Xn → X, si
l’événement {limn→∞ Xn = X } = {limsupn→∞ |Xn − X | = 0} est presque sûr, c’està-dire
n
o
P
ω ∈ Ω: lim Xn(ω) = X(ω)
n→∞
= 1.
Il s’agit d’un mode de convergence intuitif d’un point de vue probabiliste, puisqu’il
énonce une propriété (la convergence d’une suite de variables aléatoires) vraie « ω
par ω ». C’est (à un ensemble de probabilité nulle près) la convergence ponctuelle
des fonctions mesurables Xn vers X.
b. Convergence L p
Soit p ∈ [1, ∞]. On dit que (Xn , n > 1) converge vers X dans L p si E[|Xn −
p
X | ] →n→∞ 0. Il s’agit de la convergence usuelle dans l’espace de Banach L p(Ω, F , P)
muni de la norme k·k p.
87
88
Lois des grands nombres
À l’exception du cas où p = ∞, la convergence dans L p n’implique pas la
convergence presque sure. En revanche, les résultats classiques sur les espaces L p
impliquent le résultat suivant.
Proposition 7.1. Soit (Xn , n > 0) une suite de variables aléatoires convergeant vers
X dans L p. Alors il existe une extraction (nk , k > 1) telle que (Xnk , k > 1) converge
presque surement vers X.
De même, la convergence p.s. de la suite (Xn , n > 0) n’implique pas la convergence
dans L p. Néanmoins, pour p ∈ [1, ∞[, le théorème de convergence dominée implique
que, si |Xn | < Y avec Y ∈ Lp(Ω, F , P), alors Xn converge vers X dans L p.
c. Convergence en probabilité
On dit que (Xn , n > 1) converge vers X en probabilité, si pour tout ε > 0 on a
On note alors
P(|Xn − X | > ε) −→ 0.
n→∞
P
Xn −→ X .
n→∞
Proposition 7.2. Si (Xn , n > 1) converge vers X presque surement ou dans L p
(pour un p > 1 donné), alors on a aussi convergence en probabilité.
Démonstration. Si (Xn , n > 1) converge presque surement vers X, alors pour tout
ε > 0, on peut appliquer le théorème de convergence dominée dans P(|Xn − X | > ε) =
E[1{|Xn −X |>ε}], en constatant que l’indicatrice est de limite 0 presque surement.
Si l’on a convergence dans L p avec p ∈ [1, ∞[ on applique l’inégalité de Markov :
P(|Xn − X | > ε) 6
E[|Xn − X | p]
−→ 0.
n→∞
εp
Si p = ∞ c’est encore plus simple puisque la convergence dans L∞ implique la convergence presque sure. Dans tous les cas, on a montré la convergence en probabilité. Nous montrons maintenant que la convergence en probabilité est associée à une
topologie sur les variables aléatoires.
Proposition 7.3. Soit L0(Ω, F , P) l’ensemble des variables aléatoires (réelles ou
complexes) sur l’espace de probabilités (Ω, F , P), définies à égalité p.s. près. Définissons, pour X , Y ∈ L0(Ω, F , P),
d0(X , Y ) = E[|X − Y | ∧ 1].
Alors d0 est une distance sur L0(Ω, F , P), et l’on a que (Xn , n > 1) converge en
probabilité vers X si et seulement si cette même suite converge dans (L0(Ω, F , P),
d0). De plus, cet espace métrique est complet.
On laisse en exercice le fait que d0 est une distance. Si la suite (Xn , n > 1)
converge en probabilité, on a pour tout ε > 0
E[|Xn − X | ∧ 1] = E[(|Xn − X | ∧ 1)·(1{|Xn −X |6ε} + 1{|Xn −X |>ε})] 6 ε + P(|Xn − X | >
ε),
7.1 Différentes notions de convergence pour des variables aléatoires
89
et donc limsupn→∞ E[|Xn − X | ∧ 1] 6 ε. Donc d0(Xn , X) → 0. D’autre part, on a
clairement, pour ε ∈ ]0, 1[,
P(|Xn − X | > ε) = P(|Xn − X | ∧ 1 > ε) 6
d0(Xn , X)
ε
par l’inégalité de Markov. La réciproque s’ensuit immédiatement.
Montrons le caractère complet. Pour cela, soit (Xn , n > 1) une suite de Cauchy
pour la distance d0. On peut trouver une extraction (nk , k > 1) telle que
d0(Xnk+1, Xnk) 6 2−k.
On voit alors que
#
"
X
X
(|Xnk+1 − Xnk | ∧ 1) =
d0(Xnk+1, Xnk) < ∞,
E
k>1
k>1
P
de sorte que presque surement, on a k>1 (|Xnk+1 − Xnk | ∧ 1) < ∞, et donc aussi
P
|Xnk+1 − Xnk | < ∞. On pose alors
k>1
X
X = Xn 1 +
(Xnk+1 − Xnk) ,
k>1
cette série convergeant avec probabilité 1 par ce qui précède. En particulier, Xnk
converge presque surement vers X. On en déduit que Xnk converge aussi en probabilité vers X, et donc pour la distance d0. Comme (Xn , n > 1) est une suite de
Cauchy admettant une suite extraite qui converge, on en conclut que X est la limite
de (Xn , n > 1) dans l’espace (L0, d0), et que ce dernier est complet.
Au cours de la preuve, nous avons montré le résultat suivant, qui est un résultat
analogue à un théorème du cours sur les espaces L p.
Proposition 7.4. Si (Xn , n > 1) converge en probabilité vers X, alors il existe une
extraction (nk , k > 1) telle que (Xnk , k > 1) converge presque surement vers X.
Remarque. Nous avons vu que la convergence L p et la convergence en probabilité
sont toutes les deux issues de la convergence dans un espace métrique. Il n’en est
pas de même (en général) pour la convergence p.s.
Exercice. Montrer que si (X , d) est un espace métrique, et si (xn , n > 1) est une suite de X,
alors (xn , n > 1) converge vers x ∈ X si et seulement si de toute sous-suite, on peut réextraire
une sous-sous-suite qui converge vers x.
Déterminer une suite de variables aléatoires (Xn , n > 1) telle que de toute sous-suite on
puisse réextraire une sous-sous-suite qui converge presque surement vers 0, mais telle que Xn
ne converge pas presque surement. On pourra penser à des variables aléatoires de Bernoulli
bien choisies, définies sur l’espace ([0, 1], B([0, 1]), λ) où λ est la mesure de Lebesgue.
On peut enfin « remonter » de la convergence en probabilité à une convergence
L p si l’on a une hypothèse de moments.
Proposition 7.5. Soit q > 1 et (Xn , n > 1) une suite de variables aléatoires bornée
dans L q, c’est-à-dire que supn>1E[|Xn | q] < ∞. On suppose que Xn converge en
probabilité vers X. Alors pour tout p ∈ [1, q[ on a que Xn converge vers X dans L p.
90
Lois des grands nombres
Démonstration. Tout d’abord, notons que la limite X est dans L q. En effet, par
la proposition 7.4, il existe une sous-suite (Xnk , k > 1) convergeant vers X presque
surement. Le lemme de Fatou donne alors
E[|X | q] 6 liminf E[|Xnk | q] < ∞
(7.1)
k→∞
puisque la suite (Xn , n > 1) est bornée dans L q. Comme L q ⊂ L p on déduit que X ∈ L p
pour tout p ∈ [1, q[. On écrit alors, pour tout ε > 0,
E[|Xn − X | p] = E[|Xn − X | p1{|Xn −X |>ε}] + E[|Xn − X | p1{|Xn −X |6ε}]
6 E[|Xn − X | q]p/qP(|Xn − X | > ε)(q −p)/q + ε p
où l’on a utilisé à la seconde étape l’inégalité de Hölder pour les exposants q/p et
son conjugué q/(q − p). Comme E[|Xn − X | q] p/q est borné par hypothèse et par
(7.1), on en déduit que pour tout ε > 0, on a
limsup E[|Xn − X | p] 6 ε p .
n→∞
C’est ce qu’il fallait démontrer.
On obtient le diagramme d’implications suivant :
Convergence
presque sure
À extraction près
hypothèse de
domination
Convergence
Lp
Convergence
en
probabilité
hypothèse de moments
Figure 7.1. Diagramme d’implications
7.2 La loi forte des grands nombres
Le but de cette partie est de montrer le théorème suivant.
Théorème (Loi forte des grands nombres). Soit X1, X2, ... une suite de variables aléatoires réelles indépendantes et de même loi, dans L1. Alors
X1 + ··· + Xn p.s.
−→ E[X1] .
n→∞
n
7.2 La loi forte des grands nombres
91
Remarquons que ce théorème est également vrai pour des variables aléatoires
à valeurs dans Rd, pour tout d > 1 : pour le voir, il suffit d’appliquer le théorème
précédent coordonnée par coordonnée. Par ailleurs, on a également la convergence
au sens L1, ce qui est un résultat beaucoup plus facile.
Proposition 7.6. Sous les mêmes hypothèses, on a également
X1 + ··· + Xn L1
−→ E[X1] .
n→∞
n
Démonstration. Remarquons que si X1 ∈ L2, alors le résultat est une conséquence
de la loi faible L2 des grands nombres, puisque la convergence dans L2 implique celle
dans L1. Dans le cas général, pour K donné, et i > 1, notons Yi = Xi 1{|Xi |6K } et
Zi = Xi 1{|Xi |>K }, de sorte que Xi = Yi + Zi. Comme les variables aléatoires (Yi) sont
i.i.d. dans L2, et que les (Zi) sont i.i.d. également et dans L1, on a que pour tout K,
Pn
Pn
Sn
Y
Z
i
i
E − E[X1] 6 E i=1 − E[Y1] + E i=1
− E[Z1]
n
n
n
Pn
Y
i
6 E i=1 − E[Y1] +2E[|Z1|] .
n
Donc on a
Sn
limsup E − E[X1] 62E[|Z1|] .
n
n→∞
Mais par convergence dominée, on a que ce majorant tend vers 0 lorsque K → ∞.
D’où le résultat.
Nous allons donner plusieurs approches de la loi forte des grands nombres, sous
des hypothèses de moins en moins restrictives, pour donner une idée des diverses
méthodes qui permettent d’approcher un tel résultat. D’autres preuves standard de
ce résultat font appel à des résultats plus poussés de la théorie ergodique (théorème
de Birkhoff) ou de la théorie des martingales.
Jusqu’à la fin de la partie 7.2, on suppose que les variables aléatoires X1, X2, ...
sont i.i.d. On notera Sn = X1 + ··· + Xn pour simplifier.
7.2.1 Le cas L4
Supposons dans un premier temps que E[X14] < ∞. Notons alors que, quitte à
changer Xn en Xn − E[X1], on peut supposer ces variables aléatoires centrées, c’està-dire que E[X1] = 0. Nous allons montrer que presque surement, on a
X Sn 4
< ∞.
Σ=
n
n>1
Ceci impliquera alors clairement que Sn/n converge vers 0 presque surement. Pour
cela, il suffit de montrer que E[Σ] < ∞. Nous estimons donc
4 n
X
1
Sn
= 4
E
E[Xi1Xi2Xi3Xi4] .
n
n
i1,i2,i3,i4 =1
92
Lois des grands nombres
Dans cette dernière somme, notons que si l’un des indices est distinct des trois autres,
par exemple i1 ∈
/ {i2, i3, i4}, alors l’indépendance implique que E[Xi1Xi2Xi3Xi4] =
E[Xi1]E[Xi2Xi3Xi4] = 0. Ne restent dans la somme que les indices pour lesquels
{i1, i2, i3, i4} est de cardinal 1 ou 2. On en déduit
4 n
1X
Sn
2 X
E
= 4
E[Xi2]E[X j2]
E[Xi4] + 3· 4
n
n
n
16i<j6n
i=1
1
3(n − 1)
= 3 E[X14] +
E[X12]2 .
n
n3
Cette dernière quantité est sommable en n > 1. On en déduit donc que Sn/n converge
vers 0 presque surement et dans L4.
7.2.2 Le cas L2
Supposons à présent que E[X12] < ∞. Une fois encore, on peut supposer que E[X1] =
0. Nous avons déjà vu que Sn/n converge vers 0 dans L2 (donc dans L1) : c’est la
loi faible des grands nombres. On en déduit ainsi qu’il existe une sous-suite le long
de laquelle Sn/n converge p.s. vers 0. Essayons d’être plus précis, en considérant
explicitement l’extraction (k 2, k > 1). On a
1
Sk2 2
1
E
= 4 Var(Sk2) = 2 Var(X1) .
2
k
k
k
Ceci étant sommable en k, on en déduit comme précédemment que Sk2/k 2 converge
vers 0 dans L2 et presque surement.
Pour se débarrasser de l’extraction, il faut contrôler la suite Sn/n entre deux
valeurs consécutives de la suite extraite. Plus exactement, pour ε > 0, on considère
2
Ak = 2 max 2 |Sn − Sk2| > εk ,
k > 1.
k 6n<(k+1)
Notons que
X
P(Ak) 6
k 2 6n<(k+1)2
X
6
k 2 6n<(k+1)2
P(|Sn − Sk2| > εk 2)
Var(Sn − Sk2)
ε2k 4
par l’inégalité de Bienaymé-Chebychev. Or, Sn − Sk2 = Xk2 +1 + Xk2+2 + ··· + Xn
a même loi que Sn−k2 = X1 + ··· + Xn−k2. Pn en déduit que Var(Sn − Sk2) 6
(n − k 2)Var(X1) et donc
P(Ak) 6
((k + 1)2 − k 2)2
Var(X1) .
ε2 k 4
Comme (k + 1)2 − k 2 = 2k + 1, on voit que le majorant est sommable en k. Le lemme
de Borel-Cantelli implique donc que presque surement, pour tout k assez grand, on
a que
Mk =
max
k2 6n<(k+1)2
|Sn − Sk2| 6 εk 2 .
93
7.2 La loi forte des grands nombres
Soit alors n ∈ N∗, et k = k(n) ∈ N l’unique entier tel que k 2 6 n < (k + 1)2. On a alors
Sn k 2 Sk2 Mk 6 · n n k 2 + k2 et donc, presque surement,
Sn limsup 6 ε.
n
n→∞
Ceci étant valable pour tout nombre rationnel ε > 0, on déduit que Sn/n converge
vers 0 presque surement.
7.2.3 Le cas L1 par la méthode d’écrêtement
Nous allons donner maintenant une première preuve du théorème 7.2 due à Etemadi.
Dans un premier temps, nous remarquons que si l’on écrit Xn = Xn+ − Xn−, alors
Sn X1+ + ··· + Xn+ X1− + ··· + Xn−
=
−
n
n
n
où les variables X1+, X2+, ... d’une part et X1−, X2−, ... d’autre part sont i.i.d. et
positives, d’espérances finies. Il suffit donc de montrer le théorème pour des variables
aléatoires positives, ce que l’on suppose maintenant. Attention, on prendra garde
au fait que l’on ne peut plus dès lors supposer les variables centrées !
Nous utilisons maintenant la notion de variable aléatoire tronquée, et posons
Yn = Xn1{Xn 6n} .
Lemme 7.7. Presque surement, on a que Yn = Xn pour tout n assez grand.
Démonstration. Notons que {Xn = Yn } = {Xn 6 n}. Si l’on pose An = {Xn > n}
alors
Z ∞
X
X
P(X1 > x)dx = E[X1] < ∞
P(An) =
P(X1 > n) 6
n>1
n>1
0
où l’on a utilisé la comparaison entre une somme et une intégrale, puis l’exercice
apparaissant en dessous de la proposition 5.12. On en déduit par le lemme de BorelCantelli que, presque surement, Xn 6 n pour tout n assez grand, et on conclut. Ainsi, en notant Tn = Y1 + ··· + Yn, il suffit de montrer que Tn/n converge vers
E[X1] presque surement pour obtenir que Sn/n converge également vers E[X1] p.s. À
ce stade, on utilise une idée similaire à la preuve de la loi forte des grands nombres
dans le cas L2 : nous montrons la convergence de Tn/n le long d’une sous-suite. Cette
fois, on fixe α > 1 et on pose k(n) = ⌊αn ⌋. On a alors, par l’inégalité de BienayméChebychev,
X
1 X Var(Tk(n))
P(|Tk(n) − E[Tk(n)]| > εk(n)) 6 2
ε
k(n)2
n>1
n>1
k(n)
1 X
Var(Ym)
6 2
k(n)2
ε
n>1
m=1
X
1
1X
Var(Ym)
6 2
.
k(n)2
ε
1X
m>1
n:k(n)>m
94
Lois des grands nombres
Comme k(n) > αn/2 pour tout n > 1, on peut comparer la dernière somme à une
série géométrique : si n0 est le plus petit entier tel que ⌊αn ⌋ > m
X
n:k(n)>m
X 1
1
4
4
1
6
4
=
α−2n0 6
· 2.
2
2n
−2
−2
k(n)
α
1−α
1−α m
n>n0
et l’on obtient qu’il existe une constante C dépendant seulement de α et ε telle que
X
n>1
P(|Tk(n) − E[Tk(n)]| > εk(n)) 6 C
X Var(Ym)
.
m2
m>1
(7.2)
Montrons que cette dernière somme est finie. Pour cela, on écrit (en utilisant une
nouvelle fois l’exercice après la proposition 5.12)
Z ∞
Z m
Z m
2
Var(Ym) 6 E[Ym] =
2yP(Ym > y) dy =
2yP(Xm > y) dy =
2yP(X1 >
0
0
0
y) dy .
On en déduit
X 1 Z ∞
X Var(Ym)
6
2y1[0,m](y)P(X1 > y) dy
m2 0
m2
m>1 
m>1

Z ∞
∞
X 1

2yP(X1 > y)dy
6
m2
0
m=⌈y ⌉
Z ∞
P(X1 > y)dy =C ′E[X1] < ∞
6 C′
0
pour une constante universelle C ′, et en utilisant que la somme de Riemann
P
m −2 est équivalente à y −1 lorsque y → ∞. En combinant cela avec (7.2), le
m>⌈y ⌉
lemme de Borel-Cantelli montre que presque surement, pour tout n assez grand, on a
|Tk(n) − E[Tk(n)]|
6 ε.
k(n)
Comme cela est valide pour tout ε > 0 rationnel, on en déduit que |Tk(n) − E[Tk(n)]|/
k(n) converge presque surement vers 0. Ensuite, on déduit que Tk(n)/k(n) converge
p.s. vers E[X1], puisque par convergence dominée on a E[Yn] → E[X1], et donc par le
lemme de Cesaro, E[Tk(n)]/k(n) → E[X1]. Enfin, si l’on se donne n > 1, soit m = m(n)
l’unique entier tel que k(m) 6 n < k(m + 1). On a alors
Tk(m+1) k(m + 1)
Tk(m) k(m)
Tn
·
6
6
·
.
k(m + 1) k(m)
n
k(m) k(m + 1)
En faisant tendre n → ∞ on en déduit que presque surement,
1
Tn
Tn
E[X1] 6 liminf
6 limsup
6 αE[X1] .
α
n→∞ n
n→∞ n
Comme α peut être n’importe quel nombre rationnel strictement plus grand que 1,
on conclut.
95
7.2 La loi forte des grands nombres
7.2.4 Le cas L1 : une seconde preuve
Nous proposons maintenant une preuve entièrement différente du théorème 7.2.
Fixons a > E[X1] et notons
Mk = max (Sn − na) .
06n6k
Alors la suite (Mk , k > 0) de variables aléatoires est clairement croissante, et converge
presque surement vers une limite M = supn>0 (Sn − na) à valeurs dans [0, ∞]. Notons
alors que pour tout k > 0, {M = ∞} = {supn>k (Xk+1 + Xk+2 + ··· + Xn − na) = ∞} est
un événement mesurable par rapport à σ(Xk+1, Xk+2, ...). Ainsi, ce même événement
appartient à la tribu asymptotique des variables aléatoires X1, X2, ... De ce fait, on
a P(M = ∞) ∈ {0, 1} par la loi du 0-1 de Kolmogorov.
Supposons par l’absurde que l’on ait P(M = ∞) = 1. On note alors S0′ = 0 et
Sn′ = X2 + ··· + Xn+1 pour tout n > 1, de sorte que par regroupement par paquets, la
suite (Sn′ , n > 0) soit de même loi que (Sn , n > 0), et indépendante de X1 (puisque
clairement mesurable par rapport à σ(X2, X3, ...)). On a alors, pour tout k > 1,
Mk = 0 ∨ max (Sn − na)
16n6k
= 0 ∨ max (Sn+1 − (n+1)a)
06n6k −1
= 0 ∨ max (X1 − a+Sn′ − na)
06n6k −1
= 0 ∨ ((X1 − a) + Mk′ −1) ,
′
où Mk−1
= max06n6k−1 (Sn′ − na). Finalement, cela implique
′
′
Mk − Mk−1
= (X1 − a) ∨ (−Mk−1
).
Notons que Mk est clairement d’espérance finie comme maximum d’un nombre fini
de variables aléatoires intégrables. De plus, Mk′ a même loi que Mk (pour s’en
convaincre, on peut écrire Mk comme une fonction mesurable de X1, ..., Xk, et
constater que Mk′ s’exprime comme la même fonction de X2, ..., Xk+1) et donc
′
′
E[Mk − Mk−1
] = E[Mk] − E[Mk−1
] = E[Mk] − E[Mk−1] = E[Mk − Mk−1] > 0,
′
la suite (Mk , k > 0) étant croissante. D’un autre côté, l’on a que (X1 − a) ∨ (−Mk−1
)
+
′
est dominée par (X1 − a) , et converge presque surement vers (X1 − a) ∨ (−M ), où
M ′ est la limite de Mk′ lorsque k → ∞. Mais notons que pour tout x ∈ R,
P(M ′ 6 x) = lim P(Mk′ 6 x) = lim P(Mk 6 x) = P(M 6 x) = 0
k
k
où l’on a utilisé le fait que les événements {M ′ 6 x} et {M 6 x} sont les réunions
décroissantes des événements {Mk′ 6 x} et {Mk 6 x} lorsque k → ∞, le fait que Mk
et Mk′ ont même loi, et enfin le fait que P(M < ∞) = 0 par hypothèse. On déduit
que P(M ′ = ∞) = 1 également, et donc (X1 − a) ∨ (−M ′) = X1 − a presque surement.
De cela, on déduit par convergence dominée que
E[(X1 − a) ∨ (−Mk′ −1)] −→ E[X1 − a] < 0,
k→∞
96
Lois des grands nombres
par hypothèse sur a. Comme on a montré par ailleurs que ces espérances sont toutes
positives, on a une contradiction. On en déduit que presque surement, pour tout a
rationnel strictement plus grand que E[X1], on a que supn>0 (Sn − na) < ∞, et par
conséquent
Sn
limsup
6 a.
n→∞ n
En faisant tendre a vers E[X1], on déduit que limsupn→∞ Sn/n 6 E[X1], et quitte à
changer Xn en −Xn, on déduit également que liminfn→∞ Sn/n > E[X1] p.s. D’où le
résultat.
7.2.5 Quelques ramifications de la loi des grands nombres
Cas d’une espérance bien définie, mais infinie
La loi forte des grands nombres reste valable dès lors que E[X1] est bien définie,
et éventuellement infinie. En effet, si par exemple E[X1+] = ∞ et E[X1−] < ∞, et en
écrivant que Sn > (X1+ ∧ K + ··· + Xn+ ∧ K) − (X1− + ··· + Xn−), on voit bien que pour
tout K > 0,
Sn
> E[X1+ ∧ K] − E[X1−]
liminf
n→∞ n
presque surement. Lorsque K → ∞, ce minorant converge vers E[X1] = ∞ par
convergence monotone.
Cas où l’espérance n’existe plus nécessairement
Si X est une variable aléatoire intégrable, alors on a, pour tout x > 0,
P(|X | > x) 6
E[|X |1{|X |>x}]
,
x
ce qui s’obtient comme étape intermédiaire dans la preuve de l’inégalité de Markov.
Comme le numérateur du majorant tend vers 0 quand x → ∞ par convergence
dominée (par |X |), on obtient que P(|X | > x) = o(1/x). En revanche, cette dernière
condition n’implique pas en général que X soit intégrable ! On a néanmoins le
résultat suivant, que nous énonçons sans preuve.
Théorème 7.8. Soit X1, X2, ... une suite i.i.d. de variables aléatoires, vérifiant
xP(X1 > x) −→ 0.
x→∞
Notons Sn = X1 + ··· + Xn et mn = E[X11{|X1|6n}]. Alors
P
Sn
− mn −→ 0.
n→∞
n
7.3 Quelques applications
7.3.1 Marches aléatoires non centrées
On obtient comme conséquence immédiate de la loi forte des grands nombres qu’une
marche aléatoire non centrée tend vers l’infini. En effet, soit X1, X2, ... des variables
aléatoires indépendantes et de même loi, dans L1, et Sn = X1 + ··· + Xn.
97
7.3 Quelques applications
Si E[X1] =
/ 0, on a immédiatement que |Sn | → ∞ presque surement lorsque n→ ∞
par la loi forte des grands nombres. On pourra mettre ce résultat en contraste avec
le corollaire 6.17.
7.3.2 Approximation d’intégrales par la méthode de MonteCarlo
Supposons que l’on ait à calculer l’intégrale suivante
Z
f (x)λ(dx)
I(f ) =
[0,1]d
où f: [0, 1]d → R est une fonction intégrable. Soit U1, U2, ... une suite de variables
aléatoires indépendantes de loi uniforme sur le cube [0, 1]d. Alors les variables aléatoires f (U1), f (U2), ... sont indépendantes, intégrables et d’espérance I(f ). La loi
des grands nombres garantit donc que
f (U1) + ··· + f (Un)
= I(f ) .
n
n→∞
lim
Ceci fournit donc une méthode d’approximation d’une intégrale sur [0, 1]d, puisque
les variables aléatoires Ui sont aisées à simuler, dès lors que l’on dispose d’une fonction « rand » renvoyant (au moins théoriquement) une suite de variables aléatoires
indépendantes uniformes sur [0, 1]. En effet, les coordonnées des variables aléatoires
Ui sont elles-mêmes indépendantes et uniformes sur [0, 1].
La loi des grands nombres ne dit cependant rien a priori sur la vitesse de conver√
gence vers l’intégrale. On verra au chapitre suivant qu’elle est de l’ordre de 1/ n .
Cette vitesse est relativement mauvaise si l’on compare aux méthodes numériques
usuelles disponibles pour d = 1 (méthode des trapèze, de Simpson, etc...). Cependant, la méthode présentée ici, dite méthode de Monte Carlo, présente plusieurs
avantages :
•
•
son efficacité ne dépend ni de la régularité de f , ni de la dimension
si l’on connaît In(f ) = (f (U1) + ··· + f (Un))/n, le calcul de In+1(f ) demande
très peu d’opérations, là où des méthodes plus standard demanderaient de
raffiner des partitions de [0, 1].
Le premier point est particulièrement important, et de fait, la méthode de Monte
Carlo et ses variantes est utilisée presque systématiquement pour estimer des intégrales de grande dimension.
Chapitre 8
Convergence en loi et théorème central
limite
Au chapitre précédent, on a vu que la loi des grands nombres donnait un comportement asymptotique « au premier ordre » de la somme d’une suite de variables
aléatoires. Par exemple, si X1, X2, ... est une suite de variables aléatoires indépendantes, de loi de Bernoulli de paramètre 1/2, alors on a presque surement, lorsque
n → ∞,
X1 + ··· + Xn 1
= + o(1) .
n
2
La limite est la constante déterministe 1/2 : un des aspects surprenants de ce résultat
est l’émergence d’un « ordre » dans le « désordre » apparent d’une suite de variables
aléatoires indépendantes (voir par exemple notre discussion sur l’apparition de tous
les motifs finis dans la suite X1, X2, ...) Il est alors légitime de se demander si l’on
peut déterminer l’ordre supérieur de la convergence, c’est-à-dire expliciter le terme
o(1). C’est là que le caractère aléatoire refait surface : le théorème central limite
stipule que pour n grand,
N
X1 + ··· + Xn loi 1
≃ + √
2 2 n
n
où N est une variable aléatoire aléatoire gaussienne centrée de variance 1. Le terme
d’erreur o(1) ci-dessus est donc intrinsèquement aléatoire. Cependant, nous allons
devoir expliquer le sens de l’approximation ci-dessus.
8.1 Convergence étroite, convergence en loi
La convergence en loi est pour ainsi dire le quatrième mode de convergence fondamental utilisé en théorie des probabilités, avec ceux discutés dans le chapitre
précédent. Elle tient pourtant une place à part, car elle concerne non pas les variables
aléatoires à proprement parler, mais plutôt leurs lois.
Nous notons Cb(Rd) l’espace des fonctions continues bornées sur Rd et à valeurs
dans R.
Définition 8.1. Une suite (µn) de mesures de probabilités sur Rd converge étroitement vers une mesure de probabilités µ sur Rd si pour toute fonction f ∈ Cb(Rd),
on a
Z
Z
f (x)µn(dx) −→
f (x)µ(dx) .
Rd
n→∞
Rd
99
100
Convergence en loi et théorème central limite
On dit qu’une suite (Xn) de variables aléatoires à valeurs dans Rd converge en loi
vers la variable aléatoire X sur Rd si la suite (PXn) converge étroitement vers PX.
Autrement dit, la suite (Xn) converge en loi vers X si pour toute fonction f ∈
Cb(Rd) l’on a que
E[f (Xn)] −→ E[f (X)] .
n→∞
Comme remarqué plus haut, la convergence en loi de variables aléatoires est une
propriété de leurs lois, plutôt que des variables aléatoires elles-même. Ainsi, si (Xn)
converge en loi vers X, alors (Xn) converge également en loi vers n’importe quelle
variable aléatoire X ′ de même loi que X !
On notera respectivement
(e)
µn−→ µ ,
loi
Xn−→X ,
pour dire qu’une suite de mesures de probabilités converge étroitement vers µ (respectivement, qu’une suite de variables aléatoires converge en loi vers X).
8.1.1 Exemples élémentaires
Lois sur N
Proposition 8.2. Une suite (µn) de mesures de probabilités sur N converge étroitement vers la mesure de probabilités µ sur N si et seulement si µn(k) → µ(k) pour tout
k ∈ N. De façon équivalente, une suite de variables aléatoires (Xn) à valeurs dans
N converge en loi vers la variable aléatoire X à valeurs dans N, si et seulement si
P(Xn = k) −→ P(X = k)
n→∞
pour tout
k ∈ N.
(8.1)
Démonstration. Nous montrons la deuxième formulation de la proposition, en
termes de convergence en loi. La condition nécessaire est facile à vérifier. Si (Xn)
converge en loi vers X et si f (x) = (1 − |x − k |)+, qui est une fonction continue bornée
valant 1 en un entier k et 0 en tout autre entier, on a bien
P(Xn = k) = E[f (Xn)] −→ E[f (X)] = P(X = k)
lorsque n → ∞.
Montrons la condition suffisante, en supposant (8.1). Soit f une fonction
continue et bornée sur R. Alors
E[f (X)] =
X
f (k)P(X = k) =
f (k)P(X = k) + RN
k=0
k∈N
où RN vérifie
N
X
|RN | 6 kf k∞ P(X > N ) −→ 0.
n→∞
Bien sûr, E[f (Xn)] satisfait une propriété analogue. Soit ε > 0. Choisissons N > 0
tel que |RN | < ε/(2kf k∞). Notons que l’on a
P(Xn > N ) = 1 − P(Xn 6 N ) = 1 −
N
X
k=0
P(Xn = k) −→ 1 −
n→∞
N
X
k=0
P(X = k) = P(X > N ) ,
101
8.1 Convergence étroite, convergence en loi
et par conséquent, on il existe n0 tel que pour tout n > n0, on ait P(Xn > N ) <
ε/(2kf k∞). Pour un tel choix de N et n0, on a alors
N
N
X
X
|E[f (Xn)] − E[f (X)]| 6 f (k)P(Xn = k) −
f (k)P(X = k) + ε ,
k=0
k=0
et donc la limite supérieure du membre de gauche est majorée par ε. On conclut. Par exemple, si Poi(θ) est la loi de Poisson de paramètre θ, et si la suite numé(e)
rique (θn) converge vers θ > 0, alors Poi(θn)−→Poi(θ).
Lemme de Scheffé et convergence ponctuelle de densités
La proposition suivante est une sorte d’analogue « continu » de la proposition
précédente.
Proposition 8.3. Soit (fn) une suite de densités de probabilités sur Rd. On suppose
que fn(x) → f (x) pour presque tout x ∈ Rd, où f est une densité de probabilités.
Alors
(e)
fn(x)dx −→ f (x)dx.
n→∞
Démonstration. Sous les hypothèses de la proposition, on a que fn −→ f dans
L1(Rd). En effet, ceci s’obtient facilement en appliquant le lemme de Fatou à la suite
de fonctions positives
hn = fn + f − |fn − f | = 2 f ∧ fn.
On obtient ainsi que, sous nos hypothèses,
Z
Z
Z
Z
|fn − f | > 2
f − limsup
hn = 2
liminf
Rd
Rd
Rd
Rd
liminf fn ∧ f = 2
R
En soustrayant on voit que limsup Rd |fn − f | = 0.
Ensuite, soit g une fonction continue bornée sur Rd. On a
Z
Z
6 kgk∞kf − fn k1 −→ 0.
g(x)f
(x)dx
−
g(x)f
(x)dx
n
Rd
Z
f.
Rd
n→∞
Rd
Ainsi, on voit par exemple que les lois exponentielles de paramètre θn convergent
étroitement vers la loi exponentielle de paramètre θ > 0 dès lors que θn → θ.
Remarque. La convergence étroite est une notion de convergence qui provient
d’une topologie (dite topologie étroite) sur l’ensemble des mesures de probabilités sur
Rd. Si l’on voit ce dernier comme un sous-espace du dual de l’espace (Cb(Rd), k·k∞),
une mesure de probabilités µ étant clairement associée à la forme linéaire continue
sur Cb(Rd)
Z
f 7→
f (x)µ(dx) ,
Rd
alors la topologie étroite est la restriction à ce sous-espace de la topologie dite faible*.
102
Convergence en loi et théorème central limite
Terminons avec un exemple « mixte », illustrant comment les lois continues
peuvent être approchées étroitement par des lois discrètes.
Exemple d’approximation de la mesure de Lebesgue
Pour illustrer la notion de convergence étroite, notons que si
n
µn(dx) =
1 X
δk/n ,
n+1
k=0
alors µn converge étroitement vers la mesure
R de Lebesgue sur [0, 1]. En effet, si f est
une fonction continue bornée, l’intégrale R f (x)µn(dx) est une somme de Riemann
R 1
de f , qui converge vers 0 f (x)dx. Ainsi, une variable aléatoire uniforme sur {0,
1/n, 2/n..., n/n} converge en loi vers une variable aléatoire uniforme sur [0, 1].
8.1.2 Liens avec les autres notions de convergence.
Le lien avec les notions de convergences déjà étudiées est donné par les résultats
suivants.
Convergence en probabilité
Proposition 8.4. Soit (Xn) une suite de variables aléatoires convergeant en probabilité vers X. Alors Xn converge en loi vers X.
Démonstration. Supposons que (Xn) converge en probabilités vers X. Supposons
par l’absurde que Xn ne converge pas en loi vers X, et donc qu’il existe une fonction
f continue bornée, et un ε > 0, tels que
|E[f (Xn)] − E[f (X)]| > ε
pour tout n dans un ensemble A = {n1, n2, ...} infini, avec n1 < n2 < ....
Or on sait que l’on peut extraire une suite extraite de (Xnk) qui converge p.s. vers
X. Comme f est continue et bornée, le théorème de convergence dominée montre
alors que E[f (Xnk)] −→ E[f (X)] le long de cette sous-suite, ce qui est évidemment
absurde.
Il existe une situation où la réciproque est vraie.
Proposition 8.5. Si la suite de variables aléatoires (Xn) converge en loi vers une
variable aléatoire constante p.s. (c’est-à-dire que sa loi est une masse de Dirac),
alors elle converge en probabilité.
loi
Démonstration. Supposons que Xn−→ c où c ∈ Rd est une constante. Fixons ε > 0.
Posons f (x) = min (|(x − c)/ε|, 1), de sorte que f est continue, bornée, nulle en c, et
vérifiant 1{|x−c|>ε} 6 f(x) pour tout x. Alors
P(|Xn − c| > ε) = E[1{|Xn −c|>ε}] 6 E[f (Xn)] −→ E[f (c)] = 0.
n→∞
Remarque. Cette dernière propriété peut paraître un peu surprenante au premier
abord : en effet, la convergence en loi ne dépend pas de l’espace de probabilités sur
lequel on se place, au contraire de la convergence en probabilité. La subtilité est que
la probabilité P(|Xn − X | > ε) ne dépend, dans le cas où X est une constante, que
de la loi de Xn !
8.1 Convergence étroite, convergence en loi
103
Convergence en variation totale
Comme il a été vu au cours d’intégration du premier semestre, il y a, en plus de
la topologie étroite, une autre topologie naturelle sur les mesures de probabilités sur
Rd. En effet, on peut voir ces dernières comme un sous-ensemble convexe fermé de
l’espace de Banach des mesures signées sur Rd, muni de la norme de variation totale
k·k. Plus précisément, supposons que ν soit une mesure signée sur Rd, de masse
totale ν(Rd) = 0. Alors pour tout A ∈ B(Rd), on a ν(A) + ν(Ac) = ν(Rd) = 0, et donc
2|ν(A)| = |ν(A) − ν(Ac)| 6 |ν(A)| + |ν(Ac)| 6 kν k ,
par définition de la variation totale. Mais d’autre part, rappelons que la décomposition de Jordan de ν exprime qu’il existe B ∈ B(Rd) tel que ν(· ∩ B) et −ν(· ∩ B c)
sont deux mesures positives finies, et que kν k = ν(B) − ν(B c) = 2ν(B). De cela, on
déduit que
kν k = 2 sup |ν(A)| .
A∈B(Rd)
Ainsi, la suite (µn) de mesures de probabilités sur Rd converge vers µ en norme de
variation totale si et seulement si |µn(A) − µ(A)| converge vers 0 uniformément en
A ∈ B(Rd). Ceci illustre le fait que la convergence en norme de variation totale est
beaucoup plus « rigide » que la convergence étroite.
Dans le dernier exemple du paragraphe précédent, on a clairement que kµn − µk
ne converge pas vers 0, puisque par exemple µn(Q) = 1 et µ(Q) = 0.
8.1.3 Caractérisations de la convergence en loi
La définition de la convergence en loi ne fournit pas vraiment de critère pratique
pour montrer qu’une suite de variables aléatoires (Xn) donnée converge en loi. Nous
allons donc donner plusieurs formulations équivalentes.
Théorème 8.6. Soit (Xn) et X des variables aléatoires à valeurs dans Rd. Les
propositions suivantes sont équivalentes.
1. La suite (Xn) converge en loi vers X
2. pour toute fonction f bornée et 1-lipschitzienne, on a limn E[f (Xn)] =
E[f (X)]
3. pour tout ouvert O de Rd, on a liminfn P(Xn ∈ O) > P(X ∈ O)
4. pour tout fermé F de Rd, on a limsupn P(Xn ∈ F ) 6 P(X ∈ F )
5. pour tout A ∈ B(Rd) tel que P(X ∈ ∂A) = 0, on a limn P(Xn ∈ A) = P(X ∈ A)
6. pour toute fonction f : Rd → R mesurable bornée, continue PX-presque partout, on a limn E[f (Xn)] = E[f (X)].
Notons que ce théorème admet une reformulation en termes
R de convergence
étroite de mesures de probabilités : on remplacera E[f (X)] par f dµ, P(X ∈ A)
par µ(A), PX par µ, etc.
Démonstration. Les implications 1. =⇒ 2. et 6.=⇒1. sont évidentes, de même que
l’équivalence entre 3. et 4. par un simple passage au complémentaire.
104
Convergence en loi et théorème central limite
Montrons que 2.=⇒4. Soit donc F un fermé de E. Pour tout K > 0, on considère
la fonction
fF ,K (x) = (1 − Kd(x, F ))+ ,
qui est lipschitzienne et vérifie 1F 6 fF ,K 6 1. Ainsi, pour tout n ≥ 1 on a P(Xn ∈
F ) 6 E[fF ,K (Xn)], et comme on a supposé 2., on en déduit que
limsup P(Xn ∈ F ) 6 E[fF ,K (X)] .
Comme fF ,K converge vers 1F ponctuellement et est bornée par 1, on en déduit par
convergence dominée que limsupn P(Xn ∈ F ) 6 P(X ∈ F ).
Montrons que 3. et 4. impliquent 5. Soit donc A ∈ B(Rd). On applique 3. et 4.
aux ensembles A◦ et A (intérieur et adhérence de A), et on trouve
P(X ∈ A◦) 6 liminf P(Xn ∈ A◦) ≤ limsup P(Xn ∈ A ) 6P(X ∈ A ) .
Mais si l’on a P(X ∈ ∂A) = 0, alors P(X ∈ A◦) = P(X ∈ A ) = P(X ∈ A), et l’on obtient
ce que l’on voulait.
Montrons enfin que 5.=⇒6. Soit donc f une fonction continue PX -presque partout et bornée. Sans perte de généralité, on peut supposer que f est positive (on
peut en effet écrire f = f+ − f− et raisonner sur chaque terme). Soit D l’ensemble des
points de discontinuité de f . Notons d’abord que pour toute mesure de probabilités
ν sur Rd, on a
Z ∞
Z
ν({f ≥ y })dy .
(8.2)
f (x)ν(dx) =
Rd
0
C’est en effet une conséquence immédiate du théorème de Fubini, en écrivant l’intégrale
Z
Z
Z
Z
∞
ν(dx)
Rd
∞
1[0,f (x)](y)dy =
0
0
dy
Rd
ν(dx)1{f (x)≥y} .
Par ailleurs, pour tout y ≥ 0, notons A y = {x: f (x) ≥ y }. Soit x ∈ A y, de sorte que
x est limite d’une suite xn telle que f (xn) ≥ y. Si x ∈
/ D, c’est-à-dire si x est point
de continuité de f , alors on a aussi f (x) ≥ y. Donc A y ⊆ Ay ∪ D. Par ailleurs, si
f (x) > y et x ∈
/ D, alors on a également f (x ′) > y pour x ′ dans un voisinage de x.
Donc {f > y } \ D ⊆ A◦y . Finalement, on en déduit que ∂A y ⊆ {f = y } ∪ D
Par ailleurs, l’ensemble {y ≥ 0: PX ({f = y }) > 0} est au plus dénombrable. Il
est en effet la réunion des ensembles {y ≥ 0: PX ({f = y }) ≥ 1/r}, r ≥ 1, qui sont
respectivement de cardinal au plus r, puisque les ensembles {f = y } sont deux-àdeux disjoints. Par 6., on en déduit que pour Lebesgue-presque tout y ≥ 0, on a
P(Xn ∈ Ay ) → P(X ∈ A y) quand n→ ∞. Donc par convergence dominée, en utilisant
(5.2) et le fait que f est bornée, on a
Z ∞
Z
P(Xn ∈ A y)dy
f (x)PXn(dx) =
E[f (Xn)] =
0
Rd
Z kf k∞
P(Xn ∈ A y)dy
=
0
Z kf k∞
P(X ∈ Ay )dy = E[f (X)],
−→
n→∞
comme voulu.
0
8.1 Convergence étroite, convergence en loi
105
Remarque. Ce théorème est souvent appelé « théorème du porte-manteau », ce
qui peut paraître surprenant. Il semble que cela soit dû au nombre et à la variété
des énoncés équivalents qui apparaissent dans son énoncé, comme autant d’habits
appartenant à la même notion. Pour rendre les choses encore un peu plus confuses,
le mathématicien Patrick Billingsley, dans l’édition de 1999 de son livre Convergence
of probability measures, s’est permis la facétie d’attribuer ce résultat à un mathématicien imaginaire du nom de Jean-Pierre Portmanteau, citant un article tout aussi
imaginaire de 1915... En réalité, l’énoncé semble remonter à Alexandrov dans les
années 1940.
On a également la possibilité de restreindre la classe des fonctions-test. Notons
Cc(Rd) l’ensemble des fonctions continues à support compact définies sur Rd.
Proposition 8.7. Soit H un sous-ensemble de fonctions mesurables bornées définies
sur Rd, et dont l’adhérence pour la norme uniforme contient Cc(Rd). Soit (Xn) et
X des variables aléatoires à valeurs dans Rd. Si l’on a que E[f (Xn)] −→ E[f (X)]
loi
pour tout f ∈ H, alors Xn−→X.
Démonstration. Supposons dans un premier temps que les hypothèses du théorème sont vérifiées avec H = Cc(Rd). Pour r > 0, soit
χr(x) = 0 ∨ (r + 1 − |x|) ∧ 1,
de sorte que χr est positive, continue, bornée par 1, égale à 1 sur BRd(0, r) et nulle
hors de BRd(0, r + 1). Si f ∈ Cb(Rd) alors fχr ∈ Cc(Rd), et donc E[(fχr)(Xn)] −→
E[(fχr)(X)] par hypothèse. On a alors
|E[f(Xn)] − E[f (X)]| 6 |E[(fχr)(Xn)] − E[(fχr)(X)]|
+kf k∞(E[(1 − χr)(Xn)] + E[(1 − χr)(X)])
Pour conclure, notons que E[χr(Xn)] → E[χr(X)], et donc
limsup |E[f (Xn)] − E[f (X)]| 6 2kf k∞ E[(1 − χr)(X)] 6 2kf k∞ P(|X | > r).
n→∞
La quantité de droite converge vers 0 lorsque r → ∞, et on conclut dans ce cas.
Dans le cas général où H est un ensemble de fonctions mesurables dense dans
Cc(Rd), donnons-nous f ∈ Cc(Rd), et g ∈ H telle que kf − g k∞ 6 ε/2. Alors, comme
on a |E[f (X)] − E[g(X)]| 6 kf − gk∞, et de même avec Xn à la place de X, on
déduit que
limsup |E[f (Xn)] − E[f (X)]| 6 ε + limsup |E[g(Xn)] − E[g(X)]| = ε
n→∞
n→∞
par hypothèse. On en conclut que E[f(Xn)] −→ E[f (X)] pour tout f ∈ Cc(Rd), et
on conclut par la première partie de la preuve.
On déduit des résultats précédents un critère de convergence en loi de variables
aléatoires réelles faisant intervenir les fonctions de répartition.
Corollaire 8.8. La suite (Xn) de variables aléatoires réelles converge vers la
variable aléatoire réelle X si et seulement si FXn(x) −→ FX (x) pour tout x qui
est un point de continuité de FX , c’est-à-dire que P(X = x) = 0.
106
Convergence en loi et théorème central limite
loi
Démonstration. Supposons que Xn−→X. Soit x un point de continuité de FX .
On applique le point 5. du théorème 8.6 à l’ensemble A = ]−∞, x], dont la frontière
∂A = {x} n’est pas chargée par PX puisque PX ({x}) = P(X = x). On obtient bien
que
lim P(Xn 6 x) = P(X 6 x) .
n→∞
Réciproquement, supposons que FXn → FX en tout point de continuité de FX . Notons
D l’ensemble des points de discontinuité de FX . Alors D est au plus dénombrable.
De plus, si a, b ∈
/ D et a < b, on a que
P(Xn ∈ ]a, b]) = FXn(b) − FXn(a) −→ FX (b) − FX (a) = P(X ∈ ]a, b]).
Soit H l’espace vectoriel engendré par les fonctions 1]a,b] avec a, b ∈ R\D. Alors la
convergence ci-dessus s’étend, par linéarité de l’espérance, à E[f (Xn)] −→ E[f (X)]
pour tout f ∈ H. Comme H est dense dans Cc(Rd) pour la norme uniforme, on
conclut par la proposition 8.7.
Enfin, nous montrons que la convergence en loi peut être formulée en termes des
fonctions caractéristiques.
Théorème de Lévy. La suite de mesures de probabilités (µn) sur Rd converge
étroitement vers la mesure de probabilités µ si et seulement si pour tout ξ ∈ Rd, on a
µ̂n(ξ) −→ µ̂(ξ) .
n→∞
Autrement dit, la suite de variables aléatoires (Xn) converge en loi vers X si et
seulement si, pour tout ξ ∈ Rd, on a
ϕXn(ξ) −→ ϕX (ξ) .
n→∞
(e)
Démonstration. La condition nécessaire est facile : si µn−→ µ, alors, comme pour
d
iξx
Rtoutiξxξ ∈ R , la fonction x 7→ e Restiξxcontinue et bornée, on a bien que µ̂n(ξ) =
e µn(dx) converge vers µ̂(ξ) = e µ(dx).
Pour le sens réciproque, supposons que µ̂n → µ̂ ponctuellement. Soit f ∈ Cc(Rd).
Si f était la transformée de Fourier d’une fonction ϕ, l’on pouvait écrire
Z
Z
ϕ(ξ)µ̂n(ξ)dξ
f(x)µn(dx) =
Rd
Rd
par la formule de réciprocité de la transformation de Fourier, et essayer de passer à
la limite dans l’intégrale. L’idée est donc de remplacer f par une fonction proche,
qui soit une transformée de Fourier. Soit σ > 0, et soit gσ la densité gaussienne de
la loi N (0, σ 2). La transformée de Fourier de gσ ∗ f est (2π/σ 2)d/2 g1/σ fˆ, qui est
dans L1. En effet, le fait que f soit à support compact implique que fˆ est bornée,
et g1/σ est dans L1. On note Rϕ = (2π/σ 2)d/2 g1/σ fˆ cette fonction, où l’on rappelle
la notation Rϕ(x) = ϕ(−x). La formule d’inversion de Fourier implique que ϕ̂ = f ,
et l’on a donc par la discussion ci-dessus que
Z
Z
gσ ∗ f (x)µn(dx) =
ϕ(ξ)µ̂n(ξ)dξ.
Rd
Rd
107
8.2 Le théorème central limite
Comme |µ̂n(ξ)| 6 1 et |ϕ(ξ)| 6 (2π/σ 2)d/2 fˆ ∞ g1/σ(ξ) est intégrable, la convergence
dominée montre que ceci converge lorsque n → ∞ vers
Z
Z
ϕ(ξ)µ̂(ξ)dξ =
gσ ∗ f (x)µ(dx) ,
Rd
Rd
où l’on a utilisé à nouveau la formule de réciprocité.
R
R
Nous avons donc obtenu que
h dµn −→ h dµ pour toute fonction h dans
l’ensemble H = {gσ ∗ f : f ∈ Cc(Rd) , σ > 0}. Comme on a que gσ ∗ f converge vers f
uniformément pour tout f ∈ Cc(Rd) par la proposition 1.9, on obtient que H est
dense dans Cc(Rd) pour la norme uniforme, et on conclut par la proposition 8.7. 8.2 Le théorème central limite
Si X1, X2, ... sont des variables aléatoires i.i.d. dans L1, la loi des grands nombres
stipule que Sn/n converge vers E[X1] p.s. Comme on l’a dit au début du chapitre,
on cherche à donner un développement à l’ordre supérieur dans cette convergence, en
donnant la vitesse à laquelle la quantité (Sn/n) −E[X1] converge vers 0. Notons que
si les variables aléatoires considérées sont en fait dans L2, on a que la variance de Sn
est de n Var(X1), ce qui indique que la distance à la moyenne de Sn est typiquement
√
de l’ordre de n . Ceci justifie la renormalisation choisie dans l’énoncé suivant.
Théorème central limite. Soit (X1, X2, ...) une suite de variables aléatoires réelles
dans L2 , indépendantes et de même loi. On suppose que σ 2 = Var(X1) > 0. Soit
Sn = X1 + ··· + Xn. Alors on a
Sn − nE[X1] loi
√
−→ N (0, 1) .
n→∞
σ n
Démonstration. Quitte à remplacer Xn par Xn − E[X1], on suppose sans perte de
généralité que les variables aléatoires sont centrées. Sous l’hypothèse que X1 ∈ L2,
la fonction caractéristique ϕX est de classe C 2(R, C), et l’on a, par la formule de
Taylor-Young,
σ2
ϕX (ξ) = 1 − ξ 2 + o(ξ 2).
2
√
Calculons alors la fonction caractéristique de Sn/σ n : comme les X j , j > 1 sont
indépendantes et de même loi,
n
Y
√ √ √
E eiXjξ/σ n = ϕX1(ξ/σ n )n.
ϕSn/σ√n (ξ) = E ei(X1 +···+Xn)ξ/σ n =
j=1
Donc, pour tout ξ ∈ R,
ϕSn/σ
√
n
ξ2
1
+o
.
n (ξ) = 1 −
2n
n
108
Convergence en loi et théorème central limite
Pour n assez grand la quantité entre parenthèses est dans la boule ouverte de rayon
1 centrée en 1, et on peut prendre la détermination principale du logarithme (ne pas
oublier que la quantité entre parenthèses est un nombre complexe)
2
ξ
ξ2
1
√
ϕSn/σ n (ξ) = exp n Log 1 −
−→ exp −
.
+o
n→∞
2
2n
n
On reconnaît la transformée de Fourier de la densité gaussienne standard g1, et on
conclut par le théorème de Lévy.
Voici comment Galton décrit l’impression qu’exerce sur lui ce théorème.
I know of scarcely anything so apt to impress the imagination as
the wonderful form of cosmic order expressed by the "Law of Frequency
of Error". The law would have been personified by the Greeks and
deified, if they had known of it. It reigns with serenity and in complete
self-effacement, amidst the wildest confusion. The huger the mob, and
the greater the apparent anarchy, the more perfect is its sway. It is
the supreme law of Unreason.
Les Grecs l’auraient déifiée ! Pourquoi cette fascination ? Entre autres, du fait du
caractère universel de la loi gaussienne qui est révélé par ce théorème. Sous la simple
hypothèse de l’existence d’un moment d’ordre 2, c’est toujours la loi gaussienne qui
régit les fluctuations de la somme d’une suite de variables aléatoires indépendantes
et de même loi. Il y a aussi une forme de « miracle » dans le fait que la densité de
la loi qui apparaît ainsi soit explicite, et aussi simple.
Expliquons davantage la signification de ce théorème. Par la caractérisation de
la convergence en loi par les fonctions caractéristiques, et comme la loi gaussienne
est diffuse et admet donc une fonction caractéristique continue en tout point, on
voit que le théorème est équivalent à dire que pour tout x ∈ R,
Z x −y 2/2
e
Sn − nE[X1]
√
√
6 x −→
dy ,
P
n→∞
σ n
2π
−∞
ou encore, que pour tout a, b ∈ R avec a < b,
Z b −y 2/2
e
Sn − nE[X1]
√
√
P a6
6 b −→
dy .
n→∞
σ n
2π
a
Application aux statistiques : estimation paramétrique et intervalles de
confiance
Cette reformulation a une importance cruciale en statistiques. Pour fixer les
idées, la problématique de base de la statistique inférentielle est, étant donnée une
réalisation donnée d’une suite de variables aléatoires i.i.d. X1(ω), X2(ω), ..., Xn(ω),
de déterminer avec la meilleure précision possible la loi inconnue de ces variables
aléatoires, ou certaines fonctions naturelles de cette loi.
Par exemple, si l’on veut connaître l’espérance m de X1 (en supposant qu’elle
existe), il est naturel de l’estimer à l’aide de la moyenne empirique des observations
mn(ω) =
X1(ω) + ··· + Xn(ω)
,
n
8.2 Le théorème central limite
109
dont on sait qu’elle converge pour presque tout ω vers E[X1]. On dit que mn est un
estimateur consistant de m.
Sous l’hypothèse que X1 est dans L2, le théorème central limite détermine l’erreur
asymptotique que l’on commet en assimilant mn à m. Plus précisément, pour tout
x > 0 on a
Z ∞ −y2/2
σx
e
√ dy .
(8.3)
P |mn − m| > √
−→ 2
n→∞
n
2π
x
Si l’on choisit x = 1, 96, alors le membre de droite est inférieur à 0, 05. Ceci signifie
que pour n √
assez grand, l’erreur que l’on commet en assimilant mn à m sera au plus
de 1, 96.σ/ n , avec probabilité supérieure à 95%. On dit que l’intervalle
1, 96.σ
1, 96.σ
(8.4)
mn(ω) − √ , mn(ω) + √
n
n
est un intervalle de confiance (asymptotique, bilatère) pour m à 95%. Noter que
l’on a ici deux niveaux d’incertitude, ce qui est une situation typique en statistiques :
•
on ne peut évidemment pas prétendre déterminer la valeur exacte de m à
l’aide d’un nombre fini d’observations, mais seulement donner un intervalle
de valeurs plausibles, et
•
on ne peut pas être parfaitement certain que m appartient à cet intervalle de
confiance, mais seulement déterminer la probabilité qu’il s’y trouve.
C’est sans doute avec ces applications statistiques à l’esprit que Galton parle du
théorème central limite comme de la « loi de la fréquence des erreurs ».
Il y a une confusion fréquemment faite sur le dernier point : comme m n’est pas
une variable aléatoire, comment peut-on parler de la probabilité qu’il se trouve dans
un intervalle ? Il faut comprendre qu’ici, c’est l’intervalle qui est aléatoire (il dépend
de mn(ω), donc des observations).
Prenons pour illustrer ceci l’exemple d’un sondage sur une opinion binaire («
oui ou non »). On partage la population française, de N individus, en deux parties
de tailles N0 et N1 selon l’opinion (non/oui), et on note p = N1/N la proportion des
habitants ayant l’opinion « oui ». C’est ce paramètre p, inconnu, qui intéresse le
sondeur. Pour l’estimer, il va contacter un nombre n d’individus très petit devant N
(typiquement, n = 1000 dans la vraie vie), et recueillir leur opinion. Si les individus
sont choisis indépendamment et uniformément, on voit que la suite X1, X2, ..., Xn
des opinions recueillies est i.i.d. de loi de Bernoulli de paramètre p (si l’on déclare
que Xi = 1 si le i-ième individu contacté est d’opinion « oui », et Xi = 0 sinon).
Pour estimer p à partir des informations recueillies, le sondeur forme la moyenne
empirique
X1(ω) + ··· + Xn(ω)
pn(ω) =
,
n
et en vertu des résultats précédents, il forme l’intervalle de confiance (8.4). Cepenp
dant, on doit prendre garde au fait que dans cette situation, σ = p(1 − p) est un
paramètre inconnu également. On peut néanmoins le majorer par 1/2, si bien que
0, 98
0, 98
pn(ω) − √ , pn(ω) + √
n
n
110
Convergence en loi et théorème central limite
est un intervalle de confiance asymptotique à 95% pour p.
Pour que ce résultat soit parfaitement valide, il faudrait également estimer
l’erreur commise en assimilant le membre de gauche de (8.3) et sa limite lorsque
n → ∞. Ce genre d’estimation est possible, par exemple à travers le théorème de
Berry-Esseen, même s’il requiert des hypothèses de moment supplémentaires. Néanmoins, ce résultat peut déjà nous
√ renseigner sur la qualité d’un sondage auprès de
1000 personnes : on a que 0, 98/ 1000 = 0, 03099..., ce qui signifie que l’intervalle de
confiance est de rayon 3%. Autrement dit, avec une probabilité de l’ordre de 95% au
mieux, le paramètre p égale le résultat du sondage pn(ω) à plus ou moins 3% près.
8.3 Vecteurs aléatoires gaussiens et théorème central limite multidimensionnel
Il existe une extension du théorème central limite au cas de variables aléatoires à
valeurs dans Rd. Avant de l’énoncer, nous devons comprendre un peu mieux la nature
des variables aléatoires gaussiennes à valeurs dans Rd.
8.3.1 Vecteurs aléatoires gaussiens
Rappelons que pour m ∈ R et σ > 0, la loi N (m, σ 2) est la mesure de probabilités
sur R de densité
1
(x − m)2
,
x ∈ R.
exp −
2σ 2
(2πσ 2)1/2
On étend cette définition au cas où σ = 0 en disant que la loi N (m, 0) est δm, ce qui
est cohérent avec le fait que gσ soit une approximation de δ0 pour la convolution,
lorsque σ → 0.
En particulier, si X est une v.a. de loi N (0, σ 2), alors X + m a pour loi N (m, σ 2).
Définition 8.9. Un vecteur aléatoire X = (X1, ..., Xd) à valeurs dans Rd est appelé
un vecteur aléatoire gaussien si toute combinaison linéaire hξ , X i = ξ1X1 + ··· + ξdXd,
avec ξ ∈ Rd est une variable aléatoire gaussienne réelle, c’est-à-dire qu’il existe
m ξ ∈ R, σ ξ > 0 tels que hξ , X i a pour loi N (m ξ , σ 2ξ ).
Remarque. Attention, cette propriété est plus forte que de stipuler que les variables
aléatoires X1, ..., Xd sont des variables gaussiennes. Pour s’en convaincre, soit X une
v.a. de loi N (0, 1), et soit ε une v.a. indépendante de X de loi uniforme sur {−1, 1}.
Alors X et εX sont toutes deux de loi N (0, 1). En revanche, la loi de X + εX n’est
pas gaussienne, car P(X + εX = 0) = P(ε = −1) = 1/2. Donc (X , εX) n’est pas un
vecteur aléatoire gaussien.
Soit X un vecteur aléatoire gaussien à valeurs dans Rd. Notons m = (m1, ..., md)
son espérance, et Σ = (Cov(Xi , X j ), 1 6 i, j 6 d) sa matrice de variance-covariance.
Rappelons que Σ est une matrice symétrique positive. Remarquons alors que pour
tout ξ ∈ Rd, l’on a que
E[hξ, X i] = hξ, mi
8.3 Vecteurs aléatoires gaussiens et théorème central limite multidimensionnel
111
et que
Var(hξ, X i) = hΣξ , ξ i.
De ce fait, on voit que la loi de hξ , X i, qui est supposée être gaussienne par définition,
est N (hξ , mi, hΣξ, ξ i), et est donc entièrement déterminée par m et Σ. De plus, on
a que la fonction caractéristique de X est donnée par
hΣξ, ξ i
ihξ,X i
ϕX (ξ) = E[e
] = exp ihξ , mi −
,
2
puisque c’est la transformée de Fourier de la loi N (hξ, mi, hΣξ, ξ i) évaluée en 1. À
son tour, la fonction ϕX ne dépend que de m, Σ, et par conséquent, pour un couple
(m, Σ) donné, la loi d’un vecteur gaussien d’espérance m et de matrice de variancecovariance Σ, si elle existe, est unique.
Remarquons que réciproquement, si la fonction caractéristique de X est donnée
par (8.9), alors on a bien que X est un vecteur aléatoire gaussien d’espérance m et
de matrice de variance-covariance ΣX = Σ. puisque pour tout ξ ∈ Rd, on a alors, en
changeant ξ en tξ dans (8.9) avec t ∈ R, on a
hΣξ, ξ it2
ithξ,X i
E[e
] = exp ithξ, mi −
,
2
c’est-à-dire que hξ , mi a pour loi N (hξ, mi, hΣξ , ξ i), d’où l’on tire que pour tout
ξ ∈ Rd,
E[hξ, X i] = hξ, mi , Var(hξ , X i) = hΣξ, ξ i,
et donc m = E[X], et Σ = ΣX .
Nous notons N (m, Σ) la loi dont la transformée de Fourier est (8.9), sous réserve
qu’elle existe. Nous allons montrer que c’est bien le cas pour tout m ∈ Rd et tout Σ
symétrique positive. Pour ce faire, notons que les lois gaussiennes sont préservées
par les applications linéaires, comme l’indique le résultat suivant.
Lemme 8.10. Soit X un vecteur aléatoire gaussien de loi N (m, Σ) sur Rd. Soit
A ∈ Mk,d(Rd). Alors AX est un vecteur aléatoire gaussien à valeurs dans Rk, de loi
N (Am, AΣAT ).
À ce stade, il faut encore comprendre ce lemme sous la forme « si la loi N (m, Σ)
existe, alors la loi N (Am, AΣAT ) existe également. Nous avons énoncé ce résultat
en anticipant le résultat de la proposition 8.11.
Démonstration. Soit ξ ∈ Rk. Alors on a que hξ, AX i = hATξ, X i et donc
T
E[eihξ,AX i] = E eihA ξ,X i
hΣATξ, ATξ i
T
= exp ihA ξ , mi −
2
T
hAΣA ξ, ξ i
= exp ihξ , Ami −
,
2
d’où le résultat.
112
Convergence en loi et théorème central limite
Proposition 8.11. Soit m ∈ Rd, et Σ ∈ Md(R) une matrice symétrique positive.
Alors il existe un vecteur gaussien d’espérance m et de matrice de variance-covariance Σ.
Démonstration. Traitons d’abord le cas où m = 0 et où Σ = Id. Il suffit pour cela
de prendre un vecteur aléatoire X = (X1, ..., Xd) dont les composantes sont des
variables aléatoires i.i.d. de loi N (0, 1) : en effet on a pour tout ξ ∈ Rd
ihξ,X i
E[e
]=
d
Y
j =1
E[e
iξ jXj
]=
d
Y
e
−
ξ2
j
2
=e
−
|ξ|2
2
j=1
(on aurait également pu invoquer des résultats déjà connus de la transformée de
Fourier de densités gaussiennes sur Rd).
Pour traiter le cas général, on se donne (Y1, ..., Yd) de loi N (0, Id). Comme Σ
est
√ symétrique positive, elle admet une unique racine carrée symétrique positive
Σ (on diagonalise Σ = PDP −1 avec D à diagonale positive et P ∈ O(d), et on pose
√
√
√
Σ = P D P−1). Posons X = m + Σ Y . Par le lemme 8.10, cette variable aléatoire
√
√ T
a pour loi N m, Σ Id Σ = N (m, Σ).
Il est très utile en pratique de se souvenir qu’une variable aléatoire ayant cette
loi peut se définir par une simple transformation linéaire à partir d’une suite de
variables i.i.d. (Y1, ..., Yd) de loi N (0, 1), comme on l’a fait dans la preuve précédente.
Comme autre application simple du lemme 8.10, notons une propriété fondamentale des lois gaussiennes dans le cas où Σ est une matrice scalaire.
Proposition 8.12. Pour tout σ > 0, la loi N (0, σ 2Id) est invariante par l’action
du groupe orthogonal de Rd : si X a pour loi N (0, σ 2Id), alors pour tout matrice
orthogonale P, PX a même loi que X.
Exercice 8.1. Montrer que cette propriété d’invariance caractérise les lois gaussiennes de
matrice de variance-covariance scalaire et d’espérance nulle parmi toutes les lois gaussiennes.
Une autre propriété cruciale est que, pour les vecteurs aléatoires gaussiens, indépendance et décorrélation sont équivalentes.
Proposition 8.13. Soit (X1, ..., Xd , X1′ , ..., Xd′ ′) un vecteur aléatoire gaussien. On
suppose que pour tout i, j ∈ {1, 2, ..., d} × {1, 2, ..., d ′}, on a Cov(Xi , X j′ ) = 0. Alors les
vecteurs aléatoires gaussiens X = (X1, ..., Xd) et X ′ = (X1′ , ..., Xd′ ′) sont indépendants.
Démonstration. Nos hypothèses impliquent que la matrice de variance-covariance
Σ(X ,X ′) de (X1, ..., Xd , X1′ , ..., Xd′ ′) est diagonale par blocs de tailles d et d ′. Si ξ , ξ ′
′
′
sont respectivement dans Rd et Rd , et (ξ , ξ ′) est le vecteur de Rd+d obtenu en les
concaténant, alors en notant m = E[X], m ′ = E[X ′], Σ = ΣX et Σ ′ = ΣX ′, la fonction
caractéristique de (X , X ′) est donc donnée par
′ ′
′
hΣξ,
ξ
i
+
hΣ
ξ
,
ξ
i
ϕ(X ,X ′)((ξ , ξ ′)) = exp ihξ, mi + ihξ ′, m ′i −
2
ce qui se factorise en ϕX (ξ) ϕX ′(ξ ′). On applique alors le critère d’indépendance à
l’aide des fonctions caractéristiques.
8.3 Vecteurs aléatoires gaussiens et théorème central limite multidimensionnel
113
Terminons ces généralités sur les vecteurs aléatoires gaussiens en mentionnant
que, contrairement au cas de la dimension 1, un vecteur aléatoire de loi N (m, Σ)
n’admet pas nécessairement de densité par rapport à la mesure de Lebesgue.
Proposition 8.14. Soit m ∈ Rd et Σ une matrice symétrique positive. Si Σ est
définie positive, alors la loi N (m, Σ) admet une densité par rapport à la mesure de
Lebesgue sur Rd, donnée par
1
hΣ−1(x − m), (x − m)i
p
,
x ∈ Rd.
exp −
2
det (2πΣ)
Si le rang de Σ est strictement inférieur à d, alors la loi N (m, Σ) est portée par le
sous-espace affine m + ΣRd, de dimension rg(Σ).
Démonstration.
Supposons Σ inversible. Rappelons qu’un vecteur aléatoire X =
√
m + Σ Y a la loi voulue, si Y = (Y1, ..., Yd) est de loi N (0, Id), dont la densité
est la densité gaussienne g1(x) = (2π)−d/2exp(−|x|2/2) sur Rd. Par la formule du
changement de variables (dans le cas d’un isomorphisme linéaire) on a donc, pour
toute fonction f mesurable positive,
Z
√ 1
|y |2
E[f(X)] =
f m + Σ y exp −
dy
2
(2π)d/2 Rd
 2 
√ −1
Z
dx
1
 Σ (x − m) 
√ ,
=
f (x)exp −
d/2
2
(2π)
det
Σ
Rd
et on conclut par un réagencement des termes.
La seconde partie
√ de la proposition consiste à√appliquer le même raisonnement,
en posant X = m + Σ Y , et en constatant que Σ Rd = ΣRd, ce que l’on constate
aisément en diagonalisant Σ.
8.3.2 Théorème central limite : le cas de Rd
Théorème 8.15. Soit X1, X2, ... une suite i.i.d. de variables aléatoires à valeurs
dans Rd, dont les coordonnées sont toutes dans L2. On note m = E[X1] et Σ = ΣX.
Alors, si Sn = X1 + ··· + Xn ,
Sn − nm loi
√
−→ N (0, Σ) .
n n→∞
Démonstration. Soit ξ ∈ Rd. Alors les variables aléatoires hξ, X j i, j > 1 sont i.i.d.
De plus, elles sont clairement dans L2, de moyenne hξ , mi et de matrice de variancecovariance hΣξ, ξ i. Le théorème central limite appliqué à ces variables réelles donne
que
hξ, Sn − nmi loi
√
−→ N (0, hΣξ, ξ i).
n→∞
n
Par le théorème de Lévy (dans le sens facile) ceci implique que pour tout ξ ∈ Rd,
hξ , Sn − nmi
hΣξ , ξ i
√
E exp i
−→ exp −
.
n→∞
2
n
114
Convergence en loi et théorème central limite
√
Mais on reconnaît là la convergence de la fonction caractéristique de (Sn − nm)/ n
vers la transformée de Fourier de N (0, Σ), et en utilisant le théorème de Lévy à
nouveau, on conclut.
Remarque 8.16. Nous voyons ici une autre propriété fascinante du théorème central limite : si la
√ matrice de variance-covariance de X1 est scalaire, alors la loi limite
de (Sn − nm)/ n est invariante par l’action du groupe orthogonal de Rd. C’est une
propriété de symétrie extrêmement forte !
Exercice 8.2. Soit X1, X2, ... des variables aléatoires i.i.d. uniformes dans {−1, 1}, et Sn =
X1 + ··· + Xn. Montrer que la probabilité P(Sn > 0, S2n < 0) a une limite lorsque n → ∞, et la
calculer.
8.3.3 Une application : le test d’adéquation du χ2
Soit k > 1 un entier fixé. On se donne une suite Y1, Y2, ... i.i.d. de variables aléatoires
à valeurs dans {1, 2, ..., k}.
On se place du point de vue d’un statisticien qui ignore la loi de Y1. Cette
dernière est un vecteur de probabilités p = (p1, p2, ..., pk), qui est donc inconnu
de l’observateur. Ce dernier voudrait tester l’hypothèse que p = p0, où p0 est un
vecteur de probabilités fixé. Cette hypothèse est appellée l’hypothèse nulle, et est
souvent notée H0. Le point de vue du test statistique est en quelque sorte de prendre
le point de vue d’un « procès », qui met l’hypothèse H0 à l’épreuve. On va donc
supposer H0, et essayer de déduire de nos observations Y1, Y2, ... si cette hypothèse
est vraisemblable. Dans le cas contraire, on rejettera H0. Une situation très concrète
consiste à disposer d’un dé, et de tester par une série de lancers indépendants s’il
est correctement équilibré.
Clairement, si on dispose de toutes les observations Y1, Y2, ..., la loi des grands
nombres nous permet de retrouver exactement pi comme la limite de Nn(i)/n, où
Nn(i) = #{j 6 n: Y j = i}, mais cette situation n’est pas réaliste.
Un test asymptotique couramment utilisé est le test d’adéquation du χ2, et qui
consiste à introduire la « statistique du χ2 » suivante:
2
(i)
k
Nn − np0i
X
χn =
.
0
np
i
i=1
Proposition 8.17. Sous l’hypothèse H0 que la suite Y1, Y2, ... est i.i.d. de loi
commune p0 , la variable aléatoire χn converge en loi lorsque n → ∞ vers une loi
gamma de paramètres (1/2, (k − 1)/2). Cette dernière loi est encore appelée loi du
χ2 à k − 1 degrés de liberté, et est la loi de |X |2 où X est un vecteur gaussien de loi
N (0, Ik−1).
√
Démonstration. Notons X j = ((1{Yj =i} − pi)/ pi , 1 6 i 6 k), ce qui définit pour
chaque j une variable aléatoire à valeurs dans Rk. La suite (X j , j > 1) est clairement
i.i.d., bornée et centrée, et l’on a que
2
Pn
j =1 X j χn = √
.
n 115
8.4 L’inégalité de Hœffding
Le théorème central limite multidimensionnel, en plus du fait que la fonction x 7→ |x|2
est continue de Rk dans R, montre que cette variable aléatoire converge vers |G|,
où G suite la loi N (0, Σ), où Σ = ΣX1 est la matrice de variance-covariance de X1.
Son calcul est facile :
√ √ ∗
√
Σ = δi,j − pip j 16i,j 6k = Ik − p p ,
√
√
où l’on a noté p = ( pi , 1 6 i 6 k). Comme ce vecteur est de norme euclidienne
1, on reconnaît que Σ est la matrice de projection orthogonale sur l’hyperplan
√ ⊥
p dans Rk. Cette matrice est sa propre racine carrée, Σ2 = Σ, puisque c’est un
projecteur, et par conséquent la variable aléatoire G a même loi que ΣG ′, où G ′ est
√
de loi N (0, Ik). Par ailleurs, si A est une matrice orthogonale envoyant p sur le
dernier vecteur de la base canonique de Rk, alors AΣG ′ et AG sont de même loi
N (0, P ) où P est la matrice de la projection (x1, ..., xk) 7→ (x1, ..., xk−1, 0), et donc
AG a même loi que (G1, G2, ..., Gk−1, 0), où les Gi sont indépendantes de loi N (0, 1).
Comme par ailleurs la norme de AG égale celle de G, on déduit bien que |G|2 a la
2
même loi que G21 + G22 + ··· + Gk−1
. On laisse en exercice le soin de vérifier que la loi
de cette variable aléatoire est celle annoncée.
Soit alors α ∈ (0, 1). On se donne xα > 0 tel que P(χ > xα) < α, où χ suit une loi
du χ2 à k − 1 degrés de liberté. Le résultat précédent montre que sous l’hypothèse
H0, si n est assez grand, on a que P(χn > xα) < α. Le test du χ2 consiste donc à
rejeter l’hypothèse H0 si χn > xα,
et à la conserver sinon. Le niveau (asymptotique) du test, c’est-à-dire la probabilité d’un faux positif (rejeter H0 alors qu’elle est vraie) est d’au plus α. En pratique,
la valeur α = 5% est souvent utilisée. Pour un k fixé, il est aisé de trouver de telles
valeurs de xα à l’aide d’outils numériques.
À noter que si H0 n’est pas vérifiée, c’est-à-dire que p =
/ p0, alors la statistique
2
du χ diverge par la loi des grands nombres : χn → ∞ presque surement. De ce fait,
l’hypothèse H0 sera bien rejetée avec une probabilité tendant vers 1 si n est assez
grand. Cette probabilité est appelée la puissance du test.
8.4 L’inégalité de Hœffding
Nous avons vu comment le théorème central limite permet d’obtenir de intervalles de
confiance asymptotiques pour des problèmes d’estimation statistique. Un problème
important est que ces intervalles de confiance ne sont en effet qu’asymptotiques, et
en toute rigueur on ne peut pas les appliquer en pratique à n fixé sans connaissance
supplémentaire sur l’erreur commise. Il est donc important de savoir donner des
intervalles de confiance non-asymptotiques.
Notons que le problème revient in fine à donner une borne la meilleure possible
pour des quantités de la forme
P(|Sn − E[Sn]| > x)
116
Convergence en loi et théorème central limite
où
√ Sn = X1 + ··· + Xn est une somme de v.a.i.i.d et x > 0 est typiquement de la forme
c n . Bien sûr, la première borne exacte qui vient à l’esprit est celle de BienayméChebychev, qui donne
Var(X1)
P(|Sn − E[Sn]| > x) 6 n
.
x2
√
Pour x = c n , on obtient une borne Var(X1)/c2. On voit qu’il s’agit d’une borne
relativement mauvaise si on la compare avec la borne asymptotique donnée par le
théorème central limite :
Z ∞
√
gσ(x)dx
lim P(|Sn − E[Sn]| > c n ) = 2
n→∞
c
où σ 2 = Var(X1) et gσ est la densité de la loi gaussienne N (0, σ 2). En effet, un calcul
élémentaire donne (exercice)
Z ∞
2
2
σe−c /2σ
gσ(x)dx 6 2 √
2
,
c 2π
c
qui est une borne bien meilleure que la borne de Bienaymé-Chebychev pour les
grandes valeurs de c.
Le théorème suivant montre que, si l’on s’intéresse à des variables aléatoires
bornées, il existe une borne non-asymptotique qui permet de faire presque aussi bien
que la borne asymptotique.
Théorème 8.18. Soit X1, ..., Xn des variables aléatoires indépendantes, respectivement à valeurs dans des intervalles compacts [a1, b1], ..., [an , bn]. Notons Sn =
X1 + ··· + Xn. Alors on a, pour tout x > 0,
2x2
.
P(Sn − E[Sn] > x) 6 exp − Pn
(bi − ai)2
i=1
et de plus, toujours pour x > 0,
2x2
P(|Sn − E[Sn]| > x) 6 2 exp − Pn
(bi − ai)2
i=1
.
Démonstration. Soit Y une variable aléatoire bornée, disons que Y ∈ [a, b] avec
probabilité 1, et d’espérance nulle. Considérons la transformée de log-Laplace de Y ,
définie par
Φ(λ) = ln (E[eλY ]) ,
λ ∈ R.
La fonction Φ est alors de classe C ∞(R), et l’on a
Φ ′(λ) =
E[YeλY ]
,
E[eλY ]
Φ ′′(λ) =
E[Y 2eλY ]E[eλY ] − E[YeλY ]2
.
E[eλY ]2
On peut réécrire Φ ′′(λ) sous la forme
λY
eλY 2
′′
2 e
Φ (λ) = E Y
= Varλ(Y ) ,
−E Y
E[eλY ]
E[eλY ]
117
8.4 L’inégalité de Hœffding
où nous avons noté Varλ la variance pour la nouvelle mesure de probabilités Pλ
définie par
eλY
,
Pλ(A) = E 1A
E[eλY ]
c’est-à-dire que Pλ est absolument continue par rapport à P, et de dérivée de RadonNikodym donnée par eλY /E[eλY ]. Nous en déduisons d’une part que Φ ′′(λ) > 0 pour
tout λ, c’est-à-dire que Φ est convexe, mais également que
Φ ′′(λ) = Varλ(Y ) = inf {Eλ[(Y − c)2]: c ∈ R} 6
(b − a)2
,
4
où l’on a noté Eλ l’espérance associée à Pλ, et où l’on a remarqué que la variance de
Y est la distance de Y au sous-espace des fonctions constantes dans L2(Ω, F , Pλ),
puisque Eλ[Y ] est le projeté orthogonal de Y sur ce sous-espace, et où l’on a pris
c = (b − a)/2 pour obtenir la dernière inégalité.
De cela, on déduit, en intégrant deux fois entre 0 et λ, et en constatant que
Φ(0) = Φ ′(0) = 0,
(b − a)2 2
λ ,
λ ∈ R.
(8.5)
Φ(λ) 6
8
Montrons maintenant le théorème. On fixe x, λ > 0. En appliquant l’inégalité de
Markov, puis en utilisant l’indépendance des variables aléatoires X1, ..., Xn, on a
P(Sn − E[Sn] > x) = P(exp"(λ(Sn − E[Sn])) > exp (λx))
!#
n
X
6 e−λx E exp λ
(Xi − E[Xi])
6 e−λx
i=1
n
Y
E[exp (λ(Xi − E[Xi]))]
!
n
2
X
(b
−
a
)
i
i
6 e−λx exp
λ2 .
8
i=1
i=1
À la dernière étape, on a utilisé l’inégalité (8.5) pour les variables aléatoires Xi −
E[Xi], qui sont à valeurs dans l’intervalle [ai − E[Xi], bi − E[Xi]], de diamètre
bi − ai. P
Finalement, on obtient la première inégalité de l’énoncé en choisissant
n
λ = x/(2 i=1 (bi − ai)2), ce qui revient à minimiser le majorant dans l’inégalité
précédente.
La seconde inégalité s’obtient en appliquant la première inégalité aux variables
aléatoires −X1, ..., −Xn, ce qui donne la même borne que la première pour P(−Sn +
E[Sn] > x), et en utilisant le fait que {|Sn − E[Sn]| > x} est la réunion des événements
{Sn − E[Sn] > x} et {−Sn + E[Sn] > x}.
En particulier, si les variables aléatoires (X1, ..., Xn) sont i.i.d. à valeurs dans
[a, b], on obtient que
√
2c2
P(|Sn − E[Sn]| > c n ) 6 2 exp −
.
(b − a)2
118
Convergence en loi et théorème central limite
En reprenant l’exemple des sondages, où X1 est une variable aléatoire
p de Bernoulli
de paramètre p inconnu, on a a = 0 et b = 1, et en choisissant c = ln (2/δ)/2 de
sorte que le majorant précédent soit inférieur à δ, on voit que
#
"
r
r
ln (2/δ) Sn
ln (2/δ)
Sn
−
,
+
2n
n
2n
n
est un intervalle de confiance (exact) pour p au niveau δ, c’est-à-dire que la probabilitépque cet intervalle ne contienne pas p est inférieure à δ. Pour δ = 5%, notons
que ln (2/δ)/2 = 1, 358..., à comparer avec la valeur numérique 0, 98 que l’on avait
obtenue par le théorème central limite. Il est normal d’obtenir un intervalle plus
grand, c’est-à-dire moins bon que la valeur asymptotique « idéale ».
Chapitre 9
Récurrence et transience pour
marche aléatoire simple sur Zd
la
Un problème important en probabilités est de déterminer le comportement en temps
long de processus aléatoires. L’exemple le plus fondamental est celui des marches
aléatoires dans Zd. Soit µ une loi de probabilités sur Zd, et X1, X2, ... une suite
i.i.d. de loi commune µ. Notons Sn = X1 + ··· + Xn, pour n > 1, et S0 = 0.
Considérons l’événement R = limsupn→∞ {Sn = 0} sur lequel (Sn , n > 0) prend une
infinité de fois la valeur 0. Si P(R) = 1, on dit que la marche aléatoire est récurrente.
Si P(R) = 0, on dit qu’elle est transiente.
Proposition 9.1. On a que P(R) ∈ {0, 1}, c’est-à-dire qu’une marche aléatoire est
ou bien récurrente, ou bien transiente. Cette dernière propriété ne dépend que de µ.
Il est à noter que cette proposition n’est pas une conséquence directe de la loi
du 0-1 de Kolmogorov. On peut l’obtenir par un autre type de loi du 0-1, dite loi
de Hewitt et Savage, mais nous allons donner une preuve directe de la proposition
qui ne fait pas appel à cette loi.
Pour tout x ∈ Zd, notons
"
#
X
X
X
∗n
P(Sn = x) =
µ (x) = E
g(x) =
1{Sn =x} .
n>0
n>0
n>0
Ainsi, g(x) est le nombre moyen de fois où Sn vaut x. Notons également H0 =
inf {n > 0: Sn = 0} le premier temps de retour en 0. Nous allons voir que
g(0) =
1
.
1 − P(H0 < ∞)
Pour cela, notons H0(1) = H0, et par récurrence, pour k > 2,
H0(k) = inf n > H0(k−1) : Sn = 0
(9.1)
de sorte que H0(k) est l’instant du k-ième retour en 0 pour (Sn , n > 0). Notons que
l’on note H0(k) = ∞ si l’ensemble sur lequel on prend la borne inférieure est vide, et
en particulier si H0(k−1) = ∞.
Lemme 9.2. Pour tout k > 1, on a que P H0(k) < ∞ = P(H0 < ∞)k.
119
Récurrence et transience pour la marche aléatoire simple sur Zd
120
Démonstration. La preuve est par récurrence sur k. Pour k = 1 c’est évident par
définition. Si c’est vrai au rang k, on a
P H0(k+1) < ∞ = P H0(k) < ∞, H0(k+1) < ∞
X
=
P H0(k) = r, H0(k+1) < ∞ .
r>0
(r)
Or sur l’événement H0(k) = r , on a que Sn = Xr+1 + Xr+2 + ··· + Xn = Sn−r
pour
tout n > r, où l’on a noté S0(r) = 0 et
Sn(r) = Xr+1 + ··· + Xr+n ,
n > 1,
de sorte que Sn(r); n > 0 est une marche aléatoire de même loi que (Sn , n > 0), tout
en étant indépendante de σ(X1, ..., Xr) par le lemme de regroupement par paquets.
Toujours en restriction à l’événement H0(k) = r , on a alors que H0(k+1) < ∞ si et
seulement si Sn(r) s’annule pour au moins un n > 0, et donc
(k)
H0 = r, H0(k+1) < ∞ = H0(k) = r ∩ ∃n > 0: Sn(r) = 0 .
L’événement à droite de l’intersection est mesurable par rapport à σ Sn(r), n > 0
et est donc indépendant de σ(X1, ..., Xr), tandis que celui de gauche est dans
σ(X1, ..., Xr) puisqu’on peut le réécrire comme
)
( r−1
X
(k)
1{Sn =0} = k − 1 ∩ {Sr = 0} .
H0 = r =
n=1
On conclut que les deux événements ci-dessus sont indépendants, et par conséquent
X
P H0(k+1) < ∞ =
P H0(k) = r P ∃n > 0: Sn(r) = 0
r>0
X
= P(∃n > 0: Sn = 0)
P H0(k) = r
r>0
= P(H0 < ∞)P H0(k) < ∞ ,
où l’on a utilisé le fait que Sn(r), n > 0 et (Sn , n > 0) ont la même loi. On conclut
par l’hypothèse de récurrence.
Montrons à présent l’égalité (9.1). Pour cela, on constate que
X
X
1{Sn=0} =
1nH (k) <∞o ,
n>1
de sorte que
"
g(0) = 1 + E
=
X
k>0
comme voulu.
0
k>1
X
k>1
1n
(k)
H0 <∞
P(H0 < ∞)k =
o
#
1
,
1 − P(H0 < ∞)
Récurrence et transience pour la marche aléatoire simple sur Zd
121
Nous pouvons maintenant donner la preuve de la proposition 9.1.
P
• Si P(H0 < ∞) < 1, alors g(0) < ∞ par (9.1). Donc n>0 1{Sn =0} < ∞ avec
probabilité 1. On a ainsi que P(R) = 0, et la marche aléatoire est transiente.
• Si P(H0 < ∞) = 1, le lemme 9.2 montre que P H0(k) < ∞ = 1 pour tout k > 1.
Comme H0(k) < ∞ est l’événement que (Sn , n > 0) prend au moins k + 1 fois
la valeur 0, ces événements décroissent vers l’événement R lorsque k → ∞.
On obtient donc que P(R) = 1, et la marche est récurrente.
Notons au passage que nous avons obtenu le résultat suivant.
Proposition 9.3. La marche aléatoire (Sn , n > 0) est récurrente si et seulement si
P(H0 < ∞) = 1, et ce si et seulement si g(0) = ∞.
Nous allons maintenant donner un résultat important dans le cas particulier de la
marche aléatoire simple sur Zd, que nous définissons maintenant. Notons (e1, ..., ed)
la base canonique de Rd. La marche aléatoire simple sur Zd est la marche aléatoire
correspondant au choix de µ soit donné par
µ({x}) =
1
,
2d
x ∈ {e1, ..., ed , −e1, ..., −ed },
et µ(x) = 0 si x ∈
/ {e1, ..., ed , −e1, ..., −ed }. Ainsi, à chaque pas, la marche aléatoire
choisit uniformément au hasard l’un de ses 2d voisins et s’y déplace.
Théorème 9.4. La marche aléatoire simple sur Zd est récurrente si d ∈ {1, 2}, et
transiente si d > 3.
Remarque. Dans le cas où d = 1, nous avons déjà montré ce résultat, qui découle
immédiatement du corollaire 6.17, qui découlait de la loi du 0-1 de Kolmogorov.
Néanmoins, nous allons redonner une preuve également dans ce cas à l’aide des outils
développés dans ce chapitre, car cette preuve resservira pour le cas d = 2.
Démonstration. Commençons donc par le cas où d = 1. Dans ce cas, on a immédiatement que P(Sn = 0) = 0 si n est impair, et P(S2n = 0) = P(X1 + ··· + X2n = 0)
où X1, X2.... sont i.i.d. avec P(X1 = 1) = P(X1 = −1) = 1/2. L’événement ci-dessus
correspond au fait que parmi les valeurs (X1, ..., X2n), exactement n sont égales à
−1, et les n autres valent 1. Comme il y a 2n
choix des indices correspondants, on
n
obtient que
1 2n
1
P(S2n = 0) = 2n
∼ √ ,
n n→∞ πn
2
grâce à la formule de Stirling. On en déduit immédiatement que
X
P(Sn = 0) =∞,
g(0) =
n>0
et donc que la marche aléatoire est récurrente.
122
Récurrence et transience pour la marche aléatoire simple sur Zd
Dans le cas où d = 2, on a toujours P(Sn = 0) = 0 si n est impair. Pour calculer
P(S2n = 0), on a recours à une astuce. Si X1 est une variable aléatoire de loi µ, et
si R est la rotation de centre 0 et d’angle π/4 de R2, alors R(X1) est une variable
√
aléatoire égale à chacune des √
quatre valeurs 2 /2(±1, ±1) avec même probabilité.
Ainsi, R(X1) a même loi que 2 /2(X1′, X1′′) où X1′, X1′′ sont des variables aléatoires
indépendantes, réelles, de même loi, telles que P(X1′ = 1) = P(X1′ = −1) = 1/2.
√
Finalement, on voit que (R(Sn), n > 0) a même loi que
2 /2(Sn′ , Sn′′), n > 0 , où
(Sn′ , n > 0) et (Sn′′, n > 0) sont deux marches aléatoires simples indépendantes à
valeurs dans Z. De ce fait, on a que
1
′
′′
P(S2n = 0) = P(S2n
= 0)P(S2n
= 0) ∼
,
n→∞ πn
en utilisant le cas précédent. On voit une nouvelle fois que g(0) = ∞, et donc la
marche est récurrente.
L’astuce précédente de fonctionne plus en dimension supérieure à 3. On a donc
recours au lemme suivant, valable pour toutes les marches aléatoires sur Zd.
Lemme 9.5. La marche aléatoire (Sn , n > 0) est récurrente si et seulement si
Z
1
dξ = ∞.
ℜ
lim
1 − tϕ µ(ξ)
t↑1 [−π,π]d
Démonstration. En vertu de la discusion précédente, il suffit de montrer que la
limite considérée est égale à cg(0) où c est une constante strictement positive finie.
Posons
X
gt(0) =
tnP(Sn = 0)
n>0
de sorte que gt(0) converge vers g1(0) = g(0) lorsque t↑1 par convergence monotone.
On remarque alors que la fonction caractéristique de Sn est µ̂ n puis que
Z
1
ϕ µ(ξ)ndξ .
(9.2)
P(Sn = 0) =
(2π)d [−π,π]d
Ceci est un fait général : si ν est une loi de probabilités sur Zd, alors
X
eihξ,xiν({x})
ϕν (ξ) =
x∈Zd
et donc, par convergence dominée,
Z
X Z
ϕν (ξ)dξ =
[−π,π]d
x∈Zd
eihξ,xiν({x})dξ .
[−π,π]d
On voit que cette dernière intégrale est nulle dès que l’une des coordonnées de x est
non nulle (car ces coordonnées sont entières), et elle vaut (2π)d ν({0}) sinon. En
appliquant ceci à µ∗n, de sorte que µ∗n({0}) = P(Sn = 0), on voit que l’on a (9.2).
Pour conclure, on somme ces égalités : pour tout t ∈ [0, 1[
Z
Z
X
X
1
1
1
n
n
t P(Sn = 0) =
dξ ,
(tϕ µ) (ξ)dξ =
d
d
(2π) [−π,π]d
(2π) [−π,π]d 1 − tϕ µ(ξ)
n>0
n>1
Récurrence et transience pour la marche aléatoire simple sur Zd
123
où la première égalité est justifiée par convergence dominée (c’est la raison pour
laquelle on prend t < 1). On obtient le résultat en prenant la partie réelle et en faisant
tendre t vers 1.
Dans le cas particulier de la marche aléatoire simple, on a
d
ϕ µ(ξ) =
1X
cos (ξk) .
d
k=1
Ceci est une fonction réelle à valeurs dans [−1, 1] égale à 1 seulement aux points
de 2πZd, et l’on voit que (1 − ϕ µ(ξ))−1 est une fonction continue sur [−π, π]d \{0},
équivalente à (|ξ |2/2d)−1 lorsque ξ → 0. Comme d > 3, cette fonction est sommable
sur [−π, π]d, et la convergence dominée implique que (notons que dans le cas présent,
la partie réelle dans l’intégrale n’est pas nécessaire)
Z
Z
1
1
lim
dξ =
< ∞.
1 Pd
t↑1 [−π,π]d 1 − tϕ µ(ξ)
d
cos
(ξ
)
[−π,π] 1 −
k
k=1
d
Donc la marche aléatoire est transiente.
Avec un peu plus de travail, le critère donné dans le lemme 9.5 permet de montrer
le caractère récurrent ou transient de marches aléatoires dans Zd beaucoup plus
générales. On montre également qu’il est équivalent au critère beaucoup plus naturel
Z
1
dξ = ∞,
ℜ
1 − ϕ µ(ξ)
[−π,π]d
ce qui correspond formellement à intervertir limite et intégrale dans l’énoncé, mais
ceci nécessite beaucoup plus de travail.
Théorème
9.6. Soit (Sn , n > 0) une marche aléatoire sur Z. On suppose que
P
|k|µ(k)
< ∞.
k∈Z
P
kµ(k) = 0.
Alors (Sn , n > 0) est récurrente si et seulement si
k∈Z
PN
Démonstration. Notons gN (x) = n=0 P(Sn = x). Alors on note que gN (0) > gN (x)
pour tout x ∈ Z. En effet, si l’on note Tx = inf {n > 0: Sn = x}, on a
" N
#
N
X
X
P(Sn = x) = E
1{Sn =x}
n=0
n=Tx
" N
#
X
X
E
1{Sn =x,Tx =k}
=
k>0
#
" n=k
N
X
X
1nS (k) =0o P(Tx = k)
=
E
n=k
k>0
6
X
n−k
"
P(Tx = k) E
k>0
6 gN (0)
N
X
n=0
1nS (k) =0o
n
#
Récurrence et transience pour la marche aléatoire simple sur Zd
124
où l’on a noté Sn(k) = Xk+1 + ··· + Xk+n, comme au début du chapitre, et où l’on a
utilisé l’indépendance de Sn(k), n > 0 et de {Tx = k }, qui est une conséquence du
regroupement par paquets.
On en déduit que pour tout M > 0, on a
X
1
gN (x) .
gN (0) >
2M + 1
|x|6M
Or
X
|x|6M
gN (x) =
N
X
X
P(Sn = x) =
n=0 |x|6M
N
X
n=0
P(|Sn | 6 M ) >
N
X
P(|Sn/n| 6 M /N)
n=0
La loi des grands nombres montre que P(|Sn/n| 6 a) converge vers 1 pour tout
a > 0. En prenant M = aN , on en déduit par le lemme de Cesaro que
N
X
1
1
g(0) = lim gN (0) > lim
.
P(|Sn/n| 6 a) =
2a
N →∞
N →∞ 2aN + 1
n=0
Comme a > 0 est arbitraire, on conclut que g(0) = ∞, et donc que (Sn , n > 0) est
récurrente.
Corollaire 9.7. Sous les hypothèses du théorème précédent, si µ est d’espérance
nulle, et µ =
/ δ0 , alors p.s. on a
limsup Sn = ∞
n→∞
et
liminf Sn = −∞.
n→∞
Chapitre 10
Processus de branchement
On cherche à modéliser l’évolution d’une population asexuée dont les individus
se reproduisent indépendamment les uns des autres, et suivant la même loi. On
se donne ainsi une mesure de probabilités µ sur N, et l’on appellera processus de
branchement toute suite (Z0, Z1, ...) de variables aléatoires à valeurs dans N telles
que pour tout n ∈ N, et pour tout z0, z1, ..., zn−1, x, y ∈ N, on a
P(Zn+1 = y |Z0 = z0, Z1 = z1, ..., Zn−1 = zn−1, Zn = x) = µ∗x(y)
(10.1)
dès lors que cette probabilité est bien définie (c’est-à-dire que l’événement par lequel
on conditionne est de probabilité strictement positive), et où l’on a noté µ∗x la
convolée de µ avec elle-même x fois. On notera que µ∗x est la loi de ξ1 + ··· + ξx, où
les variables aléatoires ξ1, ..., ξx sont indépendantes de loi µ. Ainsi, la suite (Z0, Z1, ...)
décrit bien le modèle indiqué ci-dessus : à la génération n, chacun des x individus
présents donne naissance à une famille d’individus dont la taille est aléatoire de loi
µ, de façon indépendante entre tous les individus.
On note également que les formules ci-dessus ne disent rien a priori sur la loi
de la taille de la population initiale Z0, qui peut donc être une variable aléatoire
quelconque.
On peut se demander s’il existe un processus de branchement de loi µ. En
voici une construction explicite, utilisant une famille (ξn,i : n > 1, i > 1) de variables
aléatoires indépendantes et de même loi µ, ainsi qu’une variable aléatoire Z0 indépendante de la famille précédente. Si l’on connaît la variable aléatoire Zn, on pose
alors
Zn
X
Zn+1 =
ξn+1,i .
i=1
Par récurrence, ceci permet de définir la suite (Z0, Z1, ...), de sorte que Z0, Z1, ..., Zn
soit mesurable par rapport à la tribu engendrée par Z0 et les ξm,i avec m ∈ {1, 2, ..., n}
et i > 1. En particulier, (ξm,i : m > n, i > 1) est indépendante de (Z0, ..., Zn). On a
donc, en notant B = {Zn = x, Zn−1 = zn−1, ..., Z0 = z0}, qui est mesurable par rapport
à σ{Z0, ..., Zn },
!
x
X
P(Zn+1 = y, B) = P
ξn+1,i = y, B
i=1
!
x
X
= P
ξn+1,i = y P(B)
i=1
= µ∗ x(y)P(B) ,
125
126
Processus de branchement
d’où (10.1) en divisant par P(B) lorsque cette quantité est non nulle.
Notons que, d’après la définition, ou par la construction précédente, presque
surement, s’il existe n ∈ N tel que Zn = 0, alors Zn+k = 0 pour tout k > 0. On a donc
seulement deux possibilités : ou bien Zn > 0 pour tout n > 0, ou bien la suite (Zn)
est stationnaire en 0.
Notons A = {Zn > 0 pour tout n > 0} l’événement de survie de la population.
Quand a-t-on P(A) > 0 ? De quelle façon cette probabilité dépend-elle de Z0 ?
Dans un premier temps nous allons supposer que Z0 = 1. Nous allons supposer
une fois pourPtoutes que µ =
/ δ1 pour éviter le cas trivial où Zn = 1 pour tout n.
Notons m = k>0 kµ(k) la moyenne de µ, qui est un nombre dans [0, ∞].
Théorème 10.1. Si m 6 1 alors le processus s’éteint presque surement : P(A) = 0.
Si m > 1, alors le processus survit avec probabilité positive : P(A) > 0.
Ce théorème a été démontré par Bienaymé au milieu du XIXème siècle. Néanmoins, sa preuve ne fut pas publiée, et on n’en retrouve les détails que par reflets
dans les ouvrages de son époque. La question fut reposée par Galton vingt ans plus
tard, et résolue par Galton et Watson peu après (avec, dit-on, une erreur).
Pour le montrer, nous allons avoir recours à la fonction génératrice de la loi µ :
X
g(s) =
µ(k)sk .
k>0
Comme on le sait, g est une fonction convexe, croissante sur [0, 1], dérivable sur
]0, 1[, et sa dérivée admet en 1 la limite à gauche g ′(1 − ) = m.
Lemme 10.2. Soit (Z0, Z1, ...) un processus de branchement avec Z0 = 1 p.s. Alors
la fonction génératrice de Zn est donnée par la composée n fois de g :
gZn = g ◦ g ◦ ...◦ g
(n fois).
Démonstration. Nous montrons cette propriété par récurrence. La propriété est
claire pour n = 0 et n = 1, avec la convention que g composée 0 fois avec elle-même
est l’identité. Supposons la propriété vraie au rang n. On a alors, pour tout s ∈ [0, 1],
X
s y P(Zn+1 = y, Zn = x)
gZn+1(s) = E[sZn+1] =
x,y
∈N
X
s y P(Zn = x)µ∗x(y) .
=
x,y ∈N
La dernière égalité est une application aisée de (10.1). Rappelons que µ∗x(y) est
la probabilité que ξ1 + ··· + ξx = y où ξ1, ..., ξx sont indépendantes de loi µ. En
particulier, par indépendance,
X
s y µ∗x(y) = E[s ξ1 +···+ξx] = E[s ξ1]x = g(s)x.
y∈N
En réinjectant ceci dans l’expression précédente, on trouve
X
P(Zn = x)g(s)x = gZn(g(s))
gZn+1(s) =
x∈N
127
Processus de branchement
et on conclut par hypothèse de récurrence.
Notons que gZn(0) = P(Zn = 0), et que cette probabilité croît vers la probabilité
q = P(Ac) d’extinction (rappelons que si Zn = 0 alors Zm = 0 pour tout m > n). On
en déduit que q est la limite de la suite récurrence qn+1 = g(qn) initiée en q0 = 0. Or,
la convexité de g implique que
•
si m 6 1 alors g a un unique point fixe sur [0, 1], donné par 1. Noter que
nous avons utilisé ici le fait que µ(1) < 1, ce qui permet d’éviter le cas trivial
où g est la fonction identité. Dans ce cas, la suite (qn), à valeurs dans [0, 1],
converge vers q = 1.
•
Si m > 1 alors g admet exactement deux points fixes sur [0, 1], que l’on note
q ′ et 1, avec q ′ < 1. Le point q ′ est alors attractif (0 < g ′(q0) < 1) et le point
1 est répulsif, de plus, la suite (qn) converge vers q ′. On a donc q ′ = q ∈ [0, 1[.
Le théorème s’ensuit en notant que P(A) = 1 − q. On voit que l’on a même
donné une caractérisation de q, comme étant le plus petit point fixe de g sur [0, 1].
m<1
1
m=1
1
q
m>1
1
Figure 10.1. Illustration des trois phases : en noir, la courbe représentative de g, en
rouge, l’évolution de la suite récurrente (qn).
On distingue trois phases dans le processus de Galton-Watson.
Phase sous-critique : m < 1
Dans ce cas, on a extinction presque sure (q = 1), et les propriétés usuelles des
suites récurrentes montrent que la probabilité que Zn soit non nul converge vers 0
exponentiellement vite. En effet, on a que 1 − qn 6 mn par applications successives
du théorème des accroissements finis, et donc
P(Zn > 0) = 1 − qn 6 mn .
L’extinction est donc très rapide.
Phase critique : m = 1
Dans ce cas, on a toujours extinction presque sure. Néanmoins, la convergence
de P(Zn > 0) vers
Pour illustrer ceci,
P
P 0 est typiquement plus lente qu’exponentielle.
supposons que k∈N k 2 µ(k) < ∞. Notons que g ′′(1 − ) = k∈N k(k − 1)µ(k) = σ 2
est la variance de la loi µ, puisque m = 1, et cette variance est finie. En développant
g au voisinage de 1, on a
g(s) = 1 − (1 − s) +
(1 − s)2 2
σ + o((1 − s)2)
2
128
Processus de branchement
et donc
1
1
σ2
−
= + o(1) .
1 − g(s) 1 − s
2
En sommant on obtient donc
d’où l’on déduit que
σ2
1
− 1 = n + o(n) ,
2
1 − qn
P(Zn > 0) = 1 − qn =
2
σ2 n
(1 + o(1)).
La décroissance vers 0 est donc beaucoup plus lente qu’exponentielle. Ce résultat
est dû à Kolmogorov.
Phase sur-critique : m > 1
Dans ce cas, nous avons vu que le processus survit avec probabilité strictement
positive, s’il est issu de Z0 = 1 individu. On peut donner des propriétés plus fines, en
décrivant l’allure du processus conditionné par l’événement de survie ou d’extinction.
Nous ne donnons pas les preuves ici, mais juste les idées intuitives.
Tout d’abord, on peut constater que le processus de branchement jouit d’une
propriété de branchement stipulant que, si Z = (Z0, Z1, ...) et Z ′ = (Z0′ , Z1′ , ...)
sont deux processus de branchement indépendants, de même loi de reproduction
µ, et issus respectivement de Z0 = x et Z0′ = x ′ individus, alors Z + Z ′ = (Z0 + Z0′ ,
Z1 + Z1′ , ...) est un processus de branchement également (issu de x + y), de loi de
reproduction µ. Ceci revient intuitivement à dire que deux « familles » distinctes se
reproduisent indépendamment dans le futur, en suivant la dynamique du processus
de branchement. De cela, on tire par exemple que si Z0 = x presque surement, alors
la probabilité de survie est donnée par
P(A) = 1 − q x ,
puisqu’on a extinction si et seulement si chacune des x lignées indépendantes s’éteint.
À quoi ressemble le processus (Z0, Z1, ...) si’il est issu de Z0 = 1, et si on le
conditionne à s’éteindre ? Nous affirmons que
1
1
P(Z1 = x |Ac) = P(Z1 = x, Ac) = µ(x)q x = µ(x)q x−1.
q
q
Intuitivement, cela signifie que, si l’on sait que l’ancêtre commun à la population
a eu x enfants, alors sa descendance s’éteint si et seulement si les x lignées de ces
enfants, qui sont indépendantes, s’éteignent, ce qui arrive avec probabilité q x. On
pourrait itérer cet argument, et obtenir le résultat suivant.
Proposition 10.3. Conditionnellement à Ac, le processus (Z0, Z1, ...) est un processus de branchement sous-critique de loi de reproduction µ q(x) = q x−1 µ(x), x ∈ N.
Noter que la fonction génératrice de µ q n’est autre que g(qs)/q. On l’interprète
en disant que c’est la portion de g comprise entre [0, q], remise à l’échelle linéairement
pour en faire une fonction de [0, 1] dans lui-même. En particulier, la moyenne de µ q
est g ′(q) qui est bien dans [0, 1[, et le processus est sous-critique !
129
Processus de branchement
Que se passe-t-il alors si l’on conditionne le processus par l’événement A de nonextinction ? Cette fois, on a
1
P(Z1 = x, A)
1− q
x X
1
x
(1 − q)kq x−k
µ(x)
=
k
1− q
k=1
1 − qx
= µ(x)
.
1− q
P(Z1 = x|A) =
Ici, l’on a exprimé le fait que, si l’ancêtre commun a eu x enfants, la population
totale survit si au moins un de ces enfants a une lignée qui survit. Or les x lignées
sont indépendantes et ont la probabilité 1 − q de survivre, le nombre de lignées qui
survivent suit donc une loi binomiale. On constate alors que la dernière formule
définit, lorsque x décrit N∗, une mesure de probabilités sur N∗, dont la fonction
génératrice est donnée par
g(s) − g(qs)
.
1−q
Il faut prendre néanmoins garde au fait que chacun des x enfants de l’ancêtre
commun ne va pas se reproduire en suivant cette loi : seuls ceux dont la lignée
ne s’éteint pas vont être dans ce cas. On peut donc être plus précis dans le calcul
précédent, et noter Z1ext le nombre d’individus nés de l’ancêtre commun dont la
descendance s’éteint, et Z1surv les autres enfants de l’ancêtre commun. On a alors,
pour x > 0 et y > 1.
x+ y
(1 − q) y −1 q x .
P(Z1ext = x, Z1surv = y |A) = µ(x + y)
y
Ceci se résume plus facilement comme une fonction génératrice à deux variables :
X
ext surv sx ty P(Z1ext = x, Z1surv = y |A)
g surv(s, t) = E sZ1 tZ1 |A =
x>0,y>1
k X
1 X
k
(t(1 − q)) y(sq)k−y
µ(k)
y
1− q
k>1
y=1
1 X
µ(k)((sq + t(1 − q))k − (sq)k)
=
1 − q k>1
=
=
g(sq + t(1 − q)) − g(sq)
.
1− q
Pour s = 1, on obtient la fonction génératrice de Z1surv sachant A, et cette dernière
est (g(q + t(1 − q)) − q)/(1 − q). Une nouvelle fois, on interprète cette fonction
comme la partie de g comprise entre q et 1, translatée et remise à l’échelle pour en
faire la fonction génératrice d’une variable aléatoire. On note µ q la loi de probabilité
associée. On constate que cette fonction est nulle en 0, c’est-à-dire que la variable
aléatoire associée ne peut pas prendre la valeur 0, et sa dérivée à gauche en 1 est m.
On pourrait compléter ce résultat par le résultat suivant, appelé l décomposition de
Harris. On ne donne pas pour une fois d’énoncé formel.
130
Processus de branchement
Conditionnellement à l’événement A de survie du processus, on peut décrire la
population de la façon suivante. On a deux types d’individus, les « mortels » et les
« immortels ». Les individus immortels donnent naissance à des individus mortels
et immortels selon la loi sur N2 définie par les coefficients de la fonction génératrice
g surv(s, t), indépendamment les uns des autres. Les individus mortels engendrent
des processus de branchement sous-critiques de loi de reproduction µ q. Enfin, la
restriction de la généalogie du processus aux individus immortels forme un processus
de branchement sur-critique de loi de reproduction µ q.
Références
•
•
P. Barbé, M. Ledoux, Probabilité
R. Durrett, Probability: theory and examples
•
W. Feller, An Introduction to Probability Theory and its Applications, vol. 1
et 2.
•
G. Grimmett, D. Stirzaker, Probability and random processes
•
J.-F. Le Gall, Intégration, probabilités et processus aléatoires, notes de cours
disponibles sur http://www.math.u-psud.fr/~jflegall/IPPA2.pdf
•
M. Pinsky, Introduction to Fourier analysis and wavelets
•
W. Rudin, Real and complex analysis
131
Téléchargement