Polycopié probas

publicité
Cours de Probabilités - MDI 104
P. Bianchi, L. Decreusefond, G. Fort, J. Najim
6 novembre 2012
Table des matières
1 Evénements
8
1.1
Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
1.2
Probabilités sur un espace discret . . . . . . . . . . . . . . . . . . . . . . .
9
1.3
Conditionnement et indépendance . . . . . . . . . . . . . . . . . . . . . . .
13
1.4
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
2 Variables aléatoires discrètes
22
2.1
Loi d’une variable discrète . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
2.2
Indépendance des v.a. discrètes . . . . . . . . . . . . . . . . . . . . . . . .
24
2.3
Espérance, moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
2.4
Fonction génératrice d’une v.a. à valeurs entières . . . . . . . . . . . . . . .
33
2.5
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
3 Eléments de théorie de la mesure
43
3.1
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
3.2
Tribus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
3.3
Mesures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
3.4
Applications mesurables . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
3.5
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
4 Intégration
60
4.1
L’intégrale de Lebesgue . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
4.2
Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
4.3
Exemple : cas des mesures discrètes . . . . . . . . . . . . . . . . . . . . . .
64
4.4
Espaces produit et théorème de Fubini . . . . . . . . . . . . . . . . . . . .
65
1
TABLE DES MATIÈRES
5 Variables et vecteurs aléatoires réels
2
69
5.1
Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
5.2
Variables aléatoires réelles . . . . . . . . . . . . . . . . . . . . . . . . . . .
70
5.3
Vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
79
5.4
Changement de variable . . . . . . . . . . . . . . . . . . . . . . . . . . . .
83
5.5
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
85
6 Fonction caractéristique
101
6.1
Définition et propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
6.2
Fonctions caractéristiques de v.a. usuelles . . . . . . . . . . . . . . . . . . . 104
6.3
Caractérisation de la loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
6.4
Caractérisation de l’indépendance . . . . . . . . . . . . . . . . . . . . . . . 107
6.5
Calcul de moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
6.6
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
7 Vecteurs gaussiens
112
7.1
Préliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
7.2
Vecteurs gaussiens : définitions, propriétés . . . . . . . . . . . . . . . . . . 114
7.3
Caractérisation de l’indépendance . . . . . . . . . . . . . . . . . . . . . . . 116
7.4
Stabilité par transformation affine . . . . . . . . . . . . . . . . . . . . . . . 117
7.5
Somme de vecteurs gaussiens indépendants . . . . . . . . . . . . . . . . . . 117
7.6
La loi d’un vecteur gaussien admet-elle une densité ? . . . . . . . . . . . . . 118
7.7
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
8 Convergences
122
8.1
Loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
8.2
Limité centrée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
8.3
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
A Ensembles
125
A.1 Opérations sur les ensembles . . . . . . . . . . . . . . . . . . . . . . . . . . 125
A.2 Espaces d’états dénombrables . . . . . . . . . . . . . . . . . . . . . . . . . 127
A.3 Dénombrement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
TABLE DES MATIÈRES
B Notions d’analyse utiles
3
130
B.1 Limite supérieure et limite inférieure . . . . . . . . . . . . . . . . . . . . . 130
B.2 Séries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
B.3 Convexité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
C Approfondissements
136
C.1 Existence de suites de v.a. indépendantes . . . . . . . . . . . . . . . . . . . 136
Note
L’astérisque ∗ signale une partie (paragraphe, remarque ou preuve) qui va au delà des
connaissances exigibles et qui peut être omise en première lecture.
4
Introduction
Les premières formalisations des probabilité datent du XVIIIe siècle avec les travaux de
Jacob Bernoulli (1713) et de Abraham de Moivre (1718). La probabilité d’un événement
y était définie comme le rapport du nombre de cas favorables sur le nombre total de cas.
Au début du XIXe siècle, les « probabilités géométriques » firent leur apparition. Dans ce
cadre, la probabilité d’un événement s’exprime comme un rapport de volumes ou d’aires.
Ces approches permettaient de faire bon nombre de calculs mais butaient sur certains
paradoxes.
Figure 1 – J. Bertrand (1822-1900) (DR).
Premier paradoxe de Bertrand : on dispose de trois boîtes à deux tiroirs chacune.
Chacun des tiroirs de la boîte A contient une médaille en or, chacun des tiroirs de la boîte
B contient une médaille en argent, l’un des tiroirs de la boîte C contient une médaille en
or et l’autre une médaille en argent.
Le joueur ouvre un tiroir au hasard et essaie de déterminer s’il a ouvert la boîte C. Avant
d’ouvrir le tiroir, il a une chance sur 3 d’avoir choisi la boîte C. Sil trouve une médaille en
or, alors c’est que la boîte qu’il avait ouverte ne pouvait être que la boîte A ou la boîte
C donc il a en fait une chance sur 2 d’avoir ouvert la boîte C. Le même raisonnement
s’applique aussi s’il trouve une médaille en argent. Conclusion, quel que soit ce qu’il trouve
dans le tiroir, il en conclut qu’il a une chance sur 2 d’avoir ouvert la boîte C. Mais puisque
ce raisonnement ne dépend pas de ce qu’il a trouvé dans le tiroir ouvert, autant ne pas
l’ouvrir et décréter avant l’expérience qu’il a une chance sur 2 de choisir la boîte C...
Deuxième paradoxe de Bertrand : quelle est la probabilité que deux points choisis
au hasard sur la sphère de R3 fasse un angle de moins de 100 = 1◦ /6. Par symétrie, on
peut toujours supposer que l’un des points est le pôle nord. Dans ce cas, la probabilité
que l’événement voulu soit réalisé est le rapport de la surface de la calotte concernée sur
5
TABLE DES MATIÈRES
6
Figure 2 – É. Borel (1871-1956), M. Fréchet (1878-1973), J. Hadamard (1865-1963), P.
Lévy (1886-1971). (DR)
la surface de la sphère, on trouve 2,1.10−6 . Mais Bertrand remarqua que si l’on connaît
les deux points, on connaît aussi le grand cercle qui passe par eux deux. Pour trouver
la probabilité recherchée, il suffit donc de calculer le rapport d’un arc de grand cercle
d’amplitude angulaire de 1◦ /3 au périmètre d’un grand cercle soit 1/(3.360) = 9,26. 10−4 .
La solution est ici plus sophistiquée (et due à Borel), il faut remarquer qu’un grand cercle
est de surface nulle. En conséquence, on est obligé de considérer une tranche de largeur
infinitésimale quand on choisit M 0 et la figure ?? montre qu’on a alors plus de chance de
choisir un point proche de l’équateur qu’un point proche du pôle. La probabilité « induite »
sur le grand cercle n’est donc pas la probabilité uniforme et le deuxième raisonnement est
donc faux.
Ces deux paradoxes montrent la nécessité d’une formalisation précise des probabilités. Les
probabilités sont au départ, une tentative de représentation mathématique de l’incertain.
Elles doivent être tout à la fois suffisamment formalisées pour permettre des calculs justes
et rigoureux et garder une connexion forte et immédiate avec les phénomènes « physiques »
analysés. Cette tension a longtemps posé des problèmes. Notamment, à la fin du XIXe , se
posait le problème des événements « presque certains » ou « presque impossibles » : y-a-t’il
un seuil en dessous un événement de probabilité inférieure à ce seuil ne peut se réaliser ?
Au début du XXe , David Hilbert assigna aux mathématiciens, 23 problèmes, ou plutôt 23
défis, pour les années à venir. Parmi ceux-ci figurait l’axiomatisation de la « physique »
par laquelle il fallait entendre l’axiomatisation des probabilités.
Le formalisme correct ne se fit jour qu’en 1930 dans les travaux d’Andreï Kolmogorov, qui
réussit la synthèse des réflexions de Émile Borel, Jacques Hadamard, Maurice Fréchet et
Paul Lévy entre autres.
Le concept de mesure permet d’avoir une vision unifiée des probabilités discrètes et des
probabilités dites « continues ». Le vocabulaire de l’intégration permet de simplifier la présentation des différentes notions probabilistes. Par ailleurs, ainsi que l’illustre le deuxième
paradoxe de Bertrand, la modélisation de certains phénomènes même simples impose de
TABLE DES MATIÈRES
7
comprendre finement les liens entre théorie et interprétation physique. Enfin, la simulation, outil indispensable tellement est grande la complexité des systèmes, requiert de
« construire » des variables et des processus aléatoires. Tout cela ne peut se faire sans une
solide compréhension de la théorie sous-jacente.
Figure 3 – Andrey Kolmogorov (1903-1987). (DR)
Chapitre 1
Evénements
1.1
Définitions
Une expérience aléatoire est une expérience pouvant conduire à plusieurs résultats possibles.
Formellement, une expérience aléatoire se décrit par la donnée de l’ensemble Ω des résultats
possibles. L’ensemble Ω est appelé l’univers ou l’espace des états.
Traditionnellement, un résultat possible de l’expérience est noté ω. C’est un élément de
l’univers Ω. Un tel élément ω ∈ Ω est parfois appelé une épreuve ou une issue.
Exemples : a) Jet d’un dé : Ω = {1, 2, 3, 4, 5, 6}.
b) Deux lancers consécutifs d’une pièce. L’univers est Ω = {P P, P F, F P, F F } où P et
F signifient respectivement pile et face.
c) Durée de fonctionnement sans panne d’une machine : Ω = [0, +∞[.
d) Valeur d’un signal continu sur un intervalle de temps [t0 , t1 ] : Ω = Cb ([t0 , t1 ]) est
l’ensemble des fonctions continues de [t0 , t1 ] dans R.
Un événement aléatoire est un événement dont la réalisation dépend du résultat de l’expérience. Formellement, un événement aléatoire se décrit comme un sous-ensemble de Ω.
Exemples : Considérons à nouveau les exemples précédents.
a) Ω = {1, 2, · · · , 6}. L’événement A =« Le résultat est pair » s’identifie au sous-ensemble
A = {2, 4, 6}.
b) Ω = {P P, P F, F P, F F }. L’événement A =« on obtient deux faces identiques » s’identifie au sous-ensemble A = {P P, F F }.
c) Ω = [0, ∞[. L’événement A =« La machine fonctionne au moins x unités de temps »
s’identifie à A = [x, +∞[.
d) Ω = Cb ([t0 , t1 ]). L’événement A =« L’amplitude du signal n’excède pas α » s’écrit
A = {ω ∈ Ω : supt∈[t0 ,t1 ] |ω(t)| ≤ α}.
Pour une issue donnée ω ∈ Ω, on dit qu’un événement A est réalisé si ω ∈ A.
L’espace d’état Ω est aussi appelé l’événement certain : il est réalisé quelle que soit l’issue.
L’ensemble vide ∅ est aussi appelé l’événement impossible : il n’est jamais réalisé.
8
CHAPITRE 1. EVÉNEMENTS
9
La notation suivante sera d’un usage constant.
Définition 1.1.– Soit Ω un espace d’état et A ⊂ Ω un ensemble. La fonction indicatrice
de A est définie par :
1A : Ω → {0, 1}
ω 7→ 1 si ω ∈ A, 0 sinon.
L’exercice 1 fournit quelques propriétés importantes de l’indicatrice.
1.2
Probabilités sur un espace discret
Comme nous l’avons vu au début de ce chapitre, beaucoup d’expériences aléatoires peuvent
être décrites par un univers Ω fini ou dénombrable. Citons comme exemples immédiats le
tirage à pile ou face (Ω = {P, F }), le lancer de dé (Ω = {1, · · · , 6}), le nombre de requêtes
reçues par un serveur en une unité de temps (Ω = N), etc.
1.2.1
Définition
Définition 1.2.– Une mesure µ, sur un ensemble E au plus dénombrable, est une
application de P(E), l’ensemble des parties de E, dans R qui satisfait les deux propriétés
suivantes :
– µ(∅) = 0,
– pour toute famille (Aj , j ∈ N∗ ) de parties deux à deux disjointes de E,
µ(
∞
[
Aj ) =
j=1
+∞
X
µ(Aj ).
(1.1)
j=1
Les parties de E s’appellent plus souvent des « événements ».
Définition 1.3.– Une mesure µ est dite mesure de probabilité (ou probabilité) lorsque
µ(E) = 1. Dans ce cas, on la note usuellement P et non µ.
1.2.2
Propriétés générales
Proposition 1.1.– Soient A, B, (An )n∈N? des ensembles.
a) P(Ac ) = 1 − P(A) .
b) P(A ∪ B) = P(A) + P(B) − P(A ∩ B) .
c) Si A ⊂ B, alors P(A) ≤ P(B) .
CHAPITRE 1. EVÉNEMENTS
10
d ) Si (An )n∈N? est une partition de Ω, alors
P(B) =
∞
X
P(An ∩ B) .
n=1
e) Si An ↑ A, alors P(A) = limn→∞ P(An ) .
Si An ↓ A, alors P(A) = limn→∞ P(An ) .
T
f ) Si P(An ) = 1 pour tout n ∈ N? , alors P ( ∞
n=1 An ) = 1 .
g) Pour une famille quelconque (An )n∈N? dans F, on a la borne de l’union :
!
∞
∞
[
X
P
An ≤
P(An ) .
n=1
n=1
Preuve : a) On applique l’axiome de σ-additivité (1.1) en posant A1 = A, A2 = Ac
et An = ∅ pour tout n ≥ 3. Il en résulte que 1 = P(Ω) = P(A ∪ Ac ∪ ∅ ∪ ∅ ∪ · · · ) =
P(A) + P(Ac ) + 0 + 0 + · · · et finalement 1 = P(A) + P(Ac ).
b) On écrit que A ∪ B s’écrit comme l’union disjointe (A\B) ∪ (B\A) ∪ (A ∩ B). La règle
de σ-additivité conduit à :
P(A ∪ B) = P(A\B) + P(B\A) + P(A ∩ B) .
(1.2)
Par ailleurs, A s’écrit comme l’union disjointe (A\B)∪(A∩B) et donc P(A) = P(A\B)+
P(A ∩ B). De même, P(B) = P(B\A) + P(A ∩ B). On a donc : P(A\B) + P(B\A) =
P(A) + P(B) − 2P(A ∩ B). En faisant la substitution dans (1.2), nous obtenons le résultat.
c) Si A ⊂ B, on a en particulier : B = A ∪ (B\A) et comme l’union est disjointe,
P(B) = P(A) + P(B\A) ≥ P(A).
d) Comme les (An ) sont deux à deux
est de même pour les événements
P disjoints, il en S
(An ∩ B). Par σ-additivité, on a n P(An ∩ B) = P ( n (An ∩ B)) = P ((∪n An ) ∩ B) =
P(B) , où la dernière égalité provient du fait que ∪n An = Ω .
e) Soit An ↑ A. On introduit la suite (Bn ) définie par récurrence de la façon suivante :
B1 = A1 et Bn+1 = An+1 \Bn . On vérifie sans peine que les (Bn ) sont deux à deux
disjoints, ce qui implique :
!
∞
∞
[
X
P
Bk =
P(Bk ) .
(1.3)
k=1
k=1
Sn
On vérifie
également
que
pour
tout
n,
A
=
n
k=1 Bk , et donc, par passage à la limite,
S∞
A = k=1 Bk . Ainsi, le membre de gauche de (1.3) n’est autre
Pn que P(A). Le membre de
droite se réécrit comme la limite quand
n
→
∞
de
la
suite
k=1 P(Bk ). Mais comme les
P
S
(Bk ) sont deux à deux disjoints, nk=1 P(Bk ) = P ( nk=1 Bn ) = P(An ) . On a donc bien
montré que P(A) = limn P(An ) .
Soit maintenant An ↓ A. Dans ce cas, Acn ↑ Ac . En appliquant le résultat précédent,
P(Ac ) = limn P(Acn ). Par la propriété a), cette égalité se réécrit 1 − P(A) = limn (1 −
P(An )), d’où on déduit P(A) = limn P(An ) .
CHAPITRE 1. EVÉNEMENTS
11
T
T∞
f) La suite ( nk=1 Ak ) est décroissante et converge
vers
k=1 Ak . Puisque P(An ) = 1 pour
T∞
tout n, il s’en suit que 1 = limn P(An ) = P ( k=1 Ak ) .
g) On montre d’abord la borne pour un nombre fini d’éléments :
!
n
n
[
X
∀n , P
Ak ≤
P(Ak ) .
k=1
(1.4)
k=1
S
n+1
L’inégalité est vraie au rang n = 1. Supposons qu’elle soit vraie au rang n, P
A
=
k
k=1
Sn
Sn
P (An+1 ∪ ( k=1 Ak )) ≤ P (An+1 ) + P ( k=1 Ak ) d’après la propriété b). En injectant
l’hypothèse de récurrence dans le membre de droite, la proposition est démontrée au
rang n + 1.
P∞
Sn
A
)
≤
L’inégalité
(1.4)
implique
que
P
(
k
k=1 P(Ak ) pour tout n. Or la suite
k=1
Sn
S∞
( k=1 Ak ) est croissante, de limite k=1 Ak . Par passage à la limite dans la dernière
inégalité, on obtient le résultat voulu en invoquant la propriété e).
1.2.3
Représentation des probabilités sur un espace discret
La propriété suivante établit qu’une probabilité P sur un espace discret est entièrement
caractérisée par la valeur qu’elle prend sur les singletons.
Proposition 1.2.– Soit Ω un espace discret et P une mesure de probabilité définie sur
la tribu des parties P(Ω). Alors pour tout événement A,
X
P({ω}) .
P(A) =
ω∈A
Preuve : Comme Ω est au plus dénombrable, on peut indexer ses éléments sous la forme
Ω = {ω1 , ω2 , · · · }. Tout sous-ensemble A de Ω est donc de la forme A = {ωi1 , ωi2 , · · · }
où i1 , i2 , · · · sont des entiers. Par conséquent, A est l’union dénombrable des singletons
{ωi1 }, {ωi2 }, etc. Par σ-additivité de P, on a donc P(A) = P({ωi1 }) + P({ωi2 }) + · · · , ce
qui prouve le résultat.
Ainsi, il suffit de connaître la probabilité des événements élémentaires pour connaître la
probabilité de n’importe quel événement. Cette affirmation est caractéristique des probabilités sur un espace discret, elle est clairement fausse dans le cas général des probabilités
sur un espace non dénombrable.
La propriété suivante va un peu plus loin : elle établit que, pour qu’une famille de nombres
positifs définissent une probabilité, il faut et il suffit que leur somme soit égale à un.
Proposition 1.3.–
P Soit Ω un ensemble discret. Soit (pω )ω∈Ω une suite de nombres
positifs satisfaisant ω∈Ω pω = 1 . Alors il existe une (unique) mesure de probabilité P sur
P(Ω) telle que pour tout ω ∈ Ω, P({ω}) = pω .
CHAPITRE 1. EVÉNEMENTS
12
Preuve : L’unicité est une conséquence de la propriété précédente. Afin de montrer
P
l’existence, il suffit de poser P(A) = ω∈A pω . On montre sans peine que cette application
satisfait les axiomes d’une mesure de probabilité.
Ainsi, concrètement, une probabilité sur un espace discret se ramène à une famille de
nombres positifs sommant à un : se donner l’un revient à se donner l’autre.
1.2.4
Exemples de probabilités sur un espace discret
Cas où Ω est fini
• Soit Ω un ensemble fini quelconque. La probabilité uniforme sur Ω est définie par :
P(A) =
|A|
|Ω|
où |A| représente ici le cardinal de l’ensemble A. Autrement dit, P(A) est le ratio entre
le nombre d’issues pour lesquelles A est réalisé, et le nombre total d’issues. D’après la
propriété précédente, on aurait pu définir la probabilité uniforme de façon équivalente
comme l’unique probabilité pour laquelle toutes les issues sont équiprobables, c’està-dire pour tout ω,
1
P({ω}) =
.
|Ω|
• Soit p ∈ [0, 1]. La probabilité de Bernoulli de paramètre p, notée B(p), est la probabilité définie sur Ω = {0, 1} par :
P({1}) = p ,
P({0}) = 1 − p .
La probabilité de Bernoulli permet de décrire la probabilité de succès ou d’échec d’une
expérience. Par exemple, elle permet de décrire la probabilité qu’une pièce tombe sur
pile : si la pièce est parfaitement équilibrée, on choisira p = 1/2 et la probabilité de
Bernoulli se ramène à la loi uniforme sur {0, 1} ; dans le cas d’une pièce non équilibrée
ou d’un jeu truqué, le paramètre p est possiblement différent de 1/2.
• Soit n ∈ N? et p ∈ [0, 1]. La probabilité binomiale de paramètres n, p, notée B(n, p),
est la probabilité définie sur Ω = {0, 1, · · · , n} par :
n k
P({k}) =
p (1 − p)n−k
k
pour tout k = 0, · · · , n où l’on rappelle que nk = n!/(k!(n − k)!) . La probabilité
binomiale est utilisée pour décrire le nombre de succès obtenus lorsqu’on réitère n
fois une expérience ayant même probabilité de succès p (voir l’exercice 14).
CHAPITRE 1. EVÉNEMENTS
13
Cas où Ω est dénombrable
• Soit p ∈]0, 1]. La probabilité géométrique de paramètre p sur N? , notée G(p), est la
probabilité définie sur Ω = N? par :
P({k}) = p(1 − p)k−1
(1.5)
pour tout k ∈ N? . Imaginons que l’on réitère autant de fois que nécessaire une certaine
expérience ayant un probabilité de succès p. Alors la probabilité géométrique est
utilisée pour décrire le nombre d’expériences qui ont été nécessaires pour obtenir un
succès (voir l’exercice 14).
Remarque : On peut aussi définir la probabilité géométrique sur N (et non N? )
par P({k}) = p(1 − p)k pour tout k = 0, 1, 2, · · · . Dans ce dernier cas, on cherche
à décrire non pas l’instant du premier succès, mais le nombre d’échecs qui ont
précédé le premier succès.
• Soit α > 0. La probabilité de Poisson de paramètre α, notée P(α), est la probabilité
définie sur Ω = N par :
αk −α
e .
P({k}) =
k!
La probabilité de Poisson est souvent utilisée pour modéliser des quantités telles que
le nombre de requêtes reçues par un serveur par unité de temps, ou le nombre de
clients qui se présentent à un guichet pendant une unité de temps.
1.3
1.3.1
Conditionnement et indépendance
Probabilité conditionnelle : définition
De façon informelle, la probabilité d’un événement vise à quantifier l’occurence de cet
événement. La probabilité conditionnelle d’un événement A sachant un événement B vise
à quantifier l’occurence de A lorsque l’on sait que B s’est produit. D’un point de vue plus
formel, on a la définition suivante.
Soit (Ω, F, P) un espace de probabilité.
Définition 1.4.– Pour tous événements A, B ∈ F tels que P(B) 6= 0, on définit la
probabilité conditionnelle de A sachant B, et on note P(A|B), la quantité :
P(A|B) :=
P(A ∩ B)
.
P(B)
Si on associe probabilité et « poids », la probabilité d’un ensemble étant son poids relatif
par rapport à celui de l’ensemble total, la probabilité conditionnelle de A sachant B est le
poids de la trace de A sur B relativement au poids total de B.
CHAPITRE 1. EVÉNEMENTS
14
A∩B
A
B
Figure 1.1 – Interprétation graphique du conditionnement.
Considérons le cas où P est la probabilité uniforme sur un ensemble Ω fini, c’est-à-dire
P(A) = |A|/|Ω|. On a alors P(A|B) = |A ∩ B|/|B|. Cette expression justifie la remarque
suivante : P(A|B) peut être interprétée comme la probabilité de l’événement A ∩ B dans
ce nouvel univers qu’est B.
Application : Considérons le lancer d’un dé : P est la probabilité uniforme sur Ω =
{1, 2, . . . , 6}. Calculer la probabilité d’obtenir « 6 » sachant que le résultat est pair.
Proposition 1.4.– Soit B ∈ F tel que P(B) 6= 0. L’application définie sur F par
A 7→ P(A|B) est une mesure de probabilité. On la nomme la probabilité conditionnelle à B.
Preuve : i) P(Ω|B) = P(Ω ∩ B)/P(B) = 1 et P(∅|B) = P(∅ ∩ B)/P(B) = 0.
S
S
ii) Soit (An ) une famille d’événement deux à deux disjoints. P( n An |B) = P( n An ∩
P
P
S
B)/P(B) = P( n (An ∩ B))/P(B) = n P(An ∩ B)/P(B) = n P(An |B).
1.3.2
Propriétés
La première propriété est connue sous le nom de formule des probabilités totales.
Proposition 1.5.–
a) Soient A, B ∈ F tels que 0 < P(B) < 1. Alors,
P(A) = P(A|B)P(B) + P(A|B c )P(B c ) .
b) Soit (Bn )n∈N? une partition de Ω telle que pour tout n, P(Bn ) 6= 0. Alors,
P(A) =
∞
X
P(A|Bn )P(Bn ) .
n=1
Preuve : A s’écrit comme l’union disjointe A = (A ∩ B) ∪ (A ∩ B c ) donc P(A) =
P(A ∩ B) + P(A ∩ B c ). Le résultat provient du fait que P(A ∩ B) = P(A|B)P(B) et
P(A ∩ B c ) = P(A|B c )P(B c ). La preuve de b) est fondée sur le même principe.
CHAPITRE 1. EVÉNEMENTS
15
Exemple : On dispose de trois pièces de monnaie : l’une est bien équilibrée, l’une comporte
deux côtés pile, l’autre deux côtés face. On choisit une pièce au hasard. Evaluons la
probabilité de tomber sur pile.
Désignons par E, 2P et 2F les événements « la pièce bien équilibrée est choisie », « la
pièce comportant deux côtés pile est choisie », etc. D’après la propriété ci-dessus,
P(pile) = P(pile|E)P(E) + P(pile|2P )P(2P ) + P(pile|2F )P(2F )
1
1
1
1 1
× +1× +0×
=
.
=
2 3
3
3
2
La seconde propriété est connue sous le nom de formule de Bayes. La preuve est immédiate.
Proposition 1.6.– Soient A, B ∈ F deux événements tels que P(A) 6= 0 et P(B) 6= 0.
Alors,
P(B|A)P(A)
P(A|B) =
.
P(B)
La formule de Bayes permet typiquement d’évaluer des probabilités du type :
P(une action « a’ a été effectuée | le résultat « r » a été observé)
lorsqu’on connait le modèle P(le résultat « r » est observé | l’action « a » est effectuée).
Exemple : Reprenons l’exemple précédent des trois pièces. Sachant qu’on obtient le
résultat pile, quelle est la probabilité que la pièce à deux côtés pile ait été choisie ? La
réponse est donnée par la formule de Bayes :
P(2P | pile) =
1.3.3
1×
P(pile|2P ) P(2P )
= 1
P(pile)
2
1
3
=
2
.
3
Événements indépendants
Dans l’exemple précédent, l’événement B =« pile est le résultat » apporte une information
sur la probabilité que l’événement A =« la pièce à deux côtés pile a été choisie ». Avant
l’expérience qui a vu B se réaliser, la probabilité de A valait 21 . Après l’expérience, elle vaut
2
. Le fait que B soit réalisé ne dit pas si A est ou non réalisé, mais par contre, il change
3
notre croyance en A. A l’inverse, il existe des événements A, B tels que la réalisation de B
n’apporte aucune information sur A. De tels événements sont dits indépendants. Voici une
définition plus formelle.
Définition 1.5.– Deux événements A, B ∈ F sont dits indépendants, noté A ⊥⊥ B, si
P(A ∩ B) = P(A) P(B) .
CHAPITRE 1. EVÉNEMENTS
16
Si P(B) 6= 0, la définition revient bien à P(A|B) = P(A) : la réalisation de B ne modifie
pas la croyance en A.
Remarque : a) Les propriétés suivantes sont équivalentes : A ⊥⊥ B, B ⊥⊥ A, A ⊥⊥ B c ,
Ac ⊥
⊥ B, Ac ⊥
⊥ Bc.
b) Si P(B) = 0 ou P(B) = 1, alors A et B sont indépendants quel que soit A.
Définition 1.6.– Soit I un ensemble quelconque. Une famille (Ai )i∈I d’événements est
dite indépendante si pour tout sous-ensemble fini J ⊂ I, on a :
!
\
Y
P
Aj =
P(Aj ) .
j∈J
j∈J
Illustrons la formule ci-dessus lorsque la famille contient trois événements A, B, C. Les
événements A, B, C sont indépendants si
P(A ∩ B) = P(A)P(B), P(A ∩ C) = P(A)P(C), P(B ∩ C) = P(B)P(C),
et P(A ∩ B ∩ C) = P(A)P(B)P(C) .
Il est important de souligner que la première ligne d’équations ci-dessus n’implique pas la
deuxième : ce n’est pas parce que des événements sont deux à deux indépendants qu’ils
forment une famille indépendante. L’exercice 10 fournit un contre-exemple.
Définition 1.7.– Soit C ∈ F tel que P(C) 6= 0. On dit que A et B sont indépendants
conditionnellement à C, noté A ⊥⊥ B|C si P(A ∩ B|C) = P(A|C)P(B|C).
La notion de famille indépendante conditionnellement à C se définit selon le même principe.
Remarque : Attention : des propositions A ⊥⊥ B et A ⊥⊥ B|C, aucune n’implique l’autre.
Là encore, l’exercice 10 fournit un contre-exemple.
CHAPITRE 1. EVÉNEMENTS
Ω
Probabilité
Ω fini
Probabilité uniforme
{0, 1}
Bernoulli de paramètre p ∈ [0, 1]
17
Expression de P
P(x) =
Notation
1
|Ω|
P({1}) = p
P({0}) = 1 − p
n k
{1, · · · , n} Binomiale de paramètres n, p ∈ [0, 1] P({k}) =
p (1 − p)n−k
k
B(p)
B(n, p)
N?
Géométrique de paramètre p ∈]0, 1]
P({k}) = p(1 − p)k−1
G(p)
N
Géométrique de paramètre p ∈]0, 1]
P({k}) = p(1 − p)k
G(p)
N
Poisson de paramètre α > 0
P({k}) =
αk −α
e
k!
Table 1.1 – Quelques exemples de probabilités sur un espace discret.
P(α)
CHAPITRE 1. EVÉNEMENTS
1.4
18
Exercices
. Exercice 1. a) Montrer que 1Ac = 1 − 1A , 1A∩B = 1A 1B , 1A∪B = 1A + 1B − 1A 1B .
b) Montrer que pour toute famille dénombrable (Ai )i∈I d’ensembles deux à deux disjoints,
X
1∪i∈I Ai =
1Ai .
i∈I
. Exercice 2. Soit E un ensemble muni d’une tribu E. Soit X : Ω → E une fonction.
Montrer que la famille {X −1 (H) : H ∈ E} forme une tribu.
On l’appelle la tribu engendrée par X et on la note σ(X). De manière informelle, on peut
interpréter σ(X) comme l’ensemble des événements dont un observateur qui disposerait
seulement de la valeur de X pourrait décider s’ils sont ou non réalisés.
. Exercice 3. Construire l’espace probabilisé correspondant au problème du premier paradoxe de Bertrand. Résoudre le paradoxe.
. Exercice 4. Dans un lot de 20 articles, 12 sont parfaits, 6 comportent un défaut mineur
et 2 un défaut majeur.
1. Deux articles sont choisis au hasard, calculer les probabilités suivantes :
(a) Les deux sont parfaits,
(b) Les deux ont un défaut majeur,
(c) Au moins l’un d’entre eux est parfait,
(d) Au plus l’un d’entre eux est parfait„
(e) Exactement un est parfait,
(f) Aucun n’a de défaut majeur,
(g) Aucun n’est parfait.
2. Un lot de 20 articles est accepté lorsque 3 éléments choisis au hasard n’ont pas de
défaut majeur. Quelle est la probabilité que le lot décrit ci-dessus soit accepté ?
. Exercice 5. On lance simultanément trois dés à 6 faces non pipés.
1. Quel est l’espace des événements ?
2. Quelle est la probabilité d’avoir au moins 1 as ?
3. Montrer que les événements « la somme des faces est paire » et « la somme des faces
est impaire » ont même probabilité.
4. Quelle est la probabilité que la somme des faces soit paire ?
5. Même question si on a N dés avec N quelconque. On pourra traiter d’abord le cas
N impair puis le cas N pair.
CHAPITRE 1. EVÉNEMENTS
19
. Exercice 6. Une boîte contient 4 piles usagées et 6 piles neuves. On tire deux piles au
hasard. L’une d’entre elles seulement est testée. Quelle est la probabilité que l’autre soit
bonne si la pile testée est bonne ? Même question si la pile testée est usagée.
On teste l’ensemble de la boîte par la méthode suivante : les piles sont tirées les unes après
les autres au hasard sans remise. À chaque tirage, on teste la pile courante, le protocole
s’arrête lorsque l’on a sorti les 4 piles usagées. Quelle est la probabilité que le test s’arrête
au cinquième tirage (au dixième tirage) ?
. Exercice 7 ((Loto)). Un joueur coche 6 numéros sur une grille de 49 numéros. On tire
6 boules parmi 49 boules numérotées. Quelle est la probabilité pour que le joueur ait
exactement n bons numéros (n = 1, · · · , 6) ?
. Exercice 8 (Arnaque ou pas ?). Dans le jeu « Vegas », il est vendu 500 000 tickets à
3 e chaque. Ces tickets sont distribués aux buralistes sous forme de bandes de 50 tickets
attachés les uns aux autres. La répartition des gains est la suivante :
Nb de lots
Gains
1 40 000 e
1 20 000 e
2 10 000 e
5 1 000 e
18
500 e
800
200 e
850
100 e
2 020
50 e
4 000
20 e
9 000
10 e
28 000
6e
25 000
4e
47 500
3e
1. Quel est le montant moyen des gains ?
2. Quelle est la probabilité d’avoir un lot supérieur à 20 e ?
3. Sur 50 tickets, quelle est la probabilité (exacte et approchée) d’avoir 0 ou 1 lot
supérieur à 20 e ?
4. M. R. a acheté 100 bandes de 50 tickets et il a constaté qu’aucune d’entre elles ne
comportait plus d’un lot supérieur à 20 e. Quelle est la probabilité (approchée, en
supposant que 5 000 est négligeable devant 500 000) d’un tel événement ?
5. Même question avec 25 bandes.
« Le montant ou la nature des gains ou lots est déterminé par le règlement du
jeu ou par l’intervention du hasard. L’attribution des lots aux gagnants est déterminée par le hasard. L’intervention du hasard, totale ou prépondérante, peut
CHAPITRE 1. EVÉNEMENTS
20
être antérieure, concomitante ou postérieure à la mise à disposition du support.
Les jeux doivent respecter le principe d’égalité des chances entre les joueurs, ce
qui n’interdit pas de tenir compte des différences objectives de situations entre
ceux-ci. »
Journal Officiel de la République Française, décret 2002-651 du 29
avril 2002
. Exercice 9. Lors d’un bal, n couples dansent. Les cavaliers ont choisi leur cavalière aléatoirement. Quelle est la probabilité qu’aucun des couples d’origine ne soit réuni ?
. Exercice 10. On lance deux dés. Soient les événements : A = “le premier dé affiche un
résultat pair”, B = “le deuxième dé affiche un résultat pair”, C = “la somme des deux dés
est paire”. Montrer que A, B, C sont deux à deux indépendants, mais ne forment pas une
famille indépendante (on montrera que P(A ∩ B ∩ C) 6= P(A)P(B)P(C)).
. Exercice 11. On suppose que l’on dispose d’un test déterminant d’une maladie donnée.
Malheureusement, comme tout test, celui-ci est faillible : 1% des individus que l’on sait
sains sont déclarés malades et 2% des individus que l’on sait malades sont déclarés sains.
On suppose que la maladie atteint 1% de la population testée. Quelle est la probabilité
qu’un individu réagissant positivement au test soit effectivement malade ?
. Exercice 12. Soient P et Q deux mesures de probabilité sur N. On note pi = P({i}) et
qi = Q({i}). On définit la distance en variation totale entre P et Q par
dT V (P, Q) = sup |P(A) − Q(A)|.
A∈N
1. Montrer que
+∞
X
+∞
1X
|pi − qi |.
(pi − qi ) =
2 i=0
i=0
P
P
On pourra utiliser le fait i pi = i qi = 1.
2. Montrer que pour toute partie A de N,
+
|P(A) − Q(A)| ≤
+∞
X
(pi − qi )+ .
i=0
3. En choisissant convenablement l’ensemble A, montrer que
+∞
1X
dT V (P, Q) =
|pi − qi |.
2 i=0
4. On suppose maintenant que P est donnée par P({0}) = p = 1 − P({1}) et que Q est
une mesure de Poisson de paramètre λ = − ln(p), c’est-à-dire que
qi = e
Calculer dT V (P, Q).
i
−λ λ
i!
.
CHAPITRE 1. EVÉNEMENTS
21
. Exercice 13. Peut-on piper deux dés de sorte que la loi de leur somme soit la loi uniforme
sur {2, · · · , 12} ?
Chapitre 2
Variables aléatoires discrètes
2.1
2.1.1
Loi d’une variable discrète
Définitions
On se donne un univers Ω au plus dénombrable, équipé d’une probabilité P. De manière
informelle, une variable aléatoire discrète est une grandeur à valeur dans un ensemble
discret E qui dépend du résultat de l’expérience. C’est donc une fonction de l’issue ω (en
ce sens, la terminologie de variable est assez malencontreuse). On la notera souvent :
X : Ω → E
ω 7→ X(ω) ,
où Ω est l’univers, supposé muni d’une probabilité P et où E est un ensemble au plus
dénombrable.
Exemple : Considérons un lancer de n dés. Une issue ω est un n-uplet sur Ω = {1, · · · , 6}n .
On peut par exemple définir la variable aléatoire X(ω) qui est égale au nombre de « 6 »
obtenus : c’est bien une fonction de ω.
Nous nous intéressons à la probabilité la forme « la variable X vaut x » ou, plus généralement,
« la variable X appartient à l’ensemble H » = {ω ∈ Ω : X(ω) ∈ H} = X −1 (H) .
Nous utiliserons souvent les notations [X ∈ H] ou {X ∈ H} pour désigner l’événement
{ω ∈ Ω : X(ω) ∈ H}.
Définition 2.1.– On appelle loi de la v.a. X la fonction définie pour tout H ⊂ E par :
PX (H) = P(X −1 (H)) .
22
CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES
23
Avec une écriture plus compacte : PX := P ◦ X −1 où ◦ représente la composition. Nous
pouvons écrire de manière équivalente mais sans doute plus « parlante » :
PX (H) := P[X ∈ H] .
Autrement dit, PX (H) est la probabilité pour que X appartienne à H.
Proposition 2.1.– PX est une probabilité sur E.
Preuve : On vérifie les axiomes i) et ii) que doit satisfaire une mesure de probabilité.
i) PX (E) = P(X −1 (E)) = P(Ω) = 1 et PX (∅) = P(X −1 (∅)) = P(∅) = 0.
S
ii) Soit (Hn )n∈N? une famille d’éléments de E deux à deux disjoints. On a X −1 ( n Hn ) =
S
−1 (H ) et on montre aisément que les événements (X −1 (H )) sont deux à deux
n
n
nX
disjoints. Ainsi en appliquant P aux deux membres de l’égalité précédente, on obtient
S
S
P
PX ( n Hn ) = P( n X −1 (Hn )) = n P(X −1 (Hn )).
On sait grâce au paragraphe 1.2.3 que PX est entièrement caractérisée par la valeur
qu’elle prend sur les singletons. Afin d’alléger les notations, nous écrirons PX (x) au lieu de
PX ({x}), soit :
PX (x) = P[X = x] .
Proposition 2.2.– Pour toute partie H de l’ensemble d’arrivée E, on a :
X
P[X ∈ H] =
PX (x) .
x∈H
Exemple : Soit X le nombre de « 6 » obtenus lorsqu’on lance n dés. La probabilité
d’obtenir au plus deux « 6 » s’écrit : P[X ∈ {0, 1, 2}] = PX (0) + PX (1) + PX (2).
2.1.2
Loi jointe, lois marginales
Soient X, Y deux v.a.d. de Ω dans E de lois respectives PX et PY . L’application :
(X, Y ) : Ω → E × E
ω 7→ (X(ω), Y (ω))
définit une v.a.d. sur E × E.
Définition 2.2.– La loi du couple (X, Y ) est appelée la loi jointe de X et Y , notée
PX,Y . Les lois PX et PY sont appelées les lois marginales de X et Y respectivement.
D’après ce qui précède, la loi jointe est définie pour tout (x, y) ∈ E × E par PX,Y (x, y) =
P [(X, Y ) = (x, y)] soit :
PX,Y (x, y) = P [X = x, Y = y] .
CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES
24
Proposition 2.3.– La loi marginale PX est liée à la loi jointe par :
X
∀x ∈ E, PX (x) =
PX,Y (x, y) .
y∈E
Preuve : La famille d’événements de la forme [Y = y] où y décrit E, forme une partition de
P
l’univers Ω. D’après la formule des probabilités totales, P[X = x] = y P[X = x, Y = y].
Généralisation au cas d’une famille finie de v.a.d.
Soient X1 , · · · , Xn des v.a. de Ω → E. Le n-uplet (X1 , · · · , Xn ) définit une v.a.d. sur E n .
Sa loi est appelée la loi jointe de X1 , · · · , Xn , notée PX1 ,··· ,Xn . Pour tout k, la loi PXk est
appelée la loi marginale de Xk .
Proposition 2.4.– Pour tout k = 1, · · · , n et tout xk ∈ E,
X
PX1 ,··· ,Xn (x1 , · · · , xn ) ,
PXk (xk ) =
x1 ···xk−1 ,xk+1 ···xn
où la somme s’étend sur l’ensemble des (n − 1)-uplets (x1 , · · · , xk−1 , xk+1 , · · · , xn ) sur E.
Ainsi, à partir de la loi jointe, on peut déduire les lois marginales en éliminant les variables
non-souhaitées par sommation sur toutes les valeurs possibles prises par celles-ci.
Définition 2.3.– Une famille (Xi )i∈I de variables aléatoires sur le même espace E est
dite identiquement distribuée si toutes les variables ont la même loi : ∀i ∈ I, PXi = PX1 .
Remarque : Il est évident que deux v.a. X et Y différentes peuvent avoir la même loi
(PX = PY ). Par exemple, si X ∈ {0, 1} suit une loi de Bernoulli de paramètre 1/2, alors
la v.a. Y = 1 − X est différente de X et suit néanmoins la même loi :
P[Y = 0] = P[1 − X = 0] = P[X = 1] =
2.2
1
= P[X = 0] .
2
Indépendance des v.a. discrètes
Soient X et Y deux v.a.d. à valeurs dans E.
Définition 2.4.– X et Y sont dites indépendantes si pour tout G, H ⊂ E, les événements [X ∈ G] et [Y ∈ H] sont indépendants, autrement dit si :
P[X ∈ G, Y ∈ H] = P[X ∈ G]P[Y ∈ H] ,
où [X ∈ G, Y ∈ H] désigne l’ensemble [X ∈ G] ∩ [Y ∈ H].
CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES
25
Proposition 2.5.– Deux v.a.d X et Y sont indépendantes si et seulement si pour tout
(x, y) ∈ E 2 ,
PX,Y (x, y) = PX (x) PY (y)
Remarque : Par définition, X et Y sont indépendantes lorsque les événements [X ∈ H]
et [Y ∈ G] sont indépendants quel que soit le choix de H et G. Le résultat ci-dessus
montre qu’il suffit de vérifier cette propriété sur les singletons H = {x} et G = {y}.
Preuve : Le sens ⇒ est immédiat. On montre la réciproque. On a pour tout H, G ⊂ E,
P[X ∈ H, Y ∈ G] = PX,Y (H × G). Comme PX,Y est une mesure de probabilité sur
P
un espace discret, PX,Y (H × G) = (x,y)∈H×G PX,Y (x, y). En appliquant l’hypothèse,
P
P
P
PX,Y (H × G) = (x,y)∈H×G PX (x)PY (y) = x∈H PX (x) y∈G PY (y) = PX (H)PY (G),
ce qui prouve le résultat.
Soit E 0 un autre espace discret et soient f, g : E → E 0 . On désigne par f (X) la v.a.d.
ω 7→ f (X(ω)), c’est à dire f (X) = f ◦ X.
Proposition 2.6.– Si X et Y sont indépendantes, alors f (X) et g(Y ) sont des v.a.
indépendantes.
Preuve : Soient H, G deux parties de E 0 . Les ensembles [f (X) ∈ H] et [g(Y ) ∈ G]
s’écrivent respectivement [X ∈ f −1 (H)] et [Y ∈ g −1 (G)] et sont donc indépendants.
Généralisation au cas d’une famille finie de v.a.d.
Soient X1 , · · · , Xn des v.a.d. sur E. Elles sont dites indépendantes si pour toute suite d’ensembles (H1 , · · · , Hn ), les événements ([Xk ∈ Hk ])k=1,··· ,n sont indépendants. Autrement
dit,
P [X1 ∈ H1 , · · · , Xn ∈ Hn ] = P [X1 ∈ H1 ] × · · · P [Xn ∈ Hn ] ,
T
où l’on utilise la notation [X1 ∈ H1 , · · · , Xn ∈ Hn ] = k [Xk ∈ Hk ].
Proposition 2.7.– X1 , · · · , Xn sont indépendantes si et seulement si ∀(x1 , · · · , xn ) ∈
E n,
n
Y
PX1 ···Xn (x1 , · · · , xn ) =
PX (xk ) .
k=1
La preuve suit le même principe que dans le cas n = 2 traité plus haut.
Définition 2.5.– Une famille de variables aléatoires est dite indépendante si toute sousfamille finie est indépendante.
n.b. : on utilise souvent l’abréviation i.i.d. pour désigner une famille indépendante et
identiquement distribuée de variables aléatoires.
CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES
26
Proposition 2.8.– Soit (Xi )i∈I une famille indépendante de v.a., chacune étant à valeur
dans un espace Ei . On se donne pour tout i une application mesurable fi sur Ei . Alors la
famille de v.a. (fi (Xi ))i∈I est indépendante.
2.3
2.3.1
Espérance, moments
Introduction
Un joueur de « pile ou face » gagne 10 euros lorsque la pièce tombe sur pile et perd 5
euros lorsqu’elle tombe sur face. Soit X le gain réalisé après l’expérience. X peut prendre
deux valeurs : a = 10 ou b = −5. On définit l’espérance du gain par
E(X) = a P[X = a] + b P[X = b]
1
1
= 10 . + (−5) . = 2, 5 euros.
2
2
L’espérance est donc une moyenne pondérée des gains. D’un point de vue physique, c’est
le centre de gravité des points a et b auxquel on a affecté les masses P[X = a] et P[X = b]
respectivement.
Imaginons que le joueur précédent effectue n lancers de pièce : on note X1 , . . . , Xn les gains
respectifs réalisés à chaque expérience. La moyenne empirique des gains est définie par
n
Sn =
1X
Xk .
n k=1
Nous verrons à la fin de ce chapitre un résultat important appelé la loi des grands nombres
que nous énonçons pour l’instant de manière informelle : la moyenne empirique Sn converge
vers l’espérance lorsque n → ∞. Naturellement, il conviendrait de préciser de quelle
« convergence » il est question (n’oublions pas que l’on parle ici de variables aléatoires
et non d’une simple suite de nombres). Mais cette remarque donne une première illustration de l’importance de l’espérance en probabilité.
2.3.2
Définition
On suppose dorénavant que E est une partie au plus dénombrable de R.
Définition 2.6.– On définit l’espérance E(X) d’une v.a.d. X par
X
E(X) =
x P[X = x]
(2.1)
x∈E
=
X
x PX (x) .
x∈E
Pour que cette somme ait un sens, il suffit que l’une de ces deux conditions soit vérifiée :
CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES
27
1. ses termes sont tous positifs : PX (x) = 0 pour tout x < 0 (auquel cas E(X) peut
éventuellement être égal à +∞) ;
2. ses termes sont absolument sommables, c’est à dire :
X
|x| P[X = x] < ∞ .
(2.2)
x∈E
Lorsque la première condition est vraie i.e., PX (x) = 0 pour tout x < 0, nous dirons que
la v.a.d. X est positive presque partout et nous noterons X ≥ 0 p.p.
Soulignons que l’espérance E(X) est une constante, elle ne dépend pas de l’issue ω. Elle ne
dépend de X qu’au travers de sa loi PX . En particulier, deux v.a. identiquement distribuées
ont même espérance.
Une variable d’espérance nulle est dite centrée.
2.3.3
Propriétés
Soient E, F deux espaces discrets avec F ⊂ R. Soit f : E → F une fonction. La composée
f (X) définit une nouvelle variable aléatoire ω 7→ f (X(ω)). Nous nous intéressons à son
espérance.
Proposition 2.9.– Si f est positive,
E(f (X)) =
X
f (x) P[X = x] .
(2.3)
x∈E
La formule reste vraie pour f quelconque pourvu que
P
x∈E
|f (x)|P[X = x] < ∞ .
Preuve : Donnons d’abord la preuve pour f positive :
X
X
E(f (X)) =
y P[f (X) = y] =
y P[X ∈ f −1 ({y})]
y∈F
y∈F
=
X
X
y P[X = x]
y∈F x∈f −1 ({y})
=
=
X
X
y∈F
x∈f −1 ({y})
X
f (x) P[X = x] ,
f (x) P[X = x]
(2.4)
x∈E
où on a utilisé le fait que les ensembles de la forme f −1 ({y}) sont une partition de E.
Dans le cas où f n’est pas positive, on doit d’abord vérifier que E(f (X)) est bien définie.
En appliquant le résultat déjà démontré à la fonction « valeur absolue », nous avons :
X
|y| P [f (X) = y] = E(|f (X)|)
y∈F
CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES
28
P
et en appliquant le résultat à la fonction |f |, E(|f (X)|) = x∈E |f (x)|P[X = x] qui est
fini par hypothèse. L’équivalent pour la v.a. f (X) de la condition (2.2) est satisfaite :
E(f (X)) est bien définie. La preuve de (2.3) est obtenue par le même calcul qu’en (2.4).
Remarque : Si l’on devait évaluer E(f (X)) en utilisant la définition (2.1) de l’espérance,
on devrait au préalable calculer la loi Pf (X) de la v.a.d. f (X). L’équation (2.3) montre
que l’espérance E(f (X)) s’exprime directement en fonction de la loi de la variable X.
Lorsqu’on choisit pour f l’indicatrice d’un ensemble H, on a le corollaire suivant :
E(1H (X)) = PX (H) .
(2.5)
La propriété (2.3) permet d’écrire la condition de sommabilité (2.2) de manière plus compacte : on écrira simplement E|X| < ∞.
Soient deux X et Y deux v.a.d. sur E ⊂ R. Pour tous coefficients réels α, β, la somme
αX + βY est bien une v.a.d. en tant que fonction du couple (X, Y ). Dans la suite, on
utilisera la notation « X ≤ Y p.p. » pour signifier que Y − X ≥ 0 p.p.. Si a ∈ E est une
constante, on écrira que « X = a p.p. » pour signifier que P(X = a) = 1.
Proposition 2.10.– Soient X et Y deux variables aléatoires dans un ensemble E ⊂ R
discret. Supposons que E|X| < ∞ et E|Y | < ∞. Soient (α, β) ∈ R2 et a ∈ E. Alors :
a) E(αX + βY ) est bien définie et E(αX + βY ) = α E(X) + β E(Y ) .
b) Si X ≥ 0 p.p., alors E(X) ≥ 0 .
c) Si X ≥ 0 p.p. et si E(X) = 0 , alors X = 0 p.p.
d ) |E(X)| ≤ E|X| .
e) Si X ≤ Y p.p., alors E(X) ≤ E(Y ).
f ) Si X = a p.p., alors E(X) = a.
Preuve : Montrons que E(αX + βY ) est bien définie. D’après la propriété précédente,
X
E|αX + βY | =
|αx + βy| PX,Y (x, y)
(x,y)∈E 2
≤ |α|
X
= |α|
X
|x| PX,Y (x, y) + |β|
(x,y)
X
|y| PX,Y (x, y)
(x,y)
|x|
X
x
= |α|
X
PX,Y (x, y) + |β|
y
|x| PX (x) + |β|
x
X
|y|
y
X
X
PX,Y (x, y)
x
|y| PY (y) .
y
Ainsi, E|αX + βY | ≤ |α| E|X| + |β| E|Y | < ∞ par hypothèse. On évalue l’espérance :
X
E(αX + βY ) =
(αx + βy) PX,Y (x, y)
(x,y)
= α
X
(x,y)
x PX,Y (x, y) + β
X
(x,y)
y PX,Y (x, y) ,
CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES
29
où la dernière équalité se justifie par le fait que les deux dernières sommes convergent
absolument (nous l’avons prouvé plus haut). Par le même calcul que ci-dessus, ces deux
sommes sont égales à E(X) et E(Y ) respectivement, ce qui démontre a). Les preuves des
autres propositions sont laissées au lecteur.
2.3.4
Inégalités
Proposition 2.11.– (Inégalité de Markov) Pour tout > 0, p ≥ 1,
P [|X| > ] ≤
E (|X|p )
.
p
Preuve : On donne d’abord la preuve pour = p = 1 et X ≥ 0. D’après (2.5), P [X > 1] =
E(1]1,+∞[ (X)) ≤ E(X) car 1]1,+∞[ (X) ≤ X. Dans le cas général, on utilise le fait que
P [|X| > ] = P [|X|p /p > 1] et on applique le résultat précédent.
Lorsque p = 2, l’inégalité de Markov est aussi connue sous le nom d’inégalité de BienayméTchebychev.
Proposition 2.12.– (Inégalité de Cauchy-Schwarz)
p
E (|XY |) ≤ E(X 2 ) E(Y 2 ) .
Preuve : Si E(X 2 ) = 0, la v.a. X 2 est nulle p.p. donc XY = 0 p.p. ce qui implique que
le membre de gauche est nul. L’inégalité est triviale dans ce cas. Le seul cas non-trivial
est celui pour lequel E(X 2 ) 6= 0 et E(Y 2 ) 6= 0 .
p
p
On utilise l’inégalité U 2 + V 2 ≥ 2U V en posant U = |X|/ E(X 2 ) et V = |Y |/ E(Y 2 ).
Comme E(U 2 ) = E(V 2) = 1, on obtient en prenant
l’espérance de chaque membre de
p
2
2
l’inégalité : 1 + 1 ≥ 2E |XY |/ E(X ) E(Y ) ce qui démontre le résultat.
2.3.5
Moments, variance, écart-type
Définition 2.7.– Soit p ≥ 0. Soit une v.a.d. réelle X telle que E(|X|p ) < ∞. La quantité
E(X p ) est appelée le moment d’ordre p de X.
On dit d’une telle variable qu’elle est d’ordre p, ou qu’elle possède un moment d’ordre p.
Remarque : Le moment d’ordre 1 coïncide avec l’espérance. Une variable bornée possède
tous ses moments.
CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES
30
Proposition 2.13.– Une variable d’ordre p possède tous ses moments d’ordre inférieur.
Preuve : Soit 0 ≤ q ≤ p. De l’inégalité |x|q ≤ 1+|x|p , on déduit E|X|q ≤ 1+E|X|p < ∞.
Définition 2.8.– La variance d’une v.a.d. X d’ordre 2 est définie par
Var(X) := E (X − E(X))2 .
Son écart-type est la racine carrée de la variance, noté σX :=
p
Var(X) .
Exemple : Un joueur lance une pièce, gagne un euro si le résultat est pile, perd un euro
sinon. L’espérance du gain X est E(X) = 0. La variance est Var(X) = 1 × 12 + 1 × 21 = 1
et l’écart-type est 1. Si le joueur gagne ou perd 10 euros à chaque partie, l’espérance
de gain est toujours nulle. En revanche, la variance vaut 100 et l’écart type vaut 10. La
variance donne donc une information sur l’amplitude des fluctuations de la X autour de
son espérance.
Exemple : La variance d’une loi de Bernoulli B(p) vaut p(1 − p).
Définition 2.9.– Soient X et Y deux v.a.d. d’ordre 2. Leur covariance est définie par :
Cov(X, Y ) := E [(X − E(X))(Y − E(Y ))] .
L’inégalité de Cauchy-Schwarz garantit que la quantité ci-dessus est bien définie.
En statistique et en traitement du signal, on utilise souvent une version renormalisée de la
covariance, le coefficient de corrélation qui est défini par :
ρX,Y :=
Cov(X, Y )
.
σX . σY
Lorsque Cov(X, Y ) = 0, on dit que X et Y sont décorrélées.
Proposition 2.14.– Soient X et Y deux v.a.d. d’ordre 2 et (α, β) ∈ R2 . On a :
a) Var(X) = E(X 2 ) − (EX)2 ;
b) Cov(X, X) = Var(X) ;
c) Cov(Y, X) = Cov(X, Y ) ;
d ) Var(αX + β) = α2 Var(X) ;
e) Var(X + Y ) = Var(X) + Var(Y ) + 2Cov(X, Y ) .
La preuve est laissée à titre d’exercice.
CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES
2.3.6
31
Cas des variables indépendantes
Proposition 2.15.– Soient X et Y des v.a. indépendantes telles que E|X|, E|Y | < ∞.
Alors E|XY | < ∞ , et on a l’égalité :
E(XY ) = E(X) E(Y ) .
P
Preuve : E|XY | = (x,y) |xy|PX,Y (x, y) et comme X et Y sont indépendantes, PX,Y (x, y) =
P
P
PX (x)PY (y). Ainsi, E|XY | = x |x|PX (x) y |y|PY (y) = E|X|E|Y | < ∞. Le même calcul, sans les valeurs absolues, montre que E(XY ) = E(X) E(Y ) .
Cette propriété admet une généralisation immédiate. Si X et Y sont indépendantes, on sait
que pour des fonctions f et g arbitraires, les v.a.d. f (X) et g(Y ) restent indépendantes.
Par conséquent,
E (f (X)g(Y )) = E(f (X)) E(g(Y )) ,
(2.6)
dès lors que les deux sommes du membre de droite sont absolument convergentes. On a
même une réciproque à ce résultat.
Proposition 2.16.– Deux variables aléatoires X : Ω → (E, E) et Y : Ω → (F, F) sont
indépendantes si et seulement pour toutes les fonctions mesurables bornées f : E → R et
g : F → R,
E [f (X)g(Y )] = E [f (X)] E [g(Y ]).
(2.7)
Preuve : On vient de voir que l’indépendance implique (2.7).
Réciproquement, si l’équation (2.7) est vérifiée, on obtient (??) en spécialisant (2.7) pour
f = 1{i} et g = 1{j} .
Un cas particulier intéressant est obtenu en posant f (x) = x − E(X) et g(y) = y − E(Y ).
Dans ce cas, le membre de gauche de (2.6) n’est autre que la covariance Cov(X, Y ) et les
deux facteurs du membre de droite sont nuls. On en déduit la propriété suivante :
Proposition 2.17.– Si X et Y sont indépendantes et d’ordre 2, alors
Cov(X, Y ) = 0 .
Cette propriété implique en particulier que pour des v.a. indépendantes :
Var(X + Y ) = Var(X) + Var(Y ) .
(2.8)
Notons que deux variables décorrélées ne sont pas nécessairement indépendantes. L’exercice 15 permet de s’en convaincre.
CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES
32
Généralisation au cas d’une famille finie de v.a.d.
Proposition 2.18.– Pour tout k = 1, · · · , n, soit Xk une v.a. sur un espace discret Ek
et fk : Ek → Ek0 une fonction sur Ek0 ⊂ R telle que E|fk (Xk )| < ∞ . On suppose X1 , · · · , Xn
indépendantes. Alors,
!
Y
Y
E
fk (Xk ) =
E (fk (Xk ))
k=1
k=1
Proposition 2.19.– Si X1 , · · · , Xn sont des v.a.d. indépendantes d’ordre 2, alors
Var(X1 + · · · + Xn ) = Var(X1 ) + · · · + Var(Xn ) .
Preuve : La propriété est vraie au rang n = 1. Supposons la vraie au rang n − 1.
Posons Zn = X1 + · · · + Xn−1 . Les v.a. Xn et Zn sont indépendantes. Par l’égalité (2.8),
Var(Xn + Zn ) = Var(Xn ) + Var(Zn ) or Var(Zn ) = Var(X1 ) + · · · + Var(Xn−1 ) par
l’hypothèse de récurrence. La propriété est donc démontrée.
2.3.7
Application : Loi faible des grands nombres ∗
Soit (Xk )k∈N? une famille indépendante et identiquement distribuée de v.a. sur un ensemble
E ⊂ R au plus dénombrable. On s’intéresse au comportement de la moyenne empirique
des n premières variables :
n
1X
Xk .
Sn =
n k=1
Théorème 2.20.– Soit (Xk )k∈N? une famille indépendante, identiquement distribuée de
v.a.d.. On suppose que E(X12 ) < ∞ . Alors,
∀ > 0,
lim P [|Sn − E(X1 )| > ] = 0 .
n→∞
On dit de la variable aléatoire Sn qu’elle converge en probabilité vers E(X1 ).
Preuve : En utilisant le fait que E(X1 ) = E(Xk ), on a :
"
#
X
P [|Sn − E(X1 )| > ] = P (Xk − E(Xk )) > n
k
P
E (( k (Xk − E(Xk )))2 )
≤
,
n2 2
en utilisant l’inégalité de Bienaymé-Tchebichev. La somme dans l’espérance est une v.a.
centrée, donc son moment d’ordre
2 et P
sa variance coïncident. Par indépendance de
P
Xk , sa variance satisfait : Var( k Xk ) = k Var(Xk ) = nVar(X1 ), où la seconde égalité
CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES
33
provient du fait que toutes les variances sont égales, les Xk étant identiquement distribués.
Finalement,
n Var(X1 )
P [|Sn − E(X1 )| > ] ≤
,
n2 2
et le membre de gauche converge bien vers zéro quand n tend vers l’infini.
Le théorème précédent se nomme « loi faible des grands nombres ». Donnons-en une illustration. Un joueur lance une pièce, gagne un euro si le résultat est pile, perd un euro
sinon. Il réitère l’expérience n fois. Xk représente son gain à l’instant k et Sn la moyenne
des gains. L’espérance du gain Xk est E(Xk ) = 0. La loi faible des grands nombres implique
que P[|Sn | > ] tend vers zéro. Quel que soit aussi petit qu’on veut, le gain moyen est
plus petit que avec forte probabilité lorsque n est grand.
Remarque : Plus loin dans ce cours, nous étendrons la loi faible des grands nombres à des
v.a. quelconques, pas nécessairement discrètes. Nous montrerons également un résultat
plus puissant appelé « loi forte des grands nombres ». La loi forte établit que quelle que
soit l’issue ω, hormis peut-être pour ω dans un ensemble de probabilité nulle, nous avons
limn Sn (ω) = E(X1 ).
2.4
Fonction génératrice d’une v.a. à valeurs entières
Dans ce paragraphe, on se limite au cas où la v.a. X est à valeurs dans N (ou bien dans un
sous-ensemble E ⊂ N : dans ce dernier cas, on étend X à une fonction dans N en imposant
que P[X = k] = 0 pour k ∈
/ E).
Définition 2.10.– La fonction génératrice de X, notée ΦX , est définie pour tout s dans
l’intervalle [−1, +1] par :
ΦX (s) = E(sX )
∞
X
=
P[X = k] sk .
k=0
La fonction génératrice est donc la série entière de terme général P[X = k]. Le rayon de
convergence de cette série est supérieur ou égal à un.
Proposition 2.21.– Pour toute v.a.d. à valeurs entières, sa fonction génératrice ΦX
satisfait les propriétés suivantes.
a) ΦX est continue sur [−1, +1] et de classe C ∞ sur ] − 1, +1[.
b) Pour tout n,
(n)
(n)
où ΦX
Φ (0)
,
P[X = n] = X
n!
est la dérivée nème de ΦX .
CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES
34
Preuve : Il suffit d’appliquer des résultats connus sur les séries entières. On sait (voir
l’annexe et [Rud95, Théorème 8.1]) qu’une série entière de terme général ak et de rayon
P
de convergence R est de classe C ∞ sur ] − r, r[, et sa dérivée nème vaut k≥n n(n −
1) · · · (n−k +1)ak sn−k . L’application de ce résultat démontre b). Il ne reste qu’à montrer
la continuité de ΦX en ±1, ce qui peut être fait par un argument de convergence dominée.
Du deuxième résultat, on en déduit le corollaire suivant.
Corollaire 2.22.– Si X et Y sont deux v.a.d. de même fonction génératrice alors
PX = PY , i.e. X et Y ont la même loi.
Si la fonction génératrice caractérise la loi, elle caractérise a fortiori les moments. La
propriété suivante permet de déduire les moments de la fonction caractéristique.
Notation : Pour toute fonction f ayant un limite à gauche (resp. à droite) en b, on note
f (b−) cette limite (resp. f (b+ )).
Proposition 2.23.– Une v.a. X : Ω → N admet un moment d’ordre p si et seulement
(p)
si ΦX admet une limite à gauche en 1. Alors,
(p)
ΦX (1− ) = E (X(X − 1) · · · (X − p + 1)) .
Preuve : P
On traite le cas p = 1, le cas général suit le même principe. Rappelons
que
P
0
k−1
ΦX (s) = k≥1 kpX (k) s . Supposons que E(X) < ∞. Comme E(X) = k≥1 kpX (k),
suite sommable kpX (k).
les termes kpX (k) sk−1 de la série Φ0X (s) sont
P dominés par une k−1
0
= E(X).
Par convergence dominée, lims↑1 ΦX (s) = k≥1 lims↑1 kpX (k) s
Réciproquement, supposons que Φ0X (1− ) existe. Comme Φ0X est croissante sur [0, 1[, on
P
a pour tout s < 1, k≥1 kpX (k) sk−1 ≤ Φ0X (1− ) et comme tous les termes sont positifs,
Pn
k−1 ≤ Φ0 (1− ) quel que soit n. En faisant s ↑ 1 dans la dernière inégalité,
k=1 kpX (k) s
X P
on en déduit que la suite ( nk=1 kpX (k))n est bornée. C’est une suite croissante, elle est
P
donc convergente. On a bien nk=1 kpX (k) < ∞, autrement dit E(X) < ∞.
L’exercice 16 fournit des exemples d’applications.
CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES
2.5
35
Exercices
. Exercice 14. Soit (Xn )n∈N? une suite i.i.d. de loi de Bernoulli de paramètre p sur {0, 1}.
P
1. Pour tout n, caractériser la loi de Sn = nk=1 Xk .
2. On pose Y = min{n : Xn = 1} lorsque cet ensemble est non-vide, Y = +∞ sinon.
Caractériser la loi de Y .
3. Déduire de la première question l’espérance d’une variable binomiale de paramètres
(n, p).
. Exercice 15. Soit X de loi uniforme sur {0, 1} et Z de loi uniforme sur {−1, +1} indépendante de X. Soit Y = ZX. Montrer que X et Y sont décorrélées mais ne sont pas
indépendantes.
. Exercice 16.
1. Calculer ΦX , E(X) et Var(X) pour une v.a. de Bernoulli B(p), une
v.a. de loi géométrique G(p), une v.a. de Poisson P(λ).
2. Soient X1 , · · · , Xn des v.a.
Xk suit une loi de Poisson de paramètre
Pindépendantes.
n
λk . Caractériser la loi de k=1 Xk .
. Exercice 17 (Canal binaire symétrique). On considère un canal de communication qui
transmet des bits avec erreur selon le modèle suivant : un bit à une probabilité p d’être
transmis correctement et 1 − p d’être inversé. On suppose que n canaux de ce type sont en
série. On note Xn le bit reçu en sortie du n-ième canal. On note
πn = P(Xn = 0 | X0 = 0), P(Xn = 1 | X0 = 1) .
1. Exprimer la relation matricielle entre πn et πn−1 pour tout n ≥ 1. On traitera à part
les cas p = 0 et p = 1.
2. On suppose dorénavant que p ∈]0, 1[. Calculer la probabilité pn pour que l’information soit fidèlement transmise.
3. Que se passe-t-il quand n tend vers l’infini ?
. Exercice 18. Un étang contient un nombre de poissons N inconnu. Pour estimer N, on
prélève un échantillon de r poissons que l’on marque et que l’on remet dans l’étang. Une
semaine plus tard, un autre échantillon de s < r individus est prélevé. On appelle X le
nombre de poissons marqués lors du premier prélèvement qui sont aussi dans le deuxième
échantillon.
1. Calculer la loi de X (dite loi hypergéométrique).
On note pour la suite de cet exercice
r N −r
pk =
k
s−k
N
s
pour k ≤ min(r, s) et k ≥ max(s + r − N, 0).
,
CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES
36
2. Montrer que p2k ≥ pk−1 pk+1 .
3. En déduire qu’il existe une unique valeur de k telle que pk = maxj pj .
4. Soit k0 tel cette valeur. Par définition, pk0 +1 < pk0 et pk0 −1 < pk0 . En déduire que
k0 =
(r + 1)(s + 1)
.
N +2
On pourra poser pour simplifier les calculs, r0 = r + 1, s0 = s + 1, N 0 = N + 2.
5. En déduire une estimation de N .
6. Lors du dépouillement, on pose Xi = 1Psi le i-ème poisson est marqué, Xi = 0 sinon.
En utilisant la relation évidente X = si=1 Xi , montrer que
E [X] = sp et var(X) = sp(1 − p)
N −s
,
N −1
où p = r/N.
. Exercice 19. Dans le protocole WiMaX, la bande de fréquences est découpée en N = 48
groupes de M = 32 fréquences. Un sous-canal est constitué d’une fréquence dans chaque
groupe. Dans une cellule donnée, les algorithmes de construction des sous-canaux garantissent que deux sous-canaux ne partagent pas de fréquences. On peut donc faire au maximum M sous-canaux dans une cellule. En revanche, rien ne garantit qu’un sous-canal d’une
cellule voisine n’ait pas de fréquence commune avec un sous-canal de la cellule de référence.
Lorsqu’une fréquence est partagée, il y a interférence d’où perte du signal.
On suppose que la cellule A dispose de x sous-canaux avec 0 < x ≤ M . La cellule B a
construit y sous-canaux.
1. Quelle est la probabilité qu’il y ait c collisions dans un groupe donné ?
2. Comment calculer la probabilité d’avoir C collisions sur l’ensemble de la bande de
fréquences ?
3. Quel est le nombre moyen de collisions en fonction de x, y, N et M ?
. Exercice 20. Un actif financier de prix initial S0 vaut S0 .M avec probabilité p ou S0 .m
(avec probabilité 1 − p) (m < M )à la fin de la période d’observation. On a aussi à disposition, un compte rémunéré à r% par période : pour x e placés sur ce compte initialement,
on récupère (1 + r)x e en fin de période.
On dispose d’une fortune initiale X0 , que l’on peut répartir à volonté entre des actions et
le compte rémunéré.
1. À quelle condition sur m et M est-il possible d’avoir une fortune finale fixée égale à
K?
2. Quelle est la stratégie (dite stratégie de couverture) pour y parvenir ?
CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES
37
. Exercice 21 (Erdös et Renyi (1960)). On fabrique un graphe sur n sommets en choisissant ses arêtes « au hasard
». Plus précisément, on considère le graphe Gn,p obtenu en
n
choisissant chacune des 2 arêtes potentielles indépendamment avec probabilité p. Le but
de ce problème est d’étudier la probabilité que Gn,p soit connexe. On s’intéressera au cas
où p est de la forme
ln n c
+
p = p(n) =
n
n
où c est une constante fixée.
1. Soit (X
Pin, 1 ≤ i ≤ n) un n-uple de variables aléatoires à valeurs dans {0, 1} et soit
X = i=1 Xi . Montrer que pour tout r tel que r ≥ 1 et 2r + 1 ≤ n on a :
2r+1
X
k
(−1) F
(k)
2r
X
≤ P(X = 0) ≤
(−1)k F (k)
k=0
k=0
où l’on a posé F (0) = 1 et pour k ≥ 1
X
F (k) =
E [Xj1 Xj2 . . . Xjk ] .
j1 <j2 <...<jk
Suggestion. On pourra montrer que
"
n
Y
P(X = 0) = E
(1 − Xi )
#
i=1
et appliquer une formule de Taylor à la fonction
Qn
i=1 (1
− xi ).
2. On dira qu’un sommet est isolé s’il n’est l’extrémité d’aucune arête. Dans
Pn un premier
temps, on étudie le nombre X de sommets isolés. On peut écrire X = i=1 Xi où Xi
est la variable aléatoire qui vaut 1 si le sommet i est isolé, 0 sinon. Que valent E [Xi ]
et E [X] ?
3. On suppose dorénavant c fixé. Montrer que la quantité F (k) , pour la variable X,
converge, lorsque n tend vers l’infini, vers e−ck /k!.
−c
4. Montrer que limn→∞ P(X = 0) = e−e .
5. Calculer l’espérance du nombre de composantes connexes à 2 sommets, et constater
que celle-ci tend vers zéro quand n tend vers l’infini.
6. Plus généralement, soit Ct le nombre de composantes connexes à t sommets. Montrer
que pour 2 ≤ t ≤ n/2,
k
t p
1 X
2
.
E [Ct ] ≤
t!
1−p
k
t
t−1≤k≤(2)
−c
En déduire que la P
probabilité que Gn,p soit connexe tend, quand n → ∞, vers e−e .
On admettra que 2≤t≤n/2 E [Ct ] → 0 quand n → ∞.
CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES
38
7. Que peut-on dire de la probabilité que Gn,p soit connexe ?
Commentaire : on pourrait montrer de la même manière que
−c
P(X = j) → e−e e−cj /j!.
La loi de X se rapproche d’une loi de Poisson, ce qui veut dire que les Xi se
comportent de manière « de plus en plus indépendantes ».
– Il y a n2 paires de sommets. la probabilité qu’une paire de sommets donnée constitue une composante connexe vaut p(1 − p)2(n−2) . L’espérance du
nombre de composantes connexes à deux sommets vaut donc
n
p
p
p(1 − p)2(n−2) ∼ (ne−pn )2 = e−2c → 0
2
2
2
car p tend vers 0 quand n → ∞.
– On en déduit qu’avec probabilité tendant vers 1 le nombre de composantes
connexes à t éléments avec 2 ≤ t ≤ n/2 tend vers 0. Or Gn,p n’est pas
connexe si et seulement s’il existe une composante connexe à t sommets
pour 1 ≤ t ≤ n/2. La probabilité d’être non connexe se comporte donc
comme la probabilité d’avoir (au moins) un point isolé. Autrement dit,
−c
la probabilité que Gn,p soit connexe tend vers e−e . En particulier on en
déduit que si p grandit moins vite que ln n/n + c/n pour tout c, alors Gn,p
n’est pas connexe avec probabilité tendant vers 1. Par contre si p grandit
plus vite que ln n/n+c/n pour tout c, alors Gn,p est connexe avec probabilité
tendant vers 1.
. Exercice 22. En codage correcteur d’erreurs, les erreurs interviennent au hasard sur l’un
quelconque des bits. Si on transmet des mots de n bits, on pose Ω = {0, 1}n , que l’on munit
de la loi uniforme. On introduit Xi (ω) = ωi pour i = 1, · · · , n. La distande de Hamming
entre mots de code x = (x1 , · · · , xn ) et y = (y1 , · · · , yn ), est définie par :
d(x, y) =
n
X
1{xi 6=yi } .
i=1
On appelle longueur d’un mot x, sa distance au mot nul 0 = (0, · · · , 0).
1. Quelle est la longueur moyenne d’un mot ?
2. Quelle est la variance de la longueur d’un mot ?
3. On choisit deux mots au hasard indépendamment l’un de l’autre, soit X et Y les
variables aléatoires correspondantes. Calculer
E d(X, Y )2 .
CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES
39
. Exercice 23. On veut calculer les moments d’une v.a. de loi hypergéométrique. On se
donne donc une urne contenant r boules rouges et b boules blanches de sorte que N = r +b.
Muni d’une épuisette à boules, on tire m boules parmi les N présentes. On range ces boules
dans des cases numérotées de 1 à m. On note X le nombre de boules rouges ressorties et
(
1 si la case i contient une boule rouge,
Xi =
0 sinon.
On a donc X =
Pm
i=1
Xi .
1. Pourquoi les vecteurs aléatoires (X1 , · · · , Xm ) et (Xσ(1) , · · · , Xσ(n) ) ont-ils la même
loi ?
2. Calculer P(Xi = 1) et P(Xi Xj = 1) pour i 6= j.
3. En déduire E [X] et Var(X).
. Exercice 24. On rappelle qu’une suite de variables aléatoires (Xn , n ∈ N) converge en
probabilité vers la variable aléatoire X si et seulement si pour tout > 0,
lim P(|Xn − X| ≥ ) = 0.
n→+∞
Soit (Xn , n ∈ N) une suite de v.a. de moyenne µn et de variance σn2 . Soit (bn , n ∈ N) une
suite de réels positifs tels que σn2 /b2n tende vers 0. Montrer que
X n − µn
tend vers 0 en probabilité.
bn
. Exercice 25 (Borne de Chernoff). Soit X une v.a. de loi de Poisson de paramètre λ.
1. Montrer que X ≥ η = exp(θX) ≥ exp(θη) .
2. Montrer que, pour tout θ ≥ 0,
P(X ≥ Kλ) ≤ e−Kθλ E [exp(θX)] .
(2.9)
3. Calculer E [exp(θX)].
4. Trouver θ qui minimise le terme de droite de (2.9).
5. Trouver K tel que P(X ≥ Kλ) ≤ 0, 001.
. Exercice 26 (Diffusion de gaz). Un modèle simple de diffusion de deux gaz dû à Ehrenfest
est le suivant. On considère deux urnes A et B qui contiennent respectivement n boules
blanches et n boules noires. À chaque étape, on choisit une boule dans chacune des urnes et
on permute la position de ces deux boules : celle qui était en A passe en B et réciproquement.
On note Xk le nombre de boules blanches dans A après le k-ième mélange.
1. Pour k ≥ 1, calculer la loi de Xk sachant Xk−1 .
2. Calculer E [Xk ].
CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES
40
3. Quelle est la limite de E [Xk ] quand k tend vers l’infini ?
. Exercice 27. Dans le tri rapide (quicksort), on note Mn le nombre de comparaisons
nécessaires pour ordonner un tableau de n nombres. Montrer que E [Mn ] vérifie la relation
n−1
2X
E [Mn ] = n − 1 +
E [Mk ] .
n k=1
En déduire que
E [Mn ] = 2(n + 1)
n−1
X
i=1
i
(i + 1)(i + 2)
et trouver un équivalent asymptotique de Mn quand n tend vers +∞.
. Exercice 28. On veut collectionner N images dont une et une seule apparaît dans chaque
tablette de chocolat achetée. Les images sont mises au hasard dans les tablettes. On appelle
Ti le nombre de tablettes nécessaires avant d’avoir i images distinctes. On pose T0 = 0.
1. Montrer que Ti+1 − Ti suit une loi géométrique de paramètre 1 − i/N.
2. Montrer que les variables aléatoires T0 , T1 − T0 , . . . , TN − TN −1 sont indépendantes
dans leur ensemble.
3. Calculer l’espérance et la variance de TN . Trouver un équivalent de l’espérance et
montrer que la variance est un O(N ) quand N tend vers +∞.
4. En utilisant l’exercice 24, montrer que TN /(N log N ) tend vers 1 en probabilité.
. Exercice 29. Les règles du jeu du not-seven sont les suivantes : on part d’un score
X0 = 0. À chaque coup, on lance deux dés non pipés, si la somme des faces égale 7, le score
retourne à 0 et la partie est terminée. Sinon, le score augmente de la somme des faces et
on a le droit de rejouer ou pas. Si l’on ne rejoue pas, le score est acquis et la partie est
terminée. Si l’on rejoue, on relance les deux dés avec la même règle.
1. Calculer la loi de la somme S des deux faces. Calculer son espérance.
On considère une suite (Sn , n ∈ N) de variables aléatoires indépendantes de même
loi que S.
2. Soit τ = inf{n ≥ 1, Sn = 7}, trouver la loi de τ .
3. Calculer la moyenne de τ .
4. Quelle est la stratégie d’un Initié (celui qui sait le résultat du prochain lancer de
dés) ?
5. Calculer son gain moyen.
6. On appelle Xn le score au n-ième coup en l’absence de stratégie d’arrêt. Montrer que
E [Xn+1 | Xn = i] =
35
5
i+
,
6
6
où l’espérance conditionnelle par rapport à un événement B est définie comme l’espérance associée à la loi de probabilité A 7→ P(A | B).
CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES
41
7. En déduire que la stratégie optimale consiste à jouer tant que l’on n’a pas atteint 35
et à s’arrêter immédiatement après avoir franchi ce seuil.
8. Calculer par simulation le gain moyen avec cette stratégie.
. Exercice 30. Soient (X1 , X2 , X3 ) des variables aléatoires indépendantes de même loi à
valeurs dans N. On note pi = P(Xl = i), l = 1, 2, 3. On introduit Z de loi uniforme sur
{1, 2}.
1. Quelle est la loi de Y = (XZ , X3−Z ) ?
2. Soit W le vecteur aléatoire défini par :
W = (X1 , X3 ) si Z = 2 et W = (X3 , X2 ) si Z = 1.
Quelle est la loi de W ?
. Exercice 31. Soient 1 ≤ n ≤ N deux entiers. Soit M une v.a. de loi binomiale (N, θ) et
X une v.a. dont la loi est donnée par
N −m
m
P(X = k | M = m) =
k
n−k
N
n
pour tout k ∈ {0, · · · , n}.
1. Calculer la loi de M sachant X = k, dite loi a posteriori de M.
2. Pour k = 0, identifier cette loi.
. Exercice 32. Soit X1 , · · · , Xn , Y1 , · · · , Yn , U ) des variables aléatoires indépendantes. La
loi de U est la loi uniforme sur {1, · · · , n}. Pour tout i ∈ {1, · · · , n},
P(Xi = 1) = P(Yi = 1) = p = 1 − P(Xi = 0) = 1 − P(Yi = 0).
On pose W = X1 + . . . + Xn . On note X = (X1 , · · · , Xn ).On construit X 0 de la façon
suivante :
X 0 = (X1 , · · · , Xi−1 , Yi , Xi+1 , · · · ) si U = i.
On pose
W 0 = W − XU + YU .
1.
2.
3.
4.
Montrer que X et X 0 ont même loi.
En déduire que W et W 0 ont même loi.
Calculer P(Xi = 1 | W = m) pour m ∈ {0, · · · , n}.
Calculer
P(W − W 0 = | W = m) pour = −1, 0, 1.
. Exercice 33 (Processus de branchement). Soit X0 une v.a. à valeurs entières. Soit (Xn, j , n ≥
1, 1 ≤ j ≤ n) une famille dénombrable de variables aléatoires indépendantes, de loi PX0 .
On note Φ la fonction génératrice de PX0 . On considère un individu « racine » qui a un
nombre X0 de descendants Chacun de ses descendants a un nombre aléatoire de descendant, ce nombre est indépendant de celui des autres descendants et de loi PX0 . On pose Zn
le nombre total d’individus au rang n.
CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES
42
1. Calculer la fonction génératrice de Zn en fonction de celle de Zn−1 .
2. Soit un = P(Zn = 0). Montrer que un = Φ(un−1 ).
3. Trouver des conditions nécessaires et suffisantes sur PX0 qui garantissent que Φ est
strictement convexe.
4. Montrer que u converge vers une limite non nulle si et seulement si E [X0 ] < 1.
Ce processus représente tout aussi bien l’évolution de la contamination par un virus ( X0
est le nombre d’individus contaminés par le malade initial ), que la transmission d’un nom
de famille ( X0 étant alors le nombre d’enfants portant le nom de leur père )et bien d’autres
situations.
Chapitre 3
Eléments de théorie de la mesure
3.1
Introduction
Ce chapitre a pour but l’introduction des outils nécessaires à la construction de probabilités sur des ensembles plus généraux que les seuls ensembles discrets. Une probabilité sur
l’univers Ω est une application P qui à un événement A associe une valeur P(A) comprise
entre 0 et 1. Formellement,
P : F → [0, 1]
A 7→ P(A)
où F est le domaine de définition de P. Lorsque l’univers Ω est au plus dénombrable, nous
avons simplement choisi F comme l’ensemble des parties. En revanche, dans des espaces
plus complexes tels que Ω = R, il s’avère problématique de définir P sur l’ensemble des
parties.
Exemple : Considérons la position d’une particule dans un espace Ω isotrope de volume
1. Il est naturel de définir la probabilité que la particule se trouve dans un ensemble
R
A ⊂ Ω comme le volume de A : P(A) = 1A . Une telle définition n’a de sens que
pour des parties A intégrables. Comme il existe des parties non intégrables (voir le cours
d’analyse [LMR12]), il est nécessaire de restreindre le domaine F.
Les conditions qui pèsent sur F sont liées aux considérations suivantes :
a) On veut pouvoir définir les probabilités de l’événement impossible (zéro) et de l’événement certain (un). Donc F doit contenir ∅ et Ω.
b) Si on sait évaluer la probabilité qu’un événement A se réalise, on doit logiquement
pouvoir parler de la probabilité qu’il ne se réalise pas. Autrement dit, si F est stable
par passage au complémentaire.
43
CHAPITRE 3. ELÉMENTS DE THÉORIE DE LA MESURE
44
c) Si A et B sont des événements dont on sait évaluer les probabilités, on doit pouvoir
donner un sens à P(A∪B), donc F est stable pour l’union. Pour des raisons techniques
qui apparaitront clairement plus loin, nous supposerons en outre que F est stable
par union dénombrable.
Les axiomes ci-dessus sont ceux qui définissent une tribu (voir le cours MDI-103). Le
paragraphe 3.2 sera consacré à des rappels sur les tribus. Le paragraphe 3.3 est consacré à
la définition des mesures, qui sont des applications sur F à valeurs positives. Les mesures de
probabilité en sont un cas particulier. Le paragraphe 3.4 introduit la notion d’applications
mesurables qui donnera le cadre formel nécessaire à la définition des variables aléatoires à
valeurs dans des espaces plus généraux que les espaces discrets (voir le chapitre ??).
3.2
3.2.1
Tribus
Définition et propriétés générales
Définition 3.1.– Une famille F de sous-ensembles de Ω est appelée une tribu sur Ω si
elle vérifie les propriétés suivantes :
i) Ω ∈ F ;
ii ) ∀A ∈ F, Ac ∈ F ;
S
iii ) ∀A1 , A2 , · · · ∈ F, ∞
i=1 Ai ∈ F .
Autrement dit, une tribu est stable par passage au complémentaire et stable par union
dénombrable.
Citons quelques exemples de tribus :
– la tribu grossière : F = {∅, Ω} ;
– la tribu des parties : F = l’ensemble des sous-ensembles de Ω, noté P(Ω) ou 2Ω ;
– l’ensemble des parties localement intégrables de R, appelée tribu de Lebesgue (voir
MDI-103) :
Q = A ⊂ R : 1A ∈ L1loc (R) ;
• la tribu engendrée par une application : voir l’exercice 2.
Un espace mesurable est un couple (Ω, F) où Ω est un ensemble et F est une tribu sur Ω.
On parle parfois d’espace probabilisable.
Proposition 3.1.– Toute tribu satisfait les propriétés suivantes.
a) ∅ ∈ F ;
b) ∀A1 , A2 , · · · ∈ F,
T∞
i=1
Ai ∈ F ;
c) ∀A, B ∈ F, A ∪ B ∈ F et A ∩ B ∈ F.
CHAPITRE 3. ELÉMENTS DE THÉORIE DE LA MESURE
45
Preuve : a) Ω ∈ F donc Ωc = ∅ ∈ F par l’axiome ii).
S
c
b) Les complémentaires Ac1 , Ac2 , · · · sont dans F par l’axiome ii). Donc ∞
i=1 Ai ∈ F par
l’axiome iii). En invoquant à nouveau l’axiome ii), le complémentaire de cet ensemble est
également dans F par l’axiome ii). Or d’après les lois de De Morgan, le complémentaire
S
coïncide avec ∞
i=1 Ai ∈ F.
c) Il suffit de poser A1 = A, A2 = B et Ai = ∅ pour tout i ≥ 3. Les deux résultats
découlent de l’axiome iii) et de b) respectivement.
Proposition 3.2.– Soit C une collection d’ensembles sur Ω. L’intersection de toutes
les tribus sur Ω contenant C est une tribu sur Ω. On la note σ(C) et on l’appelle la tribu
engendrée par C sur Ω.
Preuve : Soit S l’ensemble des tribus contenant C. S est non-vide puisqu’il contient la
T
tribu des parties. On vérifie que σ(C) = τ ∈S τ vérifie les trois axiomes d’une tribu.
T
i) Pour tout τ ∈ S, ∅ ∈ τ puisque τ est une tribu. Donc ∅ ∈ τ ∈S τ . ii) Soit A ∈ σ(C).
Pour tout τ ∈ S, on a A ∈ τ par définition de σ(C). Donc Ac ∈ τ car une tribu est stable
T
par passage au complémentaire. Ainsi Ac ∈ τ ∈S τ . iii) Soient A1 , A2 , · · · ∈ σ(C). Pour
tout τ ∈ S, on a A1 , A2 , · · · ∈ τ . Donc, l’union des Ai est dans τ quelque soit τ ∈ S.
S
T
Finalement, ∞
i=1 Ai ∈
τ ∈S τ .
3.2.2
Tribu de Borel
Définition 3.2.– La tribu de Borel sur R, notée B(R), est la tribu engendrée par les
intervalles de la forme ]a, b[ :
B(R) := σ ]a, b[ : (a, b) ∈ R2 , a < b
.
Un élément de la tribu de Borel est appelé un borélien.
Par exemple, dans R, tout ensemble que l’on peut construire à partir d’unions ou d’intersections d’intervalles est un borélien. B(R) n’est pas égal à l’ensemble des parties : il existe
des parties de R non boréliennes (voir le paragraphe 6.6 du polycopié MDI-103 [LMR12]).
Heureusement, tous les ensembles « utiles » en probabilité s’écrivent comme des boréliens :
la propriété ci-dessous vise à en convaincre le lecteur.
Proposition 3.3.– Les ensembles suivants sont dans B(R) : le singleton {a}, les intervalles de la forme [a, b] , ] − ∞, b] , [a, +∞[ , l’ensemble des rationnels, l’ensemble des
irrationnels.
Preuve : Le singleton {a} est un borélien car il s’écrit comme une union dénombrable de
S
boréliens {a} = n≥1 ]a − n1 , a + n1 [ . L’intervalle [a, b] est un borélien car il s’écrit comme
CHAPITRE 3. ELÉMENTS DE THÉORIE DE LA MESURE
46
l’union de trois boréliens [a, b] = {a}∪]a, b[∪{b}. L’intervalle ] − ∞, b] est un borélien
S
car il s’écrit comme une union dénombrable de boréliens ] − ∞, b] = n≥1 ]b − n, b]. La
preuve est similaire pour [a, +∞[ . L’ensemble Q s’écrit comme l’union de ses singletons
S
Q = x∈Q {x}. Puisque Q est dénombrable et que les singletons sont des boréliens, Q est
un borélien. L’ensemble des irrationnels est le complémentaire de Q, c’est donc aussi un
borélien puisque B(R) est stable par passage au complémentaire.
Proposition 3.4.– B(R) est la tribu engendrée par les intervalles de la forme ] − ∞, b].
Preuve : D’après la propriété précédente, la classe C des ensembles ] − ∞, b] sont dans
B(R), donc σ(C) ⊂ B(R) car σ(C) est la plus petite tribu contenant C. Inversement, tout
S
intervalle ]a, b[ s’écrit ] − ∞, a]c ∩ ( n ] − ∞, b − n1 ]), donc ]a, b[ est inclus dans σ(C). Donc
B(R) ⊂ σ(C).
Généralisation à Rd (d ∈ N? ).
Définition 3.3.– La tribu de Borel sur Rd , notée B(Rd ) est la tribu engendrée par les
pavés :
( d
)!
Y
B(Rd ) := σ
]ai , bi [ : ∀i = 1, · · · , d, (ai , bi ) ∈ R2 , ai < bi
.
i=1
Proposition 3.5.– B(Rd ) est engendrée par les ensembles de la forme
Qd
i=1
] − ∞, bi ].
Proposition 3.6.– B(Rd ) est la tribu engendrée par les ouverts de Rd .
Preuve : On donne la preuve pour d = 1, la généralisation est laissée au lecteur. Soit
O la topologie sur R. Tout intervalle de la forme ]a, b[ est un ouvert, donc l’ensemble de
tels intervalles est inclu dans O et donc dans σ(O). Comme B(R) est la plus petite tribu
contenant les intervalles ]a, b[, cela implique que B(R) ⊂ σ(O).
On sait que l’ensemble I des intervalles ouverts à extrémités rationnelles forme une base
de la topologie. Cela signifie que tout ouvert s’écrit comme une union d’éléments de I.
Une telle union est forcément dénombrable puisque I est lui-même dénombrable. Comme
en outre tout élément de I est un borélien, on en déduit qu’un ouvert est un borélien :
O ⊂ B(R). Donc σ(O) ⊂ B(R). On a donc montré σ(O) = B(R).
La proposition 3.6 suggère que l’on aurait pu définir la tribu de Borel comme la tribu
engendrée par les ouverts. Fort de cette remarque, on peut définir la tribu de Borel de
n’importe quel espace topologique Ω comme la tribu engendrée par les ouverts. En particulier, on peut définir une tribu de Borel sur la droite réelle complétée R = [−∞, +∞] :
nous la noterons B(R). Voir le paragraphe 3.4.4 pour une discussion.
CHAPITRE 3. ELÉMENTS DE THÉORIE DE LA MESURE
47
Proposition 3.7.– Tout élément de B(Rd ) est localement intégrable :
B(Rd ) ⊂ {A ⊂ Rd : A ∈ L1loc (Rd )} .
Preuve : Voir le paragraphe 6.2 du polycopié d’analyse [LMR12] .
3.3
3.3.1
Mesures
Définition
Soit (Ω, F) un espace mesurable.
Définition 3.4.– Une mesure sur (Ω, F) est une fonction d’ensemble µ telle que
i ) µ : F → [0, +∞] ;
ii ) µ(∅) = 0 ;
iii ) Pour toute famille (An )n∈N d’événements deux à deux disjoints,
!
X
[
µ(An ) .
µ
An =
n∈N
n∈N
On prêtera attention à l’intervalle fermé à droite dans l’axiome i) : la mesure d’un ensemble
A est une quantité positive, possiblement infinie.
Lorsque µ(Ω) < ∞, on dit que la mesure est finie. Si en outre µ(Ω) = 1, la mesure µ est
une mesure de probabilité. La définition ci-dessus est en ce sens une généralisation de celle
du paragraphe ??.
Un triplet (Ω, F, µ) où µ est une mesure sur (Ω, F), est appelé un espace mesuré. C’est un
espace de probabilité lorsque µ est une mesure de probabilité.
L’axiome i) traduit le fait que l’événement impossible a une probabilité nulle d’être réalisé,
alors que l’événement certain est réalisé avec une probabilité égale à un. L’axiome ii) est
connu sous le nom de propriété de σ-additivité. La σ-additivité est une propriété familière
des étudiants ayant suivi le cours d’intégration MDI-103 : l’application qui à un ensemble
associe son volume, est σ-additive : le volume d’une union disjointe est égal à la somme des
volumes (voir la proposition 3.8). On peut évidemment construire bien d’autres mesures
de probabilités sur Rd , qui vont au delà de la notion usuelle de volume.
3.3.2
Exemples
Mesure de Lebesgue
Proposition 3.8.– L’application λd définie sur B(Rd ) par λd (A) =
mesure, appelée mesure de Lesbesgue sur Rd .
R
1A définit une
CHAPITRE 3. ELÉMENTS DE THÉORIE DE LA MESURE
48
Preuve : Si (An ) est une famille de boréliens deux à deux disjoints,
! Z
Z X
∞
∞ Z
∞
∞
X
[
X
S
∞
1An =
λd
1An =
An = 1 n=1 An =
P(An ) .
n=1
n=1
n=1
n=1
La mesure de Lebesgue sur Rd ne définit pas une mesure de probabilité car λd (Rd ) = +∞.
Toutefois, la mesure de Lebesgue sur [0, 1], définie comme la restriction de λ1 à B([0, 1]),
est bien une mesure de probabilité.
Mesures à densité
La propriété ci-dessous généralise la proposition 3.8.
Proposition 3.9.–
Soit f : Rd → R+ une fonction borélienne. L’application définie sur
R
B(Rd ) par µ : A 7→ A f définit une mesure.
On dit alors Rque f est une densité de µ. La mesure µ est une mesure de probabilité si et
seulement si Rd f = 1. Dans ce cas, f est appelée une densité de probabilité.
Rappelons qu’un ensemble est dit négligeable si son indicatrice est une fonction intégrable
d’intégrale nulle. Deux fonctions boréliennes f et g à valeurs dans Rd sont dites égales
presque partout (en abbréviation p.p.) si elles sont égales hormis sur un ensemble négligeable. Ceci revient à :
λd ({x : f (x) 6= g(x)}) = 0 .
Proposition 3.10.– Soient f et g deux densités d’une même mesure µ sur Rd . Alors f
et g sont égales presque partout.
Preuve : Soit A l’ensemble des points où f > g. Alors A = limn An où An := {x :
R
R
R
f (x)−g(x) ≥ n1 } est une suite croissante. On a 0 = An f − An g = An (f −g) ≥ n1 λd (An )
d’où λd (An ) = 0. Comme An ↑ A, on conclut λd (A) = limn λd (An ) = 0. Donc A est
négligeable. Par symétrie, on a aussi que l’ensemble des points où g > f est négligeable,
ce qui conclut la preuve.
En parlant d’une mesure µ à densité, on dit souvent que f est la densité de µ. La propriété
précédente montre qu’il ne s’agit que d’un léger abus de langage : µ admet effectivement
une unique densité à un ensemble négligeable près.
Proposition 3.11.– Soit µ une mesure sur Rd admettant une densité et soit x ∈ Rd .
Alors µ({x}) = 0.
Preuve : Un singleton est un ensemble négligeable. Donc f 1{x} est une fonction d’intégrale nulle. Son intégrale est précisément µ({x}).
CHAPITRE 3. ELÉMENTS DE THÉORIE DE LA MESURE
49
La table 3.1 fournit différents exemples de densités de probabilité f , sur lesquels nous
aurons l’occasion de revenir pendant ce cours. A titre d’exemple, la figure 3.1 représente
la densité gaussienne de paramètres 0 et 1, notée N (0, 1) et appelée gaussienne centrée
réduite :
1
2
(3.1)
f (x) = √ e−x /2 .
2π
La densité gaussienne porte aussi le nom de densité normale, ce qui justifie la notation N .
Mesure de Dirac
Soit (Ω, F) un espace mesurable quelconque et soit a ∈ Ω. La mesure de Dirac au point a
est l’application δa définie sur F par δa (A) = 1A (a) c’est à dire :
1 si a ∈ A
δa (A) =
0 sinon.
Mesure de comptage et mesures discrètes
Soit I un ensemble au plus dénombrable et (ai )i∈I une collection de points de Ω. La fonction
définie pour tout A ∈ F par :
X
δai (A)
µ(A) :=
i∈I
définit une mesure sur F, appelée la mesure de comptage de (ai )i∈I . La quantité µ(A) est
le nombre de points ai contenus dans l’ensemble A : µ(A) = cardinal{i : ai ∈ A}.
Plus généralement, si (αi )i∈I est une suite de coefficients réels positifs, alors :
X
µ(A) :=
αi δai (A)
i∈I
définit une mesure sur F. La quantité µ(A) est égale à la somme des αi pour tous les i tels
que ai ∈ A. Une telle mesure est appelée une mesure discrète.
3.3.3
Propriétés
Soit µ une mesure sur (Ω, F).
Proposition 3.12.– Soient A, B, (An )n∈N? des éléments de F.
a) Si µ(A ∩ B) < ∞, alors µ(A ∪ B) = µ(A) + µ(B) − µ(A ∩ B) .
b) Si A ⊂ B, alors µ(A) ≤ µ(B) .
CHAPITRE 3. ELÉMENTS DE THÉORIE DE LA MESURE
50
Domaine
Densité
Expression de f (x)
Notation
R
Densité uniforme sur [a, b]
1[a,b] (x)
U([a, b])
Rd
Densité uniforme sur une partie A ⊂ Rd
1RA (x)
1A
R
Densité exponentielle de paramètre α > 0
αe−αx 1R+ (x)
R
Densité gaussienne de paramètres m, σ 2
(m ∈ R, σ 2 > 0)
Rd
Gaussienne multivariée de paramètres m, Σ
(m ∈ Rd , Σ ∈ Rd×d définie positive)
e− 2 (x−m) Σ (x−m)
p
(2π)d det Σ
R
Densité de Cauchy de paramètres m, α
(m ∈ R, α > 0)
1
α
·
π (x − m)2 + α2
R
Densité Gamma de paramètres a, b
(a >, b > 0)
b−a
√
1
2 /(2σ 2 )
2πσ 2
1
x
e−(x−m)
T
a−1 b
E(α)
N (m, σ 2 )
−1
Nd (m, Σ)
a −bx
e
Γ(a)
Γ(a, b)
3.1 – Quelques exemples de densités de probabilité – (Rappel : Γ(a) =
RTable
+∞ a−1 −x
x e dx).
0
.
0.5
0.4
0.3
0.2
0.1
0
−4
−3
−2
−1
0
1
2
3
4.
Figure 3.1 – Densité gaussienne centrée réduite N (0, 1).
CHAPITRE 3. ELÉMENTS DE THÉORIE DE LA MESURE
51
c) Si An ↑ A, alors µ(A) = limn→∞ µ(An ) .
Si An ↓ A et si µ(A1 ) < ∞, alors µ(A) = limn→∞ µ(An ) .
d ) Pour une famille quelconque (An )n∈N? dans F, on a la borne de l’union :
!
∞
∞
[
X
µ
An ≤
µ(An ) .
n=1
n=1
Preuve : La preuve repose sur les mêmes arguments qu’au paragraphe 1.2.2.
3.3.4
Caractérisation d’une mesure∗
Dès que Ω n’est pas dénombrable, il est impossible de décrire une mesure en donnant sa
valeur pour tous les ensembles mesurables. Arrive à notre secours le théorème de classe monotone (théorème 3.13 ci-dessous) qui nous dit, en substance, qu’une mesure est totalement
déterminée par sa valeur sur un ensemble d’ensembles suffisamment riche.
Définition 3.5.– Un π-système (ou algèbre) est une classe de sous-ensembles de Ω
stable pour l’intersection finie : ∀A, B ∈ P, A ∩ B ∈ P.
Exemple : Un π-système intéressant est la classe des intervalles de la forme ] − ∞, b].
Plus généralement, sur Rd , les pavés ] − ∞, b1 ] × · · · ×] − ∞, bd ] forment un π-système.
Définition 3.6.– Un λ-système (ou classe monoton) est une classe de sous-ensembles
de Ω vérifiant :
i) Ω ∈ L ;
ii ) Pour tout A ∈ L, Ac ∈ L ;
iii ) Pour toute suite (An )n∈N? d’éléments de L deux à deux disjoints,
S
n
An ∈ L .
Remarque : La définition d’un λ-système est assez semblable à celles d’une tribu, à une
différence majeure près : on n’impose pas que toute union dénombrable soit dans L, mais
seulement les unions dénombrables d’ensembles deux à deux disjoints. Un λ-système est
également appelé une classe monotone pour la raison suivante : on peut montrer que la
limite d’une suite croissante d’éléments de L est dans L. La lettre grecque λ de λ-système
fait référence au « L » de « limite ».
Exemple : En particulier, pour deux mesures de probabilité P et Q, l’exercice ?? montre
que
S = {A ∈ P(R), P(A) = Q(A)}
est un λ-système
On a le résultat pratique suivant :
CHAPITRE 3. ELÉMENTS DE THÉORIE DE LA MESURE
52
Théorème 3.13.– Soit P un π-système et L un λ-système. Si P ⊂ L alors σ(P) ⊂ L .
En conséquence, on en déduit :
Théorème 3.14.– Deux mesures qui coïncident sur R sont égales.
Corollaire 3.15.– Pour identifier une mesure sur R, il faut et il suffit que l’on connaisse
P(] − ∞, x]) pour tout réel x.
Remarque.– Ce résultat s’étend sans changement aux dimensions supérieures : pour
identifier une probabilité sur Rd , il faut et il suffit que l’on connaisse
P(] − ∞, x1 ] × . . . ×] − ∞, xd ])
pour tout d-uple (x1 , · · · , xd ).
3.4
Applications mesurables
d
Nous ferons toujours l’hypothèse que R, Rd , R sont munis de leurs tribus de Borel.
3.4.1
Définition
Soient (Ω, F) et (E, E) deux espaces mesurables.
Définition 3.7.– Une application X : Ω → E est dite mesurable si :
∀H ∈ E, X −1 (H) ∈ F .
Remarque : La notion d’application mesurable dépend du choix des tribus de départ
F et d’arrivée E. Il arrive donc qu’on parle d’application F-mesurable si l’on souhaite
spécifier la tribu de départ, voire d’application F/E-mesurable si l’on veut être encore
plus précis.
En langage probabiliste, une application mesurable s’appelle une variable aléatoire.
Proposition 3.16.– Soient (Ω, F), (E, E) et (E 0 , E 0 ) trois espaces mesurables. Soit X :
Ω → E une application F/E-mesurable et f : E → E 0 une application E/E 0 -mesurable. La
composée f ◦ X : Ω → E 0 est une application F/E 0 -mesurable.
Preuve : Soit H 0 ∈ E 0 . L’image réciproque de H 0 par f ◦ X est égale à X −1 (f −1 (H 0 )).
Comme f est mesurable, f −1 (H 0 ) ∈ E. Comme X est mesurable, l’image réciproque d’un
élément de E est dans F, d’où X −1 (f −1 (H 0 )) ∈ F.
CHAPITRE 3. ELÉMENTS DE THÉORIE DE LA MESURE
3.4.2
53
Propriétés
Deux lemmes utiles
Soient (Ω, F) et (E, E) deux espaces mesurables.
Proposition 3.17.– Soit (E 0 , E 0 ) un espace mesurable. Soit X : Ω → E une application
F/E-mesurable et f : E → E 0 une application E/E 0 -mesurable. La composée f ◦X : Ω → E 0
est une application F/E 0 -mesurable.
Preuve : Soit H 0 ∈ E 0 . L’image réciproque de H 0 par f ◦ X est égale à X −1 (f −1 (H 0 )).
Comme f est mesurable, f −1 (H 0 ) ∈ E. Comme X est mesurable, l’image réciproque d’un
élément de E est dans F, d’où X −1 (f −1 (H 0 )) ∈ F.
La propriété suivante montre que, pour vérifier la mesurabilité d’une application X, il suffit
de vérifier la propriété « X −1 (H) ∈ F » non pas pour tout H ∈ E, mais seulement pour H
dans une classe plus réduite, qui engendre la tribu d’arrivée. La preuve est fournie dans le
polycopié d’analyse [LMR12].
Proposition 3.18.– Supposons que E = σ(C) pour une certaine classe C. Soit une
fonction X : Ω → E telle que pour tout C ∈ C, X −1 (C) ∈ F. Alors X est F/E-mesurable.
Fonctions boréliennes
Définition 3.8.– Soit f : E → E 0 une application entre deux espaces topologiques E
et E 0 . Si f est B(E)/B(E 0 )-mesurable, on dit que f est borélienne.
Proposition 3.19.– Une application f : E → E 0 continue est borélienne.
Preuve : B(E 0 ) est la tribu engendrée par les ouverts de E 0 . D’après le paragraphe
précédent, il nous suffit donc de vérifier la propriété f −1 (H) ∈ B(E) pour H ouvert
de E 0 . Rappelons qu’une fonction est par définition continue si l’image réciproque d’un
ouvert est un ouvert. Donc f −1 (H) est un ouvert et nous savons que B(E) contient tous
les ouverts, donc f −1 (H) ∈ B(E), ce qui conclut la preuve.
Fonctions mesurables à valeurs vectorielles
Proposition 3.20.– Soit d ∈ N? et soient X1 , · · · , Xd une collection de fonctions de
Ω dans R. On définit X : Ω → Rd par X(ω) = (X1 (ω), · · · , Xd (ω)). Les propositions
suivantes sont équivalentes :
a) X1 , · · · , Xd sont des fonctions F/B(R)-mesurables ;
CHAPITRE 3. ELÉMENTS DE THÉORIE DE LA MESURE
54
b) X est une fonction F/B(Rd )-mesurable.
d
Preuve : a)⇒b). Puisque B(R
de vérifier
Qd) est la tribu engendrée par les pavés, il suffit
Q
−1
−1 (
que
X
(H)
∈
F
pour
H
=
H
,
où
H
est
un
intervalle
réel.
Or
X
k
k=1 k
k Hk ) =
T
−1
k Xk (Hk ) est bien un élément de F comme intersection d’éléments de F.
b)⇒a) Donnons la preuve pour X1 . Pour tout intervalle ]a, b[, l’ensemble X1−1 (]a, b[) est
l’image réciproque par X de ]a, b[×R×· · ·×R qui appartient à B(Rd ). Donc X1−1 (]a, b[) ∈
F, ce qui montre que X1 est mesurable.
3.4.3
Opérations usuelles sur les fonctions mesurables
D’après le paragraphe précédent, si X1 , · · · , Xd sont des fonctions mesurables et si f est
continue, alors f (X1 , · · · , Xd ) est mesurable. On en déduit immédiatement la propriété
suivante.
Proposition 3.21.– Si X, Y sont des fonctions mesurable sur R, alors X + Y , XY ,
X ∨ Y , X ∧ Y sont des fonctions mesurables.
Nous allons maintenant montrer que si (Xn )n est une suite de fonctions mesurables, alors le
sup et l’inf de la suite sont aussi des variables aléatoires. Bien sûr, le sup d’une suite réelle
n’est pas forcément fini. Pour donner un sens à supn Xn et inf n Xn en tant que variables
aléatoires, nous devons dorénavant nous placer sur R. Notons qu’on peut sans difficulté
étendre la tribu de Borel à R (voir le paragraphe 3.4.4).
Soit (Xn )n∈N une suite de variables aléatoires sur R. On désigne par respectivement par
supn Xn , inf n Xn , limn Xn les fonctions définies sur R par ω 7→ supn Xn (ω), ω 7→ inf n Xn (ω)
et, lorsqu’une telle fonction existe, ω 7→ limn Xn (ω).
Proposition 3.22.– Soit (Xn )n∈N une suite de fonctions mesurables sur R.
a) supn Xn , inf n Xn sont des fonctions mesurables sur R.
b) Si limn Xn existe, c’est une fonction mesurable sur R.
Preuve : a) Posons X := supn Xn . B(R) est la tribu engendrée par les intervalles
[−∞, b]
T
où b ∈ R. On laisse au lecteur le soin de vérifier que X −1 ([−∞, b]) = n Xn−1 ([−∞, b]).
Ainsi, X −1 ([−∞, b]) est dans F comme intersection dénombrable d’éléments de F. D’après
le critère de mesurabilité du paragraphe précédent, X est mesurable. Pour montrer que
inf n Xn est mesurable, il suffit d’écrire inf n Xn = − supn (−Xn ).
b) On écrit limn Xn (ω) = lim supn Xn (ω) = limn supk≥n Xk (ω) = inf n supk≥n Xk (ω). Or
pour tout n, Yn := supk≥n Xk est mesurable d’après le point a). Toujours d’après a),
limn Xn = inf n Yn est bien mesurable comme inf d’une suite de fonctions mesurables.
CHAPITRE 3. ELÉMENTS DE THÉORIE DE LA MESURE
3.4.4
55
Compléments ∗
Tribu de Borel sur un espace topologique
La proposition 3.6 indique que nous aurions pu définir la tribu de Borel sur Rd comme la tribu
engendrée par les ouverts de Rd (c’est d’ailleurs la définition utilisée dans le cours MDI-103). On
peut ainsi étendre la notion de tribu de Borel à n’importe quel espace topologique.
Définition 3.9.– La tribu de Borel B(Ω) sur un espace topologique quelconque Ω est la tribu
engendrée par les ouverts.
Dans ce cours, nous utiliserons assez fréquemment la tribu de Borel B(R) sur R = R ∪ {−∞, +∞}.
Rappelons qu’une base de la topologie sur R est formée par les intervalles de la forme ]a, b[, ]a, +∞]
et [−∞, b[. Dès lors, il n’est pas difficile de montrer que les élements de B(R) sont exactement les
ensembles de la forme H, H ∪ {+∞}, H ∪ {−∞}, H ∪ {−∞, +∞} où H ∈ B(R). On en déduit
aussi que B(R) est la tribu engendrée par les intervalles de la forme [−∞, b] pour b décrivant R.
Définition 3.10.– Si E est une partie quelconque d’un espace topologique Ω, la classe d’ensembles {U ∩ E : U ouvert de Ω} forme une topologie, appelée la topologie induite sur E.
Par exemple, la tribu de Borel sur l’intervalle [0, 1], notée B([0, 1]) est la tribu engendrée par
la topologie induite sur [0, 1]. On peut montrer qu’elle coïncide avec les ensembles de la forme
H ∩ [0, 1] où H ∈ B(R). On peut définir de même les tribus de Borel sur R+ , R+ , etc.
Théorème π-λ
Ce paragraphe est consacrée à la preuve du théorème 3.4.4. Elle peut être omise en première
lecture. Nous aurons besoin d’un lemme préliminaire.
Lemme 3.23.– Une classe qui est à la fois un π-système et un λ-système est une tribu.
Preuve : Soit C une telle classe. Il suffit juste de vérifier que C est stable par union
dénombrable. Soit (An )n une suite dans C. On définit
Sla suite(Bn )n par récurrence de
la manière suivante : B1 = A1 et Bn+1 = An+1 \
k≤n Ak . Pour tout n, Bn ∈ C
S
comme intersection finie d’éléments du π-système C. Donc n Bn ∈ C comme union
dénombrable d’éléments deux à deux disjoints du λ-système C. On vérifie facilement que
S
S
n An =
n Bn , ce qui conclut la preuve.
Soit P un π-système et L un λ-système tels que P ⊂ L. Soit L0 l’intersection de tous les λsystèmes contenant P. Nous montrons plus bas que L0 est à la fois un π et un λ-système. Grâce
au lemme précédent, c’est donc une tribu. Puisque P ⊂ L0 , nous avons donc σ(P) ⊂ L0 . Et par
conséquent, σ(P) ⊂ L et le théorème π-λ est donc démontré.
Preuve de l’affirmation « L0 est un λ-système ».
T
On désigne par L l’ensemble de tous les λ-systèmes contenant P : L0 = `∈L `. Montrons que L0
CHAPITRE 3. ELÉMENTS DE THÉORIE DE LA MESURE
56
T
est un λ-système. i) Pour tout ` ∈ L, nous avons Ω ∈ `. Donc Ω ∈ `∈L `. ii) Soit A ∈
TL0 . Pour
c
c
tout ` ∈ L, nous avons A ∈ ` et donc A ∈ ` puisque ` est un λ-système. Donc A ∈ `∈L `. iii)
Soit (An )n une suite d’éléments de L0 S
deux à deux
T disjoints. Tout λ-système ` ∈ L contient la
suite et donc contient son union. Donc n An ∈ `∈L `. Finalement, L0 est un λ-système.
Preuve de l’affirmation « L0 est un π-système ».
Pour tout A ∈ P, soit LA la classe des ensembles B vérifiant A ∩ B ∈ L0 .
Lemme 3.24.– Pour tout A ∈ P, LA est un λ-système.
Preuve : Soit A ∈ P. i) On a A ∩ Ω = A ∈ L0 , donc Ω ∈ LA . ii) Si B ∈ LA i.e.,
A ∩ B ∈ L0 . Comme A ∈ L0 et comme L0 est un λ-système, Ac ∈ L0 . Toujours parce que
L0 est un λ-système, l’union disjointe Ac ∪ (A ∩ B) = Ac ∪ B est dans L0 . Par passage
au complémentaire, A ∩ B c ∈ L0 et donc B ∈ LA . iii) Soit (Bn )n une suite d’ensembles
S
disjoints satisfaisant A ∩ Bn ∈ L0 pour tout n. L’union n (A ∩ Bn ) est dans L0 car c’est
une union disjointe. Elle est égale à A ∩ (∪n Bn ), donc ∪n Bn ∈ LA .
Lemme 3.25.– Pour tout A ∈ L0 , on a L0 ⊂ LA .
Preuve : Commençons par montrer que l’inclusion est vraie pour tout A ∈ P. Pour tout
A, B ∈ P, nous avons A ∩ B ∈ P et donc B ∈ LA . Par conséquent, P ⊂ LA . Puisque LA
est un λ-système et que puisque L0 est le plus petit λ-système contenant P, on a donc
L0 ⊂ LA .
Il s’agit maintenant d’étendre l’inclusion aux ensembles A dans L0 . Soient A ∈ L0 et
B ∈ P. On a L0 ⊂ LB d’après la preuve ci-dessus, donc A ∈ LB . Cela signifie que
A ∩ B ∈ P, autrement dit B ∈ LA . On a donc montré que P ⊂ LA . Pour la même raison
que précédemment (LA est un λ-système et L0 est le plus petit λ-système contenant P),
on en conclut que L0 ⊂ LA .
Soient A, B ∈ L0 . Le lemme précédent implique que B ∈ LA ce qui se lit : A ∩ B ∈ P. Or L0
contient par définition la classe P. Donc A ∩ B ∈ L0 . La classe L0 est un π-système.
CHAPITRE 3. ELÉMENTS DE THÉORIE DE LA MESURE
3.5
57
Exercices
. Exercice 34. Soit f une fonction de R dans R bornée, croissante, continue à droite. On
peut sans restreindre la généralité supposer que f prend ses valeurs dans [0, 1].
1. Pour n ≥ 1, montrer que l’ensemble {x : f (x) ≥ f (x− ) + 1/n} est de cardinal fini.
2. En déduire que l’ensemble des points de discontinuité de f est au plus dénombrable.
. Exercice 35. Soit X une v.a.r. sur (Ω, F, P) de fonction de répartition FX .
1. Démontrer les égalités : P[a < X ≤ b] = FX (b) − FX (a), P[a < X < b] = FX (b− ) −
FX (a), P[a ≤ X ≤ b] = FX (b) − FX (a− ).
2. Calculer FX dans les cas suivants : X suit la loi exponentielle de paramètre α, X suit
la loi uniforme sur l’intervalle [a, b].
. Exercice 36. Nous dirons qu’une v.a.r. X est symétrique lorsque X et −X ont la même
loi. Si X est une v.a.r. de densité f , montrer que X est symétrique si et seulement si
f (x) = f (−x) pour tout x hors d’un ensemble négligeable.
. Exercice 37. Soit X une v.a.r. à densité et (a, b) ∈ R2 . Exprimer la densité de la v.a.r.
Y := aX + b en fonction de la densité de X.
. Exercice 38. Soit X ∼ N (0, 1) et Y = X 2 .
1. Calculer la fonction de répartition FY de Y en fonction de celle de X.
2. En déduire que Y admet une densité, que l’on exprimera.
. Exercice 39 (Ensemble triadique de Cantor). L’objectif est de construire un ensemble
non dénombrable de mesure de Lebesgue nulle. Soit S les éléments de {0, 1, 2}N qui ne se
terminent pas par une infinité de 2.
1. Montrer que tout nombre x de [0, 1[ s’écrit de manière unique sous la forme
x=
+∞
X
xn 3−n où (xn , n ≥ 1) ∈ S.
n=1
On appelle la suite (xn , n ≥ 1) le développement triadique de x.
2. On appelle C, l’ensemble de Cantor, constitué des réels de [0, 1[ qui n’ont pas de
1 dans leur développement triadique. Montrer que C = ∩∞
n=1 En où les En sont des
ensembles que l’on construira (voir la figure 3.2).
3. Montrer que la mesure de Lebesgue de C est nulle.
4. Montrer que C est non dénombrable.
5. Montrer que C c est partout dans [0, 1[ : quel que soit > 0, pour tout x ∈ [0, 1[, il
existe y ∈ C c tel que |x − y| < .
6. En déduire que l’intérieur de C est vide.
CHAPITRE 3. ELÉMENTS DE THÉORIE DE LA MESURE
0
58
1
1/3
1/9 2/9
2/3
7/9 8/9
Figure 3.2 – Les premières étapes de la construction de l’ensemble de Cantor.
. Exercice 40 (Fonction de Cantor). À partir de l’ensemble de Cantor, on va maintenant
construire une fonction continue, croissante, nulle en 0, qui vaut 1 en 1 et dont la dérivée
est presque-partout nulle...
– La fonction f0 est définie par f0 (x) = x.
– La fonction f1 est continue, affine par morceaux, est telle que f1 (0) = 0, f1 (1) = 1 et
vaut 1/2 sur E1c donc

3
1


x
pour x ≤


2
3






1
1
2
f1 (x) =
pour ≤ x ≤

2
3
3







2
2
1 3

 + (x − ) pour x ≥ .
2 2
3
3
– Au rang n, fn est continue, affine par morceaux, égale à j2−n sur le j-ième intervalle
de Enc et telle que fn (0) = 0 et fn (1) = 1.
1. Montrer que kfn − fn+1 k∞ ≤ 2−(n+1) .
2. En déduire que la suite (fn , n ≥ 1) est de Cauchy dans l’ensemble des fonctions
continues muni de la norme uniforme. Soit f sa limite.
3. Montrer que f est croissante, vaut 0 en 0 et 1 en 1, est dérivable et de dérivée nulle
sur C c .
. Exercice 41 (Construction d’un ensemble non-mesurable). Soit E = [0, 1] muni de la
mesure de Lebesgue notée µ. Pour A ⊂ E\{1} et x ∈ R, on pose
τx (A) = {t + x − [t + x], t ∈ A}
où [a] est la partie entière de a.
CHAPITRE 3. ELÉMENTS DE THÉORIE DE LA MESURE
59
2−(N +1)
3−(N +1)
Figure 3.3 – Vue partielle de deux étapes successives dans la construction de la fonction
de Cantor.
1. Montrer que si A est mesurable alors τx (A) l’est aussi et µ(τx (A)) = µ(A).
2. Soit R la relation d’équivalence définie par xRy ssi x − y ∈ Q. On construit F en
choisissant un et un seul représentant de chaque classe d’équivalence. Montrer que
les (τr (F ), r ∈ [0, 1[∩Q) forment une partition de [0, 1] et en déduire que F n’est pas
mesurable.
. Exercice 42. Montrer qu’une fonction mesurable de (E, {∅, E}) dans (R, B(R)) est constante.
Caractériser les fonctions mesurables de (E, {∅, A, Ac , E}) dans (R, B(R)) où A est un sousensemble propre de E.
Chapitre 4
Intégration
Ce chapitre repose sur le cours d’analyse MDI-103 : les preuves sont par conséquent Romises.
Il s’agit de rappels, à une différence
près : nous généralisons la notion d’intégrale f vue
R
en cours d’analyse à l’intégrale f dµ d’une fonction f par rapport à une mesure µ.
4.1
4.1.1
L’intégrale de Lebesgue
Notations et conventions
Soit (Ω, F) un espace mesurable et µ une mesure sur (Ω, F). On suppose R et R équippés
de leurs tribus de Borel. On utilise la convention :
0 × (+∞) = (+∞) × 0 = 0 .
Nous dirons qu’un ensemble est µ-négligeable s’il est inclus dans un ensemble A tel que
µ(A) = 0. Un événement A ⊂ Ω est dit réalisé µ-presque partout si son complémentaire
est µ-négligeable. Nous noterons µ-p.p. ou seulement p.p. lorsqu’il n’y a pas d’ambiguité
sur la mesure µ à laquelle on fait référence.
Exemple : Si f et g sont deux fonctions mesurables, la proposition “f = g µ-p.p.”
signifie que µ([f 6= g]) = 0 . La proposition “f ≤ g µ-p.p.” signifie que µ([f > g]) = 0 .
Enfin “fn → f µ-p.p.” signifie que limn fn (ω) = f (ω) pour tout ω hors d’un ensemble
µ-négligeable.
La notation xn ↑ x signifie que (xn )n est une suite croissante convergeant vers x. On notera
0 ≤ xn ↑ x si en outre (xn )n est positive.
4.1.2
Fonctions simples
Définition 4.1.– Une fonction f : Ω → R est appelée une fonction simple, ou étagée,
si son image est de cardinal fini et si les ensembles {ω : f (ω) = x} sont dans F pour tout
réel x.
60
CHAPITRE 4. INTÉGRATION
61
Une fonction simple est mesurable. Si α1 , · · · , αn sont les valeurs distinctes prises par f et
si l’on pose Ak = {ω : f (ω) = αk }, alors :
f = α1 1A1 + · · · + αn 1An .
(4.1)
Proposition 4.1.– Pour toute fonction mesurable positive f : Ω → R, il existe une
suite (fn ) de fonctions simples positives telle que fn (ω) ↑ f (ω) pour tout ω ∈ Ω.
Preuve : Pour tout ω, on pose fn (ω) = k2−n si k2−n ≤ f (ω) < (k + 1)2−n pour un
certain entier k ∈ {0, · · · , n2n − 1}, et fn (ω) = n sinon. La fonction fn est simple : elle
prend un nombre fini de valeurs et l’événement [fn = k2−n ] = f −1 ([k2−n , (k + 1)2−n ))
est dans F puisque f est mesurable. On laisse au lecteur le soin de vérifier que la suite
(fn (ω))n est bien croissante. Comme |fn (ω) − f (ω)| ≤ 2−n , on conclut que fn ↑ f .
4.1.3
Définition de l’intégrale
Rappel : Dans le cas particulier où Ω = R et où f ≥ 0, nous savons d’après le cours
d’analyse MDI-103 que l’intégrale de la fonction (4.1) s’écrit :
Z
f = α1 λ1 (A1 ) + · · · + αn λ1 (An ) ,
(4.2)
R
où λ1 (A) := 1A est la mesure de Lebesgue sur R. L’expression (4.2) se prête à une
généralisation.
Définition 4.2 (Intégrale d’une fonction simple positive).– Soit f une fonction simple
à valeurs positives. On suppose f donnée par (4.1) où α1 , · · · , αn sont les valeurs distinctes
prises par f . L’intégrale de Lebesgue de f par rapport à la mesure µ est définie par :
Z
f dµ := α1 µ(A1 ) + · · · + αn µ(An ) .
Notons que
R
f dµ est une quantité positive, possiblement infinie.
Définition 4.3.– (Intégrale d’une fonction mesurable positive). Soit f : Ω → R une
fonction mesurable à valeurs positives. On définit l’intégrale de f par rapport à µ par :
Z
Z
f dµ := sup
g dµ : g fonction simple telle que 0 ≤ g ≤ f .
Dans le cas où f est elle-même une fonction simple, on vérifie sans peine que cette définition
coïncide avec la précédente.
CHAPITRE 4. INTÉGRATION
62
Définition 4.4.– (Intégrale d’une fonction mesurable). Soit f : Ω → R uneR fonction
+
−
+
mesurable.
R − Les fonctions f = f ∨0, f = (−f )∨0 sont mesurables, positives. Si f dµ <
∞ ou f dµ < ∞, on définit l’intégrale de f par rapport à µ par :
Z
Z
Z
+
f dµ := f dµ − f − dµ ,
R
R
R
et on dit que f dµ est bien définie. Si en outre, f + dµ < ∞ et f − dµ < ∞, on dit
que f est intégrable par rapport à µ. On note L1 (µ) l’ensemble des fonctions mesurables
intégrables par rapport à µ.
R
R
R
Remarque : On note parfois f dµ sous la forme f (ω) dµ(ω) ou f (ω) µ(dω) ou µ(f ).
R
Exemple
:
L’intégrale
f dµ ainsi définie peut être vue comme une extension de l’intégrale
R
f vue en cours d’analyse. En particulier, lorsque f est une fonction sur Rd et µ = λd
est la mesure de Lebesgue sur R, on a bien
Z
Z
f dλd = f ,
où le membre de droite est l’intégrale définie en cours d’analyse MDI-103. Il se fait que
R
l’intégrale f dµ hérite de toutes les propriétés de l’intégrale vues en cours d’analyse.
Ces propriétés sont rappelées ci-dessous.
4.2
Propriétés
Dans ce paragraphe, f , g et (fn )n désignent des fonctions mesurables de Ω dans R.
Proposition 4.2.– Soient f , g des fonctions mesurables dont les intégrales sont définies.
On a les propriétés suivantes :
R
R
i ) Si f ≤ g µ-p.p., alors f dµ ≤ gdµ ;
R
R
ii ) Si f = g µ-p.p., alors f dµ = gdµ ;
R R
iii ) f ≤ |f | .
Notons que la troisième propriété est une conséquence immédiate de la première, où l’on a
remarqué que f ≤ |f | et −f ≤ |f |.
Proposition 4.3.– Soit f : Ω → R une fonction à valeurs positive (f ≥ 0). Alors,
Z
f dµ = 0 ⇔ f = 0 µ-p.p.
Théorème 4.4.– (Théorème de convergence monotone). Si 0 ≤ fn ↑ f µ-p.p., alors :
Z
Z
fn dµ ↑ f dµ .
CHAPITRE 4. INTÉGRATION
63
R P
P R
On a le corollaire suivant : si fn ≥ 0 µ-p.p., alors ( n fn )dµ = n fn dµ .
Proposition 4.5.– (Linéarité). Soient f, g ∈ L1 (µ). Pour tout (α, β) ∈ R2 ,
Z
Z
Z
(αf + βg)dµ = α f dµ + β g dµ .
En utilisant cette propriété avec le fait que |f | = f + + f − , on en déduit qu’une fonction f
est intégrable si et seulement si :
Z
|f | dµ < ∞ .
La propriété suivante est une application immédiate du théorème de convergence monotone :
Proposition 4.6.– Si (fn )n est une suite de fonctions mesurables positives, alors :
∞ Z
X
n=1
fn dµ =
Z X
∞
fn dµ .
n=1
Théorème 4.7.– (Lemme de Fatou). Si fn ≥ 0 pour tout n, alors :
Z
Z
lim inf fn dµ ≤ lim inf fn dµ .
n
n
Théorème 4.8.– (Théorème de convergence dominée). Supposons que fn → f µ-p.p. et
que |fn | ≤ g µ-p.p. pour tout n, où g ∈ L1 (µ). Alors f est intégrable et :
Z
Z
lim fn dµ = lim fn dµ .
n
n
Caractérisation des mesures de probabilités
Le théorème suivant donne une caractérisation des mesures finies (et en particulier des
mesures de probabilité).
Théorème 4.9.– Soient µ et ν deux mesures finies sur (Rd , B(Rd )). Les conditions suivantes sont équivalentes :
a) µ = ν.
R
R
b) pour toute fonction f continue à support compact, f dµ = f dν .
R
R
c) pour toute fonction f continue bornée, f dµ = f dν .
R
R
d ) pour toute fonction f mesurable positive, f dµ = f dν .
CHAPITRE 4. INTÉGRATION
64
Preuve∗ : a) ⇒ b,c,d). Immédiat.
R
R
R
d) ⇒ c). Soit f continue bornée. Par définition, f dµ = f + dµ − f − dµ : il suffit donc
d’appliquer d) à f + et f − qui sont bien des fonctions mesurables positives.
c) ⇒ b). Immédiat.
b) ⇒ a). Soit A =]a1 , b1 [× · · · ×]ad , bd [ un pavé de Rd et fn la fonction continue à support
compact égale (1 − nd(x, A))+ où d(x, A) désigne la distance de x à A : fn vaut 1 sur
A et vaut 0 en tout point x tel que d(x, A) ≥ 1/n. Comme 0 ≤ fn ↑ 1A , le théorème
R
R
de convergence monotone implique fn dµ → µ(A) et fn dν → ν(A). Par conséquent,
µ(A) = ν(A) et µ et ν coïncident sur le π-système formé par les pavés. Ce π-système
engendre B(Rd ). Or on sait d’après le théorème 3.13 que deux mesures qui coïncident sur
un π-système, sont égales sur la tribu engendrée par ce dernier, ce qui conclut la preuve.
Nous verrons au chapitre 6 une dernière caractérisation des mesures de probabilité, fondée
sur la fonction caractéristique.
4.3
Exemple : cas des mesures discrètes
On rappelle qu’une mesure discrète est une mesure de la forme :
X
αi δai ,
µ=
i∈I
où I est un ensemble au plus dénombrable, ai ∈ Ω et αi ≥ 0 pour tout i.
Proposition 4.10.– Soit µ la mesure définie
P ci-dessus et f : Ω → R une fonction
1
mesurable. Alors f ∈ L (µ) si et seulement si i∈I αi |f (ai )| < ∞. Dans ce cas,
Z
X
αi f (ai ) .
f dµ =
i∈I
De plus, l’égalité ci-dessus est vraie pour toute fonction f mesurable positive.
PreuveP: On peut se ramener sans difficulté à I = N? . Considérons le cas f ≥ 0. Posons
fn =R i≤n f (aP
i )1{ai } . Il s’agit d’unePfonction simple dont l’intégrale vaut par définition fn dµ = i≤n f (ai )µ({ai }) = i≤n f (ai )αi . Pour tout ω fixé dans {a1 , a2 , · · · },
(fn (ω))n est une suite croissante convergeant
vers f (ω).
↑ f µ-p.p., et le théoR
R Donc fnP
rème de convergence monotone implique f dµ = limn fn dµ = ∞
i=1 f (ai )αi .
R
Considérons maintenant le cas général. La fonction f ∈ L1 (µ) si et seulement si |f |dµ <
P
∞ ce qui équivaut à ∞
i=1 |f (ai )|αi < ∞ d’après la première partie de la preuve. Dans
ce cas, la suite fn définie ci-dessus est dominée par la fonction intégrable |f | et converge
R
R
vers f µ-p.p. Le théorème de convergence dominée implique que f dµ = limn fn dµ,
ce qui conduit à nouveau au résultat voulu.
CHAPITRE 4. INTÉGRATION
65
Lorsque la mesure discrète µ est réduite à une seule mesure de Dirac δa , nous obtenons le
corollaire suivant : pour toute fonction mesurable f ,
Z
f dδa = f (a) .
4.4
4.4.1
Espaces produit et théorème de Fubini
Tribu produit
Dorénavant, on se donne deux espaces mesurables (E, E) et (F, F).
Définition 4.5.– La tribu produit des espaces (E, E) et (F, F) est définie comme la
tribu sur E × F engendrée par les ensembles de la forme A × B où A ∈ E et B ∈ F. On
la note E ⊗ F.
Naturellement, E ⊗ F ne se limite pas aux ensembles de la forme A × B. Il ne s’agit donc
pas d’un produit cartésien au sens usuel.
Proposition 4.11.– B(R) ⊗ B(R) = B(R2 ) .
Preuve∗ : Tout produit cartésien d’intervalles A × B est dans la tribu B(R) ⊗ B(R)
donc B(R2 ) ⊂ B(R) ⊗ B(R) . On montre l’autre inclusion. Si A est un intervalle, on
vérifie que {B : A × B ∈ B(R2 )} forme une tribu sur R : la preuve est laissée à titre
d’exercice. Cette tribu contient les intervalles et donc contient B(R). Autrement dit, pour
tout B ∈ B(R), l’ensemble {A : A × B ∈ B(R2 )} contient tous les intervalles. Comme
il s’agit là encore d’une tribu, cet ensemble contient B(R). On a finalement montré que
pour tout A ∈ B(R), B ∈ B(R), A × B ∈ B(R2 ). Donc B(R) ⊗ B(R) ⊂ B(R2 ) .
Nous achevons ce paragraphe par un lemme technique.
Lemme 4.12.– Soit f : E × F → R une fonction E ⊗ F-mesurable. Pour tout x ∈ E,
la fonction y 7→ f (x, y) est F-mesurable. Pour tout y ∈ F , la fonction x 7→ f (x, y) est
E-mesurable.
Preuve : Pour x fixé, on définit la fonction Tx : y 7→ (x, y) de F dans E × F . Pour tout
A ∈ E et B ∈ F, Tx−1 (A × B) vaut B si x ∈ A et vaut ∅ sinon, et donc appartient à F
dans tous les cas. Puisque la classe des ensembles A×B engendre E ⊗F, Tx est mesurable
d’après le paragraphe ?? et donc Tx−1 (G) ∈ F. Donc Tx est F/(E ⊗ F)-mesurable. La
fonction y 7→ f (x, y) s’écrit comme la composée f ◦ Tx . de deux fonctions mesurables.
Elle est donc mesurable.
CHAPITRE 4. INTÉGRATION
4.4.2
66
Mesure produit
Définition 4.6.– Une mesure µ sur (E, E) est dite σ-finie s’il existe une partition dénombrable (An )n de E telle que pour tout n, µ(An ) < ∞.
Remarque : Tout mesure finie (et a fortiori toute mesure de probabilité) est σ-finie. La
mesure de Lebesgue sur R est une mesure σ-finie (choisir la partition An = [n, n + 1[
pour n décrivant Z) bien qu’elle ne soit pas une mesure finie.
Proposition 4.13.– Soient µ et ν deux mesures σ-finies sur (E, E) et (F, F) respectivement. Il existe une unique mesure sur E ⊗ F, appelée mesure-produit et notée µ ⊗ ν telle
que : pour tout A ∈ E, B ∈ F :
µ ⊗ ν(A × B) = µ(A) . ν(B) .
(4.3)
Preuve∗ : On se contente de donner la preuve dans le cas où µ, ν sont des mesures finies.
Unicité. Soient π1 et π2 deux mesures sur E ⊗ F satisfaisant (4.3). La classe L formée par
les éléments de E ⊗ F sur lesquels π1 et π2 coïncident, forme un λ-système. La classe P
d’ensembles de la forme A × B pour A ∈ E, B ∈ F, forme un π-système inclus dans L.
D’après le théorème π-λ, σ(P) ⊂ L. Comme par définition σ(P) = E ⊗ F, les mesures
π1 et π2 sont égales.
Existence. On construit cette mesure. Pour tout G ∈ E ⊗ F, elle vaut :
Z Z
µ ⊗ ν(G) :=
1G (x, y) dν(y) dµ(x) .
(4.4)
Il faut avant tout justifier que la définition ci-dessus à un sens avant de vérifier la propriété
annoncée. On doit donc démontrer les points suivants : a) pour tout x ∈ E fixé, la fonction
y 7→ 1G (x, y) est F-mesurable ; b) la fonction x 7→ ν ({y : (x, y) ∈ G}) est E-mesurable ;
c) µ ⊗ ν est une mesure sur E ⊗ F ; d) cette mesure satisfait la propriété (4.3) annoncée.
L’affirmation a) est une conséquence directe du lemme du paragraphe 4.4.1. Il reste à
vérifier les points b), c), d).
b) Soit L la classe d’ensembles G ∈ E⊗F tels que la fonction fG : x 7→ ν ({y : (x, y) ∈ G})
est E-mesurable. On montre que L est un λ-système. i) Comme fE×F est une fonction constante égale à ν(F ), E × F ∈ L. ii) Soit G tel que fG est E-mesurable. On
a ν(F ) = ν{y : (x, y) ∈ G} + ν{y : (x, y) ∈ Gc } et donc, puisque ν(F ) est finie, fG = ν(F ) − fGc . Ainsi, fG est mesurable comme différence de deux fonctions
fonctions mesurables
P finies. iii) Si (Gn )n est une famille d’ensembles deux à deux disjoints, f∪n Gn =
n fGn est mesurable comme limite d’une suite de fonctions mesurables. Nous avons bien montré que L est un λ-système. Pour tout A ∈ E et B ∈ F,
fA×B (x) = ν(B)1A (x) est mesurable. Donc L contient le π-système formé par la classe
P des ensembles de la forme A × B. Par le théorème π-λ, L contient σ(P) = E ⊗ F.
Finalement, fG est mesurable pour tout G ∈ E ⊗ F ce qui montre le point b).
c) On vérifie la σ-additivité de µ⊗ν.
R PSoit (Gn )n une suite d’éléments deux à deux disjoints
de E ⊗ F. On a µ ⊗ ν (∪n Gn ) =
n fGn dµ où fG est la fonction définie ci-dessus. Par
CHAPITRE 4. INTÉGRATION
67
P R
P
le théorème de convergence monotone, µ ⊗ ν (∪n Gn ) = n fGn dµ = n µ ⊗ ν(Gn ).
Donc µ ⊗ ν est bien une mesure.
R
R
d) La propriété est satisfaite : µ ⊗ ν(A × B) = fA×B dµ = ν(B)1A dµ = ν(B)µ(A).
Remarque∗ : La preuve précédente est constructive. Nous disposons d’une expression
explicite de la mesure produit grâce à (4.4). n.b. : On aurait tout aussi bien pu poser :
Z Z
µ ⊗ ν(G) =
1G (x, y) dµ(x) dν(y) .
(4.5)
En inversant les rôles joués par µ et ν, la preuve ci-dessus permet de montrer que le
membre de droite de (4.5) est une mesure satisfaisant la propriété (4.3). Et par unicité
de cette mesure, nous obtenons comme sous-produit de la preuve précédente que les
membres de droite des équations (4.4) et (4.5) sont égaux.
La mesure de Lebesgue sur R2 satisfait λ2 (A × B) = λ1 (A)λ1 (B). Elle est donc égale à la
mesure produit λ1 ⊗ λ1 .
4.4.3
Théorème de Fubini
Théorème 4.14.–
les fonctions
i ) Soit f : E × F → R+ une fonction (E ⊗ F)-mesurable. Alors
Z
Z
x 7→
f (x, y) dν(y) et y 7→
f (x, y) dµ(x)
F
F
sont mesurables. De plus, on a l’égalité :
Z
Z Z
Z Z
f d(µ ⊗ ν) =
f (x, y) dν(y) dµ(x) =
f (x, y) dµ(x) dν(y) .
E×F
E
F
F
E
(4.6)
ii ) Soit f : E × F → R une fonction (E ⊗ F)-mesurable telle que
Alors les affirmations du point i) sont satisfaites.
R
|f | dµ ⊗ ν < ∞.
Preuve∗ : On donne la preuve du point i). Soit G ∈ E ⊗ F. Le résultat est déjà déR
montré dans le cas où f = 1G . La mesurabilité de x 7→ F f (x, y) dν(y) est une conséquence du point b) de la preuve d’existence de la mesure-produit. L’égalité (4.6) est
obtenue par identification des égalités (4.4) et (4.5). Soit f : E × F → R+ une fonction mesurable et soit fn ↑ f une suite de fonctions simples positives convergeant vers
R
R
P
P
f . On pose fn =: k αk 1Gk . Pour tout x, F fn (x, y) dν(y) = k αk 1Gk (x, y) dν(y)
R
est mesurable comme somme de fonctions mesurables et converge vers F f (x, y) dν(y)
R
par le théorème de convergence monotone. Donc x 7→ F f (x, y) dν(y) est mesurable
R
R
P
comme limite de fonctions mesurables. De plus, fn d(µ ⊗ ν) = k αk 1Gk d(µ ⊗ ν) =
R R
R
R R
P
fn d(µ ⊗ ν) = ( fn (x, y)dν(y))dµ(x). En apk αk ( 1Gk (x, y)dν(y))dµ(x). Donc
pliquant le théorème de convergence monotone aux deux membres de cette égalité, on
CHAPITRE 4. INTÉGRATION
68
R
R R
obtient f d(µ ⊗ ν) = ( f (x, y)dν(y))dµ(x). En inversant les rôles de µ et ν dans la
R
R R
preuve, on montre de même que f d(µ ⊗ ν) = ( f (x, y)dµ(x))dν(y). La preuve du
point ii) est fondée sur la décomposition f = f + − f − et l’application du point i) à f +
et f − respectivement.
4.4.4
Produit d’ordre supérieur
Soient (E1 , E1 , µ1 ), · · · , (Ed , Ed , µd ) des espaces mesurés, où les mesures µ1 , · · · , µd sont σfinies. L’espace produit E1 ⊗ · · · ⊗ Ed , aussi noté E ⊗d si tous les Ei coïncident Q
avec E, est
la tribu sur E1 × · · · × Ed engendrée par les produits cartésiens de la forme di=1 Ai où
Ai ∈ Ei . On peut démontrer que : B(Rd ) = B(R)⊗d .
N
Théorème 4.15.– Il existe une unique mesure sur E1 ⊗ · · · ⊗ Ed , notée di=1 µi , telle que
pour tout Ai ∈ Ei ,
d
d
O
Y
µi (A1 × · · · × Ad ) =
µi (Ai ) .
i=1
i=1
Q
Théorème 4.16.– Pour toute fonction mesurable f : i Ei → R positive ou integrable
N
par rapport à di=1 µi et pour toute permutation (i1 , · · · , id ) de {1, · · · , d} :
!
! Z
Z
Z
d
O
f (x1 , · · · , xd )dµi1 (xi1 ) · · · dµid (xid ) .
···
fd
µi =
i=1
Eid
Ei1
Chapitre 5
Variables et vecteurs aléatoires réels
5.1
5.1.1
Généralités
Loi d’une variable aléatoire
On se place sur un espace de probabilité (Ω, F, P). Soit (E, E) un espace mesurable.
Définition 5.1.– Une variable aléatoire X sur E est une application mesurable de Ω
dans E.
Grâce à la notion de mesurabilité, nous assurons que les événements du type « X appartient
à H » sont bien des événements de la tribu F, c’est-à-dire des sous-ensembles de Ω dont
nous pouvons évaluer la probabilité. La théorie de la mesure fournit le cadre mathématique
nécessaire à la construction d’une théorie complète des probabilités (voir également la
table 5.1).
Lorsque l’ensemble d’arrivée est une partie de R ou de R = R ∪ {−∞, +∞}, on parle
de variable aléatoire réelle (en abbréviation, v.a.r.). Lorsque l’ensemble d’arrivée est une
partie de Rd avec d ≥ 2, on parle de vecteur aléatoire ou de variable aléatoire multivariée.
Une quantité scalaire ou vectorielle a constante par rapport à ω est parfois qualifiée de
déterministe.
Définition 5.2.– On appelle loi de la v.a. X la fonction PX définie par :
PX : E → [0, 1]
H 7→ P(X −1 (H)) .
En écriture plus compacte, PX := P ◦ X −1 . Une autre manière d’écrire cette définition est :
PX (H) := P[X ∈ H] .
Autrement dit, PX (H) est la probabilité pour que X appartienne à H.
69
CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS
70
Proposition 5.1.– PX est une mesure de probabilité sur (E, E).
Preuve : On vérifie les axiomes i) et ii) que doit satisfaire une mesure de probabilité.
i) PX (E) = P(X −1 (E)) = P(Ω) = 1 et PX (∅) = P(X −1 (∅)) = P(∅) = 0.
S
ii) Soit (Hn )n∈N? une famille d’éléments de E deux à deux disjoints. On a X −1 ( n Hn ) =
S
−1 (H ) et on montre aisément que les événements (X −1 (H )) sont deux à deux
n
n
nX
disjoints. Ainsi en appliquant P aux deux membres de l’égalité précédente, on obtient
S
S
P
PX ( n Hn ) = P( n X −1 (Hn )) = n P(X −1 (Hn )).
5.1.2
Discussion
En pratique, on s’intéresse le plus souvent à des probabilités de la forme P[X ∈ H] = PX (H)
où X est une v.a. et H un ensemble. Ainsi, on manipule la loi PX = P ◦ X −1 bien plus
souvent que la probabilité P elle-même. Or PX est une probabilité sur l’espace où X prend
ses valeurs. De ce fait, dans les problèmes que nous rencontrerons, l’espace de probabilité
(Ω, F, P) n’est souvent pas spécifié. Il s’agit d’un espace abstrait, suffisamment riche pour
modéliser le problème d’intérêt, mais sans nécessairement de signification « physique » en
rapport avec l’expérience décrite.
Par exemple, nous rencontrerons fréquemment des énoncés qui débutent par une phrase
du type : « Soit X une variable aléatoire de Bernoulli de paramètre p sur {0, 1} ». Un tel
énoncé suppose implicitement la donnée d’un espace de probabilité (Ω, F, P) tel que X est
une v.a. sur cet espace et tel que PX est une mesure de probabilité de Bernoulli, c’est-à-dire
PX ({1}) = p, PX ({0}) = 1 − p. Toutefois, cet énoncé ne précise ni la nature de (Ω, F, P),
ni l’expression de X(ω) en fonction de ω : cela est sans importance du moment que PX
est la loi voulue. Spécifier Ω n’est d’aucune utilité. Si nous tenions malgré tout à le faire,
nous aurions maintes possibilités. Dans l’exemple précédent, nous pourrions naturellement
poser Ω = {0, 1}, P la probabilité de Bernoulli et X(ω) = ω. Mais nous pourrions tout
aussi bien choisir pour Ω l’intervalle [0, 1], pour P la mesure de Lebesgue sur [0, 1] et poser
X(ω) = 1[0,p] (ω). Dans les deux cas, on pourra vérifier que X est bien une v.a. de Bernoulli
de paramètre p : peu importe donc la solution choisie.
5.2
Variables aléatoires réelles
Dans ce paragraphe, on traite le cas de variables aléatoires X à valeurs dans E = R muni
de la tribu de Borel.
5.2.1
Fonction de répartition
Comme PX est une mesure sur R, on sait qu’elle est totalement caractérisée (voir ??) par
les valeurs de PX (] − ∞, b]) pour b parcourant R.
CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS
71
Définition 5.3.– Soit X une v.a.r., la fonction
FX : R −→ [0, 1]
x 7−→ PX (] − ∞, x]) = P(X ≤ x)
s’appelle la fonction de répartition de X.
En vertu des propriétés de monotonie des mesures (voir exercice ??), FX possède les propriétés suivantes :
– limx→−∞ FX (x) = 0,
– limx→+∞ FX (x) = 1,
– FX est croissante, continue à droite, i.e., limy↓x FX (y) = FX (x).
Remarque.– Réciproquement, toute fonction satisfaisant ces propriétés est la fonction de
répartition d’une v.a.r., voir chapitre ??.
On a, d’après les propriétés de monotonie des mesures (exercice ??),
[
1
FX (x− ) = lim P( n = 1∞] − ∞, x − ]) = PX (] − ∞, x[).
n→+∞
n
Par conséquent, FX (x− ) = PX (] − ∞, x[) et donc
FX (x) − FX (x− ) = P(X = x).
En d’autres termes, si FX est continue en x, P(X = x) = 0. Comme FX est bornée, le
nombre de ces points de discontinuité est au plus dénombrable (voir exercice 34). Soit
{xn , n ∈ N∗ } ces points. On peut alors parler de FXc , la régularisée de FX :
∞ X
c
FX (xn ) − FX (xn− ) 1[xn , +∞[ (x).
FX (x) = FX (x) −
n=1
= FX (x) −
∞
X
∆FX (x)1[xn , +∞[ (x).
n=1
La fonction FXc est continue et croissante par définition. Elle est d’après un théorème de
Lebesgue, dérivable sauf sur un ensemble de mesure de Lebesgue nulle. Dans la suite, nous
ne nous préoccuperons pas de savoir ce qui se passe si elle n’est pas dérivable en tout point.
Théorème 5.2.– Soit X une v.a.r. de fonction de répartition FX . Si FXc est dérivable
sur R, alors
∞
X
dPX (x) =
∆FX (xi )δxi + (FXc )0 (x)dx.
(5.1)
n=1
Si FX est continue alors
dPX (x) = (FXc )0 (x)dx
et (FXc )0 s’appelle la densité de la loi de X.
CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS
72
Démonstration. Remarquons que
1[x, +∞[ (x) = δxn (] − ∞, x]),
puisque le terme de gauche ne vaut 1 que si x ≥ xn , soit de manière équivalente xn ∈
] − ∞, x]. Si FXc est dérivable en tout point alors on a
FX (x) =
FXc (x)
+
∞
X
∆FX (x)1[xn , +∞[ (x)
n=1
soit
Z
∞
X
x
(FXc )0 (s)ds
P(X ∈] − ∞, x]) =
+
−∞
∆FX (xi )δxi (] − ∞, x]).
n=1
Les deux mesures de part et d’autre de l’égalité (5.1) coïncident donc sur les ensembles de
la forme ] − ∞, x] pour tout x réel. C’est suffisant (cf. théorèmes de classe monotone 3.13)
pour assurer que ces deux mesures sont égales.
5.2.2
Variables aléatoires réelles à densité
Lorsque FX est dérivable donc a fortiori continue, FX = FXc et
dPX (x) = FX0 (x)dx.
On dit que PX admet FX0 pour densité, on dit de manière raccourcie que X est de densité
FX0 . Réciproquement, si l’on se donne une v.a.r. de densité f , i.e. si f est supposée satisfaire
la relation
Z
P[X ∈ H] =
f.
H
En posant H = ] − ∞, x], on en déduit que la fonction de répartition de X est l’intégrale
de la densité :
Z x
FX (x) =
f .
(5.2)
−∞
Notons bien que la condition « FX est de classe C 1 » est suffisante, mais pas nécessaire
pour que la loi de X soit à densité. D’ailleurs, les fonctions FX rencontrées en pratique ne
sont pas toujours de classe C 1 et peuvent néanmoins admettre une densité. Le paragraphe
suivant fournit une condition nécessaire et suffisante.
CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS
73
Conditions d’existence d’une densité∗
Une fonction F est dite absolument continue si pour tout > 0, il existe δ > 0 tel que
pour toute suite finie d’intervalles disjoints [a1 , b1 ], · · · , [ap , bp ],
p
X
(bk − ak ) < δ ⇒
k=1
p
X
|F (bk ) − F (ak )| < .
k=1
Le résultat suivant est admis (voir [Bil95, Théorèmes 31.7 et 31.8]).
Théorème 5.3.– Les trois propositions suivantes sont équivalentes :
i ) X admet une densité ;
ii ) FX est absolument continue ;
iii ) PX (A) = 0 pour tout ensemble négligeable A ∈ F .
5.2.3
Retour sur les variables discrètes
Soit X : Ω → R une variable aléatoire prenant ses valeurs dans un ensemble au plus
dénombrable, disons par exemple :
X(Ω) =: {x1 , x2 , x3 , · · · } ⊂ R .
Bien que l’espace d’arrivée R ne soit pas discret, X(Ω) l’est, et on ne perdrait guère à
restreindre le domaine d’arrivée de X à {x1 , x2 , · · · } plutôt que R. C’est pourquoi nous
utiliserons le terme de variable aléatoire discrète pour désigner X.
Le chapitre 2 suffit donc à étudier ce type de v.a. sans qu’il soit besoin d’avoir recours aux
notions nouvelles de théorie de la mesure que nous venons d’introduire. Nul besoin par
exemple de donner la fonction de répartition pour caractériser la loi de X : nous savons
déjà que la donnée des seuls coefficients P[X = xk ] suffit.
Toutefois, il est intéressant, à titre d’exercice, de voir comment le formalisme général présenté dans ce chapitre permet de couvrir le traitement des variables discrètes, et de comprendre ce que deviennent les notions de loi et de fonction de répartition dans ce cas
particulier.
Proposition 5.4.– La loi Px est donnée par :
X
PX =
P[X = xk ] δxk .
k≥1
S
P
Preuve : PX (H) = PX (H ∩ X(Ω)) = PX ( k H ∩ {xk }) = k PX (H ∩ {xk }). Or PX (H ∩
{xk }) est égal à PX (xk ) si xk ∈ H, à 0 sinon. Donc PX (H ∩ {xk }) = PX (xk )δxk (H).
CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS
74
La fonction de répartition est donnée par :
X
FX (x) =
P[X = xk ] 1[xk ,+∞[ (x) .
k≥1
Il s’agit donc d’une fonction en escalier, dont l’amplitude des sauts est donnée par les
coefficients P[X = xk ]. On note que X n’admet pas de densité puisque FX est discontinue.
Dans le cas particulier où X est une v.a. constante, disons X(ω) = a pour tout ω, la loi
de X coïncide avec un Dirac au point a. Une telle loi est dite dégénérée. La fonction de
répartition associée est un échelon : FX = 1[a,+∞[ .
5.2.4
Espérance et moments
Introduction
Au chapitre 2, nous avons défini l’espérance E(X) d’une v.a.r. discrète X ∈ {x1 , x2 , · · · }
comme le barycentre des xk pondérés par la « masse » P[X = xk ] :
X
xk P[X = xk ] .
k
Cette définition est très spécifique au cas discret, et il nous faut maintenant la généraliser.
Par exemple, si X est une v.a.r. de densité fX , la notion précédente de barycentre devient :
Z
x fX (x)dx ,
R
et on pourrait ainsi définir l’espérance d’une v.a. à densité, en remplaçant la somme par
une intégrale, et la loi discrète par la densité. Cette seconde définition resterait elle aussi
très spécifique au cas des variables à densité. Le chapitre 4 permet de fournir une définition
générale de l’espérance qui admet les deux exemples ci-dessus comme cas particuliers.
Définition
Soit (Ω, F, P) un espace de probabilité et X : Ω → R une variable aléatoire.
Définition 5.4.– L’espérance de la v.a. X est définie par :
Z
E(X) := XdP .
Il s’agit donc de l’intégrale de X, vue comme fonction sur Ω, par rapport à la mesure de
probabilité P.
CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS
Terminologie « analyse »
Fonction mesurable
Mesure
Intégrale
R
Terminologie « probabilités »
f
Variable aléatoire
µ
Mesure
f (x)dµ(x)
75
Espérance
X
P
E(X) =
R
X(ω)dP(ω)
Table 5.1 – Correspondance des notations et de la terminologie "théorie de la mesure et
de l’intégration" v.s. "théorie des probabilités"
L’espérance est toujours bien définie pour X ≥ 0. Dans le cas général, elle est bien définie
lorsque E(X + ) ou E(X − ) sont finies. La v.a. X est intégrable lorsque E|X| < ∞.
Un cas particulier important est obtenu en posant X(ω) = 1A (ω) où A ∈ F. Comme 1A
est une fonction simple, son intégrale de Lebesgue par rapport à P est immédiatement
donnée par :
P(A) = E(1A ) .
(5.3)
Au sens de l’égalité précédente, l’espérance peut être interprétée comme une extension de
la notion de mesure de probabilité.
Théorème de transfert
Dans la pratique, nous avons généralement accès à la loi PX et non à la loi P ni à l’expression
de X(ω) en fonction de ω : le théorème de transfert permet d’exprimer E(X) en fonction
de PX . Il permet en outre d’exprimer l’espérance d’une variable aléatoire g(X) non pas en
fonction de la loi Pg(X) qui n’est généralement pas disponible directement, mais en fonction
de la loi PX .
Soit (E, E) un espace mesurable.
Théorème 5.5.– Soit X : Ω → E et g : E → R deux fonctions mesurables telles que
E(g(X)) est définie. Alors,
Z
E (g(X)) = g(x)dPX (x) .
Preuve : On donne d’abord
P la preuve dansR le cas où gPest une fonction simple positive, de la formeR g =
gdPX =P k αk PX (Ak ). Or par définik αk 1Ak . Alors
tion, E(g(X))
=
(g
◦
X)dP.
Comme
g
◦
X(ω)
=
k αk 1X −1 (Ak ) (ω), on obtient :
P
−1
E(g(X)) = k αk P(X (Ak )) est l’égalité est donc démontrée pour les fonctions simples.
Donnons maintenant la preuve pour g fonction positive quelconque. D’après le paragraphe 4.1.2, il existe
R une suiteRde fonctions simples gn ↑ g. Par le théorèmeRde convergence monotone,
gn dPx → g dPX . Or d’après la preuve précédente, gn dPx =
R
E(gn (X)) = (gn ◦ X)dP. On montre facilement que gn ◦ X ↑ g ◦ X, donc, toujours
CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS
d’après le théorème de convergence
monotone,
R
On conclut que E(g(X)) = g dPX .
R
(gn ◦ X)dP ↑
R
76
(g ◦ X)dP = E(g(X)).
Le cas g quelconque se traite facilement en écrivant E(g(X)) = E(g(X)+ ) − E(g(X)− )
et en appliquant le résultat précédent aux fonctions g(X)+ et g(X)− respectivement.
En particulier, notons bien la conséquence suivante : E(X) =
5.2.5
R
x dPX (x) .
Cas des variables à densité
Soit X une
R v.a.r. de densité fX . On rappelle que la loi d’une telle v.a. est donnée par
PX (A) = A fX (x) dx.
Théorème 5.6.– Dès que E(g(X)) est bien définie, on a :
Z
E (g(X)) = g(x) fX (x) dx .
(5.4)
Preuve
: Commençons par le cas où g est une fonction
P
P simple positive, disons g =
α
1
.
D’après
le
théorème
de
transfert,
E(g(X))
=
kRαk PX (Ak ) et comme PX (Ak ) =
R k k Ak
R P
1Ak fX , nous avons bien E(g(X)) = ( k αk 1Ak ) fX = g . fX .
Traitons maintenant le cas où g est une fonction positive quelconque. Soit 0 ≤ gn ↑
g une suite de fonctions simples. Le théorème de convergence monotone implique que
R
R
R
R
gn dPX → g dPX = E(g(X)). Mais d’après la preuve précédente, gn dPX = gn fX
R
tend vers g . fX toujours d’après le théorème de convergence monotone. Cela conclut
la preuve pour les fonctions g positives. Le cas g quelconque se traite en décomposant
g = g + − g − et en appliquant le résultat précédent à g + et g − .
R
Remarque : D’après (5.3) appliquée à PX au lieu de P, on a PX (H) = H dPX (x). Dans le
R
cas où PX est de densité fX , on a en outre PX (H) = H fX (x)dx. Ainsi, pour écrire que
PX est de densité fX , on utilise souvent la notation symbolique « dPX (x) = fX (x) dx ».
Densité par rapport à une mesure arbitraire ∗
Soient P et µ deux mesures quelconques sur B(R). On dit que P admet une densité par
rapport àR µ s’il existe une fonction positive mesurable f telle que pour tout H ∈ B(R),
P (H) = H f dµ. Cette fonction f est appelée la densité de P par rapport à µ, elle est
unique à un ensemble µ-négligeable près.
Pour la même raison que celle évoquée à la remarque ci-dessus, on utilise la notation
symbolique
dP = f dµ
CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS
77
pour signifier que P admet une densité par rapport à µ. La densité f est souvent notée
On l’appelle également la dérivée de Radon-Nikodym de P par rapport à µ.
dP
.
dµ
Si X est une variable aléatoire telle que PX est de densité fX par rapport à une mesure µ,
alors l’égalité (5.4) se généralise immédiatement :
Z
E (g(X)) = g(x) fX (x) dµ(x) .
(5.5)
Par exemple, une variable aléatoire discrète à valeurs dans {x1 , x2 , · · · } possède une densité
par rapport à la mesure de comptage des xi (voir l’exercice 47)
Si g : R → R est une fonction, l’espérance de g(X) s’écrit comme l’intégrale de g par
rapport à la mesure discrète PX . En appliquant les résultats du paragraphe 4.3, on en
déduit :
X
E(g(X)) =
g(xk ) P[X = xk ] .
(5.6)
k
Cette expression est cohérente avec l’égalité (2.3) vérifiée par l’espérance sur un espace
discret.
Remarque : Il existe des v.a.r. qui ne sont ni discrètes, ni à densité. Exemple : si X suit
la loi uniforme sur [0, 1], considérer la variable aléatoire max(X, 12 ).
5.2.6
Inégalités
Proposition 5.7.– (Inégalité de Markov). Pour tout > 0, p ≥ 1,
P [|X| > ] ≤
E (|X|p )
.
k
Preuve : Voir paragraphe 2.3.4.
Proposition 5.8.– (Inégalité de Hölder). Soient p, q ≥ 0 tels que
1
1
p
+
1
q
= 1. Alors,
1
E (|XY |) ≤ (E(|X|p )) p (E(|Y |q )) q .
Lorsque p = q = 2, l’inégalité de Hölder se ramène à l’inégalité de Cauchy-Schwarz :
p
E (|XY |) ≤ E(X 2 ) E(Y 2 ) .
Preuve : Il suffit de donner la preuve pour des v.a. positives. On utilise l’inégalité ab ≤
ap /p + bq /q valable ∀a, b ≥ 0 (pour démontrer cette inégalité, poser (s, t) = (p ln a, q ln b),
ab = exp( ps + qt ) ≤ p1 es + 1q et par convexité de exp, ce qui est bien l’inégalité voulue).
En posant a = X/E(X p ) et b = Y /E(Y p ) et en passant à l’espérance, on tombe bien sur
l’inégalité de Hölder après un calcul simple.
CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS
78
Proposition 5.9.– (Inégalité de Jensen). Soit ϕ : R → R une fonction convexe. Soit X
une v.a.r. telle que E|X| < ∞ et E|ϕ(X)| < ∞ . Alors :
ϕ(E(X)) ≤ E(ϕ(X)) .
Preuve : Rappelons que toute fonction convexe définie sur R est continue et que de plus,
∀x ∈ R, ∃α, ∀t, ϕ(t) ≥ ϕ(x) + α(t − x). Cela signifie que le graphe est au dessus d’une
droite qui touche le graphe au point x. Soit α une constante telle que pour tout t, ϕ(t) ≥
ϕ(E(X))+α(t−E(X)) . On intègre les deux membres de cette inégalité par rapport à la loi
PX . Par monotonicité de l’intégrale de fonctions PX -intégrables, E(ϕ(X)) ≥ ϕ(E(X)) .
Remarque : Le résultat peut être généralisé au cas où ϕ est une fonction définie sur
un intervalle ]a, b[ avec −∞ ≤ a < b ≤ +∞, pourvu que X(Ω) ⊂]a, b[ (voir MDI-103
[LMR12, Proposition 8.1.5]).
Remarque : Une fonction ϕ est dite strictement convexe si ϕ(tx+(1−t)y) < tϕ(x)+(1−
t)ϕ(y) pour tout t ∈]0, 1[ . Si ϕ est strictement convexe et si X est de loi non-dégénérée,
alors l’inégalité de Jensen est satisfaite au sens strict : ϕ(E(X)) < E(ϕ(X)) .
5.2.7
Moments, variance
Définition 5.5.– Soit p ≥ 0. Soit une v.a.r. X telle que E(|X|p ) < ∞. La quantité
E(X p ) est appelée le moment d’ordre p de X.
On dit d’une telle variable qu’elle est d’ordre p, ou qu’elle possède un moment d’ordre p.
L’ensemble de telles variables est noté Lp (P). Les propriétés des moments sont identiques
à celles vue dans le cas discret. Nous les résumons ici sans preuves.
Proposition 5.10.– Une variable d’ordre p possède tous ses moments d’ordre inférieur.
Notons que certaines v.a. possèdent tous leurs moments, c’est par exemple le cas des variables gaussiennes ou des variables à valeur dans un ensemble borné. A l’inverse, certaines
v.a. n’admettent aucun moment (voir l’exercice 48).
Définition 5.6.– La variance d’une v.a.r. X d’ordre 2 est définie par
Var(X) := E (X − E(X))2 .
p
Son écart-type est la racine carrée de la variance, noté σX := Var(X) .
Définition 5.7.– Soient X et Y deux v.a.r. d’ordre 2. Leur covariance est définie par :
Cov(X, Y ) := E [(X − E(X))(Y − E(Y ))] .
On utilise parfois le coefficient de corrélation défini par ρX,Y = Cov(X, Y )/(σX σY ). Lorsque
Cov(X, Y ) = 0, on dit que X et Y sont décorrélées.
CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS
79
Proposition 5.11.– Soient X et Y deux v.a.r. d’ordre 2 et (α, β) ∈ R2 . On a :
a) Var(X) = E(X 2 ) − (EX)2 ;
b) Cov(X, X) = Var(X) ;
c) Cov(Y, X) = Cov(X, Y ) ;
d ) Var(αX + β) = α2 Var(X) ;
e) Var(X + Y ) = Var(X) + Var(Y ) + 2Cov(X, Y ) .
5.3
Vecteurs aléatoires
On se place sur un espace de probabilité (Ω, F, P). On se donne une fonction mesurable
X : Ω → Rd , où d est un entier et Rd est muni de sa tribu de Borel. Pour tout ω ∈ Ω, on
notera X1 (ω), · · · , Xd (ω) les coordonnées du vecteur X(ω) dans la base canonique de Rd .
Nous savons d’après le paragraphe 3.4.2 que X est mesurable si et seulement si X1 , · · · , Xd
le sont. Se donner un vecteur aléatoire est équivalent à se donner une collection de d
variables aléatoires réelles.
5.3.1
Fonction de répartition
On rappelle que la loi du vecteur aléatoire X est la mesure de probabilité définie pour
tout H ∈ B(Rd ) par PX (H) = P[X ∈ H], aussi appelée loi jointe des variables aléatoires
X1 , · · · , Xd .
Définition 5.8.– La fonction de répartition de X est l’application FX : Rd → R+
définie pour tout (x1 , · · · , xd ) ∈ Rd par :
FX (x1 , · · · , xd ) = P [X1 ≤ x1 , · · · , Xd ≤ xd ] .
Q
d
k=1
De manière équivalente, FX est liée à la loi de X par FX (x1 , · · · , xd ) = PX
] − ∞, xk ] .
Plus généralement, on peut définir la fonction
associée à une mesure de proQde répartition d
babilité µ quelconque par (x1 , · · · , xd ) 7→ µ
k=1 ] − ∞, xk ] .
Théorème 5.12.– Deux mesures de probabilité sur B(Rd ) ayant même fonction de répartition sont égales.
La preuve est identique au cas d = 1 (voir paragraphe ??). Donc, la fonction de répartition
FX caractérise la loi du vecteur aléatoire X.
CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS
80
Vecteurs aléatoires à densité
R
Par définition, X admet une densité fX : Rd → R+ si PX (H) = QH fX pour tout H ∈
B(Rd ). Dans ce cas, FX (x1 , · · · , xd ) est l’intégrale de fX sur le pavé k ] − ∞, xk ] . D’après
le théorème de Fubini (c.f. cours MDI-103 [LMR12]), on peut écrire de manière équivalente :
Z x1
Z x1
fX (u1 , · · · , ud )du1 · · · dud .
···
FX (x1 , · · · , xd ) =
−∞
−∞
Si FX est de classe C d , alors :
fX (x1 , · · · , xd ) =
5.3.2
∂ d FX (x1 , · · · , xd )
.
∂x1 · · · ∂xd
Variables aléatoires indépendantes
Soit X = (X1 , · · · , Xd ) un vecteur aléatoire sur (Ω, F). On rappelle que les v.a. X1 , · · · , Xd
sont dites indépendantes si pour tout H1 , · · · , Hd ∈ B(R),
P[X1 ∈ H1 , · · · , Xd ∈ Hd ] = P[X1 ∈ H1 ] × · · · × P[Xd ∈ Hd ] .
Q
Le membre de droite est égal au produit i PXi (Hi ) où PXi est la loi marginale de Xi . Le
membre de gauche est égal à la loi jointe PX évaluée en H1 ×· · ·×Hd . D’après le paragraphe
précédent, l’unique loi satisfaisant la propriété ci-dessus est la loi produit. Ainsi, les v.a.
X1 , · · · , Xd sont indépendantes si et seulement si la loi jointe est égale au produit des lois
marginales :
d
O
PX =
PXi .
(5.7)
i=1
On note FX la fonction de répartition de X = (X1 , · · · , Xd ) et FXi celle de la v.a.r. Xi .
Théorème 5.13.– Les propositions suivantes sont équivalentes.
i ) X1 , · · · , Xd sont indépendantes ;
ii ) Pour tout x1 , · · · , xd ∈ R,
FX (x1 , · · · , xd ) = FX1 (x1 ) × · · · × FXd (xd ) ;
(5.8)
iii ) Pour toutes fonctions mesurables h1 , · · · , hd : R → R telles que les v.a. hi (Xi ) sont
toutes positives ou toutes intégrables,
E (h1 (X1 ) × · · · × hd (Xd )) = E(h1 (X1 )) × · · · × E(hd (Xd )) ;
(5.9)
iv ) Pour toutes fonctions h1 , · · · , hd : R → R+ continues à support compact, (5.9) est
satisfaite.
CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS
81
Si en outre chaque v.a.r. Xi admet une densité fXi , alors les propositions précédentes sont
équivalentes à :
v ) Le vecteur X admet une densité fX donnée pour tout x1 , · · · , xd ∈ R par :
fX (x1 , · · · , xd ) = fX1 (x1 ) × · · · × fXd (xd ) ;
(5.10)
Preuve : i)⇒iii). On donne la preuve dans le cas où d = 2 (le cas général se traite de
manière similaire). Posons Y1 = h1 (X1 ) et Y2 = h2 (X2 ). D’après le paragraphe 5.3.2,
nous savons que Y1 et Y2 sont indépendantes. Supposons Y1 , YR2 positives. Puisque
impliqueR que E(Y1 Y2 ) = y1 y2 dPY1 ,Y2 (y1 , y2 ).
PY1 ,Y2 = PY1 ⊗ PY2R, leRthéorème de Fubini
Donc, E(Y1 Y2 ) =
y1 y2 dPY1 (y1 ) dPY2 (y2 ) = y2 E(Y1 ) dPY2 (y2 ) = E(Y1 )E(Y2 ) . La
propriété est prouvée pour des v.a. Yi positives. Dans le cas de v.a. signées, on a d’après
ce qui précède : E|Y1 Y2 | = E|Y1 | E|Y2 | < ∞. La fonction (y1 , y2 ) 7→ y1 y2 est intégrable et
le théorème de Fubini s’applique là encore.
iii)⇒iv). Immédiat.
iv)⇒ii). Fixons x1 , · · · , xd . Soit hi,n la fonction continue égale à un sur l’intervalle ] −
∞, xi ], à zéro sur [xi + n1 , +∞[, et linéaire sur [xi , xi + n1 ]. Pour tout
Q i, hi,nQ↑ 1]−∞,xi ] et
donc E(h
(xi ) par convergence monotone. DeQ
même, i hi,n Q
↑ i 1]−∞,xi ] et
Qi,n (Xi )) ↑ FXiQ
donc E( i hi,n (Xi )) ↑ i FXi (xi ) . Or, par hypothèse, E( i hi,n (Xi )) = i E(hi,n (Xi )) .
Le résultat est obtenu par passage à la limite.
N
ii)⇒i). La fonction
N de répartition associée à la loi produit i PXi est égale au produit
des FXi . Donc i PXi et PX ont la même fonction de répartition. Puisque la fonction
de répartition caractérise la loi, ces lois sont égales, ce qui prouve (5.7).
Dans le cas où chaque Xi admet une densité
fXi on montre que ii)⇔iv). ii) équivaut à :
Q R xi
∀x = (x1 , · · · , xd ) ,FX (x) = i −∞ fXi . Par le théorème de Fubini, cela équivaut à :
R x1
R xd N
N
FX (x) = −∞
· · · −∞
( i fXi ) , ce qui revient à dire que X est de densité i fXi .
Du théorème ci-dessus, on retiendra en particulier la propriété importante suivante : l’espérance d’un produit de variables aléatoires indépendantes est égale au produit des espérances.
Plus précisément, si X1 , · · · , Xd des v.a.r. indépendantes telles que E|Xi | < ∞ pour tout i,
alors le produit X1 × · · · × Xd est une v.a. intégrable et on a :
E (X1 × · · · × Xd ) = E(X1 ) × · · · × E(Xd ) .
En corollaire, l’égalité ci-dessus implique que si X1 et X2 sont indépendantes alors
Cov(X1 , X2 ) = 0 .
Autrement dit, des variables indépendantes sont décorrélées.
Généralisation à une collection de vecteurs aléatoires
Le Théorème 5.13 admet une généralisation immédiate au cas où X1 , · · · , Xd sont ellesmêmes des vecteurs aléatoires de dimensions n1 , · · · , nd respectivement. Il suffit d’adapter
l’énoncé au fait que pour tout i, FXi et fXi sont cette fois des fonctions de Rni → R.
CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS
82
Théorème 5.14.– Les propositions suivantes sont équivalentes.
i ) X1 , · · · , Xd sont indépendantes ;
ii ) Pour tout (x1 , · · · , xd ) ∈ Rn1 × · · · × Rnd , (5.8) est vérifiée ;
iii ) Pour toutes fonctions mesurables hi : Rni → R (i = 1, · · · , d) telles que les v.a. hi (Xi )
sont toutes positives ou toutes intégrables, (5.9) est vérifiée ;
iv ) Pour toutes fonctions hi : Rni → R (i = 1, · · · , d) continues à support compact, (5.9)
est vérifiée.
Si en outre chaque v.a.r. Xi admet une densité fXi , alors les trois propositions précédentes
sont équivalentes à :
v ) Le vecteur X admet une densité fX donnée par (5.10) pour tout (x1 , · · · , xd ) ∈
Rn1 × · · · × Rnd .
Généralisation au cas d’une famille de v.a.
Définition 5.9.– Soient (E1 , E1 ), · · · , (En , En ) une suite de n espaces mesurables. Pour
tout k = 1, · · · , n, soit Xk : Ω → Ek une variable aléatoire sur (Ek , Ek ). La famille de v.a.
(X1 , · · · , Xn ) est dite indépendante si pour toute suite (H1 , · · · , Hn ) ∈ E1 × · · · × En , les
événements ([Xk ∈ Hk ])k=1,··· ,n sont indépendants.
Autrement dit,
P [X1 ∈ H1 , · · · , Xn ∈ Hn ] = P [X1 ∈ H1 ] × · · · P [Xn ∈ Hn ] ,
T
où l’on utilise la notation [X1 ∈ H1 , · · · , Xn ∈ Hn ] = k [Xk ∈ Hk ].
Définition 5.10.– Une famille de variables aléatoires est dite indépendante si toute
sous-famille finie est indépendante.
n.b. : on utilise souvent l’abréviation i.i.d. pour désigner une famille indépendante et
identiquement distribuée de variables aléatoires.
Proposition 5.15.– Soit (Xi )i∈I une famille indépendante de v.a., chacune étant à
valeur dans un espace Ei . On se donne pour tout i une application mesurable fi sur Ei .
Alors la famille de v.a. (fi (Xi ))i∈I est indépendante.
Remarque∗ : Dans ce cours, nous rencontrerons assez fréquemment le cas d’une famille
indépendante (Xn )n∈N? dont les lois PXn sont spécifiées. Le lecteur est en droit de se
demander s’il existe effectivement un espace de probabilité (Ω, F, P) sur lequel on peut
construire une telle famille de v.a.. La réponse est oui, voir l’annexe C.1.
CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS
5.4
5.4.1
83
Changement de variable
Introduction
Soit X est un vecteur aléatoire sur Rd admettant une densité connue fX . On pose :
Y := φ(X)
pour une certaine fonction borélienne φ. L’objectif de cette section est de déterminer la loi
de Y et, si elle existe, sa densité. Les exercices 37 et 38 montrent que, dans les cas simples
(d = 1), la réponse est immédiatement donnée par calcul et différentiation de la fonction de
répartition de Y . Dans les cas plus complexes, l’expression de la densité de Y est obtenue
grâce à la formule du changement de variable vue en cours d’analyse MDI-103. Nous la
rappelons au paragraphe suivant.
5.4.2
Formule du changement de variable
Définition 5.11.– (Difféomorphisme). Soient U et V deux ouverts de Rd . On dit qu’une
application φ : U → V est un difféomorphisme si φ est bijective, continûment différentiable
sur U et si sa réciproque φ−1 est continûment différentiable sur V .
Dans la suite, nous désignons par φ1 (x), · · · , φd (x) les coordonnées du vecteur φ(x) dans
la base canonique i.e., φ(x) = (φ1 (x), · · · , φd (x)). Dire qu’une application φ : U → V
est continûment différentiable équivaut à dire que toutes les dérivées partielles ∂φi (x)/∂xj
existent et sont continues. La matrice jacobienne d’une telle application φ est définie par :
∂φi (x)
.
∂φ(x) =
∂xj 1≤i≤d
1≤j≤d
Définition 5.12.– Soit φ une fonction continûment différentiable sur un ouvert U ⊂ Rd .
On appelle jacobien de ϕ et on note Jφ la fonction définie sur U à valeurs dans R par :
Jφ (x) := det [∂φ(x)] .
On rappelle la propriété suivante des difféomorphismes :
Jφ−1 =
1
.
Jφ ◦ φ−1
Proposition 5.16.– Soient U et V deux ouverts de Rd et φ : U → V une application
bijective, continûment différentiable sur U . Alors φ est un difféomorphisme si et seulement
si Jφ (x) 6= 0, ∀x ∈ U .
CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS
84
Théorème 5.17.– (Formule du changement de variable). Soient U et V deux ouverts
de Rd et φ : U → V un difféomorphisme. Alors si f est une fonction définie sur V à valeurs
positives,
Z
Z
f
.
(5.11)
f ◦φ=
−1
U
V |Jφ ◦ φ |
Remarque∗ : Dans l’égalité (5.11), on suppose implicitement que f : U → R est une fonction borélienne. Dans le cas où f n’est pas nécessairement positive, alors l’égalité (5.11)
est satisfaite au moins par la valeur absolue |f | et, dans le cas où les deux membres de
l’égalité sont finis, les barres de valeur absolue peuvent être enlevées.
5.4.3
Application au calcul de densité
Revenons au problème initialement posé. On souhaite déterminer la loi de
Y = φ(X)
où X est un vecteur aléatoire. On fait les hypothèses suivantes :
• X admet une densité fX .
• X(Ω) ⊂ U ⊂ Rd où U est un ouvert ;
• φ : U → V est un difféomorphisme.
Soit h une fonction arbitraire, positive, définie sur Rd . On évalue l’espérance :
E(h(Y )) = E((h ◦ φ)(X))
Z
(h ◦ φ) fX
=
U
Z
=
(h × (fX ◦ φ−1 )) ◦ φ
ZU
fX ◦ φ−1
h
=
|Jφ ◦ φ−1 |
V
où la dernière égalité
provient de la formule du changement de variable. Ainsi, on peut
R
écrire E(h(Y )) = h fY où :
fX ◦ φ−1
fY =
1V .
(5.12)
|Jφ ◦ φ−1 |
Le calcul précédent étant valable pour toute fonction positive h, il l’est en particulier lorsque
R
h est de la forme h = 1H pour un certain ensemble H ∈ B(R). L’égalité E(h(Y )) = h fY
se lit alors :
Z
P[Y ∈ H] =
fY .
H
On en conclut que Y est un vecteur aléatoire de densité fY donnée par (5.12).
CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS
5.5
85
Exercices
. Exercice 43. Soit X la v.a. dont la loi est donnée par
P(X = n) =
6 1
, pour n ≥ 1.
π 2 n2
Montrer que P(X < +∞) = 1 mais que X n’a pas d’espérance.
. Exercice 44. Soit (Ω, A, µ) un espace mesuré. Soit I un intervalle de R et une famille de
fonctions mesurables {f (·, t)}t∈I , f (·, t) : Ω → R. On suppose que
• ∀ω ∈ Ω, t 7→ f (ω, t) est continue sur I.
R
• Il existe une application mesurable g : Ω → R+ telle que g dµ < +∞ et
∀t ∈ I,
Montrer que t 7→
R
∀ω ∈ Ω, |f (ω, t)| ≤ g(ω).
f (ω, t) dµ(ω) est continue sur I.
. Exercice 45. Soit (Ω, A, µ) un espace mesuré. Soit I un intervalle de R et une famille de
fonctions mesurables {f (·, t)}t∈I : f (·, t) : Ω → R. On suppose que
• x 7→ f (x, 0) est intégrable.
• ∀ω ∈ Ω, t 7→ f (ω, t) est dérivable sur I.
• Il existe une application mesurable g : Ω → R+ telle que
R
g dµ < +∞ et
∂f (ω, t)
| ≤ g(ω).
∂t
R
En utilisant l’inégalité des accroissements finis, montrer que t 7→ f (ω, t)dµ(ω) est bien
définie sur I. Montrer que cette fonction est dérivable et que l’on a
Z
Z
∂
∂f (ω, t)
f (ω, t) dµ(ω) =
dµ(ω) .
∂t
∂t
∀t ∈ I,
∀ω ∈ Ω, |
. Exercice 46. Soit µn la suite de mesure sur [0, 1] donnée par
n−1
1X
dµn (x) =
δj/n .
n j=0
Pour f continue sur [0, 1], quelle est la limite de
R
f (t)dµn (t) quand n tend vers +∞ ?
. Exercice 47. Soit X : Ω → R la variable discrète du paragraphe ??. Soit µ la mesure
comptage des points {x1 , x2 , · · · }.
1. Montrer que PX admet pour densité par rapport à µ la fonction fX définie µ-p.p.
par :
fX (xk ) = P[X = xk ] .
CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS
86
2. Retrouver l’égalité (5.6) en appliquant (5.5).
. Exercice 48.
1. Soit X une v.a.r. de densité f telle que lim|x|→∞ |x|p f (x) = 0 pour
tout p > 0. Montrer que X possède tous ses moments. En déduire qu’une v.a.r.
gaussienne possède tous ses moments.
2. Soit X une v.a.r. suivant une loi de Cauchy (voir Table 3.1, paragraphe ??). Montrer
que E(|X|) diverge. Plus généralement, montrer que X ne possède aucun moment.
. Exercice 49. Soit (E, E, µ) un espace mesurable et T une application de E dans lui-même.
On dit que µ est invariante par T si
Z
Z
f ◦ T dµ = f dµ
E
pour toute fonction f mesurable bornée.
1. Montrer que la mesure de Lebesgue sur R est invariante par translation.
2. Soit E = Rn et
1 2
1
2
exp − (x1 + . . . + xn ) dx1 . . . dxn .
dµ(x1 , . . . , xn ) =
(2π)n/2
2
Montrer que µ est invariante par rotation.
3. Soit E = [0, 1] et T (x) = 2x − [2x] (T (x) est la partie fractionnaire de x). Montrer
que la mesure de Lebesgue restreinte à E est invariante.
. Exercice 50. Montrer que toute mesure de Radon sur R (c’est-à-dire µ(K) < +∞ quel que
soit le compact K) invariante par translation est proportionnelle à la mesure de Lebesgue.
. Exercice 51. Soit (E, E, µ) un ensemble mesuré, (F, F) un ensemble et une tribu et T
une application mesurable de E dans F. On définit la mesure T ∗ µ (appelée mesure image
de µ par T ) par
∀B ∈ F, (T ∗ µ)(B) = µ(T −1 (B)).
ou de manière équivalente par
Z
∗
Z
f ◦ T dµ.
f d(T µ) =
F
E
pour toute fonction f mesurable bornée de F dans R. Soit E = R/Z × Z/2Z, muni de µ
la mesure uniforme.
1. Montrer que µ est invariante par translation.
2. Considérons l’application T de E dans O2 (R) (le groupe des transformations orthogonales de R2 ) donnée par :
cos 2πθ
sin 2πθ
T (θ, ) =
(−1) sin 2πθ (−1)1− cos 2πθ
Quelle est la mesure de l’ensemble des symétries (respectivement des rotations d’angle
inférieur à θ0 donné) sous T ∗ µ?
CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS
87
3. Montrer que T ∗ µ est invariante par translation.
4. On considère S l’application de O2 (R) dans C qui à une transformation orthogonale
associe la valeur propre de plus grandes parties réelle et imaginaire. Décrire S ∗ (T ∗ µ).
CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS
88
. Exercice 52. a) Soient X1 , · · · , Xd des v.a. i.i.d. de loi N (0, 1). Quelle est la loi du vecteur
aléatoire X = (X1 , · · · , Xd ) ?
b) Même question pour des variables Xi ∼ N (mi , σi2 ) indépendantes, σi2 > 0.
. Exercice 53. Démontrer la Proposition ??.
. Exercice 54. Soit (X1 , X2 ), une variable aléatoire à valeurs dans R2 et N une deuxième
variable aléatoire indépendante de (X1 , X2 ) et de loi αδ1 + (1 − α)δ2 , où α ∈]0, 1[.
2
1. Calculer E[XN ], σX
en termes de celles de X1 et de X2 .
N
2. On suppose que X1 et X2 sont indépendantes et de même loi, calculer la loi de XN .
. Exercice 55. Trois personnes A, B et C arrivent à la poste en même temps pour téléphoner. Il y a deux cabines téléphoniques qu’occupent A et B tout de suite. C remplace
le premier sorti. On désigne par X1 , X2 , X3 les temps d’occupation de la cabine par A, B
et C respectivement. On suppose que (X1 , X2 , X3 ) sont indépendantes, de même loi exponentielle de paramètre α.
1. Calculer la probabilité que C sorte le dernier.
2. Donner la loi du temps T passé par C à la poste.
3. Donner la loi de probabilité de l’instant du dernier départ ; l’instant 0 étant l’instant
d’arrivée des trois personnes à la poste.
. Exercice 56 (Castor et Pollux). Castor et Pollux se sont donnés rendez-vous en convenant
de ne pas attendre l’autre plus de dix minutes. Ils arrivent tous les deux indépendamment
à un instant « au hasard » entre midi et 13 heures. On note X, respectivement Y , l’heure
d’arrivée de Castor, respectivement celle de Pollux. On note W le temps d’attente de
Castor.
1. Quelle est la probabilité qu’ils se rencontrent ?
2. Exprimer en fonction de X et Y , la valeur du temps d’attente de Castor. On pourra
utilement faire un dessin en identifiant dans le pavé [0, 1] × [0, 1], différentes zones où
l’expression de W est simple – voir Figure 5.1.
3. Quelle est la loi du temps d’attente de Castor ?
4. Quel est le temps d’attente moyen de Castor ?
5. Quelle est la loi du temps d’attente de Castor sachant qu’il y a rencontre ?
. Exercice 57. Soit
2
x + y2
dP (x, y) = c exp −
1{x>y} dxdy
2
une mesure sur le plan R2 .
1. Trouver la constante c pour que P soit une probabilité.
2. Soit (Ω, F, P) un espace de probabilité et (X, Y ) : Ω → R2 une variable aléatoire de
loi P . Trouver la loi de X et celle de Y .
CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS
89
1
1/6
1/6
5/6
1
Figure 5.1 – Castor et Pollux
3. Sont-elles indépendantes ?
4. On définit les nouvelles variables aléatoires U = X 2 + Y 2 et V = Y . Calculer la loi
du vecteur (U, V ).
5. Les variables U et V sont-elles indépendantes ?
. Exercice 58. Soient X et Y deux v.a. réelles indépendantes
sur (Ω, F, P), de même loi
√
2
uniforme sur [0, a] (a > 0 réel, fixé). On note par R = X + Y 2 , Z = Y /X et par Pa une
nouvelle probabilité définie par
Pa (A) = P(A | R < a),
pour tout A ∈ F.
1. Pour tout borélien B de [0, a]2 , exprimer P((X, Y ) ∈ B) à l’aide de la surface S(B)
de B.
2. Montrer que R et Z sont indépendantes pour la probabilité Pa mais pas pour P.
3. Trouver deux fonctions simples f et g telles que pour Pa , f (R) et g(Z) soient uniformes ; sont-elles indépendantes ?
. Exercice 59. Soient X et Y deux v.a. indépendantes de loi uniforme sur [0, 1].
1. Quelle est la loi du couple (X, Y ) ?
2. Quelle est la loi du couple (min(X, Y ), max(X, Y )) ?
. Exercice 60. Soient Z = (X, Y ) la loi de densité π −1 1D (x, y) où est D est le disque unité
de R2 .
1. Calculer les lois marginales de X et Y.
CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS
90
2. Ces deux variables sont-elles indépendantes ?
3. Calculer la loi du couple (min(X, Y ), max(X, Y )).
. Exercice 61. Soient a, m ∈ Rd et Σ une matrice d × d définie positive. Soit A une matrice
d × d. Si X ∼ Nd (m, Σ), quelle est la loi de a + AX ? En déduire que
√ −1
si X ∼ Nd (m, Σ) alors Σ (X − m) ∼ Nd (0, I).
√
si X ∼ Nd (0, I), alors m + ΣX ∼ Nd (m, Σ).
. Exercice 62. Soient X, Y deux v.a.r. de loi jointe fX,Y sur R2 . Exprimer la densité de
probabilité de X + Y en fonction de fX,Y . Dans le cas où X et Y sont indépendantes,
montrer cette densité est égale au produit de convolution des densités marginales.
. Exercice 63. Soient X, Y deux v.a. indépendantes suivant la loi N (0, 1). Caractériser la
loi du vecteur (X + Y, X − Y ).
. Exercice 64. Comment simuler le tirage de points uniformément répartis dans un triangle
scalène en utilisant le moins possible le générateur de nombres pseudo-aléatoires. Même
question avec un disque.
. Exercice 65. Soit D une variable aléatoire de loi uniforme sur [0, 3], c’est-à-dire
1
dPD (x) = 1[0,3] (x) dx.
3
Soient s et t deux réels positifs tels que 0 ≤ t + s ≤ 3.
1. Pour x ∈ [0, 3], simplifier l’expression (t − (x − s)+ )+ où x+ = max(x, 0).
2. Calculer la loi de R = (t − (D − s)+ )+ .
. Exercice 66 (Statistiques d’ordre). Soit (X1 , · · · , Xn ) des v.a. i.i.d. de fonction de répartition F . On définit par récurrence sur p, la suite de v.a. X(p) par
X(1) = min Xj
1≤j≤n
τ1 = inf{j, Xj = X(1) }
X(2) = min Xj
j6=τ1
τ2 = inf{j 6= τ1 , Xj = X(2) }
....
..
X(n) = max Xj
j
τn = max{j, Xj = X(n) }.
1. Montrer que presque sûrement, Xi 6= Xj pour i 6= j.
2. Calculer la fonction de répartition de X(1) et de X(n) .
CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS
91
3. Soit τ la permutation définie par τ (i) = τi . Calculer la loi de τ .
4. Calculer la loi de X(k) .
5. Soit α ∈]0, 1[ et Fαn (x) = P(X([αn]) ≤ x). On définit xα par
xα = inf{x, F (x) ≥ α}.
Montrer que
n→+∞
Fαn −−−−→
(
1
0
si x ≥ xα
sinon.
. Exercice 67 (Recouvrement d’un cercle). Soit U = (U1 , · · · , Un ) des v.a. i.i.d. de loi
uniforme sur [0, 1]. Soit W = (W1 , · · · , Wn ) la statistique d’ordre (cf. exercice 66) associée
à U , i.e.,
Wi = U(i) , pour tout i = 1, · · · , n.
On pose
V1 = 1 + W1 − Wn , V2 = W2 − W1 , . . . , Wn = Wn − Wn−1 .
On considère aussi XP
1 , · · · , Xn des v.a. indépendantes de loi exponentielle de paramètre
n
−1
1. On pose Sn = n
j=1 Xj .
1. Montrer que la loi de W est donnée par
dPW (w1 , · · · , wn ) = n!1A (w1 , · · · , wn ) dw1 . . . dwn ,
où
A = {(x1 , · · · , xn ), 0 ≤ x1 ≤ x2 ≤ . . . ≤ xn ≤ 1}.
2. Calculer la loi de V = (nV1 , · · · , nVn−1 ).
3. Calculer la loi de (X1 , · · · , Xn−1 , Sn ).
4. Montrer que la loi de
Xn−1
X1
,··· ,
Sn
Sn
est la même que celle de V .
5. Soit Nα le nombre minimum d’arcs de longueur α nécessaires pour recouvrir la circonférence du cercle unite. Montrer que
(Nα ≤ n) = (max Vk ≤ α).
k≤n
. Exercice 68. Un nombre est choisi au hasard dans l’intervalle [0, 10] suivant une loi P
donnée par
dP (t) = K t 1[0,10] (t)dt ,
où K est une constante à calculer. On note par X sa partie entière et par Y sa partie
fractionnaire.
CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS
92
1. Calculer la loi du vecteur (X, Y ). Est-ce que les composantes sont indépendantes ?
2. Calculer la matrice de covariance de (X, Y ).
. Exercice 69. Pour a > 0, on définit
Z
∞
Γ(a) =
e−t ta−1 dt .
0
Une v.a.r. X est dite de loi gamma de paramètres a et λ > 0 si sa loi est donnée par
dPX (t) = 1[0,∞[ (t)
λa −λt a−1
e t dt ,
Γ(a)
notée par X ∼ G(a, λ).
1. Calculer l’espérance et la variance de X.
2. Soit Y une autre v.a.r. indépendante de X, de loi G(b, λ). Montrer que X + Y et
X
sont indépendantes, calculer leur loi.
X +Y
3. En déduire que
Z 1
Γ(a)Γ(b)
ta−1 (1 − t)b−1 dt =
β(a, b) =
.
Γ(a + b)
0
. Exercice 70. On considère E = {x = (x1 , x2 ) ∈ R2 , x21 + x22 ≤ 1} et on considère Ω
l’ensemble des familles finies de points de E, c’est-à-dire qu’un ω ∈ Ω est une famille finie
de points de E. On munit E de la tribu borélienne et d’une probabilité P. Pour toute partie
A de E on définit la variable aléatoire N (A)(ω) qui représente le nombre de points de ω
qui sont dans A. Les seules hypothèses que l’on fait sur P sont :
– Pour toute partie borélienne A de E,
P(N (A) = k) = e−m(A)
m(A)k
, pour tout k ∈ N,
k!
où m est la mesure de Lebesgue sur R2 .
– Si (Ai , i ∈ N) sont des boréliens disjoints deux à deux, les v.a. (N (Ai ), i ∈ N) sont
indépendantes dans leur ensemble.
On appelle le triplet (E, P, N ) un processus de Poisson ponctuel d’intensité m.
1. Calculer la moyenne et la variance de N (A) pour A borélien de E. Calculer la probabilité que A ne contienne pas de points de ω.
2. Soient A ⊂ B deux boréliens, calculer la loi de la variable aléatoire (N (A), N (B)).
3. Pour C = {x, a2 < x21 + x22 ≤ b2 }, calculer la loi de N (C).
4. On pose U (ω) = inf{α, N (B(0, α))(ω) > 0} où B(0, α) est la boule fermée de centre
O et de rayon r. Calculer P(U > x) pour tout x.
CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS
93
5. On fixe r > 0, on considère Arα le secteur angulaire composé des points distants de O
de moins de r et d’argument compris entre 0 et α. On pose V r = inf{β, N (Arβ ) > 0}
avec la convention V r = 0 si B(0, r) ne contient pas de point de ω. Calculer P(V > x)
pour tout x ∈ [0, 2π[.
6. Calculer la loi de l’argument du point le plus proche de O.
r
le secteur angulaire des
7. On suppose n fixé, pour k ∈ {0, . . . , n − 1}, on appelle Bk,n
éléments de E de module inférieur à r et d’argument supérieur à 2kπ/n et strictement
1
1
)) conditionnellement
), . . . , N (Bn−1,n
inférieur à 2(k+1)π/n. Calculer la loi de (N (B1,n
à N (E) = k.
8. On admet que les secteurs angulaires définis précédemment engendrent la tribu borélienne de E quand r parcourt [0, 1] et n décrit N. Montrer que si on met k points
répartis uniformément dans E la loi de
1
1
(N (B1,n
), . . . , N (Bn−1,n
))
est celle que l’on vient de trouver. En déduire (en utilisant l’exercice 64) une façon
de simuler un processus Poisson ponctuel d’intensité m.
9. Dans l’avant-dernière question, que se passe-t-il si on change m en une constante fois
m?
10. Calculer E e−sN (A) pour tout borélien. Pour f fonction mesurable positive de E
dans R+ , on pose
X
f (ξ).
N (f )(ω) =
ξ∈ω
Calculer E e−sN (f ) .
11. Chaque point de ω est effacé avec probabilité p et conservé avec probabilité 1 − p et
ce indépendamment des autres. On appelle Np (A) le nombre de points qui restent
dans A après l’opération d’effacement. Montrer que
(E, P, Np ) est un processus de
−sN
(A)
pour tout borélien.
Poisson ponctuel d’intensité (1 − p)m. Calculer E e
. Exercice 71. Soit X une v.a. réelle de fonction de répartition FX et FX−1 l’inverse à droite
de FX défini par :
FX−1 (y) = inf{u; FX (u) ≥ y}.
Soit U une v.a. de loi uniforme sur [0, 1], montrer que FX−1 (U ) a la loi de X. Cette relation
permet de générer des v.a. de loi arbitraire à partir de variables de loi uniforme sur [0, 1].
Ceci est très fréquemment utilisé en simulation et connu sous le nom de méthode d’inversion.Trouver comment générer des variables de loi exponentielle et de Cauchy avec cette
méthode.
. Exercice 72. La difficulté qui apparaît lors de la mise en oeuvre de la méthode précédente
est l’inversion de la fonction de répartition. On a fréquemment la densité de façon explicite
mais pas la fonction de répartition. Dans ce cas, on applique la méthode de rejet. Soit
CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS
94
fX la densité de X et g une densité qui majore à une constante près fX et pour laquelle
on sait facilement générer des v.a. dont la loi a pour densité g. On procède de la manière
suivante : soit a tel que fX (u) ≤ ag(u) pour tout u. On tire une v.a. de loi de densité g,
soit Y le résultat de ce tirage. On tire, indépendamment, une v.a. de loi uniforme sur [0, 1]
et on note U le résultat de ce tirage. Si U ≤ f (Y )/ag(Y ) alors le résultat est Y sinon on
recommence au début.
1. Quel est l’espace de probabilité sous-jacent sur lequel sont définies les v.a. Z et Y.
2. Montrer que P(Y ≤ t) = FX (t).
3. Soit X et Y deux v.a. indépendantes de loi exponentielle de paramètre µ. Calculer
la densité de la loi de Z = X − Y.
4. En déduire une façon d’engendrer des v.a. de loi de densité :
µ
exp(−µ|x|α )
2γ(1 + 1/α)
où α ≥ 1 et µ > 0.
. Exercice 73. Soit U et V deux v.a. indépendantes de loi uniforme sur [0, 1]. Posons :
p
p
X = −2 ln(U ) cos(2πV ) et Y = −2 ln(U ) sin(2πV ).
Montrer que X et Y sont des v.a. gaussiennes centrées, réduites, indépendantes.
. Exercice 74 (Processus de Poisson). Processus !Poisson L’un des modèles stochastiques
les plus utilisés est le processus de Poisson. Nous allons ici le décrire et exhiber quelques
unes de ses propriétés. Soit (Sn , n ≥ 1) une suite de v.a.r. indépendantes, identiquement
distribuées, de loi exponentielle de paramètre λ. On note
T1 = S1 et Tn+1 = Tn + Sn+1 .
Les instants (Tn , n ≥ 1) sont usuellement vus comme des instants d’arrivée. Les durées Sn
s’appellent logiquement inter-arrivées. On pose
Nt =
+∞
X
1[0,t] (Tn ).
n=1
1. Calculer la loi de (T1 , · · · , Tn ).
2. Calculer la loi de Tn .
3. Montrer que (Nt = k) = (Tn ≤ t < Tn+1 ).
4. Calculer la loi de Nt .
5. Soit Wt = t − TNt et Zt = TNt +1 − t. Calculer la loi de (Wt , Zt ).
6. Montrer que Wt et Zt sont indépendantes et que Zt suit une loi exponentielle de
paramètre λ.
CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS
95
7. En quoi, ce résultat est-il surprenant ?
. Exercice 75. Soit W une v.a. de loi de Poisson de paramètre λ > 0 :
P(W = k) = e−λ
λk
.
k!
1. Montrer que pour toute fonction positive f :
λE [f (W + 1)] = E [W f (W )] .
(5.13)
2. Réciproquement, soit W une v.a. discrète, à valeurs dans N, telle que pour toute
fonction positive, l’identité 5.13 soit satisfaite. En appliquant 5.13 à des fonctions f
judicieusement choisies, montrer que
P(W = j) =
λ
P(W = j − 1),
j
pour tout j ≥ 1.
3. En déduire la loi de W .
. Exercice 76. On tire un nombre X uniformément sur [0, 1]. On tire ensuite des nombres
Y1 , Y2 , · · · indépendamment les uns des autres et indépendamment de X, uniformément
sur [0, 1]. Le jeu s’arrête dès que Yi > X. Vous gagnez alors (i − 1)e. On appelle G le gain.
Pour k entier, on définit
(
1{y1 >x}
si k = 0
ϕk (x, y1 , · · · , yk+1 ) =
1{y1 ≤x,..., yk ≤x, yk+1 >x} si k > 0.
1. Pour k entier, montrer que
Z
ϕk (x, y1 , · · · , yk+1 )dy1 dy2 . . . dyk+1 dx =
[0, 1]k+2
1
1
−
·
k+1 k+2
On traitera séparément les cas k = 0 et k > 0.
2. Calculer la loi de G.
3. Calculer l’espérance de G.
. Exercice 77. Pour tout a réel strictement positif, Ga désigne une variable aléatoire de loi
gamma de paramètres (a, 1) : la densité ga de sa loi est donnée par
ga (x) =
1
xa−1 e−x 1R+ (x),
Γ(a)
où
Z
Γ(a) =
0
+∞
xa−1 e−x dx.
CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS
96
En particulier, G1 suit une loi exponentielle de paramètre 1. On admet que
E eitGa = (1 − it)−a , pour tout t ∈ R.
De plus, pour a, b réels strictement positifs, Ba, b désigne une variable aléatoire de loi bêta
de paramètres (a, b) : la densité ha, b de sa loi est donnée par
ha, b (y) =
Γ(a + b) a−1
y (1 − y)b−1 1[0,1] (y).
Γ(a)Γ(b)
1. Calculer la loi du couple (Ga+b Ba, b , Ga+b ) lorsque les v.a. Ga+b et Ba,b sont indépendantes.
2. En déduire que pour deux variables Ga+b , Ba,b indépendantes, la loi de Ba, b Ga+b est
identique à celle de Ga .
3. Soit n ≥ 0. Montrer par récurrence, que lorsque les variables aléatoires Ba,1 , · · · ,
Ba+n,1 , Ga+n+1 sont indépendantes, la loi de
Pn = Ga+n+1
n
Y
Ba+j, 1
j=0
est la même que celle de Ga .
On utilisera la question précédente et les hypothèses d’indépendance. On évitera les
longs calculs.
4. Soit X une v.a. de loi exponentielle de paramètre 1 indépendante de Ga , montrer que
Ga + X a la même loi que Ga+1 .
5. En déduire que pour tout entier n, Ga+n a même loi que
Hn = Ga + X1 + X2 + . . . + Xn ,
où les Xi sont des v.a. dont on précisera les propriétés.
On pose Wn = Ga + X1 + X2 + . . . + Xn où les Xi sont indépendantes, identiquement
distribuées de loi exponentielle de paramètre 1. On suppose de plus que les v.a. Ga et
{Xk , k ≥ 1} sont définies sur le même espace de probabilité.
6. Quelle est la limite presque-sûre de (n−1 Wn , n ≥ 1) ?
7. Montrer que la suite (n−1 Ga+n , n ≥ 1) converge en loi, vers une loi que l’on précisera.
. Exercice 78. On rappelle que
Z
1
u−1/2 (1 − u)−1/2 du = π.
0
Soit X = (X1 , X2 ) un vecteur gaussien de R2 , centré, de matrice de covariance (ou dispersion) Γ = I. On pose
X2
U = 2 1 2 et V = X12 + X22 .
X1 + X2
CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS
97
1. Calculer la densité de la loi de (U, V ).
2. Donner les densités marginales de U et V . On précisera les constantes de normalisation.
X2
3. Soit Z = 22 . Exprimer Z en fonction de U puis calculer la densité de la loi de Z.
X1
On note Rθ la rotation d’angle θ dans R2 . Si x ∈ R2 ,
x1 cos θ − x2 sin θ
cos θ − sin θ
x1
Rθ x =
=
,
x1 sin θ + x2 cos θ
sin θ cos θ
x2
où x1 et x2 sont les composantes de x dans la base canonique de R2 .
Soit X = (X1 , X2 ) une v.a. à valeurs dans R2 telle que pour tout θ ∈ [−π, π], Rθ X a
même loi que X. C’est-à-dire que
E [g(Rθ X)] = E [g(X)] ,
(5.14)
pour toute fonction g mesurable bornée de R2 dans R. On suppose que la loi de X a une
densité par rapport à la mesure de Lebesgue, notée v.
4. Montrer que pour toute fonction g mesurable bornée de R2 dans R, pour tout θ ∈
[−π, π],
Z
Z
g(x)v(x)dx =
R2
g(y)v(Rθ y)dy.
R2
On admet qu’alors il existe w : R+ → R+ , mesurable, telle que
v(x) = w(kxk) pour tout x ∈ R2 .
5. Montrer que dans ce cas,
Z
+∞
w(r) rdr =
0
1
.
2π
On suppose maintenant que X = (X1 , X2 ) est un vecteur gaussien centré de matrice de
covariance (ou dispersion) Γ.
6. Soit θ ∈ [−π, π], quelle est la loi de Rθ X ?
7. Montrer que Rθ X a même loi que X pour tout θ si et seulement si ΓRθ = Rθ Γ.
8. Supposons que ΓRθ = Rθ Γ pour tout θ ∈ [−π, π]. En écrivant les équations satisfaites
par les coefficients de Γ, montrer que Γ est la matrice d’une homothétie positive
(c’est-à-dire qu’il existe σ 2 tel que Γ = σ 2 I).
. Exercice 79. Soit N un processus de Poisson (cf. exercice 74) d’intensité λ, on note Tn
le n-ième instant de saut. Par convention, T0 = 0. Soit (Zn , n ≥ 1), une suite de variables
aléatoires de même loi telles que pour tout n, Tn et Zn sont indépendantes. Soit g la densité
de la loi commune aux Zn .
CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS
98
1. Montrer que pour toute fonction f,
Z +∞ Z
(λt)n−1
f (t, z)g(z)λe−λt
dz dt.
E[f (Tn , Zn )] =
(n − 1)!
0
2. En déduire que
Z
X
E[
f (Tn , Zn )] = λ
+∞
Z
f (t, z)g(z) dz dt.
0
n≥1
3. On suppose que les communications téléphoniques d’un abonné durent un temps
aléatoire de loi exponentielle de moyenne 3 minutes. Ces durées sont indépendantes
entre elles. Au siècle dernier, le coût d’une communication était fonction de sa durée
t selon la formule suivante :
c(t) = α si t ≤ t0 , et c(t) = α + β(t − t0 ) si t ≥ t0 .
Déduire de ce qui précède que le coût moyen d’une heure totale de communication
est donné par :
Z 1
c(t)λe−λt dt
λ
0
avec λ = 20. (Indication : Considérer Zn = Tn+1 − Tn et expliquer pourquoi on peut
appliquer le résultat précédent.)
. Exercice 80. Soit N un processus de Poisson sur R+ . Soit f R+ → R+ . Considérons
Z
X
f (s)dNs =
f (Tn ).
n≥1
1. Montrer que Nt − Ns a même loi que Nt−s pour tout couple (t, s) avec t ≥ s.
2. Montrer que
Z
Z
−1]a, b](s)
E exp(− 1]a,b] (s)dNs ) = exp − 1 − e
λds .
R
3. En déduire E exp(− f (s)dNs ) pour toute fonction f positive.
4. Pour B ⊂ R+ , calculer de deux manières différentes
Z
d
E exp(− (f + t1B )(s)dNs )
.
dt
t=0
. Exercice 81. En radio-mobiles, on est souvent amené à simuler des usagers répartis de
façon uniforme dans une cellule hexagonale (voir la figure 5.2 pour les éléments caractéristiques d’une telle cellule). Comment faire en utilisant un minimum d’appels au générateur
de nombres aléatoires ?
On rappelle
√ pour simplifier les calculs que pour un hexagone de longueur de côté 1, l’aire
est A = 3 3/2.
CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS
99
y
π/6
1−x
y= √
3
x
Figure 5.2 – Hexagone régulier.
. Exercice 82 (Somme aléatoire). Soient X = (Xn , n ≥ 1) une suite de v.a. indépendantes
de loi exponentielle de paramètre λ. Soit N une v.a. indépendante de la suite X de loi
géométrique de paramètre ρ. Calculer la loi de Z où
Z=
N
X
Xj .
j=1
. Exercice 83. En quoi la fonction définie sur [0, 1] × [0, 1] par (x2 − y 2 )/(x2 + y 2 )2 montret-elle que les hypothèses du théorème de Fubini sont optimales ?
. Exercice 84. Soit (E, E, P) un espace probabilisé et T une application mesurable de E
dans lui-même. On suppose que P est invariante par T, c’est-à-dire que
P(T −1 (A)) = P(A) pour tout A ∈ E.
1. Montrer que l’ensemble des mesurables invariants par T, c’est-à-dire qui vérifie T −1 (A) =
A, est une tribu (notée I par la suite).
2. Soit f une fonction mesurable de E dans R. Montrer que si f est invariante par T
(c’est-à-dire f ◦ T = f ) alors f est mesurable de (E, I) dans (R, B(R)).
3. Le système dynamique (E, T, P) est dit ergodique lorsque
I ⊂ σ{A ⊂ E, P(A) = 0 ou P(A) = 1}.
Montrer que (E, T, P) est ergodique si et seulement si les fonctions invariantes par T
sont constantes presque partout.
4. On dit que T est mélangeante si et seulement si pour tout couple f, g d’éléments de
L2 (dP),
Z
Z
Z
f ◦ T n gdP =
lim
n→+∞
E
f dP
E
gdP.
E
(5.15)
CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS
100
Montrer que si T est mélangeante alors (E, T ) est ergodique.
5. Montrer que si la condition de mélange (5.15) est vérifiée pour f, g appartenant à un
sous-ensemble dense de L2 (dP) alors T est mélangeante.
On veut maintenant étudier le système dynamique donnée par l’équation d’évolution :
xan+1 = T (xan ) où T (x) = 4x(1 − x), xa0 = a ∈ [0, 1].
On veut montrer en particulier que pour presque tout a ∈ [0, 1],
n
1X
lim
f (xaj ) =
n→+∞ n
j=0
Z
1
√ √
f (u)(π u 1 − u)−1 du.
0
On admet que si (E, T, P) est un système ergodique alors
n
1X
lim
f ◦ T j (x) =
n→+∞ n
j=0
Z
f dP
E
pour presque tout x. Il nous faut donc trouver une mesure invariante µ par T et montrer
que le système dynamique ([0, 1], T, µ) est ergodique. Pour ce faire on considère un autre
système dynamique :
E1 = [0, 1[, T1 x = 2x si 0 ≤ x ≤ 1/2, T1 (x) = 2 − 2x pour 1/2 ≤ x < 1.
(où [x] est la partie entière de x) muni de la mesure de Lebesgue sur [0, 1[, notée λ.
1. Montrer que λ est invariante par T1 .
2. En admettant (ou se souvenant, cf. séries de Fourier) que la famille de fonctions
ek (x) = exp(2iπkx) pour k ∈ Z est une famille dense de L2 (dλ), montrer que T1 est
mélangeante.
3. Soit Θ l’application de E1 dans [0, 1] définie par :
Θ(x) = sin2 (πx/2).
4. Identifier µ la mesure image de λ par Θ.
5. Montrer que ([0, 1[, T, µ) est ergodique et conclure.
Chapitre 6
Fonction caractéristique
On note ha, bi le produit scalaire de deux vecteurs a, b de Rd , et kak la norme euclidienne
de a. AT désigne la transposée de la matrice A. Par convention, les vecteurs sont des
vecteurs-colonne.
√
Pour un nombre complexe x, |x| désigne son module et x̄ son conjugué. On note i = −1.
Fonctions à valeur dans C Dans ce chapitre, nous sommes amenés à utiliser l’intégrale,
par rapport à des mesures de probabilité, de fonctions à valeur dans C. Toute fonction f
à valeur dans C peut s’écrire sous la forme :
f = fR + ifI
(6.1)
où fR , fI sont les fonctions à valeur dans R désignant respectivement la partie réelle et la
partie imaginaire. On dira qu’une fonction f à valeur dans C est mesurable si les fonctions
fR et fI sont mesurables. Elle est par définition intégrable par rapport à une mesure µ si
fR et fI sont intégrables. On définit alors l’intégrale de f par :
Z
Z
Z
f dµ := fR dµ + i
fI dµ .
A l’aide de la décomposition (6.1) et des inégalités :
|fR | ≤ |f |,
|fI | ≤ |f |,
|f | ≤ |fR | + |fI | ,
il est aisé de vérifier que des propriétés établies pour des fonctions à valeur dans R restent
valables pour des fonctions à valeur dans C. Par exemple :
• une fonction mesurable f à valeur dans C est intégrable par rapport à µ si et seulement
Z
|f |dµ < ∞ ;
• le théorème de convergence dominée (voir théorème 4.8) reste vrai si les fonctions
f, fn sont supposées à valeur dans C.
101
CHAPITRE 6. FONCTION CARACTÉRISTIQUE
6.1
102
Définition et propriétés
Dans cette section, X = (X1 , · · · , Xd ) désigne un vecteur aléatoire à valeur dans Rd , défini
sur un espace de probabilité (Ω, F, P).
Définition 6.1.– On appelle fonction caractéristique de la v.a. X la fonction φX :
Rd → C définie par
Z
exp(iht, xi) dPX (x)
φX (t) := E (exp(iht, Xi)) =
Rd
!
!
d
d
X
Y
= E exp(i
tk Xk ) = E
exp(itk Xk ) .
k=1
k=1
Comme | exp(iht, Xi)| = 1, la fonction φX est bien définie sur Rd . Elle est définie pour les
v.a. discrètes commes les v.a. à valeur réelle ou vectorielle. Dans le cas particulier où X
est à valeur dans un espace au plus dénombrable E, on a
X
exp(iht, ei)P[X = e] ;
φX (t) =
e∈E
dans le cas où X est une v.a. à densité fX (par rapport à la mesure de Lebesgue λd sur
Rd ), on a
Z
φX (t) = exp(iht, xi) fX (x) dx .
La définition de la fonction caractéristique ne dépend que de la loi de la v.a. X. En particulier, si deux v.a. ont même loi alors elles ont même fonction caractéristique.
Preuve : En conséquence du théorème de transfert (théorème 5.5), on a E(g(X)) =
E(g(Y )) pour toute fonction mesurable bornée à valeur dans R (et donc par une extension
triviale, à valeur dans C). En particulier, en appliquant cette propriété à la fonction
g(x) = exp(iht, xi) (t étant fixé), on en déduit que φX (t) = φY (t).
Vue sous l’angle de transformée d’une loi, la fonction caractéristique d’une v.a. n’est autre
que la transformée de Fourier de sa loi, qui est définie de la façon suivante :
Définition 6.2.– Soit µ une mesure finie sur (Rd , B(Rd )). La transformée de Fourier de
µ est la fonction µ̂ : Rd → C définie par
Z
µ̂(t) := exp(iht, xi) dµ(x) .
Autrement dit, comme alternative à la définition 6.1, on peut simplement écrire que la
fonction caractéristique d’une v.a. X est φX = PbX .
CHAPITRE 6. FONCTION CARACTÉRISTIQUE
103
Remarque : Dans le cas où µ est une mesure sur R admettant une densité f i.e., µ(dx) =
R
f (x)dx, la définition 6.2 implique que µ̂(t) = eitx f (x)dx. Ainsi, µ̂(−t) est égale à
la transformée de Fourier fˆ de la fonction intégrable f , vue en cours MDI-103. Cette
remarque justifie la terminologie « transformée de Fourier ». En ce sens, la définition 6.2
est une extension de la transformée de Fourier des fonctions vue en cours d’analyse.
Proposition 6.1.– La fonction caractéristique d’une v.a. X vérifie les propriétés suivantes :
a) Pour tout t ∈ Rd , |φX (t)| ≤ 1 . En outre, φX (0) = 1 .
b) La fonction φX est continue sur Rd .
c) Si b ∈ Rp est un vecteur déterministe et A est une matrice déterministe de taille p × d
alors AX + b ∈ Rp et pour tout t ∈ Rp ,
φAX+b (t) = exp(iht, bi) φAX (t) = exp(iht, bi) φX (AT t) .
En particulier, si X est une v.a. à valeur dans R et que a, b sont des réels alors
φaX+b (t) = exp(itb) φX (at) .
d ) Si X, Y sont deux v.a. indépendantes définies sur le même espace de probabilité
(Ω, F, P) et à valeurs dans Rd , alors φX+Y = φX φY . Plus généralement, si X1 , · · · , Xn :
Ω → Rd sont des v.a. indépendantes, alors :
φX1 +···+Xn =
n
Y
φXk
k=1
Preuve : a)) On a |φX (t)| ≤ E (|exp(iht, Xi)|) = 1. De plus, φX (0) = E (exp(0)) = 1.
b)) La continuité en tout point t ∈ Rd est une conséquence du théorème de convergence
dominée (voir théorème 4.8). Soit t ∈ Rd ; nous écrivons pour toute suite (h` )` à valeur
dans Rd telle que lim`→+∞ h` = 0,
Z
φX (t + h` ) − φX (t) = (exp(iht + h` , xi) − exp(iht, xi)) dPX (x) .
Par continuité du produit scalaire et de la fonction exponentielle,
lim (exp(iht + h` , xi) − exp(iht, xi)) = 0 .
`→+∞
R
De plus, pour tout h ∈ Rd , |exp(iht + h, xi) − exp(iht, xi)| ≤ 2 et 2 dPX = 2 < ∞. Par
suite, le théorème de convergence dominée entraine lim`→+∞ φX (t + h` ) = φX (t), ce qui
établit la continuité en t pour tout t ∈ Rd .
c)) On écrit en utilisant les propriétés du produit scalaire et de la fonction exponentielle,
et en utilisant le fait que A, b sont déterministes
φAX+b (t) = E (exp(ihAX + b, ti)) = exp(ihb, ti) E (exp(ihAX, ti))
= exp(ihb, ti) E exp(ihX, AT ti) = exp(ihb, ti) φX (AT t) .
CHAPITRE 6. FONCTION CARACTÉRISTIQUE
104
d )) On a pour tout t ∈ Rd ,
φX+Y (t) = E (exp(iht, Xi) exp(iht, Y i)) = E (exp(iht, Xi)) E (exp(iht, Y i))
= φX (t) φY (t)
en utilisant la caractérisation de l’indépendance donnée par le théorème 5.13 (établie
pour des fonctions à valeur réelle et donc valable aussi pour des fonctions à valeur dans
C). La généralisation à une somme de n v.a. indépendantes est immédiate.
6.2
Fonctions caractéristiques de v.a. usuelles
La table 6.1 fournit l’expression des fonctions caractéristiques de plusieurs loi usuelles. Les
sept premières expressions sont la conséquence de calculs triviaux que nous omettons ici.
Nous fournissons ci-dessous la preuve des trois dernières.
Nous commençons par établir l’expression de la fonction caractéristique d’une v.a. normale N (0, 1) ; nous en déduirons celle d’une loi Nd (0, I) puis d’une loi Nd (µ, Γ). Soit
Y ∼ N (0, 1). Les conditions de dérivation sous l’intégrale sont vérifiées (voir exercice 45)
et on a
Z
1
ix exp(itx) exp(−1/2 x2 )dd
φ0Y (t) = √
2π
Z
Z
i
t
2
1
= −√
(it − x) exp(itx) exp(− /2 x )dx − √
exp(itx) exp(−1/2 x2 )dx
2π
2π
Z
i t
2 +∞
1
= −√
exp(itx) exp(− /2 x ) −∞ − √
exp(itx) exp(−1/2 x2 )dx = −t φY (t).
2π
2π
La résolution de l’équation différentielle
φY (0) = 1, donne le résultat.
φ0Y (t) = −t φY (t)
sachant que l’on doit avoir
Soit Z ∼ Nd (0, I). Alors par le théorème de Fubini (voir Chapitre 5.3),
φZ (t) = √
=
=
Z
1
d
2π
d Y
k=1
d
Y
exp(iht, zi) exp(−1/2
Rd
1
√
2π
d
X
zk2 ) dz1 · · · dzd
k=1
Z
exp(itk zk )
exp(−1/2 zk2 )
R
dzk
=
d
Y
φY (tk )
k=1
exp(−1/2 t2k ) = exp(−1/2 tT t) .
k=1
√
Enfin, nous avons établi au Chapitre 5.3 que si Z ∼ Nd (0, I) alors X = µ + ΓZ suit
une loi Nd (µ, Γ) (voir exercice 61). L’expression de la fonction caractéristique d’une loi
Nd (µ, Γ) est maintenant la conséquence de la Proposition 6.1-c).
CHAPITRE 6. FONCTION CARACTÉRISTIQUE
105
Loi
Expression de ΦX (t)
Mesure de Dirac δa
exp(ita)
Bernoulli B(p)
1 − p + p exp(it)
Binomiale B(n, p)
(1 − p + p exp(it))n
Géométrique G(p) sur N
p
1 − (1 − p) exp(it)
Poisson P(λ)
λ
λ − it
Uniforme U([a, b])
exp(itb) − exp(ita)
it(b − a)
Exponentielle E(λ)
λ
λ − it
Gaussienne réelle N (µ, σ 2 )
avec σ 2 ≥ 0
Gaussienne multivariée Nn (µ, Γ)
exp(itµ − 1/2 σ 2 t2 )
exp(iht, µi − 1/2 tT Γt)
Gamma Γ(a, b)
b
b − it
a
Table 6.1 – Quelques fonctions caractéristiques utiles. Se rapporter aux tables 3.1 et 1.1
pour la définition des lois. Pour la fonction caractéristique d’une loi Nn (µ, Γ) lorsque Γ est
définie positive, voir section 6.2 ; lorsque Γ est positive, voir chapitre 7. Par convention,
N (a, 0) est la mesure de Dirac en a
CHAPITRE 6. FONCTION CARACTÉRISTIQUE
106
Soit X ∼ G(a, b). Par application du théorème de dérivation sous l’intégrale (voir exeria
cice 45) suivie d’une intégration par parties, nous avons φ0X (t) = b−it
φX (t) dont nous
déduisons l’expression de φX en utilisant la condition φX (0) = 1. A noter que si a n’est
pas un entier, on prend la détermination continue valant 1 en 0.
6.3
Caractérisation de la loi
Nous avons établi (théorème 4.9) que deux lois µ, ν sont égales si et seulement si E (f (X)) =
E (f (Y )) pour toute fonction continue bornée (ou pour toute fonction continue à support
compact) ; ici X ∼ µ et Y ∼ ν. Le théorème suivant donne une autre caractérisation :
µ, ν sont égales si et seulement si E (f (X)) = E (f (Y )) pour toute fonction f de la forme
x 7→ exp(iht, xi), t ∈ Rn . La preuve de ce résultat repose sur le lemme suivant.
Théorème 6.2.– La fonction caractéristique d’une v.a. détermine sa loi i.e., pour deux
vecteurs aléatoires X, Y à valeur dans Rd on a équivalence :
a) pour tout t ∈ Rd , φX (t) = φY (t).
b) les vecteurs aléatoires X et Y ont même loi.
Preuve : Le sens réciproque est trivial étant donnée la définition de la fonction caractéristique : on ne se préoccupe que du sens direct. Plaçons nous pour simplifier dans le cas
d = 1. A titre de remarque, signalons que la preuve est déjà connue des élèves dans le
cas particulier où X et Y sont deux lois à densité fX et fY : dans le cas où les fonctions
caractéristiques sont elles-mêmes intégrables, les densités se déduisent des fonctions caractéristiques par transformée de Fourier de φX et φY . Ainsi, φX = φY implique que
fX = fY presque partout, et donc que PX = PY .
Dans le cas général, la preuve repose sur la formule d’inversion (voir l’exercice 87) :
Z
PX (]a, b]) = lim
T
T →∞ −T
e−ita − e−itb
φX (t)dt ,
it
(6.2)
qui vraie pour tous a, b en lesquels PX n’a pas de masse, c’est-à-dire pour tous a, b hors
de l’ensemble DX := {x : PX ({x}) > 0}. D’après l’exercice 34, cet ensemble DX est au
plus dénombrable. Donc pour tout a et b hors de DX ∪ DY , on a PX (]a, b]) = PY (]a, b]).
Puisque FX (b) = FX (a) + PX (]a, b]), il suffit de faire tendre a vers −∞ pour obtenir :
FX (b) = FY (b)
(6.3)
pour tout point b hors d’un ensemble au plus dénombrable. En utilisant la continuité à
droite des fonctions de répartition, on conclut que (6.3) est vraie en tout point. Puisque
le fonction de répartition détermine entièrement la loi, le résultat est démontré.
CHAPITRE 6. FONCTION CARACTÉRISTIQUE
6.4
107
Caractérisation de l’indépendance
Soient (Xk )k≤p des vecteurs aléatoires à valeur dans Rnk , définies sur le même espace de
probabilité (Ω, F, P).
Théorème 6.3.– Les v.a. X1 , · · · ,Q
Xp sont indépendantes si et seulement si pour tout
n1 +···+np
t = (t1 , · · · , tp ) ∈ R
, φX (t) = pk=1 φXk (tk ).
Preuve : Supposons que les v.a. sont indépendantes. On a
!
p
p
p
Y
Y
Y
φX (t) = E
exp(ihtk , Xk i) =
E (exp(ihtk , Xk i)) =
φXk (tk ) ,
k=1
k=1
k=1
en utilisant la caractérisation de l’indépendance donnée par le théorème 5.13 dans la
seconde égalité.
Considérons la réciproque. Soient Y1 , · · · , Yp des v.a. indépendantes et telles que pour
tout k, Xk et Yk ont même loi. CommeQles v.a. sont indépendantes, pour tout t =
(t1 , · · · , tp ) ∈ Rn1 +···+np , φ(Y1 ,··· ,Yp ) (t) = pk=1 φYk (tk ) ; de plus, comme Xk et Yk ont
même loi, d’après le Théorème 6.2 φXk (tk ) = φYk (tk ) pour tout tk ∈ Rnk . Donc pour
tout t = (t1 , · · · , tp ) ∈ Rn1 +···+np ,
φ(Y1 ,··· ,Yp ) (t) =
p
Y
φXk (tk ) = φX (t) .
k=1
Le Théorème 6.2 entraine que (Y1 , · · · , Yp ) et (X1 , · · · , Xp ) ont même loi donc en particulier, les v.a. (Xk )1≤k≤p sont indépendantes.
6.5
6.5.1
Calcul de moments
Moments et fonction caractéristique
Puisque la fonction caractéristique « caractérise la loi », elle détermine également les moments de cette loi. Il se trouve que la fonction caractéristique est un outil souvent commode
pour évaluer les moments d’une loi.
Théorème 6.4.– Soit X une variable aléatoire réelle possédant un moment d’ordre p
(p > 0). Alors φX est de classe C p et l’on a
∂ p φX (t)
= ip E (X p exp(itX)) .
p
∂t
En particulier, les moments sont liés aux dérivées en zero :
E(X p ) = (−1)p ip
∂ p φX (0)
.
∂tp
CHAPITRE 6. FONCTION CARACTÉRISTIQUE
108
Preuve : Nous établissons le résultat suivant :
φX (t) = 1 + itE(X) −
t2
tp
E(X 2 ) + · · · + ip E(X p ) + ξ(t)
2
p!
où lim ξ(t)/tp = 0.
t→0
Cette égalité se justifie par le développement :
exp(itx) −
p
X
ik
k=0
tk k
x
k!
tk
1
xk
(k − p)! (k − p + 1) · · · (k − 1)k
k>p
Z 1 Z up Z up−1
Z u2
X
tk
k
k
···
uk−p
=
i
x
1 du1 du2 · · · dup
(k − p)!
0
0
0
0
k>p
Z u2 X
Z 1 Z up Z up−1
tk−p k−p k−p
···
ik−p
= ip tp xp
x u1 du1 du2 · · · dup
(k − p)!
0
0
0
0
k>p
Z u2 Z 1 Z up Z up−1
···
exp(iu1 tx) − 1 du1 du2 · · · dup ,
= ip tp xp
=
X
ik
0
0
0
0
où l’on a utilisé le théorème Fubini (voir Chapitre 5.3). On montre que l’espérance de
ce dernier terme est o(tp ) par application du théorème de convergence dominée (voir
Chapitre ??).
Généralisation aux vecteurs aléatoires
De même, on peut montrer le résultat suivant :
Théorème 6.5.– Soit X un vecteur aléatoire admettant un moment d’ordre p (p > 0).
t 7→ φX (t) est de classe C p et on a
∂ p φX (t)
= ip E Xt1 Xt2 · · · Xtp exp(i ht, Xi) .
∂t1 · · · ∂tp
On en déduit aussi une méthode pour le calcul de moments à partir de l’expression de la
fonction caractéristique.
6.5.2
Applications
Application 1
Nous montrons que si X est une v.a. réelle gaussienne d’espérance µ et de variance σ 2
(σ 2 > 0) i.e., X ∼ N (µ, σ 2 ) alors tous les moments impairs de X − µ sont nuls et les
CHAPITRE 6. FONCTION CARACTÉRISTIQUE
109
moments pairs s’expriment à l’aide de σ 2 : pour tout q ∈ N,
E (X − µ)2q+1 = 0 ,
(2q)!
E (X − µ)2q = σ 2q (2q − 1)(2q − 3) · · · 3 = σ 2q q .
2 q!
(6.4)
(6.5)
Preuve : On veut calculer E ((X − µ)q ) pour tout q ∈ N. Nous avons établi (exercice 61) que si X ∼ N (µ, σ 2 ) alors σ −1 (X − µ) ∼ N (0, 1). Par suite, nous allons établir
(2q)!
E Y 2q = (2q − 1)(2q − 3) · · · 3 = q ,
2 q!
E Y 2q+1 = 0 ,
(6.6)
où Y ∼ N (0, 1). On écrit

E (exp(itY )) = E 
X (itY )n
n≥0
n!

=E
N
X
(it)k
lim
N →+∞
k=0
k!
!
Y
k
.
Pour permuter limite et espérance, on applique le théorème de convergence dominée
P
(it)k k
(théorème 4.8) en remarquant que | N
et que l’espérance
k=0 k! Y | ≤ exp(|t||Y |)
de ce majorant est finie. Par suite,
E (exp(itY )) =
lim
N →+∞
N
X
(it)k
k=0
X (it)k E Yk =
E Yk .
k!
k!
k≥0
D’autre part, d’après le Tableau 6.1
E (exp(itY )) = exp(−1/2 t2 ) =
X (−1)n t2n
n≥0
2n n!
.
On en déduit (6.6) par identification.
Par convention, une loi gaussienne d’espérance µ et de variance nulle est une masse de
Dirac en µ (µ ∈ R). Si X ∼ δµ alors tous ses moments centrés sont nuls et les égalités
ci-dessus restent vraies.
Ainsi, on a établi que si X ∼ N (µ, σ 2 ), avec σ 2 ≥ 0, on a (6.4) et (6.5).
Application 2
Soit m ∈ Rd un vecteur déterministe et Γ une matrice d×d positive déterministe. Montrons
a) que la fonction
t 7→ exp iht, mi − 1/2 tT Γt
est la fonction caractéristique d’un vecteur aléatoire,
(6.7)
CHAPITRE 6. FONCTION CARACTÉRISTIQUE
110
b) et que ce vecteur aléatoire a pour espérance m et pour matrice de covariance Γ.
Preuve : (a) Nous avons établi que lorsque Γ est définie positive, la fonction donnée
par (6.7) est la transformée de Fourier d’une loi Nd (m, Γ) (voir Tableau 6.1). L’exercice
suivant justifie le fait que lorsque Γ est juste supposée positive, la fonction définie par
(6.7) peut encore être lue comme la transformée de Fourier d’une loi.
(b) Nous montrons l’expression de l’espérance et de la matrice de covariance par application des résultats du Théorème 6.5.1.
Soit k ∈ {1, · · · , n}. En dérivant t 7→ φX (t) par rapport à la k-ième composante tk , on
sait d’une part que
∂tk φX |t=0 = iE (Xk )
et d’autre part,
∂tk φX |t=0 = ∂tk exp(itT m − 1/2 tT Γt) |t=0 = imk .
Ainsi, E (Xk ) = mk pour tout k ∈ {1, · · · , n}.
On considère la dérivée partielle d’ordre 2 : ∂tj tk φX (t). D’une part, on sait que
∂tj tk φX |t=0 = −E (Xj Xk ) .
D’autre part,
∂tj tk φX |t=0 = ∂tj tk exp(itT m − 1/2 tT Γt) |t=0 = −Γj,k − mj mk .
Par suite,
Γj,k = E (Xj Xk ) − mj mk = E (Xj Xk ) − E (Xj ) E (Xk ) = Cov(Xj , Xk ) .
Ainsi, Γ est la matrice de covariance du vecteur aléatoire X.
CHAPITRE 6. FONCTION CARACTÉRISTIQUE
6.6
111
Exercices
. Exercice 85. Soit (Xn , n ≥ 1) une suite de v.a. indépendantes, de loi exponentielle de
paramètre λ. Soit Tn = X1 + . . . + Xn .
1. Calculer la loi de (T1 , T2 , · · · , Tn ).
2. En déduire la loi de Tn .
3. Calculer directement la fonction caractéristique de Tn .
. Exercice 86. Soit m ∈ Rd un vecteur déterministe et Γ une matrice d × d positive
déterministe. On écrit Γ = U ∆U T où U est une matrice orthogonale et ∆ est une matrice
diagonale. On suppose que ∆r+1,r+1 = · · · = ∆d,d = 0.
P p
Montrer que la transformée de Fourier de la loi de m + rk=1 ∆k,k Yk U·,k où les v.a. (Yj )j
sont i.i.d. de loi N (0, 1) est donnée par (6.7). U·,k désigne la colonne k de la matrice U .
. Exercice 87. Soit X une v.a.r. de loi PX et de fonction caractéristique φX . On veut
démontrer la formule d’inversion (6.2). On note IT la quantité à l’intérieur de la limite.
Soient a < b deux réels.
1. En invoquant le théorème de Fubini, justifier l’égalité
Z +∞ Z T it(x−a)
1
e
− eit(x−b)
IT =
dPX (x) .
2π −∞
it
−T
RT
2. On pose S(T ) = 0 (sin x)/x dx. On note sgn(x) le signe de x (1 si x > 0, -1 si x < 0
et 0 si x = 0). Montrer que pour tout T > 0,
Z
0
3. En déduire que IT =
R +∞
ψ(T, x) =
−∞
T
sin tθ
dt = sgn(θ) S(T |θ|) .
t
ψ(T, x)dPX (x) où
sgn(x − a)
sgn(x − b)
S(T |x − a|) −
S(T |x − b|) .
π
π
4. On admettra (ou on se souviendra) que S(T ) tend vers π/2 quand T → ∞. Montrer
que l’intégrande ψ est bornée et que :

 0 si x < a ou x > b
1
si x = a ou x = b
lim ψ(T, x) =
T →+∞
 2
1 si a < x < b .
5. En utilisant le théorème de convergence dominée, en déduire la formule d’inversion (6.2) pour tout points a, b tels que PX ({a}) = PX ({b}) = 0.
Chapitre 7
Vecteurs gaussiens
On note ha, bi le produit scalaire de deux vecteurs a, b de Rd ; et on note AT la transposée
de la matrice A. Par convention, les vecteurs sont des vecteurs-colonne.
7.1
7.1.1
Préliminaires
Rappel
La loi gaussienne (ou normale) de paramètres m, σ 2 (σ ≥ 0, m ∈ R) - notée N (m, σ 2 ) - est
définie comme suit :
si σ > 0 : la loi de densité par rapport à la mesure de Lebesgue donnée par
2
1 1
(x
−
m)
√
exp −1/2
.
(7.1)
σ2
2π σ
si σ = 0 : la mesure de Dirac en m.
La fonction caractéristique d’une loi gaussienne N (m, σ 2 ) est donnée par (voir Tableau 6.1)
t 7→ exp(itm − 1/2 t2 σ 2 ) .
7.1.2
(7.2)
Matrice de covariance
Soient X1 , · · · , Xd des v.a. réelles. On s’intéresse au vecteur-colonne X = (X1 , . . . , Xd )T .
Définition 7.1.– L’espérance de X est définie comme le vecteur des espérances :


E(X1 )


..
E(X) := 
 .
.
E(Xd )
Elle est bien définie si et seulement si toutes les composantes Xk admettent une espérance.
112
CHAPITRE 7. VECTEURS GAUSSIENS
113
Un vecteur aléatoire X est dit d’ordre p si toutes ses composantes X1 , · · · , Xd sont
d’ordre p. Cela revient à dire que E (kXkp ) < ∞ où k . k est une norme sur Rd .
Remarque : Si X est un vecteur aléatoire de densité f sur Rd telle que
lim kxkp f (x) = 0
kxk→∞
pour p > 0, alors X admet tous ses moments (voir l’exercice 48). En particuler, une
variable aléatoire gaussienne multivariée X ∼ Nd (m, Γ) possède tous ses moments.
Définition 7.2.– On appelle matrice de covariance d’un vecteur X d’ordre 2 la matrice
notée Cov(X) dont le coefficient (i, j) vaut Cov(Xi , Xj ) :
Cov(X) := (Cov(Xi , Xj ))i,j=1···d .
En particulier, le ième coefficient diagonal de Cov(X) vaut Cov(Xi , Xi ) = Var(Xi ). On
notera donc les deux propriétés utiles suivantes :
– La diagonale de Cov(X) est égale au vecteur des variances ;
– Dans le cas où les v.a. X1 , · · · , Xd sont décorrélées, la matrice de covariance est
diagonale.
Il est naturel de généraliser la définition 7.1 au cas de matrices. Soit (Zi,j )i=1···p,j=1···q une
collection de p × q variables aléatoires indexées par i et j. Pour tout ω ∈ Ω, on désigne
par Z(ω) la matrice à coefficients réels de taille p × q dont le coefficient (i, j) vaut Zi,j (ω).
L’application Z est appelée une matrice aléatoire. On définit E(Z) comme la matrice de
taille p × q dont le coefficient (i, j) vaut E(Zi,j ). La preuve de la proposition suivante est
laissée à titre d’exercice.
Proposition 7.1.– Soit X un vecteur aléatoire d’ordre 2 de taille d, A une matrice
constante de taille n × d et b un vecteur constant de taille n. Alors
a) E(AX + b) = AE(X) + b ;
b) Cov(AX + b) = ACov(X)AT ;
c) Cov(X) = E(Xc XcT ) où Xc := X − E(X) est le vecteur recentré.
Proposition 7.2.– Cov(X) est une matrice symétrique semi-définie positive.
Preuve : On voit immédiatement que Cov(X) est symétrique car Cov(Xi , Xj ) = Cov(Xj , Yi ).
d
T
T
T
T
T
Pour
h toutxivecteur-colonne de R , on calcule x Cov(X)x = x E(Xc Xc )x = E(x Xc Xc x) =
2
E xT X
≥ 0.
CHAPITRE 7. VECTEURS GAUSSIENS
7.2
7.2.1
114
Vecteurs gaussiens : définitions, propriétés
Définition
Dans la suite de ce chapitre, m ∈ Rd est un vecteur déterministe et Γ est une matrice
de covariance d × d (en particulier, Γ est une matrice symétrique, positive, d’après le
paragraphe 7.1.2). Nous écrirons m = (m1 , · · · , md ) et noterons Γi,j l’élément (i, j) de la
matrice Γ.
Soit X un vecteur aléatoire à valeur dans Rd défini sur (Ω, F, P) et possédant des moments
d’ordre 2.
Définition 7.3.– X est un vecteur gaussien (ou variable gaussienne multivariée ou
variable normale multivariée) si et seulement si pour tout a ∈ Rd , la loi de ha, Xi est une
loi gaussienne (éventuellement de variance nulle).
7.2.2
Fonction caractéristique
Nous avons vu au chapitre 6 que la fonction caractéristique déterminait la loi de X. Le
théorème suivant peut être lu comme une alternative à la définition de vecteur gaussien.
Théorème 7.3.– Les deux conditions sont équivalentes
a) X est un vecteur gaussien d’espérance m et de matrice de covariance Γ.
b) la fonction caractéristique du vecteur aléatoire X est t 7→ exp(iht, mi − 1/2 tT Γt).
Dans ce cas, on écrira X ∼ Nd (m, Γ).
Preuve : Supposons a)). Alors pour tout t ∈ Rd , ht, Xi est une v.a.r. gaussienne d’espérance ht, mi et de variance tT Γt. On en déduit l’expression de la fonction caractéristique
en appliquant le formulaire, tableau 6.1.
Réciproquement, supposons b)). Identifions la loi de ht, Xi, pour tout t ∈ Rd , en calculant
la fonction caractéristique de cette v.a. à valeur dans R. Soit y ∈ R :
φht,Xi (y) = E (exp(iy ht, Xi))
= E (exp(ihyt, Xi)) = φX (yt) = exp(ihyt, mi − 1/2 (yt)T Γ(yt))
= exp(iyht, mi − 1/2 y 2 (tT Γt)) .
On reconnaît la fonction caractéristique d’une loi gaussienne réelle d’espérance ht, mi et
de variance (éventuellement nulle) tT Γt (voir le formulaire Tableau 6.1). Donc X est un
vecteur gaussien ; l’expression de son espérance et de sa matrice de covariance sont une
conséquence de la section 6.5.2.
Ce théorème, combiné au théorème 6.2, montre que la loi d’un vecteur gaussien est entièrement caractérisée par son espérance m et sa matrice de covariance Γ.
CHAPITRE 7. VECTEURS GAUSSIENS
115
L’expression de la fonction caractéristique d’un vecteur gaussien est à rapprocher de l’expression obtenue dans la section 6.2 pour les variables gaussiennes multivariées Nd (m, Γ)
dans le cas où Γ est définie positive.
Puisque la fonction caractéristique caractérise la loi, il est légitime de se demander si,
réciproquement, la loi d’un vecteur gaussien possède une densité par rapport à la mesure
de Lebesgue sur Rd . Ce n’est pas toujours le cas et tout dépend si Γ est inversible ou pas.
Nous reviendrons sur ce point en section 7.6.
7.2.3
Exemples et contre-exemple
Puisque les v.a. constantes sont des lois gaussiennes (de variance nulle), tout vecteur
constant est un exemple de vecteur gaussien.
Un exemple de vecteur gaussien moins trivial est obtenu en considérant des v.a. X1 , · · · , Xd
indépendantes de même loi N (0, 1) et en posant X = (X1 , · · · , Xd ).
Preuve : X est une loi gaussienne multivariée Nd (0, I) (voir exercice 52) donc, d’après
le tableau 6.1, sa fonction caractéristique est donnée par exp(−1/2 ktk2 ). D’après le théorème 7.3, X est un vecteur gaussien.
Plus généralement, on peut obtenir un vecteur gaussien par concaténation de v.a. gaussiennes indépendantes (on peut établir rapidement ce résultat en appliquant le résultat
énoncé en section 7.5).
Si X est un vecteur gaussien, alors tout sous-vecteur est encore un vecteur gaussien. En
particulier, toute composante d’un vecteur gaussien est un vecteur gaussien réel i.e., c’est
une loi gaussienne (donc soit une v.a. constante, soit une v.a. de densité de la forme (7.1)).
La proposition suivante précise le lien entre les paramètres du vecteur gaussien et les
paramètres de la loi gaussienne de chaque composante.
Proposition 7.4.– Soit X ∼ Nd (m, Γ). Pour tout k ∈ {1, · · · , n}, Xk ∼ N (mk , Γk,k ).
Preuve : On a pour tout t ∈ R :
φXk (t) = φX ((0, · · · , 0, t, 0, · · · , 0)) = exp(itmk − 1/2 t2 Γk,k ) .
D’après le théorème 6.2, la fonction caractéristique caractérise la loi et à droite, on
reconnaît la fonction caractéristique d’une loi N (mk , Γk,k ) (voir Eq. (7.2)).
Réciproquement, est-il vrai qu’un vecteur aléatoire tel que toutes ses composantes sont des
v.a. gaussiennes est un vecteur gaussien ? la réponse est non comme le montre l’exercice 88.
CHAPITRE 7. VECTEURS GAUSSIENS
7.3
116
Caractérisation de l’indépendance
Nous savons que si les composantes X1 , · · · , Xd d’un vecteur aléatoire X sont indépendantes, alors ces v.a. sont décorrélées et la matrice de covariance de X est une matrice
diagonale.
Le théorème suivant établit un résultat plus fort en considérant la réciproque : si les composantes X1 , · · · , Xd du vecteur gaussien X sont décorrélées (i.e., la matrice de covariance
de X est diagonale) alors ces composantes sont indépendantes.
Nous insistons sur le fait que la décorrélation deux à deux d’une famille de v.a. n’entraine
pas nécessairement l’indépendance mutuelle de ces v.a. (voir par exemple, l’exercice 88) et
que le résultat est ici établi sous des hypothèses précises sur la loi jointe de cette famille
de v.a.
Théorème 7.5.– Soient (Xk )k≤d des v.a. réelles définies sur (Ω, F, P). Les deux conditions sont équivalentes :
a) Le vecteur aléatoire (X1 , · · · , Xd ) est un vecteur gaussien et Cov(Xi , Xj ) = 0 pour
tout i 6= j.
b) Les v.a. X1 , · · · , Xd sont des v.a. gaussiennes indépendantes.
Preuve : Soit Γ la matrice du vecteur aléatoire X = (X1 , · · · , Xd ). Supposons que Γ
est de la forme diag(σ12 , · · · , σd2 ), σk ≥ 0. Alors, d’après le théorème 7.3, la fonction
caractéristique de X est
φX (t) = exp(i
d
X
k=1
tk mk ) exp(−1/2
d
X
k=1
t2k σk2 ) =
d
Y
exp(itk mk − 1/2 t2k σk2 ) .
k=1
Or on sait que chaque composante Xk suit une loi N (mk , σk2 ) (cf. Proposition 7.4). Donc
Q
φX (t) = dk=1 φXk (tk ). Ainsi, par le théorème 6.3, les v.a. sont indépendantes.
Réciproquement, si les v.a. (Xk )k≤d sont indépendantes, alors leur covariance est nulle.
Le fait que pour tout t ∈ Rd , ht, Xi est une v.a. gaussienne est établi en section 7.2.3.
Corollaire 7.6.– Soit X = (X1 , · · · , Xd ) ∼ Nd (m, Γ). Les v.a. X1 , · · · , Xd sont indépendantes si et seulement si la matrice de covariance Γ est diagonale.
L’exercice 88 illustre l’importance de la condition sur la loi jointe des v.a. pour que la
décorrélation entraine l’indépendance : dans cet exemple, les composantes X1 et X2 sont
deux v.a. gaussiennes mais le vecteur (X1 , X2 ) n’est pas un vecteur gaussien ; ces v.a. sont
décorrélées mais elles ne sont pas indépendantes.
CHAPITRE 7. VECTEURS GAUSSIENS
7.4
117
Stabilité par transformation affine
Proposition 7.7.– Soient b ∈ Rp un vecteur déterministe et A une matrice p × d
déterministe. Soit X ∼ Nd (m, Γ). Alors AX + b est un vecteur gaussien (à valeur dans Rp ),
d’espérance Am + b et de matrice de covariance AΓAT .
Preuve : Calculons la fonction caractéristique de AX + b. Soit t ∈ Rp . On a
φAX+b (t) = exp(iht, bi) φX (AT t) .
Par le Théorème 7.3, il vient
φX (AT t) = exp(ihAT t, mi) exp(−1/2 (AT t)T Γ(AT t))
= exp(iht, Ami)) exp(−1/2 tT (AΓAT )t) .
Ainsi,
φAX+b (t) = exp(iht, b + Ami)) exp(−1/2 tT (AΓAT )t) ,
et en utilisant encore le Théorème 7.3, on en déduit que AX + b est un vecteur gaussien
d’espérance Am + b et de matrice de covariance AΓAT .
Construction d’un vecteur gaussien
Le théorème 7.5 prouve l’existence d’un vecteur gaussien centré réduit (i.e., d’espérance
nulle et de matrice de covariance égale à l’identité). Nous montrons comment n’importe
quel vecteur gaussien Nd (m, Γ) s’obtient par transformation affine d’un vecteur gaussien
centré réduit.
– Etape 1 : construction d’un vecteur de loi Nd (0, I). Le théorème 7.5 montre que
le vecteur Y := (Y1 , · · · , Yd ) où (Yk )k≤d sont des v.a. gaussiennes centrées réduites
indépendantes a pour loi Nd (0, I).
√ √ T
√
– Etape 2 : transformation affine de Y√. Soit une matrice Γ telle que Γ Γ = Γ
(comme Γ√est une matrice positive, Γ existe toujours 1 La proposition 7.7 entraine
que m + ΓY a pour loi Nd (m, Γ).
7.5
Somme de vecteurs gaussiens indépendants
La proposition suivante montre que la somme de vecteurs gaussiens indépendants est
encore un vecteur gaussien, dont l’espérance (resp. la matrice de covariance) est la somme
des espérances (resp. des matrices de covariance).
1. puisque Γ est une matrice de covariance, il existe une matrice orthogonale Q et une matrice diagonale
√
∆√dont les éléments
diagonaux ∆j,j sont positifs ou nuls telles que Γ = Q∆QT . On peut prendre Γ =
√
p
Q ∆QT où ∆ est la matrice diagonale dont les éléments diagonaux sont ∆j,j ).
CHAPITRE 7. VECTEURS GAUSSIENS
118
Il est important de noter que ce résultat n’est vrai que si les variables sont indépendantes ;
considérons en effet le contre-exemple suivant. Soit X ∼ N (0, 1) et Y = −X ; notons que
Y ∼ N (0, 1) de sorte que X et Y sont deux vecteurs gaussiens. Alors X + Y = 0 (avec
probabilité 1) et donc X + Y est un vecteur gaussien de variance nulle (la variance n’est
donc pas égale à la somme des variances). Mais X et Y ne sont pas indépendantes puisque
E (XY ) = −E X 2 = −1 6= 0 = E (X) E (Y ) .
Proposition 7.8.– Soient X (1) , · · · , X (p) des vecteurs aléatoires indépendants tels que
X (`) ∼ Nd (m(`) , Γ(`) ). Alors
!
p
p
X
X
X (1) + · · · + X (p) ∼ Nd
m(`) ;
Γ(`) .
`=1
`=1
Preuve : Pour tout t ∈ Rd ,
φX (1) +···+X (p) (t) = E exp(i ht, X (1) i + · · · + i ht, X (p) i)
=
p
Y
E exp(i ht, X
(`)
p
Y
φX (`) (t)
i =
`=1
`=1
puisque les v.a. (X (`) )`≤p sont indépendantes. En utilisant le formulaire Tableau 6.1
φX (`) (t) = exp iht, m(`) i − 1/2 tT Γ(`) t ,
donc
φX (1) +···+X (p) (t) = exp iht,
p
X
`=1
(`)
m i−
1/2
T
t {
p
X
Γ(`) }t ,
`=1
et l’on conclut par application du théorème 6.2 et du formulaire Tableau 6.1.
7.6
La loi d’un vecteur gaussien admet-elle une densité ?
Soit X ∼ Nd (m, Γ). On distingue deux cas :
Lorsque Γ est inversible. Nous avons établi au chapitre 6 (voir Tableau 6.1 et théorème 6.2) que la loi d’un vecteur gaussien admet une densité :
1
1
exp(−1/2 (x − m)T Γ−1 (x − m))) .
√ dp
det(Γ)
2π
CHAPITRE 7. VECTEURS GAUSSIENS
119
Lorsque Γ est non-inversible. La loi du vecteur gaussien n’admet pas de densité. On
peut montrer que
P [X − m ∈ Im(Γ)] = 1 ;
(7.3)
autrement dit, la v.a. X prend ses valeurs dans l’espace m + Im(Γ) avec probabilité 1.
Preuve : Notons r le rang de Γ et ur+1 , · · · , ud une base orthonormal de l’espace orthogonal de Im(Γ). Alors pour tout r + 1 ≤ k ≤ d,
Var(huk , (X − m)i) = uTk E (X − m)(X − m)T uk = uTk Γuk = 0 .
Donc la v.a. huk , X − mi est constante avec probabilité 1, et comme son espérance est
nulle, elle vaut zero avec probabilité 1. Ainsi, X − m est, avec probabilité 1, orthogonal
au vecteur uk pour tout r + 1 ≤ k ≤ d. Ce qui conclut la démonstration.
Par suite, la loi ne peut pas posséder de densité par rapport à la mesure de Lebesgue sur
Rd . On dit dans ce cas que le vecteur gaussien est dégénéré.
Preuve : En effet, supposons qu’elle en possède une, notée f . On a alors :
Z
1 = P [X − m ∈ Im(Γ)] =
f (x)dλd (x) = 0
m+Im(Γ)
où la dernière égalité vient du fait que dim(Im(Γ)) < d et donc λd (m + Im(Γ)) = 0. Cela
conduit à une contradiction.
CHAPITRE 7. VECTEURS GAUSSIENS
7.7
120
Exercices
. Exercice 88. Soit X et Y deux gaussiennes centrées réduites indépendantes. Montrer que
les v.a. X + Y et sin(X − Y ) sont indépendantes.
. Exercice 89. Soit deux v.a. indépendantes X ∼ N (0, 1) et Y de loi dPY = 12 (δ−1 + δ1 ).
1. Montrer que Z = Y X est une v.a. gaussienne.
2. Montrer que X et Z sont non corrélées.
3. Si (X, Z) était un vecteur gaussien, quelle serait sa loi ?
4. Calculer la loi de (X, Z).
5. Est-ce que (X, Z) est un vecteur gaussien ?
6. Est-ce que X et Z sont indépendantes ?
. Exercice 90. On rappelle que pour a > 0, b > 0,
Z 1
Γ(a)Γ(b)
ua−1 (1 − u)b−1 du =
B(a, b) =
.
Γ(a + b)
0
On suppose que X1 , . . . , Xn sont des v.a.r., gaussiennes, indépendantes, de même loi N (m, σ 2 ).
On pose
n
n
1X
1X
X̄ =
Xi , Σ2 =
(Xi − m)2
n i=1
n i=1
et
n
1X
(Xi − X̄)2 .
S =
n i=1
2
1. Soit In (z) la suite de fonctions définies par
Z z
1
1
√
In−1 (w)dw pour n ≥ 1.
I0 (z) = √ , In (z) =
z
z−w
0
Montrer que
n+1
1
Γ
2
z n/2−1 .
In (z) = n+1
Γ
2
2. Soit Y1 , . . . , Yn des v.a.r., indépendantes, de même loi gaussienne N (0, 1). Calculer
la loi de
n
X
Z=
Yi2 .
i=1
3. Calculer la loi de X̄.
CHAPITRE 7. VECTEURS GAUSSIENS
121
4. Calculer la loi de (n/σ 2 )Σ2 .
5. Montrer que X̄ est indépendante du vecteur Z = (X1 − X̄, . . . , Xn − X̄) et que X̄
est indépendante de S 2 .
6. Maintenant on veut calculer la loi de (n/σ 2 )S 2 . Pour cela, supposer d’abord que
m = 0 et trouver une matrice orthogonale A telle que Y = AX et que
2
nS =
n
X
Yi2 − Y12 .
1
Ensuite traiter le cas où m 6= 0.
N
. Exercice 91 (Sphere hardening). Soit XN un vecteur
√ gaussien de R , centré, réduit. Soit
0
kXN k, la norme euclidienne de XN et XN = kXN k/ N .
1. Calculer E [(XN0 )2 ] .
2. Calculer Var[(XN0 )2 ].
3. Montrer que, pour tout η > 0,
N →+∞
P(|XN0 − 1| ≥ η) −−−−→ 0.
On pourra utiliser l’inégalité de Bienaymé-Tcebycev.
. Exercice 92 (Polynômes d’Hermite). Soit X une v.a.r. gaussienne centrée, reduite et
ϕ(t, x) = exp(tx).
1. Trouver g(t) telle que g(t)E [ϕ(t, X)] = 1.
2. On pose
ψ(t, x) = g(t)ϕ(t, x).
Montrer que
E [ψ(t, X)ψ(s, X)] = exp(σ 2 ts).
3. Montrer que
ψ(t, x) =
∞
X

[n/2]
X

n=0
k=0
n−2k
2 k
(−σ )  n
x
t .
(n − 2k)! 2k k!
4. On pose
[n/2]
Pn (x) =
X
k=0

xn−2k (−σ 2 )k
.
(n − 2k)! 2k k!
Montrer que
E [Pn (X)Pm (X)] = δn, m .
Chapitre 8
Convergences
On fixe dans ce qui suit un espace probabilisé (Ω, A, P).
8.1
Loi des grands nombres
Définition 8.1.– On dit qu’une suite (Xn , n ≥ 1) de v.a. converge P-presque-sûrement
(ou P-presque-partout) vers une v.a. X lorsqu’il existe un ensemble A tel que P(Ac ) = 0
et pour tout ω ∈ A,
n→+∞
Xn (ω) −−−−→ X(ω).
En d’autres termes, il s’agit de la convergence simple à un ensemble de mesure nulle près.
Théorème 8.1 (Loi forte des grands nombres).– Soit (Xn , n ≥ 1) une suite de v.a.
indépendantes, identiquement distribuées telles que E [|X1 |] < ∞ alors
n
1X
n→+∞
Xj −−−−→ E [X1 ] , P − p.p.
n j=1
8.2
Limité centrée
Définition 8.2.– Pour un ensemble ouvert A ∈ Rk , on note ∂A sa frontière définie par
∂A = Ā − A.
Pour un intervalle ]a, b[, on a alors ∂A = {a, b}. Pour un pavé ouvert de Rk , la frontière
au sens topologique correspond à la notion intuitive de bord.
122
CHAPITRE 8. CONVERGENCES
123
Remarque.– Si Y a même loi que X et si (Xn , n ≥ 1) converge en loi vers X alors
(Xn , n ≥ 1) converge aussi vers Y . La convergence en loi, malgré sa présentation, n’est pas
une convergence de variables aléatoires mais une convergence des mesures associées aux
v.a..
Théorème 8.2.– La convergence presque sûre implique la convergence en loi mais la
réciproque est fausse.
Démonstration. Si (Xn , n ≥ 1) converge p.s. vers X alors pour toute fonction continue
bornée,
n→+∞
– f (Xn ) −−−−→ f (X), presque-sûrement,
– pour tout n ≥ 1, |f (Xn )| ≤ kf k∞
– et E [kf k∞ ] < ∞,
donc toutes les hypothèses du théorème de convergence dominée sont satisfaites, d’où
n→+∞
E [f (Xn )] −−−−→ E [f (X)] .
D’après la première caractérisation de la convergence en loi, cela signifie que (Xn , n ≥ 1)
converge en loi vers X.
Construisons un contre-exemple à la réciproque. Soit X une v.a. gaussienne de moyenne
nulle. Comme la densité gaussienne est paire, −X suit la même loi que X. Considérons
pour tout n ≥ 1, la suite Xn = X. Il est clair que Xn converge en loi vers X donc vers
−X. En revanche, Xn ne converge vers −X que sur l’ensemble (X = −X), c’est-à-dire
l’ensemble (X = 0), qui est de probabilité nulle puisque la loi gaussienne est absolument
continue.
Définition 8.3.– On dit qu’une suite (Xn , n ≥ 1) de v.a., à valeurs dans Rk , converge
en loi vers X lorsque l’une des propriétés équivalentes suivantes est vérifiée :
– Pour toute fonction continue bornée f de Rk dans R,
n→+∞
E [f (Xn )] −−−−→ E [f (X)] ,
– pour tout ensemble ouvert A ∈ Rk tel que P(X ∈ ∂A) = 0,
n→+∞
P(Xn ∈ A) −−−−→ P(X ∈ A),
– pour tout t ∈ Rk ,
n→+∞ E eit.Xn −−−−→ E eit.X .
Théorème 8.3.– Soit (Xn , n ≥ 1) une suite de v.a. indépendantes, identiquement distribuées telles que E [|X1 |2 ] < ∞ alors
√
n
n 1X
n→+∞
(
Xj − E [X1 ]) −−−−→ N (0, 1), en loi
σ n j=1
où
σ 2 = Var(X1 ).
CHAPITRE 8. CONVERGENCES
8.3
124
Exercices
. Exercice 93.
1. Pour z réel positif, on pose
Z ∞
e−x xz−1 dx.
Γ(z) =
0
Soient 0 < zm < zM , montrer que pour k entier strictement positif, z ∈]zm , zM [, il
existe une constante ck (que l’on ne cherchera pas à expliciter) telle que
| lnk (x)xz−1 e−x | ≤ ck e−x pour x ≥ 1
≤ ck ln(x)k xzm −1 pour x ≤ 1.
2. On admet que lnk (x)xzm −1 est intégrable sur [0, 1]. Montrer que Γ est k fois dérivable
sur R+ .
3. Pour a, b des réels strictement positifs et k réel positif, montrer que
Z +∞
Γ0 (a)
b−a
xk ln(x)xa−1 e−bx dx = bk
− ln(b) .
Γ(a) 0
Γ(a)
4. Soit X la variable aléatoire dont la densité est donnée par
µ
fβ,λ,µ (x) = Kxβ e−λx 1R+ (x).
On ne demande pas de calculer K. Calculer la loi de Y = X µ .
5. Soit (X1 , · · · , Xn ) n v.a.r. indépendantes et de même loi que X. Quelle est la limite
presque sûre, notée S, du couple
n
1 X
n
1X Sn =
ln(Xj ),
Xj .
n j=1
n j=1
6. Quelle est la limite de
1 √ Sn − S .
n
Annexe A
Ensembles
A.1
Opérations sur les ensembles
Un événement est décrit comme un sous-ensemble de Ω. Les opérations sur les événements
se ramènent donc aux opérations habituelles sur les ensembles.
A.1.1
Rappels
Soient A, B, C des ensembles. On rappelle les définitions suivantes.
Définition A.1.– Les définitions et notations suivantes sont usuelles.
– Le complémentaire de A est défini par Ac = {ω ∈ Ω : ω ∈
/ A}. L’événement Ac est
réalisé si et seulement si A ne l’est pas. On a ∅ = Ωc .
– L’union de A et B est définie par A ∪ B = {ω ∈ Ω : ω ∈ A ou ω ∈ B}. L’événement
A ∪ B est réalisé si et seulement si A OU B le sont.
– L’intersection de A et B est définie par A ∩ B = {ω ∈ Ω : ω ∈ A et ω ∈ B}.
L’événement A ∩ B est réalisé si et seulement si A ET B le sont.
– L’ensemble A\B = A ∩ B c est appelé « A privé de B ». Il s’agit de l’ensemble des
éléments de A qui n’appartiennent pas à B.
– L’ensemble A × B = {(a, b) : a ∈ A, b ∈ B} est appelé le produit cartésien de A et
de B.
– L’ensemble des parties d’un ensemble Ω est noté P(Ω) ou 2Ω .
Proposition A.1.– On rappelle les propriétés suivantes.
Commutativité : A ∪ B = B ∪ A et A ∩ B = B ∩ A.
Associativité : A ∪ (B ∪ C) = (A ∪ B) ∪ C et A ∩ (B ∩ C) = (A ∩ B) ∩ C.
125
ANNEXE A. ENSEMBLES
126
Distributivité :
(A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C)
(A ∩ B) ∪ C = (A ∪ B) ∩ (A ∪ C) .
et
Lois de Morgan : (A ∪ B)c = Ac ∩ B c et (A ∩ B)c = Ac ∪ B c .
Deux ensembles A et B sont dits incompatibles ou disjoints si A ∩ B = ∅.
A.1.2
Familles d’ensembles
Soit I un ensemble non vide. Soit (Ai )i∈I une famille d’ensembles indexés par I. On appelle
respectivement union et intersection de la famille (Ai )i∈I les ensembles :
[
Ai := {ω : ∃i ∈ I, ω ∈ Ai }
i∈I
\
Ai := {ω : ∀i ∈ I, ω ∈ Ai } .
i∈I
Les éléments de la famille (Ai )i∈I sont dits deux à deux disjoints si pour tout i 6= j, Ai et
Aj sont disjoints.
Proposition A.2.– (Distributivité)
!
[
[
Ai ∩ B = (Ai ∩ B) et
i∈I
i∈I
!
\
Ai
∪B =
\
(Ai ∪ B) .
i∈I
i∈I
(Lois de De Morgan)
!c
[
i∈I
Le produit cartésien
Q
i∈I
Ai
!c
=
\
i∈I
Aci
et
\
i∈I
Ai
=
[
Aci .
i∈I
Ai est défini comme l’ensemble des familles (ai )i∈I où ai ∈ Ai .
Un ensemble I est dit dénombrable s’il est en bijection avec N (citons par exemple N, N? ,
Z ou Q). Il est dit au plus dénombrable (ou parfois discret) s’il est fini ou dénombrable.
Une famille (Ai )i∈I est dite dénombrable si I est dénombrable.
Une partition d’un ensemble Ω est une famille (Ai )i∈I d’ensembles deux à deux disjoints
telle que ∪i∈I Ai = Ω.
ANNEXE A. ENSEMBLES
A.1.3
127
Suites et limites
Une suite
S d’ensembles (An )n∈N est dite croissante si pour tout n ∈ N, An ⊂ An+1 .
L’union n∈N An est aussi appelée la limite de la suite croissante An et on la note limn→∞ An .
On utilise la notation An ↑ A pour signifier que (An )n∈N est une suite croissante et que
A = limn→∞ An .
Une suite d’ensembles
(An )n∈N est dite décroissante si pour tout n ∈ N, An+1 ⊂ An .
T
L’intersection n∈N An est aussi appelée la limite de la suite décroissante An et on la
note limn→∞ An . On utilise la notation An ↓ A pour signifier que (An )n∈N est une suite
décroissante et que A = limn→∞ An .
Une suite est dite monotone si elle est croissante ou décroissante.
Remarque : L’annexe B.1 montre que la notion de limite d’une suite d’ensembles peut
être étendue à une classe plus large que les seules suites monotones. Pour toute suite
(An )n on définit lim supn An et lim inf n An comme la limite des suites respectivement
S
T
décroissantes et croissantes k≥n Ak et k≥n Ak . Lorsque lim supn An = lim inf n An ,
on note cette quantité limn An . On vérifie que dans le cas de suites monotones, cette
définition est bien cohérente avec celle donnée plus haut.
A.2
Espaces d’états dénombrables
Définition A.2.– Un ensemble E est dit dénombrable s’il est en bijection avec N,
l’ensemble des entiers naturels.
Il est dit au plus dénombrable s’il est inclus dans un ensemble dénombrable.
Quelques exemples :
– Les ensembles de cardinal fini sont évidemment au plus dénombrables. Ceci recouvre
non seulement les ensembles de la forme {1, · · · , n} mais aussi des produits cartésiens
d’ensembles de cette forme ou des ensembles comme celui des permutations sur un
ensemble à n éléments.
– L’ensemble des entiers relatifs, l’ensemble des rationnels sont des ensembles dénombrables.
– La réunion et le produit cartésien de deux ensembles dénombrables sont dénombrables. C’est un résultat non trivial et d’une constant utilité.
ANNEXE A. ENSEMBLES
A.3
128
Dénombrement
Dans cette section, nous ouvrons une parenthèse consacrée à un cas très particulier de
mesure de probabilité. Nous faisons ici l’hypothèse que Ω est fini et que P la probabilité
uniforme sur Ω, c’est à dire que pour tout événement A,
P(A) =
nombre d’issues réalisant A
|A|
=
.
|Ω|
nombre total d’issues
Répétons qu’il s’agit d’un cas très particulier de mesure de probabilité : l’évaluation de
P(A) s’effectue en dénombrant les occurences d’un événement A.
Exemple : Commençons par un exemple simple :
a) On lance 6 dés. Calculer la probabilité qu’ils affichent tous une face différente.
b) On lance 5 dés. Calculer la probabilité qu’ils affichent tous une face différente.
Solution. a) On commence par définir l’univers Ω = {(n1 , · · · , n6 ) : ∀i, ni = 1, · · · , 6} =
{1, · · · , 6}6 . L’univers contient |Ω| = 66 éléments. L’événement A dont on cherche la probabilité s’écrit A = {(n1 , · · · , n6 ) : ∀i, ni = 1, · · · , 6 et ∀i 6= j, ni 6= nj }. Dénombrons
ses éléments. Il y a 6 façons de choisir n1 . Une fois n1 fixé, il reste 5 façons de choisir
n2 6= n1 . Puis 4 façons de choisir n3 , etc. Donc |A| = 6 × 5 × 4 × · · · × 1 = 6!. Finalement,
P(A) = 6!/66 = 5/324 ' 0, 015.
b) L’univers Ω = {1, · · · , 6}5 contient 65 éléments. L’événement A s’écrit A = {(n1 , · · · , n5 ) :
∀i, ni = 1, · · · , 6 et ∀i 6= j, ni 6= nj }. Il y a 6 façons de choisir n1 . Une fois n1 fixé, il
reste 5 façons de choisir n2 6= n1 , etc. Donc |A| = 6 × 5 × 4 × · · · × 2 = 6!. Finalement,
P(A) = 6!/65 = 5/54 ' 0, 09.
A.3.1
k-uplets
Rappelons qu’un k-uplet est une suite à k éléments : (x1 , x2 , · · · , xk ). L’ensemble des kuplets sur un ensemble E est noté E k .
Proposition A.3.– Le nombre de k-uplets d’un ensemble à n éléments vaut nk .
Citons deux exemples :
– Le nombre de résultats possibles d’un lancer de 5 dés vaut 65 .
– Le nombre de tirages, avec remise et quand l’ordre compte, de k éléments dans une
urne en contenant n vaut nk .
A.3.2
Arrangements
Définition A.3.– On appelle arrangement de taille k sur un ensemble E tout k-uplet
composé d’éléments distincts de E : (x1 , x2 , · · · , xk ) ∈ E k tel que ∀i 6= j, xi 6= xj .
ANNEXE A. ENSEMBLES
129
Proposition A.4.– Le nombre d’arrangements de taille k sur ensemble à n éléments
vaut :
n!
Akn :=
.
(n − k)!
Citons deux exemples :
– Le nombre de lancers de 5 dés produisant des faces toutes différentes vaut A56 = 6!.
– Le nombre de tirages, sans remise et quand l’ordre compte, de k éléments dans une
urne en contenant n vaut Akn .
Cas particulier : k = n. Un arrangement de taille n dans un ensemble contenant n
éléments est appelé une permutation.
Il y a donc Ann = n! permutations des n éléments de l’ensemble.
A.3.3
Combinaisons
Définition A.4.– On appelle combinaison de taille k sur un ensemble E une collection
non-ordonnée de k-éléments distincts de E : {x1 , · · · , xk } tel que ∀i 6= j, xi 6= xj . Autrement
dit, une combinaison est une partie de E dont le cardinal vaut k.
Proposition A.5.– Le nombre de combinaisons de taille k sur ensemble à n éléments
vaut :
n
n!
.
:=
k!(n − k)!
k
Par exemple, le nombre de tirages simultanés (c’est à dire sans remise
et quand l’ordre ne
n
compte pas) de k éléments dans une urne en contenant n vaut k .
Application : Dans un lot de 1000 ampoules, deux sont défectueuses. On choisit 20
ampoules. Calculer la probabilité de tomber sur les deux ampoules défectueuses.
Proposition A.6.– (Triangle de Pascal)
n
k
=
n−1
k−1
+
n−1
k
.
Preuve : La preuve s’effectue sans difficulté par récurrence sur n en utilisant l’expression
de nk . Toutefois, l’égalité se démontre aussi par un raisonnement simple. Le nombre nk
de combinaisons de taille k sur un ensemble à n éléments s’obtient sommant i) le nombre
de combinaisons de taille k ne contenant pas le premier élément de l’ensemble (il y en
a n−1
de combinaisons de taille k − 1 ne contenant pas le premier
k ) et ii) le nombre
n−1
élément (il y en a k−1 ).
Annexe B
Notions d’analyse utiles
B.1
B.1.1
Limite supérieure et limite inférieure
Limite inférieure et limite supérieure d’une suite
La limite inférieure et limite supérieure sont des quantités qu’on définit naturellement
pour des suites réelles. La limite inférieure d’une suite , communément appelée liminf, est
sa plus petite valeur d’adhérence ; la limite supérieure (limsup) est, elle, sa plus grande
valeur d’adhérence. Ces quantités sont toujours définies (elles peuvent néanmoins prendre
les valeurs ±∞) et c’est là leur intérêt principal. En effet, contrairement à la limite d’une
suite, que l’on ne peut pas manipuler a priori (il faut d’abord montrer la convergence
de la suite), on peut toujours manipuler la liminf et la limsup. Ces notions s’étendent
naturellement à des suites de fonctions réelles, et à des familles d’ensembles.
Notons R la droite réelle complétée (on se réfèrera avec intérêt à la section "Complétion
de R" du chapitre introductif du polycopié de MDI-103) : R = R ∪ {−∞, ∞}.
Définition B.1.– La limite inférieure et la limite supérieure d’une suite numérique
(un , n ∈ N) sont les éléments de R, notés lim inf n→∞ un et lim supn→∞ un et définis par :
lim inf un = lim inf up ,
n→∞
n→∞ p≥n
lim sup un = lim sup up .
n→∞
n→∞ p≥n
On remarque immédiatement que la limite inférieure (resp. supérieure) d’une suite (un )
existe toujours dans R : c’est simplement la limite de la suite croissante αn = inf p≥n up
(resp. de la suite décroissante βn = supp≥n up ).
On rappelle que ` ∈ R est une valeur d’adhérence de la suite (un ) s’il existe une sous-suite
extraite (uφ(n) ) de (un ) telle que limn→∞ uφ(n) = `
Lemme B.1.– La limite inférieure de la suite (un ) est sa plus petite valeur d’adhérence ;
sa limite supérieure est sa plus grande valeur d’adhérence.
130
ANNEXE B. NOTIONS D’ANALYSE UTILES
131
Corollaire B.2.– Si lim supn→∞ un = lim inf n→∞ un = ` ∈ R, alors la suite (un )
converge vers `.
B.1.2
Limite supérieure et inférieure d’une suite de fonctions
Etant donnée une suite de fonctions (fn ) à valeurs R ou R, on peut définir ses limites
inférieure et supérieure, en posant, à x fixé :
f (x) = lim inf fn (x) ,
n
f (x) = lim sup fn (x) .
n→∞
Les fonctions f et f définies ainsi pour chaque x sont naturellement à valeurs R, et héritent
des éventuelles propriétés de mesurabilité de la suite de fonctions (fn ) :
Lemme B.3.– Si (fn )n∈N est une suite de fonctions mesurables dans R ou R munis de
leurs tribus boréliennes respectives B(R) ou B(R) alors f et f sont des fonctions mesurables
de R, B(R) .
Preuve. on démontre le résultat pour f . On pose βn (x) = supk≥n fn (x).
f (x) = inf sup fn (x) = inf βn (x) = lim ↓ βn (x)
n k≥n
n
n
Si la fonction βn (x) est mesurable, alors f sera mesurable en tant que limite simple d’une
suite de fonctions mesurables. Pour vérifier la mesurabilité de βn (x), il suffit de vérifier que
l’ensemble {βn > a} est un ensemble mesurable. Or
[
{βn > a} =
{fn > a}
k≥n
{fn > a} est mesurable du fait de la mesurabilité de fn par suite {βn > a} est mesurable
et βn est une fonction mesurable
Corollaire B.4.– l’ensemble des points où fn converge est un ensemble mesurable.
Preuve. {x, fn (x) converge} = {f = f } = {f − f = 0} et l’image réciproque de {0},
ensemble mesurable par f − f , fonction mesurable est un ensemble mesurable.
B.1.3
Limite supérieure et inférieure d’une famille d’ensembles
Soit (An )n∈N une famille d’ensembles, on définit la limsup et la liminf de la famille (An )n∈N
par :
T
S
lim supn An = n∈N k≥n Ak
S
T
lim inf n An = n∈N k≥n Ak
ANNEXE B. NOTIONS D’ANALYSE UTILES
132
Remarque 4 : On interprète facilement la limsup de An comme étant l’ensemble des
points qui appartiennent à une infinité de An . De même, la liminf des An s’interprète
comme l’ensemble des points qui appartiennent à tous les An sauf un nombre fini d’entre
eux. On en déduit que lim inf n An ⊂ lim supn An .
Exercice (Lien entre lim sup de fonctions et lim sup d’ensembles) Soit (An )n∈N une famille d’ensembles, démontrer que :
lim sup 1An = 1lim supn An
n
[La première lim sup est à interpreter comme lim sup de fonctions indicatrices, la seconde
comme lim sup d’ensembles]
lim inf 1An = 1lim inf n An
n
B.2
Séries
B.2.1
Généralités sur les séries
(Ce paragraphe est inspiré du cours de Sylvie Méléard à l’X).
P
1. Soit (un , n P
≥ 0) une suite numérique et Sn = ni=0 ui la somme partielle à l’ordre
n. La P
série n≥0 un est dite convergente si la limite S de Sn existe ; cette limite est
notée n≥0 un :
X
S = lim Sn =
un .
n→∞
n≥0
Le nombre un est appelé terme général de la série et la limite S d’une série convergente est appelée sa somme.
2. Le terme général un d’une série convergente tend vers zéro car un = Sn − Sn−1 . La
1
réciproque est fausse : la série de
général
R n dt n (défini pour n ≥ 1) diverge, i.e. la
Pnterme
1
limite de Sn est égale à ∞ car i=1 i ≥ 1 t = ln(n).
P
P
3. La série n un est dite absolument convergente si la série n |un | converge.
P
4. Soit n un une série de terme général positif : un ≥ 0. Alors Sn est croissantePet sa
limite existe toujours, bien que pouvant être infinie. On la note encore S = n un
mais on ne parlera de série convergente que dans le cas où S < ∞.
B.2.2
Séries entières - rappels et calculs de sommes
On rappelle
donnée une suite réelle (un ), il existe un nombre R ∈ [0, ∞] tel que
P qu’étant
n
la série n≥0 un x converge absolument si |x| < R et diverge si |x| > R. Le nombre R est
ANNEXE B. NOTIONS D’ANALYSE UTILES
133
P
appelé rayon de convergence de la série entière n≥0 un xn ; il est donné par le critère de
Cauchy :
1
= lim sup |un |1/n .
R
n→∞
Deux exemples bien connus sont la fonction exponentielle :
X xn
exp(x) =
, R=∞,
n!
n≥0
et la série géométrique :
X
1
=
xn .
1 − x n≥0
P
La fonction f (x) = n≥0 un xn définie pour tout x tel que |x| < R est infiniment dérivable
dans l’intervalle ] − R, R[ et sa dérivée est donnée par la dérivation terme à terme de la
série :
X
f 0 (x) =
nun xn−1
n≥1
Cette propriété permet le calcul des sommes suivantes :
X
X
1
1
n−1
=
nx
et
=
n(n − 1)xn−2 .
3
(1 − x)2
(1
−
x)
n≥1
n≥2
Ces sommes permettent le calcul de quantités utiles en probabilité :
X
X
x
,
nxn = x
nxn−1 =
2
(1
−
x)
n≥0
n≥1
X
X
X
2 n
2
nx = x
n(n − 1)xn−2 + x
nxn−1 ,
n≥0
n≥2
2
=
B.3
n≥1
x
x
x
+
=
.
3
2
(1 − x)
(1 − x)
(1 − x)3
Convexité
Étant donné un espace vectoriel normé X, on dit qu’un ensemble C ⊂ X est convexe si
∀x, y ∈ C, ∀α, β ≥ 0 : α + β = 1,
αx + βy ∈ C .
Définition B.2.– Une fonction d’un ensemble convexe C ⊂ X à valeurs R est dite
convexe si et seulement si la propriété suivante est vérifiée :
∀x, y ∈ C ; ∀α, β ≥ 0, α + β = 1,
f (αx + βy) ≤ αf (x) + βf (y) .
La fonction est dite strictement convexe dès lors que l’inégalité précédente est stricte pour
0 < α < 1 et x 6= y.
ANNEXE B. NOTIONS D’ANALYSE UTILES
134
Les fonctions convexes à valeurs réelles ont de bonnes propriétés de régularité, en particulier, elles admettent en tout point une dérivée à gauche et une dérivée à droite :
Lemme B.5.– Soit f : R → R une fonction convexe, alors les dérivées
fg0 (x) = lim
u↑x
f (x) − f (u)
x−u
et fd0 (x) = lim
v↓x
f (v) − f (x)
v−x
existent et vérifient fg0 (x) ≤ fd0 (x).
Preuve. Supposons que u < v, alors
f (x) − f (u)
f (v) − f (x)
≤
.
x−u
v−x
(B.1)
Cette inégalité traduit simplement le fait que pour une fonction convexe, le coefficient
directeur de la droite entre u et x est plus petit que celui entre v et x. On notera que u
et v peuvent être du même côté par rapport à x ou de part et d’autre de x. L’idée pour
établir l’inégalité (B.1) est d’exprimer le point intermédiaire comme barycentre des deux
autres. Dans le cas où on a, par exemple, u < x < v, alors
x−u
v−x
x−u
v−x
u+
v ⇒ f (x) ≤
f (u) +
f (v) ,
x=
v−u
v−u
v−u
v−u
ce qui entraîne immédiatement (B.1)en notant que
v−x
x−u
f (x) =
f (x) +
f (x) ;
v−u
v−u
les cas x < u < v et u < v < x se traitent de la même manière.
(u)
Considérons maintenant u < x < v, alors le ratio f (x)−f
est croissant lorsque u ↑ x et
x−u
f (v)−f (x)
majoré par v−x pour tout v > x. Par suite la limite
fg0 (x) = lim
u↑x
f (x) − f (u)
x−u
existe. Le même raisonnement s’adapte pour fd0 (x), et l’inégalité entre les deux dérivées
s’obtient immédiatement comme passage à la limite dans (B.1).
Une propriété des fonctions convexes définies sur R est particulièrement utile. Pour l’exprimer, introduisons la famille de fonctions affines (∆a,b ; a, b ∈ R) définies par ∆a,b (x) = ax+b
et considérons les fonctions affines (les droites) qui minorent f : ∆a,b ≤ f , i.e. ∆a,b (x) ≤
f (x) pour tout x réel.
Lemme B.6.– Soit f : R → R une fonction convexe, alors
f (x) = sup {∆a,b (x), ∆a,b ≤ f } .
ANNEXE B. NOTIONS D’ANALYSE UTILES
135
Autrement dit, f est en chaque point le suprémum de l’ensemble des droites, évaluées en
ce point, qui minorent f .
Preuve. Considérons maintenant la fonction affine ∆(y) = a(y − x) + f (x) avec fg0 (x) ≤
a ≤ fd0 (x). On a ∆(x) = f (x), reste à vérifier que ∆ ≤ f : cela concluera la preuve du
(x)
lemme. Si y > x, alors f (y)−f
≥ fd0 (x) ≥ a et ∆(y) ≤ f (y) ; un raisonnement similaire
y−x
s’applique dans le cas où y < x.
Annexe C
Approfondissements
C.1
Existence de suites de v.a. indépendantes
Théorème C.1.– Soit (µn )n∈N? une suite de mesures de probabilité sur B(R). Il existe
un espace de probabilité (Ω, F, P) et une suite de v.a. (Xn )n∈N? sur cet espace, tels que :
• (Xn )n∈N? est une famille indépendante ;
• pour tout n, Xn est de loi µn .
•
On choisit Ω =]0, 1], F la tribu de Borel sur ]0, 1], P la mesure de Lebesgue sur ]0, 1].
La preuve se déroule alors en trois étapes. Premièrement, on montre que le résultat est
vrai pour des lois de Bernoulli de paramètre 1/2. Deuxièmement, grâce à l’existence d’une
telle suite de Bernoulli i.i.d., on montre que le résultat est vrai pour des lois uniformes sur
[0, 1]. Enfin, on transforme cette suite de v.a. uniforme en une suite de loi arbitraire par la
méthode dite d’inversion de la fonction de répartition.
Etape 1. Introduisons les intervalles suivants :
1
1
, D12 = , 1
D11 = 0,
2
2
1
1 1
1 3
3
D21 = 0,
, D22 = ,
, D23 = ,
, D24 = , 1
4
4 2
2 4
4
1
1 1
1 3
3 1
D31 = 0,
, D32 = ,
, D32 = ,
, D32 = ,
,
8
8 4
4 8
8 2
etc.
Pour tout ω ∈]0, 1] et tout n ∈ N? , il existe un unique entier k tel que ω ∈ Dnk . On
pose dn (ω) = 1 si k est pair, dn (ω) = 0 si k est impair. On peut remarquer
que la suite
P∞
(dn (ω))n∈N? est une représentation binaire de ω, en ce sens que ω = n=1 dn (ω) 2−n . Il est
136
ANNEXE C. APPROFONDISSEMENTS
137
facile de vérifier que pour tout n, dn est une variable aléatoire qui suit la loi uniforme sur
−1
{0, 1}. En effet, d−1
n ({0}) et dn ({1}) sont des unions d’intervalles qui ont même mesure de
1
−1
Lebesgue : P(d−1
n ({0})) = P(dn ({1})), autrement dit, Pdn ({0}) = Pdn ({1}) = 2 . De plus,
on peut vérifier que pour tout (i1 , · · · , in ) ∈ {0, 1},
#
# n
n
X ik X
ik
1
{ω : ∀k = 1, · · · , n, dk (ω) = ik } =
,
+
2k k=1 2k 2n
k=1
L’ensemble ci-dessus a pour mesure de Lebesgue 2−n . La loi jointe de (d1 , · · · , dn ) est égale
au produit des lois marginales, ce qui prouve que (dn )n∈N? forme une famille indépendante
d’après la section ??. Sur Ω =]0, 1], on sait donc construire une suite i.i.d. de v.a. uniformes
sur {0, 1}.
Etape 2. On construit une suite de variables i.i.d. suivant la loi uniforme sur l’intervalle
[0, 1]. On commence par réordonner les v.a. dn de la manière suivante. Soit ϕ une bijection
de N? → N? × N? . Posons Zn,k = dϕ(n,k) . La famille (Zn,k )n,k est une famille i.i.d. de v.a.
uniformes sur {0, 1}. On pose pour tout n,
Un =
∞
X
Zn,k 2−k .
k=1
Un est bien une variable aléatoire sur B(R) comme limite en p → ∞ de la suite de v.a.
P
(p)
Un = k≤p Zn,k 2−k (voir la section ??). On montre les deux affirmations suivantes : i)
pour tout n, Un suit la loi uniforme sur [0, 1] et ii) la suite de v.a. (Un )n∈N? est indépendante.
(p)
i) Clairement, Un ∈ [0, 1]. Soit p ≥ 1 fixé. Un prend les valeurs j2−p où 0 ≤ j < 2−p .
Comme (Zn,1 , · · · , Zn,p ) suit la loi uniforme sur {0, 1}p , ces 2p valeurs prises par Un sont
équiprobables. Pour x fixé dans l’intervalle [0, 1], le nombre de valeurs j2−p tombant dans
(p)
l’intervalle [0, x] est égal à b2p xc + 1. Ainsi, P[Un ≤ x] = (b2p xc + 1)/2p . On remarque
(p)
que ([Un ≤ x])p∈N? est une suite décroissante d’événements convergeant vers [Un ≤ x],
(p)
(p)
soit [Un ≤ x] = limp→∞ [Un ≤ x]. Ainsi, P[Un ≤ x] = limp P[Un ≤ x] = x. La fonction de
répartition de Un est égale à celle de la loi uniforme sur [0, 1]. On a donc Un ∼ U([0, 1])
pour tout n.
ii) Montrons que la famille de v.a. (Un )n∈N? est indépendante. D’après le paragraphe ??,
il suffit de montrer que pour tout entier n et pour tout réels x1 , . . . , xn , la fontion de répartition FU1 ···Un (x1 , · · · , xn ) est égale au produit des fonctions de répartitions FU1 (x1 ) · · · FUn (xn ).
Autrement dit, il suffit de montrer que :
P [U1 ≤ x1 , · · · , Un ≤ xn ] = P [U1 ≤ x1 ] × · · · × P [Un ≤ xn ] .
Fixons n et x1 , . . . , xn . Pour les mêmes raisons que ci-dessus, les événements
Ap :=
n
\
(p)
[Uk ≤ xk ]
k=1
(C.1)
ANNEXE C. APPROFONDISSEMENTS
138
forment une suite décroissante d’événement convergeant vers A := [U1 ≤ x1 , · · · , Un ≤ xn ].
(p)
(p)
Or à p fixé, il est immédiat que les variables U1 , · · · , Un sont indépendantes, car elles
s’écrivent respectivement comme fonctions des vecteurs h(Z1,1 , · · · , Z
i 1,p ), · · · , (Zhn,1 , · · · , Zn,p
i)
(p)
(p)
qui sont indépendants. Par conséquent, P(A(p) ) = P U1 ≤ x1 × · · · × P Un ≤ xn .
L’égalité (C.1) est obtenue par passage à la limite en p → ∞.
Le théorème est donc démontré dans le cas particulier où les mesures µn coïncident toutes
avec la loi uniforme sur [0, 1]. Il reste à traiter le cas général.
Etape 3. Pour tout n, on définit ϕn (t) = inf{x ∈ R : Fn (x) ≤ t} où Fn (x) := µn (]−∞, x])
est la fonction de répartition associée à µn . On pose Xn = ϕn (Un ). La famille (Xn )n est
indépendante et on vérifie sans difficulté que la fonction de répartition de Xn est bien égale
à Fn . Le théorème est donc prouvé.
Notations
⊥⊥
( · )T
◦
|Ω|
an ↑ a
an ↓ a
An ↑ A
An ↓ A
det
In
P(Ω) ou 2Ω
Tr
x∨y
x∧y
Indépendance d’événement, indépendance de variables aléatoires.
Transposée d’une matrice ou d’un vecteur.
Composition.
Cardinal d’un ensemble Ω.
La suite réelle (an )n est croissante et converge vers a.
La suite réelle (an )n est décroissante et converge vers a.
La suite d’ensembles (An )n est croissante et converge vers A i.e., ∪n An = A.
La suite d’ensembles (An )n est décroissante et converge vers A i.e., ∩n An = A.
Déterminant.
Matrice identité de taille n.
Tribu des parties sur Ω.
Trace.
Maximum de x et de y.
Minimum de x et de y.
139
Bibliographie
[Bil95]
P. Billingsley, Probability and measure, Wiley Series in Probability and Mathematical Statistics, John Wiley, 1995.
[LMR12] S. Ladjal, E. Moulines, and F. Roueff, Éléments d’analyse fonctionnelle, Telecom
ParisTech, polycopié de l’école, 2012.
[Rud95] W. Rudin, Principes d’analyse mathématique, Dunod, 1995, Traduit de l’anglais
par G. Auliac.
140
Téléchargement