Polycopié - Julian Tugaut

publicité
Probabilités approfondies
Julian Tugaut1
14 avril 2015
1. Si vous avez des remarques ou des questions, envoyez-moi un message à [email protected]
ii
Table des matières
Table des matières
iii
1 Rappels : le langage des ensembles
1.1 Définitions . . . . . . . . . . . . . . . . . . .
1.1.1 Notion d’ensemble . . . . . . . . . .
1.1.2 Ensemble vide . . . . . . . . . . . . .
1.1.3 Inclusion, Sous-ensembles . . . . . .
1.2 Opération sur les ensembles . . . . . . . . .
1.2.1 Intersection de deux ensembles . . .
1.2.2 Réunion de deux ensembles . . . . .
1.2.3 Propriétés de distributivité . . . . . .
1.2.4 Complémentaire d’un sous-ensemble .
1.3 Partition d’un ensemble . . . . . . . . . . .
1.4 Rappels sur la dénombrabilité . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
1
1
1
1
2
2
3
4
5
6
8
9
2 Classes d’ensembles
2.1 Premières définitions . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Notion de tribu engendrée . . . . . . . . . . . . . . . . . . . . . .
2.3 π-système et λ-système . . . . . . . . . . . . . . . . . . . . . . . .
11
11
14
17
3 Mesures
3.1 Définitions . . . . . . . . . . . . . . . .
3.2 Cas de la mesure de Lebesgue . . . . .
3.2.1 Définition sur les ouverts . . . .
3.2.2 Unicité . . . . . . . . . . . . . .
3.3 Théorème d’existence de Carathéodory
3.4 Complétion . . . . . . . . . . . . . . .
.
.
.
.
.
.
19
19
20
20
20
21
22
4 Variables aléatoires
4.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Tribu générée par une collection de variables aléatoires . . . . . .
4.3 Fonctions de répartition, lois d’une variable aléatoire . . . . . . .
23
23
24
25
iii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
TABLE DES MATIÈRES
iv
5 Indépendance
5.1 Indépendance de familles d’évènements et de variables aléatoires
5.2 Critères d’indépendance . . . . . . . . . . . . . . . . . . . . . .
5.2.1 En terme de fonctions de répartition . . . . . . . . . . .
5.2.2 En terme de densité . . . . . . . . . . . . . . . . . . . .
5.3 Indépendance généralisée . . . . . . . . . . . . . . . . . . . . . .
5.4 Indépendances et évènements asymptotiques . . . . . . . . . . .
5.5 Rappels sur la probabilité conditionnelle . . . . . . . . . . . . .
5.5.1 Notion de probabilité conditionnelle . . . . . . . . . . . .
5.5.2 Définition . . . . . . . . . . . . . . . . . . . . . . . . . .
5.5.3 Théorème de Bayes (ou de la probabilité des causes) . .
.
.
.
.
.
.
.
.
.
.
29
29
31
31
31
33
34
37
37
37
38
6 Espérance conditionnelle
6.1 Cas simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2 Cas général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.3 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
41
43
44
7 Martingales
7.1 Filtration . . . . . . . . . . . . . .
7.2 Surmartingales et sous-martingales
7.3 Processus prévisibles . . . . . . . .
7.4 Temps d’arrêt . . . . . . . . . . . .
.
.
.
.
49
49
50
52
53
8 Chaînes de Markov
8.1 Matrice stochastique . . . . . . . . . . . . . . . . . . . . . . . . .
8.2 Mesures invariantes . . . . . . . . . . . . . . . . . . . . . . . . . .
57
57
61
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Chapitre 1
Rappels : le langage des ensembles
On commence ce cours par l’étude du langage des ensembles. En effet, celui-ci
nous servira subséquemment pour représenter et pour nous représenter de façon
palpable ce à quoi correspondent les divers objets du modèle probabiliste.
1.1
1.1.1
Définitions
Notion d’ensemble
On considère la notion intuitive suivante d’un ensemble Ω (qui désignera dans
les prochains chapitres l’univers, que l’on appelle aussi l’espace fondamental) :
Définition 1.1.1. Un ensemble Ω est une collection d’objets. Il est déterminé
lorsque l’on peut dire si un objet ω lui appartient ou ne lui appartient pas.
Notation 1.1.2. Si l’objet ω appartient à l’ensemble Ω, on note : ω ∈ Ω.
Si l’objet ω n’appartient pas à l’ensemble Ω, on note : ω ∈
/ Ω.
Définition 1.1.3. Un objet ω appartenant à l’ensemble Ω (ω ∈ Ω) est appelé un
élément de Ω.
1.1.2
Ensemble vide
Définition 1.1.4. On définit l’ensemble vide comme étant l’ensemble qui ne
contient aucun élément.
Notation 1.1.5. L’ensemble vide est noté ∅.
Remarque 1.1.6. Il ne faut pas confondre l’ensemble vide (∅) avec le zéro (0).
On a coutume de dire : “Être nul, c’est déjà exister”.
1
2
1.1.3
CHAPITRE 1. RAPPELS : LE LANGAGE DES ENSEMBLES
Inclusion, Sous-ensembles
Définition 1.1.7. On dit qu’un ensemble A est inclus dans un ensemble B lorsque
tout élément de A appartient à B. Plus formellement, A est inclus dans B lorsque
∀ω ∈ A , ω ∈ B .
Remarque 1.1.8. On dit aussi que B contient A ou que A est un sous-ensemble
de B.
Notation 1.1.9. Si A est un sous-ensemble de B, on note : A ⊂ B.
On peut aussi trouver la notation B ⊃ A.
Il peut être pratique d’utiliser un diagramme de Venn pour se représenter
l’inclusion d’un ensemble dans un autre :
Figure 1.1 – Inclusion d’un ensemble
Exemple 1.1.10. Soit B l’ensemble des étudiants de Télécom Saint-Étienne. Soit
A l’ensemble des FI2 de Télécom Saint-Étienne.
Alors, A est inclus dans B : A ⊂ B.
Théorème 1.1.11. Soient deux ensembles A et B. Alors, A = B si et seulement
si A ⊂ B et B ⊂ A.
1.2
Opération sur les ensembles
Les mathématiques sont une science logico-formelle. Nous présentons donc
maintenant les opérations logiques élémentaires, traduites en langage ensembliste.
1.2. OPÉRATION SUR LES ENSEMBLES
1.2.1
3
Intersection de deux ensembles
Définition 1.2.1. On appelle intersection de deux ensembles A et B l’ensemble
des éléments communs à A et à B.
Notation 1.2.2. L’intersection de deux ensembles A et B est notée A ∩ B.
Plus formellement, on peut écrire :
A ∩ B = {ω : ω ∈ A , ω ∈ B}
ou
ω ∈ A ∩ B ⇐⇒ ω ∈ A et ω ∈ B .
Avec un diagramme de Venn :
Figure 1.2 – Intersection de deux ensembles
Exemple 1.2.3 (Ensemble fini petit). Soit Ω := {a, b, c, d, e, f, g, h, i} un ensemble de lettres. Soient les deux sous-ensembles de Ω : A := {a, b, c, d, e} et
B := {c, d, e, f, g}. Alors, on a : A ∩ B = {c, d, e}.
Exemple 1.2.4 (Ensemble fini grand). Soit Ω l’ensemble des ingénieurs formés
en France. Soit A le sous-ensemble des ingénieurs exerçant dans l’industrie. Soit
B l’ensemble des ingénieurs diplômés de TSE.
Alors, A ∩ B est l’ensemble des ingénieurs diplômés de TSE qui travaillent dans
l’industrie.
Définition 1.2.5 (Ensembles disjoints). On dit que deux ensembles A et B sont
disjoints lorsque leur intersection est vide : ils n’ont aucun élément en commun.
En d’autres termes, on dit que A et B sont disjoints si l’on a A ∩ B = ∅.
On présente maintenant les propriétés basiques de l’intersection.
CHAPITRE 1. RAPPELS : LE LANGAGE DES ENSEMBLES
4
Propriété 1.2.6 (Commutativité). Soient deux ensembles A et B.
Alors A ∩ B = B ∩ A.
Propriété 1.2.7 (Associativité). Soient trois ensembles A, B et C.
Alors :
A ∩ (B ∩ C) = (A ∩ B) ∩ C =: A ∩ B ∩ C .
Propriété 1.2.8. Soit un ensemble A. Alors, on a A ∩ A = A.
Propriété 1.2.9. Soit un ensemble A. Alors, on a A ∩ ∅ = ∅.
1.2.2
Réunion de deux ensembles
Définition 1.2.10. On appelle réunion de deux ensembles A et B l’ensemble des
éléments qui sont dans A ou (au sens inclusif ) qui sont dans B.
Notation 1.2.11. La réunion de deux ensembles A et B est notée A ∪ B.
Plus formellement, on peut écrire :
A ∪ B = {ω : ω ∈ A ou ω ∈ B}
ou
ω ∈ A ∪ B ⇐⇒ ω ∈ A ou ω ∈ B .
Avec un diagramme de Venn :
Figure 1.3 – Réunion de deux ensembles
On remarque dans ce diagramme que l’on a
A∩B ⊂A⊂A∪B
et A ∩ B ⊂ B ⊂ A ∪ B .
1.2. OPÉRATION SUR LES ENSEMBLES
5
Exemple 1.2.12 (Ensembles finis petits). Soient les deux ensembles de lettres :
A := {a, b, c, d, e} et B := {c, d, e, f, g}. Alors, on a : A ∪ B = {a, b, c, d, e, f, g}.
Exemple 1.2.13 (Ensembles finis grands). Soit A l’ensemble des ingénieurs diplômés de TSE et soit B l’ensemble des ingénieurs exerçant dans l’industrie.
Alors A ∪ B est l’ensemble des ingénieurs qui travaillent dans l’industrie ou qui
sont diplômés de TSE.
On présente maintenant les propriétés basiques de la réunion.
Propriété 1.2.14 (Commutativité). Soient deux ensembles A et B.
Alors A ∪ B = B ∪ A.
Propriété 1.2.15 (Associativité). Soient trois ensembles A, B et C.
Alors :
A ∪ (B ∪ C) = (A ∪ B) ∪ C =: A ∪ B ∪ C .
Propriété 1.2.16. Soit un ensemble A. Alors, on a A ∪ A = A.
Propriété 1.2.17. Soit un ensemble A. Alors, on a A ∪ ∅ = A.
1.2.3
Propriétés de distributivité
Nous avons vu les propriétés de la réunion et celles de l’intersection. Nous
présentons maintenant les propriétés de l’intersection par rapport à la réunion et
réciproquement les propriétés de la réunion par rapport à l’intersection. Considérons trois ensembles A, B et C quelconques. Alors :
Propriété 1.2.18. L’intersection est distributive par rapport à la réunion :
A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C) .
Démonstration. Prouvons d’abord A ∩ (B ∪ C) ⊂ (A ∩ B) ∪ (A ∩ C). Soit ω ∈
A ∩ (B ∪ C). Par définition, ω appartient à A. De même, ω appartient à B ∪ C.
Ainsi, ω appartient à B ou il appartient à C. Si ω appartient à B, alors ω ∈ A ∩ B
d’où ω ∈ (A ∩ B) ∪ (A ∩ C). Si ω appartient à C, alors ω ∈ A ∩ C d’où ω ∈
(A ∩ B) ∪ (A ∩ C).
Prouvons maintenant A ∩ (B ∪ C) ⊃ (A ∩ B) ∪ (A ∩ C). Soit ω ∈ (A ∩ B) ∪
(A ∩ C). Alors, ω ∈ A ∩ B ou ω ∈ A ∩ C. Si ω ∈ A ∩ B, alors ω ∈ A. Mais aussi,
ω ∈ B ⊂ B ∪ C. Donc ω ∈ A ∩ (B ∪ C). De même, si ω ∈ A ∩ C, alors ω ∈ A.
Mais aussi, ω ∈ C ⊂ B ∪ C. Donc ω ∈ A ∩ (B ∪ C).
La preuve est achevée en appliquant le Théorème 1.1.11.
Avec un diagramme de Venn :
CHAPITRE 1. RAPPELS : LE LANGAGE DES ENSEMBLES
6
Figure 1.4 – Distributivité de l’intersection par rapport à la réunion
Propriété 1.2.19. La réunion est distributive par rapport à l’intersection :
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) .
Démonstration. Prouvons d’abord A ∪ (B ∩ C) ⊂ (A ∪ B) ∩ (A ∪ C). Soit ω ∈
A ∪ (B ∩ C). Par définition, ω appartient à A ou il appartient à B ∩ C. Si ω ∈ A,
alors ω ∈ A ∪ B et ω ∈ A ∪ C. Ainsi, on a ω ∈ (A ∪ B) ∩ (A ∪ C). Si ω ∈ B ∩ C,
alors ω ∈ B ⊂ A ∪ B et ω ∈ C ⊂ A ∪ C. Ainsi, on a ω ∈ (A ∪ B) ∩ (A ∪ C).
Prouvons maintenant A ∪ (B ∩ C) ⊃ (A ∪ B) ∩ (A ∪ C). Soit ω ∈ (A ∪ B) ∩
(A ∪ C). Par définition, ω ∈ A ∪ B. Donc ω appartient à A ou il appartient à B.
Si ω ∈ A, alors ω ∈ A ∪ (B ∩ C). Si ω ∈
/ A, alors ω ∈ B. Or, ω ∈ A ∩ C. Comme
ω∈
/ A, on a ω ∈ C d’où ω ∈ B ∩ C ⊂ A ∪ (B ∩ C).
La preuve est achevée en appliquant le Théorème 1.1.11.
Cette propriété se voit bien lorsque l’on regarde sur un diagramme de Venn :
Figure 1.5 – Distributivité de la réunion par rapport à l’intersection
1.2.4
Complémentaire d’un sous-ensemble
Définition 1.2.20. Soit un ensemble Ω (l’univers des évènements). Soit A un
sous-ensemble de Ω.
1.2. OPÉRATION SUR LES ENSEMBLES
7
On appelle complémentaire de A dans Ω l’ensemble des éléments de Ω qui n’appartiennent pas à A.
Notation 1.2.21. Le complémentaire de A est noté A ou Ac .
On préfère la notation Ac car A désigne la fermeture de A en topologie.
Plus formellement, on a :
Ac = {ω ∈ Ω : ω ∈
/ A}
ou
ω ∈ Ac ⇐⇒ ω ∈
/ A.
Avec un diagramme de Venn :
Figure 1.6 – Complémentaire d’un sous-ensemble
On présente maintenant les propriétés classiques de la complémentation. On
utilise ici la notation A pour des raisons de facilité d’écriture.
Propriété 1.2.22. Soit un ensemble Ω et soit A un sous-ensemble de Ω.
Alors, A = A.
Propriété 1.2.23. Soit un ensemble Ω. Alors, Ω = ∅. De même, on a ∅ = Ω.
Propriété 1.2.24. Soit un ensemble Ω et soit A un sous-ensemble de Ω.
Alors, A ∩ A = ∅ et A ∪ A = Ω.
Théorème 1.2.25 (Lois de Morgan). Soit un ensemble Ω et soient A et B deux
sous-ensembles de Ω. Alors, on a
A∩B =A∪B
(1.1)
A∪B =A∩B.
(1.2)
et
CHAPITRE 1. RAPPELS : LE LANGAGE DES ENSEMBLES
8
Les Relations (1.1) et (1.2) s’illustrent particulièrement bien en regardant les
diagrammes de Venn associés :
Figure 1.7 – Première loi de Morgan
pour (1.1).
Exercice 1.2.26. Prouver (1.2) avec des diagrammes de Venn.
Exercice 1.2.27. Démontrer rigoureusement (c’est-à-dire sans utiliser de diagramme de Venn) le Théorème 1.2.25.
Exemple 1.2.28. Soit Ω := {a, b, c, d, e, f, g, h, i} un ensemble de lettres. Soient
les deux sous-ensembles de Ω : A := {a, b, c, d, e} et B := {c, d, e, f, g}.
Alors, on a Ac = {f, g, h, i} et B c = {a, b, h, i}.
Mais aussi A ∩ B = {c, d, e} et A ∪ B = {a, b, c, d, e, f, g}.
Enfin, on a
Ac ∩ B c = {h, i} = (A ∪ B)c
ainsi que
1.3
Ac ∪ B c = {a, b, f, g, h, i} = (A ∩ B)c .
Partition d’un ensemble
Définition 1.3.1. Soit Ω un ensemble. Soient n sous-ensembles : A1 , · · · , An .
On dit qu’ils forment une partition de Ω s’ils sont deux à deux disjoints et si leur
réunion est égale à Ω.
Plus formellement, (A1 , · · · , An ) est une partition de Ω si et seulement si
Ak ∩ Ap = ∅ si k 6= p
et A1 ∪ · · · ∪ An = Ω .
Notation 1.3.2. Pour éviter d’avoir à utiliser les points de suspension, on utilise
les deux notations suivantes :
n
n
\
[
Ak := A1 ∩ · · · ∩ An et
Ak := A1 ∪ · · · ∪ An .
k=1
k=1
1.4. RAPPELS SUR LA DÉNOMBRABILITÉ
9
Il peut être pratique d’utiliser un diagramme de Venn pour se représenter la
partition d’un ensemble :
Figure 1.8 – Partition d’un ensemble
Exemple 1.3.3 (Cas particulier de partition). Soit Ω un ensemble. Soit A un
sous-ensemble de Ω. Alors (A, Ac ) est une partition de Ω. En effet, on a A∩Ac = ∅
et A ∪ Ac = Ω par définition. Regardons cela sur un diagramme de Venn :
Figure 1.9 – Partition particulière d’un ensemble
1.4
Rappels sur la dénombrabilité
Définition 1.4.1. On dit qu’un ensemble est de cardinal fini s’il contient un
nombre fini d’éléments.
10
CHAPITRE 1. RAPPELS : LE LANGAGE DES ENSEMBLES
Définition 1.4.2. Un ensemble qui n’est pas de cardinal fini est dit infini.
Exemple 1.4.3. L’ensemble N est infini. De même, R est infini.
Définition 1.4.4. On dit qu’un ensemble infini est dénombrable s’il est en bijection avec N.
Exemple 1.4.5. L’ensemble des rationnels, Q, est dénombrable.
Contre-exemple 1.4.6. L’ensemble des réels, R, n’est pas dénombrable.
Propriété 1.4.7. Une union dénombrable d’ensembles dénombrables est dénombrable.
Chapitre 2
Classes d’ensembles
Ici, on présente des classes d’ensembles particulières. La construction peut
sembler abstraite voire voire d’un intérêt cryptique mais nous nous efforcerons de
donner une justification intuitive à ces classes d’évènements.
2.1
Premières définitions
Définition 2.1.1. Dans toute la suite de ce cours, Ω désigne l’univers de toutes
les possibilités.
Définition 2.1.2. Un ensemble A inclus dans Ω est un évènement.
Exemple 2.1.3. L’ensemble ∅ est bien inclus dans Ω et est l’évènement impossible.
Exemple 2.1.4. L’ensemble Ω est bien inclus dans Ω et est l’évènement certain.
Définition 2.1.5. On note 2Ω ou P (Ω) l’ensemble de tous les évènements possibles. Il s’agit de l’ensemble des parties de Ω.
On remarque la stabilité suivante de 2Ω par l’intersection et par la réunion :
A ∩ B ∈ 2Ω
et
A ∪ B ∈ 2Ω
si A et B sont deux éléments de 2Ω (c’est-à-dire si A ⊂ Ω et B ⊂ Ω).
Remarque 2.1.6. Avant de présenter la notion abstraite d’algèbre de Boole, on
va donner une justification intuitive de cette construction ensembliste.
Par la suite, on va munir notre ensemble Ω d’une probabilité. Celle-ci doit satisfaire certaines propriétés. Or, à moins de travailler avec un univers fini ou
dénombrable, on ne peut pas définir une probabilité simple qui mesure tous les
éléments de 2Ω . En particulier, si l’on prend Ω := [0; 1], on peut, en admettant
11
CHAPITRE 2. CLASSES D’ENSEMBLES
12
l’axiome du choix, prouver l’existence d’un ensemble V ⊂ [0; 1] tel que V ne soit
pas mesurable pour la mesure de Lebesgue. Ceci nous oblige donc à restreindre
la définition d’une probabilité sur une classe d’évènements moins large que 2Ω et
satisfaisant certaines bonnes propriétés.
On définit maintenant ce qu’est une algèbre de Boole.
Remarque 2.1.7. Il ne faut pas confondre la notion d’algèbre (ensemble muni de
deux lois de composition interne et d’une loi de composition externe satisfaisant
certains axiomes) et la notion d’algèbre de Boole que vous allez découvrir.
Parfois, par souci de simplification, on parle d’algèbre au lieu d’algèbre de Boole.
Il convient de garder à l’esprit que l’on travaille sur des algèbres de Boole.
Définition 2.1.8 (Algèbre de Boole). Soit A une classe de parties de Ω c’està-dire si A ⊂ 2Ω . On dit que A est une algèbre de Boole si et seulement si A
satisfait les trois axiomes suivants :
1. Ω ∈ A.
2. Pour tout A ∈ A, Ac ∈ A.
3. Pour tout A ∈ A et pour tout B ∈ A, A ∪ B ∈ A.
Commentons maintenant cette construction abstraite.
On souhaite par la suite munir Ω d’une probabilité qui mesure tous les ensembles inclus dans A. Or, vous avez déjà vu que l’une des définitions de la probabilité est de donner un poids égal à 1 à l’évènement certain Ω. Conséquemment,
l’évènement certain, Ω, doit appartenir à la classe d’évènements considérée.
Un autre axiome de la probabilité est celui-ci : P(Ac ) = 1 − P(A). Immédiatement, on en déduit que le complémentaire d’un ensemble mesurable doit lui-même
être mesurable ce qui justifie le deuxième axiome de la définition.
Enfin, on a besoin de la réunion des évènements. Il est donc naturel de supposer
que A ∪ B est dans A pour tous les évènements mesurables A et B.
Remarque 2.1.9. Si A est une algèbre de Boole, alors pour tous A, B ∈ A,
A ∩ B ∈ A.
Démonstration. Soient A, B ∈ A. Alors, d’après les lois de Morgan, il vient
A ∩ B = (Ac ∪ B c )c .
D’après le deuxième axiome, on a Ac , B c ∈ A. Par le troisième axiome, on a
Ac ∪ B c ∈ A. En utilisant à nouveau le deuxième axiome, on en déduit que A ∩ B
est dans A.
Remarque 2.1.10. Dans la définition 2.1.8, on peut remplacer A ∪ B par A ∩ B
dans le troisième axiome.
Exercice 2.1.11. Prouver la remarque.
2.1. PREMIÈRES DÉFINITIONS
13
Remarque 2.1.12. La notion d’algèbre de Boole souffre d’un défaut. En effet,
on dispose de la stabilité par réunion de deux éléments de la classe et donc de la
stabilité par réunion finie. Toutefois, on ne dispose pas de la stabilité par réunion
dénombrable. Or, par la suite, on souhaite considérer des suites d’évènements
ainsi que leur comportement en temps long, ce qui requiert la stabilité par réunion
dénombrable de la classe d’évènements.
On introduit donc une nouvelle classe d’ensembles : les tribus. On parle aussi
de σ−algèbre. En Anglais, on dit “σ−algebra”.
Définition 2.1.13 (Tribu). Soit F une classe de parties de Ω c’est-à-dire F ⊂ 2Ω .
On dit que F est une tribu si et seulement si
1. F est une algèbre de Boole.
2. F est stable par réunion dénombrable.
En d’autres termes, F est une tribu si et seulement si :
1. Ω ∈ F .
2. Pour tout A ∈ F , Ac ∈ F .
3. Pour tout A ∈ F et pour tout B ∈ F , A ∪ B ∈ F .
S
4. Pour toute suite (An )n avec An ∈ F , on a ∞
n=0 An ∈ F .
Remarque 2.1.14. On peut modifier le second axiome de la Définition 2.1.13.
En effet, on peut imposer de plus la stabilité par réunion dénombrable croissante.
En d’autres termes, F est une tribu si et seulement si :
1. Ω ∈ F .
2. Pour tout A ∈ F , Ac ∈ F .
3. Pour tout A ∈ F et pour tout B ∈ F , A ∪ B ∈ F .
4. Pour toute suite (An )n avec An ∈ F et An ⊂ An+1 , on a
S∞
n=0 An
∈ F.
Démonstration. La stabilité par réunion dénombrable implique la stabilité par
réunion dénombrable croissante. Prouvons la réciproque.
On suppose que F est stable par réunion dénombrable croissante.
S∞Soit maintenant
une suite (Fn )n d’éléments
de
F
.
On
doit
montrer
que
l’on
a
n=0 Fn ∈ F .
S
S
Sn
On pose Gn := k=0 Fk . On remarque n∈N Fn = n∈N Gn . Comme F est une
algèbre de Boole, G
Sn ∈ F . Puis, la stabilité par réunion dénombrable croissante
achève de prouver n≥0 Fn ∈ F .
Exemple 2.1.15. L’ensemble de toutes les parties de Ω, 2Ω , est une tribu.
Il s’agit de la tribu la plus riche.
Exemple 2.1.16. L’ensemble {∅, Ω} est une tribu.
Il s’agit de la tribu la moins riche.
CHAPITRE 2. CLASSES D’ENSEMBLES
14
2.2
Notion de tribu engendrée
Dans cette section, I désigne un ensemble d’indice non nécessairement dénombrable.
T
Lemme 2.2.1. Soit (Fi )i∈I une famille quelconque de tribus sur Ω. Alors, i∈I Fi
est une tribu.
Démonstration. T
Pour tout i ∈ I, Ω ∈ Fi car Fi est une algèbre de Boole. Conséquemment, Ω ∈ i∈I Fi .
T
Soit A ∈ i∈I Fi . Alors, pour tout i T
∈ I, A ∈ Fi . Puis, comme Fi est une algèbre
de Boole, Ac ∈ Fi . Ainsi, on a Ac ∈ i∈I Fi .
T
Soient A et B deux éléments de i∈I Fi . Alors, pour tout i ∈ I, A ∈ Fi et
T B ∈ Fi .
Comme Fi est une algèbre, A ∪ B ∈ Fi , pour tout i ∈ I d’où A ∪ B ∈ i∈I Fi .
Il reste à prouver la stabilité par réunion dénombrable. Pour ce faire, on procède
comme on vient de le faire.
Exercice 2.2.2. Finir la preuve du lemme.
Soit C ⊂ 2Ω , une classe d’ensembles inclus dans Ω. On considère la famille L
des tribus contenant C. On sait que cette famille est non vide car 2Ω ∈ L.
Définition 2.2.3. On appelle tribu engendrée par C la tribu égale à l’intersection
des éléments de L. On la note σ (C).
Remarque 2.2.4. σ (C) est bien une tribu comme intersection de tribus.
Remarque 2.2.5. σ (C) est la plus petite tribu contenant C.
Exercice 2.2.6. Prouver la remarque.
On va maintenant donner un exemple fondamental.
Exemple 2.2.7 (Tribu borélienne). Soit S un espace topologique et soit U l’ensemble des ouverts de S. On appelle tribu borélienne de S la tribu engendrée par
U. On la note B (S).
Comme le complémentaire d’un ouvert est un fermé, on peut noter que la tribu
borélienne est aussi engendrée par les fermés de S.
On va donner un résultat important sur la tribu borélienne. Celui-ci va avoir
des répercussions sur l’importance de la fonction de répartition. Nous conseillons
au lecteur de lire au moins une fois la preuve du théorème suivant.
Théorème 2.2.8. La classe des boréliens de R est engendrée par
1. la classe des intervalles ouverts bornés.
2. la classe des intervalles bornés de la forme [a; b[.
3. la classe des demi-droites ouvertes ] − ∞; a[.
2.2. NOTION DE TRIBU ENGENDRÉE
15
4. la classe des demi-droites fermées ] − ∞; a].
Démonstration. 1) On commence par montrer que la tribu des boréliens de R est
engendrée par la classe des intervalles ouverts bornés. La classe des boréliens est
engendrée par l’ensemble des ouverts. Il suffit donc de montrer que tout ouvert U
s’écrit comme réunion dénombrable d’intervalles ouverts bornés.
On introduit la relation d’équivalence R sur U :
xRy ⇔ [x; y] ⊂ U .
Alors, U est la réunion de toutes les classes d’équivalences :
[
U=
Cx ,
x∈U
où Cx est la classe d’équivalence de x.
Soient maintenant a, b ∈ Cx . Par définition, on a aRb d’où [a; b] ⊂ Cx . Ainsi, Cx
est un intervalle.
Soit y ∈ Cx . Comme U est ouvert, il existe ǫ > 0 tel que ]y − ǫ; y + ǫ[⊂ U. Or,
[x; y] ⊂ U. On en déduit [x; y + 2ǫ ] ⊂ U d’où [y; y + 2ǫ ] ⊂ U. De même, on a
[y − 2ǫ ; y] ⊂ U. Il vient
ǫ
ǫ
[y − ; y + ] ⊂ Cx .
2
2
Ceci prouve que Cx est ouvert.
S
Conséquemment, on a U = i∈I Ii où Ii est un intervalle ouvert pour tout i ∈ I.
Par densité de Q dans R, pour tout i ∈ I, il existe xi ∈ Q, il existe axi > 0 et il
existe bxi > 0 tel que
Ii =]xi − axi ; xi + bxi [ .
On peut ainsi écrire
U=
[
i∈I
]xi − axi ; xi + bxi [ =
[
Ix ,
x∈{xi ;i∈I}
où l’on a Ixi =]xi − axi ; xi + bxi [. Or, {xi ; i ∈ I} ⊂ Q donc c’est un ensemble dénombrable. On en déduit que tout ouvert s’écrit comme une réunion dénombrable
d’intervalles ouverts.
Si U est borné, alors U s’écrit comme une réunion dénombrable d’intervalles ouverts bornés.
Si U est un ouvert quelconque, on peut écrire


[

U=
 U∩] − n; n[  .
|
{z
}
n∈N
ouvert borné
CHAPITRE 2. CLASSES D’ENSEMBLES
16
Or, U∩] − n; n[=
S
(n)
k≥0 Ik
(n)
où Ik
est un intervalle ouvert borné. On a donc
U=
[[
(n)
Ik .
n≥0 k≥0
Tout ouvert s’écrit comme une réunion dénombrable d’intervalles ouverts bornés.
Soit F la tribu engendrée par les intervalles ouverts bornés. F contient tous les
ouverts d’après ce qui précède. F étant une tribu, elle contient la plus petite tribu
engendrée par les ouverts, B(R) d’où B(R) ⊂ F .
Trivialement, F ⊂ B(R) car tout intervalle ouvert borné est un ouvert donc un
borélien. On en déduit B(R) = F .
2) Prouvons maintenant que la tribu des boréliens est engendrée par les intervalles
bornés [a; b[. Il est suffisant de montrer que tout intervalle ouvert borné est une
réunion dénombrable d’intervalles de la forme [a; b[. Soit I :=]a; b[ un intervalle
ouvert borné. On a immédiatement
]a; b[=
[
[a +
n≥1
1
; b[ ,
n
ce qui achève la preuve.
3) Il suffit de montrer que la tribu engendrée par les demi-droites ouvertes ]−∞; a[
contient les intervalles bornés de la forme [a; b[. Pour ce faire, on remarque
[a; b[=] − ∞; b[∩] − ∞; a[c ,
ce qui achève la preuve.
4) Il suffit de prouver que la tribu engendrée par les demi-droites fermées ] − ∞; a]
contient les demi-droites ouvertes. Pour ce faire, on remarque
] − ∞; a[=
[
] − ∞; a +
n≥1
1
],
n
ce qui achève la preuve.
Ce théorème est essentiel et nous explique pourquoi la connaissance de la
fonction de répartition suffit à connaître la loi de probabilité sous-jacente.
Une objection peut être formulée. En effet, en dimension un, si la variable
aléatoire est continue, il suffit de prendre la dérivée de la fonction de répartition
pour obtenir la densité de probabilité. Et, si la variable aléatoire est discrète, on
peut prendre la dérivée au sens des distributions. Toutefois, il existe des variables
aléatoires qui ne sont ni continues par rapport à la mesure de Lebesgue ni discrètes.
2.3. π-SYSTÈME ET λ-SYSTÈME
2.3
17
π-système et λ-système
Dans cette section, on donne la définition de deux autres classes d’évènements.
Définition 2.3.1 (π-système). P est un π-système si et seulement si c’est une
classe de parties de Ω telle que P est stable par intersection finie.
Exemple 2.3.2. Un exemple de π-système est celui des demi-droites fermées. Ici,
Ω = R et P = {] − ∞; a] ; a ∈ R}.
Définition 2.3.3 (λ-système). L est un λ-système si et seulement si c’est une
classe de parties de Ω telle que
1. Ω ∈ L.
2. Pour tous A, B ∈ L avec A ⊂ B, B ∩ Ac ∈ L.
3. Si (Fn )n est une suite croissante d’éléments de L alors
S
n≥0
Fn ∈ L.
Remarque 2.3.4. Contrairement aux tribus, le troisième axiome du λ-système
n’implique pas la stabilité par réunion dénombrable quelconque.
Propriété 2.3.5. F est une tribu si et seulement si c’est un π-système et un
λ-système.
Exercice 2.3.6. Démontrer la propriété.
Les π-systèmes et λ-systèmes prennent tout leur sens avec le théorème suivant.
Théorème 2.3.7 (Dynkin). Soient P un π-système et L un λ-système tels que
P ⊂ L. Alors σ (P) ⊂ L.
Pour démontrer le Théorème 2.3.7, on énonce le lemme suivant dont la preuve
est laissée en exercice :
Lemme 2.3.8. Une intersection quelconque de λ-système est un λ-système.
On peut alors considérer la notion de λ-système engendré par une partie : si
C est une partie de Ω, le λ-système engendré par C est l’intersection de tous les
λ-systèmes contenant C. C’est aussi le plus petit.
On peut dorénavant prouver le théorème.
Démonstration. Soit M le λ-système engendré par P. On va montrer que M est
un π-système donc une tribu contenant P et inclus dans L d’où σ (P) ⊂ M ⊂ L.
Montrons que M est stable par intersection finie. Soit A ∈ P. On pose
MA := {B ⊂ Ω : B ∩ A ∈ M} .
Il suffit maintenant de montrer que MA contient M. Comme P est un π-système,
P ⊂ MA .
Il suffit de prouver que MA est un λ-système :
CHAPITRE 2. CLASSES D’ENSEMBLES
18
— Ω ∈ MA .
— Soient B, C ∈ MA et B ⊂ C, alors
A ∩ (C ∩ B c ) =
!
A
∩ C} ∩
| {z
∈M
!c
A
∩ B}
| {z
∈M
∈M
car M est un λ-système. D’où C ∩ B c ∈ MA .
— Soit (Bn )n une suite croissante d’éléments de MA . Pour tout n ∈ N, on a
Bn ∩ A ∈ M. Or, d’après la distributivité de l’intersection par rapport à
la réunion, on a
!
[
\
[
Bn
(Bn ∩ A) .
A=
n∈N
n∈N
Comme (Bn ∩ A)n est une suite croissante
d’éléments de M et comme M
S
est un λ-système,
Son en déduit que n∈N (Bn ∩ A) est dans M ce qui achève
de prouver que n∈N Bn est dans MA .
On a ainsi montré que si A ∈ P et si B ∈ M alors A ∩ B ∈ M.
Soit A ∈ M. On définit M′A := {B ∈ Ω : B ∩ A ∈ M}. Il suffit de montrer que
M′A contient M. Pour ce faire, on remarque que P est inclus dans M′A . Puis, en
procédant comme ci-dessus, on montre que M′A contient M.
Conséquemment, pour tous A, B ∈ M, A ∩ B ∈ M donc M est une tribu ce qui
achève la preuve.
Exercice 2.3.9. Compléter la preuve du Théorème 2.3.7.
Chapitre 3
Mesures
3.1
Définitions
Dans ce chapitre, Ω est un ensemble et A est une algèbre de Boole sur Ω. On
se donne une fonction µ définie sur A par
µ : A → [0; ∞]
A 7→ µ(A)
Définition 3.1.1 (Additivité). On dit que µ est additive si pour tous A, B ∈ A
tels que A ∩ B = ∅, on a µ (A ∪ B) = µ(A) + µ(B) et si µ(∅) = 0.
Remarque 3.1.2. Si µ est additive, pour tous A, B ∈ A, on a µ (A ∪ B) =
µ(A) + µ(B) − µ (A ∪ B).
Définition 3.1.3 (σ-additivité). On dit que µ est σ-additive si µ(∅)S= 0 et si pour
toute suite (An )n d’éléments deux à deux disjoints de A tels que n≥0 An ∈ A 1
P
S
alors µ n≥0 An = n≥0 µ(An ).
Définition 3.1.4. Soit F une tribu sur Ω. Alors, on dit que (Ω, F ) est un espace
mesuré.
Définition 3.1.5. Soit (Ω, F ) un espace mesuré. Alors, µ de F dans [0; +∞] est
une mesure si et seulement si elle est σ-additive.
Définition 3.1.6. Soit (Ω, F ) un espace mesuré et soit µ une mesure de F dans
[0; +∞]. On dit que (Ω, F , µ) est un espace mesurable.
Définition 3.1.7. Si µ(Ω) < +∞, on dit que la mesure µ est finie.
Définition 3.1.8. Si µ(Ω) = 1, on dit que la mesure µ est une probabilité.
Définition
S 3.1.9. On dit que µ est σ-finie s’il existe une suite dénombrable (Ωn )
telle que n≥0 Ωn = Ω et pour tout n ∈ N, µ(Ωn ) < +∞.
1. ce qu’il est nécessaire d’ajouter puisque c’est une algèbre de Boole et pas une tribu
19
CHAPITRE 3. MESURES
20
3.2
Cas de la mesure de Lebesgue
3.2.1
Définition sur les ouverts
On veut définir une mesure λ sur (R, B(R)) qui soit telle que
λ ([a; b]) = b − a ,
où b > a.
Si on considère
Sn
k=1 [ak ; bk ],
λ
les intervalles [ak ; bk ] étant disjoints, on doit définir
!
n
n
[
X
[ak ; bk ] =
(bk − ak ) .
k=1
k=1
Si n = ∞, on doit poser :
λ
∞
[
!
[ak ; bk ]
k=1
=
∞
X
(bk − ak ) .
k=1
Or, tout ouvert s’écrit comme réunion disjointe d’intervalles donc on a défini λ
sur tous les ouverts.
Comment définir λ sur tous les boréliens ? L’extension est-elle unique ?
3.2.2
Unicité
Soient µ1 et µ2 deux mesures sur l’espace mesuré (Ω, F ).
Propriété 3.2.1. Soit P un π-système de Ω. On suppose µ1 (Ω) = µ2 (Ω) < ∞.
Alors, si µ1 et µ2 coïncident sur P, ils coïncident sur σ(P).
Cette propriété donne tout l’intérêt des π-systèmes et des λ-systèmes.
Démonstration. Soit la classe d’évènements :
D := {A ∈ σ(P) : µ1 (A) = µ2 (A)} .
On cherche à montrer D = σ(P). On sait :
— P ⊂ D.
— P est un π-système.
Il suffit alors de montrer que D est un λ-système et on conclura par le Théorème
2.3.7, page 17.
D’abord, Ω ∈ D car µ1 (Ω) = µ2 (Ω).
Soient A, B ∈ D avec A ⊂ B. On doit montrer B ∩ Ac ∈ D. Comme µ1 et µ2 sont
des mesures, on a
µ1 (B ∩ Ac ) = µ1 (B) − µ1 (A) et µ2 (B ∩ Ac ) = µ2 (B) − µ2 (A) .
3.3. THÉORÈME D’EXISTENCE DE CARATHÉODORY
21
Or, µ1 (A) = µ2 (A) et µ1 (B) = µ2 (B) donc on en déduit µ1 (B ∩ Ac ) = µ2 (B ∩ Ac )
d’où B ∩ Ac ∈ D.
Soit maintenant une suite croissante (An )n d’éléments de D. On considère la suite
(Bn ) définie par B0 := A
An ∩Acn−1 si n ≥ 1. Les évènements B0 , · · · , Bn
S0net Bn := S
sont disjoints et l’on a k=0 Ak = nk=0 Bk . On a ainsi
!
!
[
[
µ1
An = µ1
Bn .
n≥0
n≥0
Comme les évènements Bn sont disjoints :
!
[
X
µ1
An =
µ1 (Bn ) .
n≥0
n≥0
Or, les évènements Bn sont dans D donc on en déduit
!
[
X
µ1
An =
µ2 (Bn ) .
n≥0
S
n≥0
S
Puis, l’on obtient µ1 n≥0 An = µ2
a ainsi prouvé que D est un λ-système.
n≥0
S
An ce qui montre n≥0 An ∈ D. On
D’après le théorème de Dynkin, σ(P) ⊂ D donc µ1 et µ2 coïncident sur σ(P).
On peut maintenant prouver l’unicité de la mesure de Lebesgue sur [0; 1]. Pour
ce faire, on considère le π-système P défini par
P := {[α; β[ : α, β ∈ [0; 1[} .
C’est un π-système tel que σ(P) = B ([0; 1[). Et, sur P, la mesure de Lebesgue
est définie par λ([α; β[]) = β − α.
Théorème 3.2.2. Il n’y a qu’une seule mesure sur les boréliens de [0; 1[ telle que
pour tous α, β ∈ [0; 1[, λ([α; β[) = β − α.
Remarque 3.2.3. Sur [0; 1[, la mesure de Lebesgue est une probabilité.
3.3
Théorème d’existence de Carathéodory
Théorème 3.3.1 (Carathéodory). Soit µ0 une application σ-additive sur une
algèbre A. Il existe alors une mesure µ sur la tribu F engendrée par A telle que
pour tout A ∈ A, µ(A) = µ0 (A).
Si µ0 (Ω) < +∞, alors cette extension est unique 2 .
La preuve du théorème est longue et compliquée donc elle est omise. Remarquons toutefois que l’on a besoin d’utiliser des π-systèmes et des λ-systèmes.
On peut donc définir la mesure de Lebesgue sur tous les boréliens.
2. L’unicité a déjà été vue.
CHAPITRE 3. MESURES
22
3.4
Complétion
Soit (Ω, F , P) un espace probabilisé. On définit
N := A ∈ 2Ω : ∃F ∈ F , A ⊂ F et P(F ) = 0 .
N est appelé l’ensemble des négligeables. On définit F ∗ := σ (F , N ), la complétée
de F .
On étend P à F ∗ en posant pour A ∈ F ∗ : P(A) := P(E) = P(F ) où E, F ∈ F
sont tels que E ⊂ A ⊂ F et P (F ∩ E c ) = 0.
On vérifie que P ainsi étendue est une probabilité sur F ∗ .
On dit qu’une propriété P(ω) dépendant de ω ∈ Ω est vraie presque sûrement
si et seulement si N ′ := {ω ∈ Ω : P(ω) est fausse} est négligeable.
Dans le cas des boréliens, la tribu complétée de B(R) s’appelle la tribu des
Lebesguiens.
Chapitre 4
Variables aléatoires
4.1
Définitions
Dans ce chapitre, (Ω, F , P) est un espace probabilisé.
On commence par introduire la notion de mesurabilité d’une fonction. D’abord,
on rappelle ce qu’est une fonction continue.
Définition 4.1.1. Soient (Ω1 , T1 ) et (Ω2 , T2 ) deux espaces topologiques. Soit f
une application de Ω1 dans Ω2 . On dit que la fonction f est continue si l’image
réciproque de tout ouvert de (Ω2 , T2 ) est un ouvert de (Ω1 , T1 ).
En d’autres termes, pour tout O2 ∈ T2 , f −1 (O2 ) := {x1 ∈ Ω1 : f (x1 ) ∈ O2 } ∈
T1 .
La notion de mesurabilité est assez similaire à celle de continuïté.
Définition 4.1.2. Soient deux espaces mesurés (Ω1 , F1 ) et (Ω2 , F2). Soit une
application f de Ω1 dans Ω2 . On dit que f est mesurable si l’image réciproque de
tout élément de la tribu F2 est un élément de la tribu F1 .
En d’autres termes, pour tout F2 ∈ F2 , f −1 (F2 ) := {x1 ∈ Ω1 : f (x1 ) ∈ F2 } ∈ F1 .
On peut maintenant définir rigoureusement ce qu’est une variable aléatoire,
contrairement à la définition qui vous a été proposée l’année dernière.
Définition 4.1.3. Soit X une application de Ω dans Rd . On dit que X est une
variable aléatoire si et seulement si X est une application mesurable de (Ω, F )
dans (Rd , B(Rd )).
Remarque 4.1.4. On réserve parfois le nom de variable aléatoire au cas où d = 1.
Et, si d > 1, on parle de vecteur aléatoire.
Remarque 4.1.5. On étend parfois la définition à X de Ω dans R := R ∪
{−∞; +∞}, avec B(R).
Propriété 4.1.6. Si X est une application (mesurable ou non) de Ω dans R,
σ(X) := X −1 (B(R)) := X −1 (A) : A ∈ B(R)
est une tribu.
23
CHAPITRE 4. VARIABLES ALÉATOIRES
24
Exercice 4.1.7. Prouver la propriété.
Propriété 4.1.8. L’application X de (Ω, σ(X)) dans (R, B(R)) est mesurable.
D’ailleurs, σ(X) est la plus petite tribu sur Ω rendant X mesurable.
Propriété 4.1.9. X est une variable aléatoire si et seulement si σ(X) ⊂ F .
Remarque 4.1.10. Si X(ω) := (X1 (ω), · · · , Xd (ω)) est un vecteur aléatoire,
alors chacune des coordonnées Xi est une variable aléatoire, et réciproquement.
Remarque 4.1.11. Pour montrer que X de Ω dans R est une variable aléatoire,
il suffit de montrer que pour tout a ∈ R,
{X ≤ a} := {ω : X(ω) ≤ a}
est un élément de F . De façon équivalente, on peut prouver que pour tous a, b ∈ R,
{a ≤ X ≤ b}
est un élément de F ou que pour tout a ∈ R, {X < a} ∈ F .
On désigne par M l’ensemble des variables aléatoires à valeurs dans R et par
M celui des variables aléatoires à valeurs dans R.
Propriété 4.1.12. (M, +, ×, .) est une algèbre 1.
Exercice 4.1.13. Prouver la propriété rigoureusement.
Proposition 4.1.14. Soit (hn )n une suite d’éléments de M. Alors :
i) inf hn ∈ M et sup hn ∈ M.
n≥0
n≥0
ii) lim inf hn ∈ M et lim sup hn ∈ M.
n→∞
n→∞
n
o
iii) L’ensemble ω ∈ Ω : lim hn (ω) existe dans R est un élément de F .
n∞
La preuve de la proposition est admise.
4.2
Tribu générée par une collection de variables
aléatoires
Soit (Yi )i∈I une collection de variables aléatoires.
Définition 4.2.1. On appelle tribu engendrée par les (Yi )i∈I la plus petite tribu
rendant chacune des Yi mesurable.
1. et non pas une algèbre de Boole.
4.3. FONCTIONS DE RÉPARTITION, LOIS D’UNE VARIABLE ALÉATOIRE25
Cette tribu est la tribu engendrée par la classe de parties de Ω :
−1
Yi (B) : B ∈ B(R), i ∈ I .
Dans le cas d’une unique variable aléatoire X, on note σ(X) la tribu engendrée
par X.
Définition 4.2.2. Soit une fonction f de R dans R. La fonction f est borélienne
si elle est mesurable de (R, B(R)) dans (R, B(R)).
Exemple 4.2.3. Les fonctions continues positives sont boréliennes.
Exemple 4.2.4. Les fonctions continues bornées sont boréliennes.
Propriété 4.2.5. Si X est une variable aléatoire et si f est une fonction de R
dans R borélienne alors f (X) est une variable aléatoire.
Démonstration. Soit un borélien quelconque de R, B. Alors, f −1 (B) est aussi un
borélien. Puis, comme X est mesurable de (Ω, F ) dans (R, B(R)), X −1 (f −1 (A)) ∈
F ce qui montre {ω ∈ Ω : f (X(ω)) ∈ A} ∈ F . La preuve est ainsi achevée.
Théorème 4.2.6. Soit X une variable aléatoire réelle. Y est σ(X)-mesurable si
et seulement s’il existe une fonction f de R dans R borélienne telle que Y = f (X).
Ce théorème se démontre en utilisant le théorème de la classe monotone 2 .
Ce théorème se généralise au cas de n variables aléatoires.
Remarque 4.2.7. Si X1 , · · · , Xn sont n variables aléatoires alors toute variable
aléatoire σ(X1 , · · · , Xn )-mesurable s’écrit fn (X1 , · · · , Xn ) où fn est une fonction
borélienne de Rn dans R.
4.3
Fonctions de répartition, lois d’une variable
aléatoire
Définition 4.3.1. Soit X de Ω dans R une variable aléatoire. On appelle loi de
X la probabilité sur (R, B(R)) définie par
∀A ∈ B(R) ,
PX (A) := P X −1 (A) .
On dit aussi que la loi de X est la mesure image de P par X.
Propriété 4.3.2. La loi de X est une probabilité sur (R, B(R)).
2. la version fonctionnelle du théorème de Dynkin.
CHAPITRE 4. VARIABLES ALÉATOIRES
26
Démonstration. PX est bien définie sur B(R) à valeurs dans [0; 1].
PX (R) = P (X −1 (R)) = P(Ω) = 1.
Si A et B sont deux boréliens disjoints, on a
PX (A ∪ B) = P X −1 (A ∪ B)
= P X −1 (A) ∪ X −1 (B)
= P X −1 (A) + P X −1 (B)
= PX (A) + PX (B) .
On démontre de même la σ-additivité de PX .
Définition 4.3.3. On appelle fonction de répartition de X la fonction FX de R
dans R définie par
FX (x) := P(X ≤ x) = PX (] − ∞; x]) = P ({ω ∈ Ω : X(ω) ≤ x}) .
Rappel 4.3.4. Deux probabilités définies sur une même tribu qui coïncident sur
un π-système engendrant la tribu sont égales.
Propriété 4.3.5. Deux variables aléatoires ayant la même fonction de répartition
ont la même loi.
Exercice 4.3.6. Démontrer la propriété en utilisant le rappel et le théorème de
Dynkin, page 17.
Propriété 4.3.7. Soit FX la fonction de répartition d’une variable aléatoire X.
Alors :
1. FX est une fonction croissante de R dans [0; 1].
2. lim FX (x) = 1 et lim FX (x) = 0.
x→+∞
x→−∞
3. FX est continue à droite.
Démonstration. 1) Si x ≤ y, on a {X ≤ x} ⊂ {X ≤ y} ce qui implique P(X ≤
x) ≤ P(X ≤ y) d’où FX (x) ≤ FX (y).
2) Les deux limites existent car la fonction F est croissante. Donc, il suffit de
montrer que F (n) tend vers 1 et que F (−n) tend vers 0. La preuve rigoureuse
de ces deux limites reposent sur le théorème de la convergence monotone qui est
fondamental en théorie de la mesure, que l’on ne voit pas dans ce cours. On admet
donc les limites.
3) Cette dernière assertion se prouve avec le lemme de Fatou que l’on ne voit pas
dans ce cours.
On dispose de la réciproque.
Propriété 4.3.8. Soit F de R dans R satisfaisant les hypothèses de la propriété
précédente, alors il existe un espace probabilisé (Ω, F , P) et une variable aléatoire
X sur Ω telle que F = FX .
4.3. FONCTIONS DE RÉPARTITION, LOIS D’UNE VARIABLE ALÉATOIRE27
Démonstration. Soit Ω := [0; 1], F := B([0; 1]) et P := λ, la mesure de Lebesgue.
On définit la variable aléatoire X par
X(ω) := inf {z ∈ R : F (z) ≥ ω} .
Pour tout c ∈ R, l’inégalité ω ≤ F (c) est équivalente à X(ω) ≤ c. En effet :
— si ω ≤ F (c), c ∈ {z ∈ R : F (z) ≥ ω} d’où c ≥ X(ω).
— si X(ω) ≤ c, par croissance de F , on a F (z) ≥ ω pour tout z > c. Il suffit
alors de faire tendre z vers c et d’utiliser la continuïté à droite de F pour
obtenir F (c) ≥ ω.
Puis, il vient
FX (c) = P (X ≤ c) = λ (ω ≤ F (c)) = λ ([0; F (c)]) = F (c) .
Définition 4.3.9. On dit qu’une variable aléatoire X est à densité si la loi de X
est à densité c’est-à-dire qu’elle est absolument continue par rapport à la mesure
de Lebesgue. En d’autres termes, X est à densité s’il existe f ∈ L1 (R) telle que f
est positive, d’intégrale égale à 1 et telle que
Z
P(X ∈ A) =
f (x)dx
A
pour tout A ∈ B(R).
Définition 4.3.10. Si P est une probabilité sur Ω, on appelle espérance l’application linéaire de L1 (Ω, F , P) dans R qui, à toute variable aléatoire X, associe le
nombre
Z
E[X] :=
X(ω)P(dω) .
Ω
L’intégrale est, à votre niveau, à comprendre au sens des distributions. Mais
il faut garder en tête que le sens à lui donner est plus général et est fondé sur
la théorie de la mesure que l’on ne voit pas dans ce cours d’introduction aux
probabilités.
Propriété 4.3.11. Si la variable aléatoire X admet une densité
fX , alors pour
R
toute fonction borélienne g de R dans R telle que l’intégrale R fX (x) |g(x)| dx est
finie, on a
Z
E[g(X)] =
(4.1)
fX (x)g(x)dx .
R
Démonstration. L’Égalité (4.1) est vraie si g := 1A où A est un borélien quelconque de R. En effet :
Z
Z
Z
E [1A (X)] =
1A (X(ω))P(dω) = P(X ∈ A) =
fX (x)dx =
1A (x)fX (x)dx .
Ω
A
On utilise ensuite le théorème de la classe monotone.
R
28
CHAPITRE 4. VARIABLES ALÉATOIRES
Chapitre 5
Indépendance
Dans ce chapitre, (Ω, F , P) désigne un espace probabilisé.
5.1
Indépendance de familles d’évènements et de
variables aléatoires
Rappel 5.1.1. Un évènement est un élément de la tribu F .
Définition 5.1.2. On dit que deux évènements A et B sont indépendants si P(A∩
B) = P(A)P(B).
Définition 5.1.3. On dit que deux familles d’évènements C1 et C2 sont indépendantes si et seulement si tout élément de C1 est indépendant de tout élément de
C2 .
En d’autres termes, pour tout A ∈ C1 et pour tout B ∈ C2 , on a P(A ∩ B) =
P(A)P(B).
Théorème 5.1.4. Soient C1 et C2 deux π-systèmes engendrant respectivement des
tribus F1 et F2 .
Alors, C1 est indépendante de C2 si et seulement si F1 et F2 sont indépendantes.
Démonstration. Le sens ⇐ est évident.
On suppose que C1 et C2 sont indépendantes. Soit I un évènement quelconque de
C1 . On définit deux fonctions ϕ et ψ de F dans R par
ϕ(J) := P(I ∩ J) et ψ(J) := P(I)P(J) .
Ce sont des mesures sur la tribu F et elles coïncident sur le π-système C2 . De plus,
ϕ(Ω) = P(I ∩ Ω) = P(I) = P(I)P(Ω) = ψ(Ω) ,
donc les deux mesures ont même masse finie.
Conséquemment, les deux mesures coïncident sur la tribu engendrée par C2 d’après
29
CHAPITRE 5. INDÉPENDANCE
30
le théorème d’unicité du prolongement des mesures. On a ainsi montré que pour
tout I ∈ C1 , pour tout J ∈ F2 , on a P(I ∩ J) = P(I)P(J).
On définit de nouveau deux fonctions ξ et ζ par
ξ(I) := P(I ∩ J) et ζ(I) := P(I)P(J) ,
où J est un élément quelconque de F2 . Ces deux fonctions sont définies sur F1 .
Les deux fonctions sont des mesures sur F et elles coïncident sur C1 donc elles
coïncident sur F1 , ce qui achève la preuve.
Rappel 5.1.5. Soit X une variable aléatoire. On appelle tribu engendrée par
X la plus petite tribu sur Ω rendant X mesurable. On la note σ(X) et l’on a
σ(X) = {X −1 (A) : A ∈ B(R)}.
Rappel 5.1.6. Soient deux variables aléatoires X et Y . Y est σ(X)-mesurable si
et seulement s’il existe une fonction borélienne f telle que Y = f (X).
Définition 5.1.7. Soient X et Y deux variables aléatoires. On dit que X et Y
sont indépendantes si et seulement si σ(X) et σ(Y ) sont indépendantes.
Propriété 5.1.8. Soient X et Y deux variables aléatoires. Soient f et g deux
fonctions boréliennes. Alors f (X) est indépendante de g(Y ).
Démonstration. Par définition,
σ (f (X)) = f (X)−1 (A) : A ∈ B(R) = X −1 f −1 (A) : A ∈ B(R) ⊂ σ(X)
car f est borélienne. De même, σ(g(Y )) ⊂ σ(Y ). On en déduit l’indépendance de
σ(f (X)) et σ(g(Y )).
Exemple 5.1.9. Soient X et Y deux vecteurs aléatoires indépendants avec
X = (X1 , · · · , Xk )
et Y = (Y1 , · · · , Yp ) .
Alors pour tout i ∈ [[1; k]] et pour tout j ∈ [[1; p]], Xi et Yj sont indépendantes.
Toute marginale de X est indépendante de toute marginale de Y .
Propriété 5.1.10. Soient X1 et X2 deux variables aléatoires. Les assertions suivantes sont équivalentes :
i) X1 et X2 sont indépendantes.
ii) Pour toutes les fonctions boréliennes positives f1 , f2 , on a E [f1 (X1 )f2 (X2 )] =
E [f1 (X1 )] E [f2 (X2 )].
iii) Pour toutes les fonctions boréliennes bornées f1 , f2 , on a E [f1 (X1 )f2 (X2 )] =
E [f1 (X1 )] E [f2 (X2 )].
La preuve est omise. En effet, pour la faire, il faut utiliser un résultat fondamental de la construction de l’intégrale de Lebesgue, ce que l’on ne fait pas dans
ce cours.
5.2. CRITÈRES D’INDÉPENDANCE
5.2
5.2.1
31
Critères d’indépendance
En terme de fonctions de répartition
Rappel 5.2.1. Soit X une variable aléatoire réelle. La fonction de répartition de
X est
FX (x) := P(X ≤ x) .
Rappel 5.2.2. Soit X une variable aléatoire. La loi de X est la mesure image de
P par X. Elle est définie par : pour tout A ∈ B(Rd ), PX (A) := P(X −1 (A)).
Rappel 5.2.3. Dans le cas où d = 1, on a vu que la loi de X est entièrement
caractérisée par la fonction de répartition FX .
On regarde maintenant le cas où d > 1. La fonction de répartition associée à
X = (X1 , · · · , Xd ) est la fonction de Rd dans [0; 1] et définie par
FX (x1 , · · · , xd ) := P (X1 ≤ x1 , X2 ≤ x2 , · · · , Xd ≤ xd ) .
Comme dans le cas uni-dimensionnel, la fonction de répartition caractérise
entièrement la loi de X.
Remarque 5.2.4. On évite d’utiliser la fonction de répartition dans le cas de la
dimension d > 1 car elle est moins facile à manipuler.
Propriété 5.2.5. Soient X1 et X2 deux variables aléatoires. Alors X1 et X2 sont
indépendantes si et seulement si
F(X1 ,X2 ) = FX1 ⊗ FX2 ,
c’est-à-dire si
F(X1 ,X2 ) (x1 , x2 ) = FX1 (x1 ) × FX2 (x2 )
pour tous x1 , x2 .
Exercice 5.2.6. Démontrer la propriété.
5.2.2
En terme de densité
Propriété 5.2.7. Soient deux variables aléatoires X1 et X2 indépendantes et qui
admettent des densités respectives f1 et f2 . Alors (X1 , X2 ) admet une densité qui
est f1 ⊗ f2 définie par f1 ⊗ f2 (x1 , x2 ) = f1 (x1 )f2 (x2 ).
CHAPITRE 5. INDÉPENDANCE
32
Démonstration. Soient deux boréliens A1 , A2 . On a
P(X1 ,X2 ) (A1 × A2 ) = P ((X1 , X2 ) ∈ A1 × A2 )
= P (X1 ∈ A1 , X2 ∈ A2 )
= P (X1 ∈ A1 ) P (X2 ∈ A2 )
= PX1 (A1 ) × PX2 (A2 )
Z
Z
f2 (x2 )dx2
f1 (x1 )dx1
=
A2
A1
ZZ
f1 (x1 )f2 (x2 )dx1 dx2
=
A1 ×A2
ZZ
f1 ⊗ f2 (x1 , x2 )dx1 dx2 .
=
A1 ×A2
Or, la classe d’évènements
A1 × A2 : A1 ∈ B(Rd1 ), A2 ∈ B(Rd2 )
est un π-système Rqui engendre B(Rd1 +d2 ). Comme les deux mesures de probabilité
P(X1 ,X2 ) et A 7→ A f1 ⊗ f2 (x1 , x2 )dx1 dx2 coïncident sur ce π-système, elles sont
égales sur B Rd1 +d2 , ce qui achève la preuve.
On dispose de la réciproque.
Propriété 5.2.8. Soient deux variables aléatoires X1 et X2 . On suppose que
(X1 , X2 ) admet une densité f qui s’écrit f = f1 ⊗ f2 où f1 et f2 sont positives et
intégrables.
Alors, X1 et X2 sont indépendantes et à une constante multiplicative près, X1
admet une densité f1 et X2 admet une densité f2 .
Exercice 5.2.9. Démontrer la propriété.
Propriété 5.2.10. Soient deux variables aléatoires réelles indépendantes X1 et
X2 . On les suppose intégrables. Alors E[X1 X2 ] = E[X1 ]E[X2 ].
Démonstration. Comme X1 et X2 sont indépendantes, pour toutes les fonctions
boréliennes positives f1 et f2 , on a E [f1 (X1 )f2 (X2 )] = E [f1 (X1 )] E [f2 (X2 )]. On
prend f1 (x) := |x| et f2 (x) := |x|. On en déduit l’intégrabilité de X1 X2 .
Si les variables aléatoires X1 et X2 sont positives, la preuve est achevée en prenant
f1 (x) := x1x≥0 =: f2 (x).
Si X1 et X2 sont de signes quelconques, on utilise les décompositions X1 =
X1+ − X1− et X2 = X2+ − X2− . Comme E[|X1 |] < ∞, E[X1+ ] < ∞ et E[X1− ] < ∞.
En effet, on a 0 ≤ X1+ ≤ |X1 | et 0 ≤ X1− ≤ |X1 |. De même, on a E[X2+ ] < ∞ et
E[X2− ] < ∞.
D’après ce qui précède, on a E X1± X2± = E[X1± ]E[X2± ]. Par linéarité de l’espérance, il vient E[X1 X2 ] = E[X1 ]E[X2 ].
5.3. INDÉPENDANCE GÉNÉRALISÉE
5.3
33
Indépendance généralisée
Définition 5.3.1. (Ai )i∈I est une famille d’évènements indépendants si et seulement si pour tout J ⊂ I avec J finie, on a
!
\
Y
P
Ai =
P(Ai ) .
i∈J
i∈J
Remarque 5.3.2. Avec #I = 2, on retrouve la définition de l’indépendance de
deux évènements.
Définition 5.3.3. Soit (Ai )i∈I une famille de familles d’évènements c’est-à-dire
que Ai est une famille d’évènements pour tout i ∈ I. On dit que les (Ai )i∈I sont
indépendantes si et seulement si pour tout choix de Ai ∈ Ai , (Ai )i∈I est une famille
d’évènements indépendants.
T
En d’autres termes, pour tout J ⊂ I finie, pour tout Aj ∈ Aj , P
A
=
j
j∈J
Q
j∈J P(Aj ).
Définition 5.3.4. On dit que (Xi )i∈I est une famille de variables aléatoires indépendantes si et seulement si la famille de tribus (σ(Xi ))i∈I est indépendante.
En pratique, si (Xn )n∈N est une famille de variables aléatoires, on veut montrer
que les variables sont indépendantes. Pour ce faire, on doit vérifier que pour tout
p ∈ N∗ , pour tout (k1 , · · · , kp ) ∈ Np avec ki 6= kj si i 6= j, pour tout (A1 , · · · , Ap )
boréliens, on a
P Xk1 ∈ A1 , · · · , Xkp ∈ Ap = P(Xk1 ∈ A1 ) × · · · × P(Xkp ∈ Ap ) .
Il est toutefois suffisant de le montrer pour des boréliens de la forme ] − ∞; a].
Théorème 5.3.5 (Théorème de coalition). Soit (Ci )i∈I une famille de π-systèmes
indépendants. Soit (Ij )j∈J une partition de I. Pour tout j ∈ J, on pose


[
Gj := σ 
Ci  .
i∈Ij
Alors, les (Gj )j∈J sont indépendantes.
En d’autres termes, l’indépendance se conserve par regroupement disjoints.
En pratique, on se donne une famille (Xn )n∈N de variables aléatoires indépendantes c’est-à-dire que la famille de tribus (σ(Xn ))n∈N est indépendante. Alors :
X1 est indépendante de (X2 , · · · , ) .
De même,
(X2 , X4 , · · · , X2n , · · · ) est indépendante de (X1 , X3 , · · · , X2n+1 , · · · ) .
P
P
X2k
Exemple 5.3.6. nk=1 Xk2 est indépendante de ∞
k=n 2k .
CHAPITRE 5. INDÉPENDANCE
34
5.4
Indépendances et évènements asymptotiques
Dans cette section, on va présenter trois résultats essentiels. Le premier est la
loi du 0 − 1. Puis, l’on présentera les deux lemmes de Borel-Cantelli.
Définition 5.4.1. Soit (Fn )n une suite de tribus sur Ω. On appelle tribu asymptotique associée aux (Fn )n la tribu notée F∞ définie par
!
\
[
Fk .
F∞ :=
σ
n∈N
k≥n
Définition 5.4.2. Une variable F∞ -mesurable est dite asymptotique.
Définition 5.4.3. Si (Xn )n est une suite de variables aléatoires, la tribu asymptotique F∞ associée aux (Xn )n est la tribu asymptotique associée aux Fn = σ(Xn ).
Exemple 5.4.4. lim sup Xn est une variable aléatoire F∞ -mesurable. De même,
lim inf Xn est une variable aléatoire F∞ -mesurable.
{ω ∈ Ω : lim Xn (ω) existe} ∈ F∞ .
Démonstration. Soit β ∈ R. On a :
{lim sup Xn > β} =
lim sup Xk > β
n∞ k≥n
\
sup Xk > β
=
k≥n
n∈N
car la suite supk≥n Xk
n
est décroissante. D’où :
{lim sup Xn > β} =
\ [
n∈N k≥n
|
{Xk > β} ∈ F∞ .
}
∈σ( k≥n σ(Xk ))
S
{z
On présente maintenant la loi du 0 − 1, aussi appelée loi du tout ou rien.
Théorème 5.4.5 (loi du tout ou rien). Si les tribus (Fn )n sont indépendantes
alors F∞ est triviale c’est-à-dire que pour tout A ∈ F∞ , P(A) = 0 ou P(A) = 1.
Démonstration. Pour ce faire, on va montrer que F∞ est indépendante d’ellemême. Si on prouve cette assertion, il vient que tout évènement de F∞ est indépendant de lui-même d’où
P(A) = P(A ∩ A) = P(A) × P(A) ,
ce qui démontre P(A) = 0 ou P(A) = 1.
5.4. INDÉPENDANCES ET ÉVÈNEMENTS ASYMPTOTIQUES
35
Prouvons maintenant que F∞ est indépendante
d’elle-même.
Pour tout p < n,
S
on a l’indépendance des tribus Fp et σ k≥n Fk en utilisant le théorème des
coallitions. Conséquemment,
F∞ =
\
σ
n∈N
[
Fk
k≥n
!
est indépendante de Fp pour tout
p < n, pour tout
S n. Ainsi,
F∞ est indépendante
S
S
de p∈N Fp donc de σ
p∈N Fp . Or, F∞ ⊂ σ
p∈N Fp .
Par conséquent, F∞ est indépendante de F∞ .
Corollaire 5.4.6. D’après la loi du tout ou rien, si (An )n est une suite d’évènements indépendants, on obtient P (lim sup An ) ∈ {0; 1}.
Lemme 5.4.7
(Lemme de Borel-Cantelli 1 1 ). Si (An ) est une suite d’évènements
P
telle que n∈N P(An ) < ∞ alors P (lim sup An ) = 0.
Démonstration. Par définition de la limite supérieure,






 \  [ 



Ak 
P (lim sup An ) = P 
 ≤ P(Bn )

n∈N k≥n 
| {z }
=:Bn
pour tout n ∈ N. Or, on a
P(Bn ) ≤
X
P(Ak ) −→ 0 .
k≥n
On en déduit P (lim sup An ) = 0.
Lemme 5.4.8 (Lemme de Borel-Cantelli
2 2 ). Soit (An )n une suite d’évènements
X
P(An ) = +∞. Alors :
indépendants. On suppose :
n∈N
P (lim sup An ) = 1 .
Démonstration. Pour ce faire, on va prouver que le complémentaire de la limite
1. sans indépendance.
2. avec indépendance.
CHAPITRE 5. INDÉPENDANCE
36
supérieure est de probabilité égale à 0. Par définition :
\ [
P ((lim sup An )c ) = P
Ak
n∈N k≥n
[ \
=P
Ack
n∈N k≥n
!
!c !
= P (lim inf Acn )
!
\
Ack
= lim P
n∞
k≥n
en utilisant le T
théorème de convergence monotone et la croissance de la suite
c
d’évènements
k≥n Ak n .
Or, à n fixé, on a
P
\
Ack
k≥n
car la suite d’évènements
T
!
\
= lim P
c
p≥k≥n Ak
p∞
p
p≥k≥n
Ack
!
est décroissante.
Or, les évènements Ak sont indépendants donc il en est de même pour les complémentaires. Il vient :
!
p
p
Y
Y
\
c
c
(1 − P(Ak )) .
P(Ak ) =
P
Ak =
Ensuite :
"
− log P
k=n
k=n
p≥k≥n
\
Ack
p≥k≥n
!#
=−
p
X
log (1 − P(Ak )) .
k=n
Comme − log(1 − x) ≥ x pour tout x ∈ [0; 1], il s’ensuit
!#
"
p
X
\
c
P(Ak ) −→ +∞ .
≥
− log P
Ak
k=n
p≥k≥n
Conséquemment, P
T
c
A
p≥k≥n k tend vers 0 quand p tend vers l’infini d’où
P
\
k≥n
Ack
!
= 0.
La limite de cette quantité est 0 quand n tend vers l’infini. On a ainsi terminé la
preuve du lemme.
5.5. RAPPELS SUR LA PROBABILITÉ CONDITIONNELLE
5.5
5.5.1
37
Rappels sur la probabilité conditionnelle
Notion de probabilité conditionnelle
Soient A et B deux évènements. On suppose P(A) 6= 0.
La probabilité conditionnelle de B par rapport à l’évènement A est la probabilité
que B soit réalisé lorsque l’on sait que A est réalisé.
Notation 5.5.1. La probabilité conditionnelle de B en sachant A est notée PA (B)
ou P (B | A). On préfèrera la seconde notation.
Exemple 5.5.2. On jette un dé. Soient les évènements A :=“on obtient une
face paire” et B :=“on obtient une face supérieure ou égale à trois”. L’univers
Ω = {ω1 , ω2, ω3 , ω4 , ω5 , ω6 } est muni de l’équiprobabilité. Ici, A = {ω2 , ω4 , ω6 } d’où
P(A) = 36 = 21 . Et, B = {ω3 , ω4 , ω5 , ω6 } d’où P(B) = 46 = 23 . Puis, A∩B = {ω4 , ω6 }
d’où P(A ∩ B) = 62 = 13 .
On jette le dé. Supposons que l’on sache que l’on a obtenu une face paire. (Pour
ce faire, il suffit de relancer le dé jusqu’à ce que la face obtenue soit paire.) Quelle
est la probabilité qu’on obtienne une face supérieure ou égale à trois ? Dans notre
exemple, l’univers est A et la probabilité que B soit réalisé est donc la probabilité
que A ∩ B soit réalisé pour l’univers A muni de l’équiprobabilité associée PA avec
PA (ω2 ) = PA (ω4 ) = PA (ω6 ) = 31 . Il vient ainsi PA (A ∩ B) = #A∩B
= 32 = P(A∩B)
.
#A
P(A)
Conséquemment, on a P (B | A) =
5.5.2
P(A∩B)
.
P(A)
Définition
Soit A un évènement de probabilité P(A) non nulle. On définit l’application
P (. | A) qui, à tout évènement B fait correspondre le nombre
P (B | A) :=
P (A ∩ B)
.
P(A)
On commence par établir le résultat suivant :
Théorème 5.5.3. P (. | A) est une probabilité sur Ω.
Démonstration. On vérifie les trois axiomes.
Axiome 1. Pour tout évènement B, on a P (B | A) ∈ [0; 1].
En effet, P est une probabilité donc P(A ∩ B) ≥ 0. Or, P(A) > 0 par hypothèse.
Alors, on a P(A∩B)
≥ 0. Puis, comme A ∩ B ⊂ A, on a P(A ∩ B) ≤ P(A). Ainsi, il
P(A)
vient 0 ≤ P (B | A) =
P(A∩B)
P(A)
≤ 1.
Axiome 2. P (Ω | A) = 1.
En effet, on a
P (Ω | A) =
P(A)
P (Ω ∩ A)
=
= 1.
P(A)
P(A)
CHAPITRE 5. INDÉPENDANCE
38
Axiome
)k une suite d’évènements deux à deux incompatibles. Alors
Pk∞
S∞ 3. Soit (B
P ( k=1 Bk | A) = k=1 P (Bk | A).
En effet, on a
!
∞
∞
[
[
A∩
Bk =
(A ∩ Bk ) ,
k=1
k=1
par distributivité de l’intersection par rapport à la réunion. Puis, comme les évènements A ∩ Bk sont deux à deux incompatibles, l’axiome des probabilités totales
vérifié par P implique
!!
∞
∞
X
[
P (A ∩ Bk ) .
Bk
=
P A∩
k=1
k=1
Par conséquent, on a
! P
∞
∞
X
k=1 P (A ∩ Bk )
Bk A =
P
P (Bk | A) ,
=
P(A)
k=1
k=1
∞
[
ce qui achève la preuve.
Remarque 5.5.4. Tous les résultats portant sur les probabilités peuvent donc
s’appliquer à la probabilité P (. | A).
Remarque 5.5.5 (ATTENTION). On définit une probabilité conditionnelle mais
en aucun cas on ne définit des évènements conditionnels. En effet, on ne considère
que des éléments de la tribu.
Théorème 5.5.6 (Théorème des probabilités composées). Soient deux évènements A et B de probabilités non nulles. Alors, on a
P (A ∩ B) = P (B | A) P(A) = P (A | B) P(B) .
Démonstration. Par définition,
P (B | A) =
P (A ∩ B)
,
P(A)
d’où P (A ∩ B) = P (B | A) P(A). On a de même P (A ∩ B) = P (A | B) P(B).
5.5.3
Théorème de Bayes (ou de la probabilité des causes)
Soit (A1 , · · · , An ) un système complet d’évènements de Ω. Soit B un évènement
de Ω de probabilité non nulle. On suppose que l’on connaît P(A1 ), · · · , P(An )
ainsi que P(B | A1 ), · · · , P(B | An ). On cherche à calculer P(Ak | B) pour tout
1 ≤ k ≤ n. Pour cela, on utilise le théorème des probabilités composées (Théorème
5.5.6) :
P(B ∩ Ak )
P(Ak | B) =
.
P(B)
5.5. RAPPELS SUR LA PROBABILITÉ CONDITIONNELLE
39
Or, (A1 , · · · , An ) est un système complet d’évènements de Ω. Ainsi, il vient
P(B) =
n
X
P (B ∩ Ak ) .
k=1
On utilise à nouveau le théorème des probabilités composées (Théorème 5.5.6) et
l’on a alors
P(Ak | B) =
P (B | Ak ) P(Ak )
.
P (B | A1 ) P(A1 ) + · · · + P (B | An ) P(An )
Théorème 5.5.7 (Théorème de Bayes). Soit (A1 , · · · , An ) un système complet
d’évènements de Ω. Soit B un évènement de Ω de probabilité non nulle. Alors :
P (B | Ai ) P(Ai )
P(Ai | B) = Pn
.
j=1 P (B | Aj ) P(Aj )
On a notamment le cas particulier avec (A, Ac ). Alors :
P(A | B) =
P (B | A) P(A)
.
P (B | A) P(A) + P (B | Ac ) P(Ac )
Exercice 5.5.8. Une machine fabrique des composants électroniques. Une proportion R = 5% de ces composants est hors des tolérances. L’entreprise peut repérer
les composants défectueux par un test. On suppose que si le composant est hors
des tolérances alors le test est positif dans 95% des cas (sensibilité du test). Si le
composant n’est pas défectueux, on suppose que le test est négatif dans 90% des
cas (spécificité du test).
On suppose que tous les composants sont testés et que les composants testés positifs sont jetés. Quelle proportion de composants est jetée ? Parmi les composants
jetés, quelle est la proportion de composants effectivement hors des tolérances ?
On suppose maintenant que l’on fait deux tests (indépendamment) et l’on jette les
composants testés positifs deux fois. Quelle proportion de composants est jetée ?
Parmi les composants jetés, quelle est la proportion de composants effectivement
hors des tolérances ?
Réponses : 14.25% des composants sont jetés si l’on procède à un unique test
et seulement un tiers de ces composants est effectivement hors des tolérances. En
procédant à deux tests indépendants, on ne jette que 5.4625% des composants et
environ 82.6% des composants jetés sont effectivement hors des tolérances.
40
CHAPITRE 5. INDÉPENDANCE
Chapitre 6
Espérance conditionnelle
Jusqu’à maintenant, les outils mathématiques que nous avons utilisés (mesures, convolutions, transformées de Fourier...) ne sont pas propres au calcul des
probabilités mais sont des concepts centraux en mathématiques et sont présents
dans beaucoup de domaines qui utilisent l’analyse fonctionnelle.
Dans ce chapitre, nous allons introduire le concept d’espérance conditionnelle
qui est un outil typiquement probabiliste et fondamental en probabilités.
Sa particularité est d’être une notion assez difficile à se représenter de façon
palpable dans le cas général tout en étant aussi facile à manier que l’espérance.
L’idée est la suivante. On considère une suite de variables aléatoires non indépendantes (Xn )n . Comment la connaissance de l’issue de X3 modifie-t-elle l’issue
de (X7 , X10 ) ?
6.1
Cas simple
On se donne deux variables aléatoires discrètes X et Y . On considère PX et
PY les lois de probabilités de X et Y . En d’autres termes, PX (x) := P(X = x) et
PY (y) := P(Y = y). La probabilité jointe est
P(X,Y ) (x, y) = P (X = x, Y = y) .
En supposant que l’on ait P(Y = y) > 0, le calcul nous donne
P(X = x | Y = y) = P (X = x en sachant que Y = y)
P (X = x, Y = y)
=
P(Y = y)
=: PX| Y (x | y) .
Pour tout y tel que P(Y = y) > 0, on a l’égalité
X
PX| Y (x | y) = 1 .
x
41
CHAPITRE 6. ESPÉRANCE CONDITIONNELLE
42
Ainsi, l’application x 7→ PX| Y (x | y) est une probabilité. On peut alors définir
l’espérance conditionnelle par rapport à l’évènement {Y = y} :
X
E [X | Y = y] :=
x × PX| Y (x | y) =: ψ(y) .
x
Conséquemment,
E [X | Y ] (ω) := ψ (Y (ω))
est une variable aléatoire.
Remarque 6.1.1. On peut faire une observation fondamentale : la variable aléatoire E [X | Y ] est plus grossière que X.
Démonstration. Soit (Ω, F , P) l’espace probabilisé sous-jacent. Alors, X est mesurable par rapport à F . Or, E [X | Y ] est mesurable par rapport à σ(Y ) puisque
E [X | Y ] contient au plus l’information qu’il y a dans Y .
On peut définir aussi, toujours dans le cas discret, E [X | G] où G est une
σ-algèbre de la forme
G = σ (Ei , i ∈ I)
avec #I ≤ #N S
et où les Ei forment une partition de Ω. En d’autres termes, on a
Ei ∩ Ej = ∅ et i∈I Ei = Ω. On définit alors, pour tout borélien B :
P (X ∈ B | G) (ω) := P X ∈ B | Ej(ω)
où j(ω) est tel que ω ∈ Ej(ω) . En pratique :
P {X ∈ B} ∩ Ej(ω)
.
P (X ∈ B | G) (ω) =
P Ej(ω)
On peut alors définir, si X est intégrable, la variable aléatoire
X P {X = x} ∩ Ej(ω)
ω→
7 E [X | G] (ω) :=
x
P
E
j(ω)
x
Remarque 6.1.2. La variable aléatoire E [X | G] est mesurable par rapport à G.
Exercice 6.1.3. Prouver la remarque.
Remarque 6.1.4. Pour tout G ∈ G, on dispose de l’égalité
E {E [X | G] G} = E {XG} .
On considère à nouveau deux variables aléatoires X et Y qui ne sont pas
indépendantes. Si on connaît X(ω), on a de l’information sur ω et la loi de Y
va être influencée. L’information donnée par X est en fait dans σ(X), la tribu
engendrée par X.
6.2. CAS GÉNÉRAL
6.2
43
Cas général
On se donne un espace probabilisé F et une variable aléatoire X qui est intégrable.
Théorème 6.2.1. Soit G une sous-tribu de F . Il existe une variable aléatoire Y
telle que
1. Y est mesurable par rapport à G.
2. Y est intégrable.
3. Pour tout G ∈ G, on a l’égalité E[Y G] = E[XG].
e
De plus, si
Y est une variable aléatoire qui satisfait les trois assertions, alors
P Y = Ye = 1.
Définition 6.2.2. On pose
E [X | G] (ω) := Y (ω) .
Cette quantité est appelée l’espérance conditionnelle de X sachant G.
Remarque 6.2.3. Il s’agit plutôt d’une classe d’équivalence.
Remarque 6.2.4. Dans 3), on peut plutôt mettre pour tout G ∈ Π où Π est un
π-système de Ω engendrant G.
Définition 6.2.5. Soient X1 et X2 deux variables aléatoires. On pose
E [X1 | X2 ] (ω) = E [X1 | σ(X2 )] (ω) .
On va maintenant démontrer le théorème.
Démonstration. On commence par démontrer l’unicité. Soient Y et Ye deux variables aléatoires qui vérifient les trois assertions. On considère
E Y − Ye = E Y − Ye 1{Y −Ye >0} + E Ye − Y 1{Y −Ye <0} .
On regarde le premier terme.


e
E Y − Y 1{Y −Ye >0} = E 
Y 1






 − E Ye 1

 {Y − Ye > 0} 
{Y − Ye > 0} 
|
|
{z
}
{z
}
∈G
∈G
= E X1{Y −Ye >0} − E X1{Y −Ye >0}
= 0.
On trouve de même E Ye − Y 1{Y −Ye <0} = 0. Conséquemment, Y et Ye sont
égales presque sûrement.
CHAPITRE 6. ESPÉRANCE CONDITIONNELLE
44
On démontre maintenant l’existence d’une telle variable aléatoire. On commence
par le cas où X est dans L2 (Ω, F , P) =: L2 . On introduit L2G := L2 (Ω, G, P). C’est
un sous-ensemble fermé complet de L2 .
On effectue la projection orthogonale de X dans L2G . Il existe une unique fonction
dans L2G telle que
||X − Y ||2 = inf ||X − W ||2 : W ∈ L2G
et telle que X − Y soit orthogonale à tout élément de L2G ce qui achève de prouver
l’existence de l’espérance conditionnelle de X par rapport à G.
On regarde à présent le cas général, lorsque X est dans L1 . On remarque L2 ⊂ L1 .
On suppose d’abord que X est positive. On pose alors
Xn (ω) := min {X(ω); n} .
On note Xn ∈ L∞ ⊂ L2 . Il existe donc Yn dans L2G satisfaisant les trois assertions.
On note que la suite (Xn )n est croissante et tend vers X, pour tout ω ∈ Ω.
On suppose maintenant que la suite (Yn )n est croissante et positive. On pose
Y (ω) := lim sup Yn (ω) .
n∞
Pour tout G ∈ G, on a E[Yn 1G ] = E[Xn 1G ]. Le théorème de convergence monotone
nous donne E[Y 1G ] = E[X1G ].
Il faut maintenant montrer que l’espérance conditionnelle d’une variable aléatoire
U positive et dans L2 est positive presque sûrement. On a
E[Y 1G ] = E[X1G ] ≥ 0
car X est positive. On prend G := {ω : Y (ω) < 0}. Il vient E Y 1{Y <0} ≥ 0
ce qui achève de montrer que l’espérance conditionnelle d’une variable aléatoire
positive et dans L2 est positive. On obtient aussi la croissance de l’espérance conditionnelle.
On a alors fini de prouver l’existence de l’espérance conditionnelle pour une variable aléatoire positive dans L1 . On ne suppose maintenant plus que X est positive. On utilise la décomposition X = X + − X − .
6.3
Propriétés
On va maintenant donner les propriétés essentielles de l’espérance conditionnelle.
On se donne X une variable aléatoire dans L1 et (Xn )n une suite de variables
aléatoires dans L1 . On se donne G une sous-tribu de F et H une sous-tribu de G.
Propriété 6.3.1. On pose Y := E [X | G]. Alors, E[Y ] = E[X].
6.3. PROPRIÉTÉS
45
Démonstration. Il suffit de prendre G = Ω.
Propriété 6.3.2. On suppose que X est mesurable par rapport à G alors
E [X | G] = X
presque sûrement.
Démonstration. Il suffit de vérifier que X satisfait les trois conditions.
Propriété 6.3.3. Soient a1 , a2 ∈ R. Alors,
E [a1 X1 + a2 X2 | G] = a1 E [X1 | G] + a2 E [X2 | G]
presque sûrement.
Démonstration. On utilise pour ça la linéarité de l’espérance. Il suffit alors de
vérifier les trois assertions pour a1 E [X1 | G] + a2 E [X2 | G].
Propriété 6.3.4. Supposons que X est positive. Alors E [X | G] est positive
presque sûrement.
Propriété 6.3.5 (Convergence monotone). On suppose que la suite (Xn )n est
croissante et positive et converge vers X ∈ L1 . Alors E [Xn | G] converge vers
E [X | G].
Démonstration. D’après la positivité d’une variable aléatoire positive, on a
E [Xn+1 | G] ≥ E [Xn | G]
presque sûrement.
Ainsi, il existe Gn ⊂ Ω avec P(Gn ) = 1 telle
T que E [Xn+1 | G] (ω) ≥ E [Xn | G] (ω)
pour tout ω ∈ Gn . On considère G∞ := Gn . La probabilité de G∞ est égale à
1. Et, pour tout ω ∈ G∞ , on a la croissance de la suite (E [Xn | G] (ω))n , ce qui
achève la preuve.
Propriété 6.3.6 (Fatou). On suppose que la suite (Xn )n ne contient que des
variables aléatoires positives. Alors :
E {lim inf Xn | G} ≤ lim inf E [Xn | G]
presque sûrement.
Démonstration. On rapelle lim inf Xn = lim inf Xn . Conséquemment, on a
k∞ n≥k



E {lim inf Xn | G} = E lim
 k∞



inf Xn
.
n≥k

| {z }
cette suite est croissante et positive
CHAPITRE 6. ESPÉRANCE CONDITIONNELLE
46
La convergence monotone implique l’égalité presque sûre :
E {lim inf Xn | G} = lim E inf Xn | G .
k∞
n≥k
Or, E inf Xn | G ≤ E [Xn | G] pour tout n ≥ k d’où
n≥k
E {lim inf Xn | G} ≤ lim inf E [Xn | G] = lim inf E [Xn | G] ,
k∞ n≥k
n∞
ce qui achève la preuve.
Propriété 6.3.7 (Convergence dominée). On suppose la convergence presque sûre
de la suite (Xn )n vers X et l’inégalité presque sûre :
|Xn (ω)| ≤ W (ω)
pour tout n ∈ N, où W ∈ L1 . Alors, on a la convergence presque sûre de E [Xn | G]
vers E [X | G].
Exercice 6.3.8. Démontrer la propriété.
Propriété 6.3.9 (Jensen). Soit ψ une fonction convexe de R dans R telle que
ψ(X) ∈ L1 . Alors,
E [ψ(X) | G] ≥ ψ (E [X | G])
presque sûrement.
On admet la propriété.
Propriété 6.3.10 (Propriété de tour). On rappelle que H est une sous-tribu de
G. Alors :
E [E [X | G] | H] = E [X | H] .
presque sûrement.
Démonstration. On pose Y := E [X | H]. Par définition, Y est mesurable par
rapport à H et est dans L1 . Puis, pour tout H ∈ H, on a
E [Y 1H ] = E [E [X | H] 1H ] = E [X1H ] .
Or, H ∈ H ⊂ G donc, on a aussi
E [X1H ] = E [E [X | G] 1H ]
ce qui achève de démontrer
E [E [X | H] 1H ] = E [E [X | G] 1H ]
pour tout H ∈ H.
6.3. PROPRIÉTÉS
47
Propriété 6.3.11. Soit Z une variable aléatoire bornée et mesurable par rapport
à G. On a alors
E {ZX | G} = ZE {X | G} .
Démonstration. Il suffit de vérifier les hypothèses.
Propriété 6.3.12. On suppose que H est une tribu indépendante de σ (σ(X), G).
Alors :
E {X | σ (H, G)} = E [X | G] .
La preuve est omise.
En particulier, si H est indépendante de X et si G est la tribu triviale {∅, Ω},
on a
E [X | H] = E[X] .
En d’autres termes, comme H est indépendante de X, la connaissance de H ne
nous donne aucune information sur X.
48
CHAPITRE 6. ESPÉRANCE CONDITIONNELLE
Chapitre 7
Martingales
7.1
Filtration
Définition 7.1.1. Un processus stochastique est une collection de variables aléatoires.
Pour aborder la notion de martingale, il faut d’abord aborder celle, abstraite,
de filtration. Intuitivement, plus le temps passe, plus on a de connaissances. Ainsi,
au début du tour de France, bien qu’il y ait des favoris, on ne peut pas prévoir
exactement et à coup sûr qui sera le grand vainqueur. Des chutes ou des défaillances peuvent toujours se produire. En revanche, la veille de la dernière étape,
on dispose d’une idée très claire de qui va gagner.
De manière plus rigoureuse, on dispose d’une suite de tribus de moins en moins
grossières.
Définition 7.1.2. La suite (Fn )n est une filtration de l’espace probabilisé (Ω, F , P)
si pour tout n ∈ N, Fn est une sous-tribu de F et si Fn est une sous-tribu de Fn+1 .
S
Définition 7.1.3. On introduit la tribu F∞ := σ n∈N Fn .
La tribu “finale” F∞ est une sous-tribu de F .
Définition 7.1.4. On dit que (Ω, F , (Fn )n , P) est un espace filtré.
On dispose d’une filtration naturelle associée aux suites de variables aléatoires.
Définition 7.1.5. Soit (Xn )n une suite de variables aléatoires. La filtration naturelle de X := (Xn )n est définie par
Fn := σ (X0 , · · · , Xn ) .
La tribu Fn contient toute l’histoire de X jusqu’au temps n.
Définition 7.1.6. On dit que X := (Xn ) est adapté à la filtration (Fn )n si Xj
est mesurable par rapport à Fn pour tout n, pour tout j ∈ [[0; n]].
49
CHAPITRE 7. MARTINGALES
50
Propriété 7.1.7. X est adapté à la filtration (Fn )n si et seulement si Xn est
mesurable par rapport à Fn pour tout n.
Exercice 7.1.8. Prouver la propriété.
Propriété 7.1.9. Soit (Fn )n la filtration naturelle de X := (Xn )n . Les trois
assertions suivantes sont équivalentes :
— Le processus stochastique Y := (Yn )n est adapté à la filtration (Fn )n
— Yn est mesurable par rapport à σ (X0 , · · · , Xn ) pour tout n.
— Il existe une fonction mesurable f telle que Yn = f (X0 , · · · , Xn ).
Exercice 7.1.10. Démontrer la propriété.
7.2
Surmartingales et sous-martingales
Définition 7.2.1. On dit que le processus stochastique X := (Xn )n est une surmartingale par rapport à la filtration (Fn )n si
i) X est adapté à la filtration (Fn )n .
ii) Xn ∈ L1 pour tout n.
iii) Pour tout n, on a E[Xn | Fn−1 ] ≤ Xn−1 pour tout n ≥ 1.
Remarque 7.2.2. En Anglais, on parle de “super-martingale”.
Définition 7.2.3. On dit que le processus stochastique X := (Xn )n est une sousmartingale par rapport à la filtration (Fn )n si
i) X est adapté à la filtration (Fn )n .
ii) Xn ∈ L1 pour tout n.
iii) Pour tout n, on a E[Xn | Fn−1 ] ≥ Xn−1 pour tout n ≥ 1.
Remarque 7.2.4. En Anglais, on parle de “submartingale”.
Définition 7.2.5. X est une martingale si c’est une surmartingale et une sousmartingale. En d’autres termes, X est une martingale si et seulement si
i) X est adapté à la filtration (Fn )n .
ii) Xn ∈ L1 pour tout n.
iii) Pour tout n, on a E[Xn | Fn−1 ] = Xn−1 pour tout n ≥ 1.
Ces processus proviennent des jeux de hasard.
Exemple 7.2.6. Soit X := (Xn )n une suite de variables aléatoires indépendantes,
P
dans L1 et telles que E[Xk ] = 0 pour tout k. On pose S0 := 0 et Sn := ni=1 Xi si
n ≥ 1.
Alors, (Sn )n est une martingale par rapport à la filtration naturelle de X.
7.2. SURMARTINGALES ET SOUS-MARTINGALES
51
Exercice 7.2.7. Montrer que c’est bien une martingale par rapport à cette filtration.
Exemple 7.2.8. Soit X := (Xn )n une suite de variables aléatoires indépendantes,
Q
dans L1 et telles que E[Xk ] = 1 pour tout k. On pose M0 = 1 et Mn := ni=1 Xi
si n ≥ 1.
Alors, (Mn )n est une martingale par rapport à la filtration naturelle de X.
Démonstration. La première condition est vérifiée car il existe une fonction borélienne de Rn+1 dans R telle que f (X0 , · · · , Xn ) = Mn .
La seconde assertion est vérifiée car les variables sont indépendantes et sont dans
L1 .
On prouve maintenant la troisième hypothèse. On a
E {Mn | Fn−1 } = E {Mn−1 Xn | Fn−1 }
= Mn−1 E {Xn | Fn−1}
|
{z
}
=E(Xn )=1
= Mn−1 .
Propriété 7.2.9. Si M est une martingale, alors E(Mn ) = E(M0 ).
Démonstration. On a
E(Mn ) = E (E (Mn | Fn−1)) = E(Mn−1 ) .
Une récurrence permet de conclure.
Propriété 7.2.10. Si M est une surmartingale, on a E(Mn ) ≤ E(M0 ).
Si M est une sous-martingale, on a E(Mn ) ≥ E(M0 ).
Exercice 7.2.11. Prouver la propriété.
Remarque 7.2.12. Une surmartingale positive est uniformément bornée dans L1 .
Donc, il existe lim Mn (ω), P-presque sûrement.
n∞
On regarde maintenant un troisième exemple.
Exemple 7.2.13. On se donne un espace filtré (Ω, F , (Fn )n , P). On se donne une
variable aléatoire X dans L1 . On pose :
Mn := E (X | Fn ) .
Cela consiste à découvrir la variable aléatoire X petit à petit.
M := (Mn )n est une martingale par rapport à la filtration (Fn )n .
CHAPITRE 7. MARTINGALES
52
Démonstration. Les deux premières hypothèses sont évidentes.
Vérifions la troisième. Pour tout n ≥ 1, on a
E (Mn | Fn−1) = E (E (X | Fn ) | Fn−1 )
= E (X | Fn−1 )
Mn−1 ,
ce qui achève la preuve.
7.3
Processus prévisibles
On se donne une martingale X.
On introduit ici la notion de processus prévisible. Il s’agit typiquement de la
façon de jouer du joueur au temps n en ayant la connaissance jusqu’au temps
n − 1. En effet, on part du principe que le joueur n’a pas de don de voyance donc
il fonde son jeu sur le passé. Dans le cas où un joueur aurait des dons de voyance,
il n’a alors plus besoin du calcul des probabilités.
Définition 7.3.1. Le processus C := (Cn )n est prévisible si Cn est mesurable par
rapport à Fn−1 , pour tout n ≥ 1.
Ici, Cn représente la mise au temps n. Et, le gain est égale à
Yn =
n
X
Cj (Xj − Xj−1 ) =: (C.X)n ,
j=1
si n ≥ 1. Et, (C.X)0 = 0. Il s’agit d’une transformée de martingale. C’est le
pendant discret de l’intégrale stochastique, que l’on ne voit pas dans ce cours.
Théorème 7.3.2 (You can’t beat the system). (a) Soit C un processus prévisible,
positif, borné. Soit X une surmartingale. Alors, (C.X) est une surmartingale.
(b) Soit C un processus prévisible, positif, borné. Soit X une sous-martingale.
Alors, (C.X) est une sous-martingale.
(c) Soit C un processus prévisible, borné. Soit X une martingale. Alors, (C.X)
est une martingale.
Remarque 7.3.3. L’esprit du théorème est le suivant : si le jeu est fondé sur
une surmartingale 1 , il n’existe aucune méthode mathématique gagnante. Il faut
tricher ou avoir des dons de voyance. En effet, si (C.X) est une surmartingale,
on a E [(C.X)n ] ≤ 0.
On donne maintenant la preuve du théorème.
1. ce qui est toujours le cas pour que l’organisateur du jeu dégage un salaire.
7.4. TEMPS D’ARRÊT
53
Démonstration. Prouvons le (a). D’abord, par construction, (C.X)n est mesurable
par rapport à Fn pour tout n.
Ensuite, on dispose de l’inégalité
||Yn ||1 ≤
∞
X
k=1
||Ck ||∞ (||Xk || + ||Xk−1 ||) < ∞ .
Enfin, on a
E [(C.X)n | Fn−1 ] = E [Cn (Xn − Xn−1 ) | Fn−1 ] + E [(C.X)n−1 | Fn−1]
= Cn E [Xn − Xn−1 | Fn−1 ] +(C.X)n−1
|{z} |
{z
}
≥0
≤ (C.X)n−1 .
≤0
Les preuves du (b) et du (c) se font similairement.
7.4
Temps d’arrêt
Dans un jeu, on ne s’arrête pas nécessairement au bout d’un temps fixé par
avance. En particulier, au casino, après que l’on a zéro euro en poche, il n’est plus
possible de jouer. On peut donc dire que {ne plus avoir d’argent en poche} est un
temps d’arrêt de jeu.
On peut aussi décider de s’arrêter une fois que l’on a gagné mille euros.
En revanche, on ne peut pas décider de s’arrêter trois tours avant de perdre
tous ses gains, car on suppose que le joueur n’a toujours pas de don de voyance.
De la même manière, si vous êtes en vacances et que vous demandez votre route
à un local, si celui-ci vous dit “quand vous verrez la sortie d’autoroute numéro 314,
il faut vous arrêter trois kilomètres auparavant”... il ne vous aide pas beaucoup.
Définissons donc de façon mathématique ce qu’est un temps d’arrêt.
Définition 7.4.1. Soit T une variable aléatoire à valeurs dans N. On dit que T
est un temps d’arrêt si {T ≤ n} ∈ Fn , pour tout n ∈ N.
Remarque 7.4.2. T est un temps d’arrêt si et seulement si {T = n} ∈ Fn pour
tout n ∈ N.
Exercice 7.4.3. Prouver la remarque.
Exemple 7.4.4. Soit X un processus adapté. On introduit la variable aléatoire
TB (ω) := inf {n : Xn ∈
/ B} où B est un borélien. On prend la convention inf(∅) =
+∞.
Alors, T est un temps d’arrêt.
CHAPITRE 7. MARTINGALES
54
Contre-exemple 7.4.5. Soit X un processus adapté. On introduit la variable
aléatoire τ100 (ω) := sup {n ≤ 100 : Xn = 0}. Ce n’est pas un temps d’arrêt. En
effet,
\
{ω : τ100 (ω) = N} = {XN = 0} {Xn 6= 0 ∀n ≥ N + 1} .
Théorème 7.4.6. 1) Soit X une surmartingale et T un temps d’arrêt. On pose
XnT (ω) := Xmin{n,T (ω)} (ω) .
Alors, X T := XnT est une surmartingale et E XnT ≤ E(X0 ) pour tout n.
2) Soit X une martingale et T un temps d’arrêt. On pose
XnT (ω) := Xmin{n,T (ω)} (ω) .
Alors, X T := XnT est une martingale et E XnT = E(X0 ) pour tout n.
Démonstration. On va prouver le 1). On pose Cn := 1{T ≥n} . Alors, C est un
processus borné, positif et prévisible. En effet, {T ≥ n} = {T ≤ n − 1}c ∈ Fn−1 .
Or,
X T = (C.X) + X0
avec (C.X)0 = 0. En effet :
(C.X)n =
n
X
Ck (Xk − Xk−1 )
k=1
=
n
X
k=1
1T ≥k (Xk − Xk−1 )
min{n,T (ω)}
=
X
(Xk (ω) − Xk−1 (ω))
k=1
= Xmin{n,T (ω)} (ω) − X0 (ω) .
Or, d’après le théorème 7.3.2, (C.X) est une surmartingale. Donc X T est une
surmartingale.
Le 2) se prouve de la même manière.
Remarque 7.4.7. On se donne une suite (Xn )n de variables aléatoires indépen1
dantes et identiquement
Pn distribuées suivant la loi P(Xn = ±1) = 2 . On pose
S0 := 0 et Sn :=
i=1 Xi pour tout n ≥ 1. On introduit le temps d’arrêt :
T := inf{n : Sn = −50}. S est une martingale donc il en est de même pour S T .
Alors, E SnT = E (S0 ) = 0 bien que l’on ait la convergence presque sûre de SnT
vers −50. On a donc
E lim SnT 6= lim E(SnT ) .
On va maintenant donner un théorème qui permet de s’affranchir de ce petit
problème.
7.4. TEMPS D’ARRÊT
55
Théorème 7.4.8 (Théorème de l’arrêt optionnel). Soit T un temps d’arrêt et X
une surmartingale. Alors XT ∈ L1 et E(XT ) ≤ E(X0 ) si l’une des trois conditions
suivantes est satisfaite :
1. Il existe K < ∞ tel que T (ω) ≤ K, pour tout ω.
2. Il existe K < ∞ tel que Xn (ω) ≤ K pour tout n, pour tout ω et T < ∞
presque sûrement.
3. E[T ] < ∞ et il existe K < ∞ tel que pour tout n, pour tout ω, on a
l’inégalité |Xn+1 (ω) − Xn (ω)| ≤ K.
Remarque 7.4.9. Dans le cadre de la Remarque 7.4.7, on ne peut pas appliquer
le théorème de l’arrêt optionnel. En particulier, on a E(T ) = ∞.
On donne maintenant la preuve du théorème de l’arrêt optionnel.
Démonstration. 1) On suppose la première assertion vérifiée. Alors, pour tout
n > K, on a
XnT (ω) = Xmin{n,T (ω)} (ω) = XT (ω) (ω) .
D’où XT = XnT pour n assez grand. Conséquemment, XT ∈ L1 . De plus :
E Xmin{n,T } ≤ E[X0 ] ,
d’où E[XT ] ≤ E[X0 ].
2) On a E Xmin{n,T } ≤ E[X0 ]. Or, T < ∞ presque sûrement donc
lim Xmin{n,T (ω)} (ω) = XT (ω) (ω)
n∞
P-presque sûrement. Or, Xmin{n,T (ω)} (ω) ≤ K pour tout n, pour tout ω. D’après
le théorème de convergence dominée de Lebesgue, on a
h
i
lim E Xmin{n,T } = E lim Xmin{n,T } = E[XT ] ≤ E[X0 ] .
n∞
n∞
P
3) On a Xn = X0 + nj=1 (Xj − Xj−1 ). Donc :
Xmin{n,T } ≤ |X0 | + K min {n, T } ≤ |X0 | + KT ∈ L1 ,
pour tout n. Puis, comme T < ∞ presque sûrement, lim Xmin{n,T } = XT (ω) (ω). Le
n∞
théorème de convergence dominée de Lebesgue achève la preuve. Donc XT ∈ L1 .
Donnons un exemple d’application du théorème de l’arrêt optionnel.
Exemple 7.4.10. On se donne une suite (Xn )n de variables aléatoires indépen1
dantes et identiquement
Pn distribuées suivant la loi P(Xn = ±1) = 2 . On pose
S0 := 0 et Sn :=
i=1 Xi pour tout n ≥ 1. On introduit le temps d’arrêt :
T := inf{n : Sn = 1}.
CHAPITRE 7. MARTINGALES
56
Quelle est la loi de T ?
T < ∞ presque sûrement. Soit θ ∈ R. On a
E [exp (θX1 )] = cosh(θ) =
On a donc E
h
exp(θX1 )
cosh(θ)
i
eθ + e−θ
.
2
= 1. On pose :
"
Mn := exp θ
n
X
i=1
#
Xi (cosh(θ))−n .
Alors, (Mn )n est une martingale par rapport à la filtration naturelle de (Xn )n . On
a M0 = 1. Comme
M := (Mn )n est une martingale, M T est aussi une martingale
d’où E MnT = 1 pour tout n.
le théorème de l’arrêt optionnel à la martingale M T . En effet,
On Tpeut appliquer
M (ω) ≤ eθ pour tout n, pour tout ω. Il vient ainsi
n




E exp  θST  (cosh(θ))−T  = 1 .
|{z}
=θ
1
, on a E αT = e−θ =
En posant α := cosh(θ)
est donc caractérisée.
√
1− 1−α2
α
pour α ∈]0; 1]. La loi de T
Chapitre 8
Chaînes de Markov
On termine ce cours par une étude succincte des chaînes de Markov. Les chaînes
de Markov sont à temps discret tandis que les processus de Markov sont à temps
continu.
8.1
Matrice stochastique
D’abord, soit E l’espace d’état. On le suppose fini ou dénombrable.
Définition 8.1.1. On dit que P := {P (x, y)}x,y∈E est une matrice stochastique
si les deux conditions suivantes sont réalisées :
1. Pour tous x, y ∈ E, on a P (x, y) ≥ 0.
P
2. Pour tout x ∈ E, on a y∈E P (x, y) = 1.
Définition 8.1.2. On dit aussi que P est une matrice de transition d’une chaîne
de Markov.
Pour tout A ⊂ E, on pose :
P (x, A) :=
X
P (x, y) .
y∈A
Propriété 8.1.3. Pour tout
x ∈ E, l’application A 7→ P (x, A) est une probabilité
E
sur l’espace mesuré E, 2 .
Exercice 8.1.4. Démontrer la propriété.
Définition 8.1.5. Un processus X := (Xn )n est une chaîne de Markov élémentaire sur E de probabilité de transition P si pour tout n ∈ N, pour tous
x0 , · · · , xn+1 , on a
P (Xn+1 = xn+1 | Xn = xn , · · · , X0 = x0 ) = P (Xn+1 = xn+1 | Xn = xn )
= P (xn , xn+1 ) ,
si P (Xn = xn , · · · , X0 = x0 ) > 0.
57
CHAPITRE 8. CHAÎNES DE MARKOV
58
L’idée est la suivante : la chaîne de Markov oublie son passé et ne choisit sa
position au temps n + 1 qu’à partir de sa position au temps n. Et, le choix de sa
position se fait suivant la loi de probabilité P (xn , .).
Propriété 8.1.6. Soit (ξn )n une suite de variables aléatoires indépendantes et
identiquement distribuées. Soit H une fonction mesurable de E × R dans E. On
pose X0 (ω) := x0 pour tout ω puis
Xn+1 = H (Xn (ω), ξn+1(ω)) .
Alors X := (Xn )n est une chaîne de Markov de probabilité de transition P où l’on
a
P (x, y) := P (H(x, ξ1 ) = y) .
Démonstration. Soit n ∈ N et soient x0 , · · · , xn+1 ∈ E. Alors :
P (Xn+1 = xn+1 , Xn = xn , · · · , X0 = x0 )
= P (H(xn , ξn+1 ) = xn+1 , Xn = xn , · · · , X0 = x0 ) .
Or, l’évènement {Xn = xn , · · · , X0 = x0 } est mesurable par rapport à la tribu
σ (X0 , · · · , Xn ), qui est une sous-tribu de σ (ξ1 , · · · , ξn ).
Et, H(xn , ξn+1) est mesurable par rapport à σ(ξn+1 ) donc la variable aléatoire
H(xn , ξn+1) est indépendante de la tribu σ (ξ1 , · · · , ξn ) car les variables aléatoires
(ξn )n sont indépendantes. Il vient :
P (Xn+1 = xn+1 , Xn = xn , · · · , X0 = x0 )
= P (H(xn , ξn+1 ) = xn+1 ) × P (Xn = xn , · · · , X0 = x0 ) .
De même :
P (Xn+1 = xn+1 , Xn = xn ) = P (H(xn , ξn+1 ) = xn+1 ) × P (Xn = xn ) .
Conséquemment, on a
P (Xn+1 = xn+1 | Xn = xn , · · · , X0 = x0 ) = P (Xn+1 = xn+1 | Xn = xn )
= P (H(xn , ξn+1 ) = xn+1 )
= P (H(xn , ξ1 ) = xn+1 ) .
Exemple 8.1.7 (Pile ou face). On s’intéresse à
Nn := # {piles consécutifs au temps n} .
Montrer que (Nn )n est une chaîne de Markov et donner P .
Soit (ξi )i la suite de piles ou faces. C’est une suite de variables aléatoires indépendantes et identiquement distribuées telles que P(ξ1 = 1) = p = 1 − P(ξ1 = 0).
On a N0 = 0. On remarque :
8.1. MATRICE STOCHASTIQUE
59
— Si ξn+1 = 0, alors Nn+1 = 0.
— Si ξn+1 = 1, alors Nn+1 = Nn + 1.
Donc, on peut écrire
Nn+1 = (Nn + 1)ξn+1 .
On peut appliquer la Propriété 8.1.6 pour en déduire que (Nn )n est une chaîne de
Markov avec H(x, ξ) := (x + 1)ξ. On peut ensuite calculer la matrice de transition
facilement
P (H(n, ξ1) = m) = 0
si m ∈
/ {0; n + 1} tandis que
P (H(n, ξ1 ) = n + 1) = p
et P (H(n, ξ1) = 0) = 1 − p .
Propriété 8.1.8. Soit X := (Xn )n une chaîne de Markov de probabilité de transition P . On pose µ0 (x) := P(X0 = x). Alors, pour tout x0 , · · · , xn ∈ E, on
a
P (Xn = xn , · · · , X0 = x0 ) = µ0 (x0 )P (x0 , x1 ) · · · P (xn−1 , xn ) .
Exercice 8.1.9. Démontrer la propriété.
Notation 8.1.10. Soit P une matrice stochastique et f une fonction de E dans
R. On pose
X
(P f )(x) :=
P (x, y)f (y) .
y∈E
Notation 8.1.11. Soit P une matrice stochastique et µ une mesure sur E. On
pose
X
(µP )(y) :=
µ(x)P (x, y) .
y∈E
Propriété 8.1.12. Soit X := (Xn )n une chaîne de Markov de probabilité de
transition P . On pose µ0 (x) := P(X0 = x). Alors, pour tout xn ∈ E, on a
P (Xn = xn ) = (µP n ) (x) .
Exercice 8.1.13. Montrer la propriété.
Définition 8.1.14. Soit (Ω, F , (Fn )n , P) un espace filtré. Soit E un espace d’état
fini ou dénombrable. Soit P une matrice stochastique sur E.
On dit que le processus X = (Xn )n est une P -chaîne de Markov par rapport à
la filtration (Fn )n si X est adapté à la filtration (Fn )n et si pour toute fonction
mesurable bornée de E dans R, on a
E {f (Xn+1 ) | Fn } (ω) = (P f )(Xn )(ω)
pour tout n ∈ N, P-presque sûrement.
Cette définition est plus générale que la Définition 8.1.5.
CHAPITRE 8. CHAÎNES DE MARKOV
60
Remarque 8.1.15. Pour tout xn+1 ∈ E, on a
P (Xn+1 = xn+1 | Fn ) = P (Xn , xn+1 ) .
Démonstration. Il suffit d’appliquer la définition avec la fonction mesurable bornée
f := 1xn+1 .
Remarque 8.1.16. Si X est une P -chaîne de Markov par rapport à la filtration (Fn )n , c’est une chaîne de Markov par rapport à sa filtration naturelle,
(σ(X0 , · · · , Xn ))n .
Démonstration. On utilise pour cela la propriété de tour.
Regardons maintenant le lien entre les deux définitions de chaînes de Markov.
Théorème 8.1.17. (a) Si X est une P -chaîne de Markov par rapport à la filtration (Fn )n alors X est une chaîne de Markov élémentaire de noyau de transition
P.
(b) Si X est une chaîne élémentaire de noyau de transition P , alors X est une
P -chaîne de Markov par rapport à la filtration (Fn0 )n avec Fn0 := σ(X0 , · · · , Xn ).
Démonstration. (a) Soit X une P -chaîne de Markov par rapport à la filtration
(Fn )n . Soit n ∈ N. Soient x0 , · · · , xn+1 ∈ E. Alors :
P (Xn+1 = xn+1 , · · · , X0 = x0 ) = E 1{xn+1 } (Xn+1 )1{Xn =xn ,··· ,X0 =x0 }
= E E 1{xn+1 } (Xn+1 ) | Fn 1{Xn =xn ,··· ,X0 =x0 }
= E P (Xn , xn+1 )1{Xn =xn ,··· ,X0 =x0 }
= E P (xn , xn+1 )1{Xn =xn ,··· ,X0 =x0 }
= P (xn , xn+1 )E 1{Xn =xn ,··· ,X0 =x0 }
= P (xn , xn+1 )P (Xn = xn , · · · , X0 = x0 ) ,
ce qui achève la preuve du (a).
(b) Soit X une chaîne de Markov élémentaire de probabilité de transition P .
Alors, X est adapté à sa filtration naturelle, par construction de celle-ci. Soit
maintenant une fonction mesurable bornée f . On a
X
E [f (Xn+1) | Xn , · · · , X0 ] =
f (y)P (Xn+1 = y | Xn , · · · , X0 )
y∈E
=
X
f (y)P (Xn, y)
y∈E
= (P f )(Xn ) ,
ce qui achève la preuve du (b).
8.2. MESURES INVARIANTES
8.2
61
Mesures invariantes
Dans le cas où l’espace d’état, E, est fini ou dénombrable, les mesures de
probabilités sont des vecteurs.
On va définir dans cette section une notion primordiale dans l’étude des processus aléatoires (de Markov ou non) : celle des mesures invariantes. En effet, une
question naturelle est le comportement en temps long des processus. C’est même
le nerf de la guerre dans de nombreuses études. Or, les mesures invariantes jouent
un rôle fondamental dans ces questions.
Définition 8.2.1. Une mesure de probabilité sur l’espace mesuré E, 2E est une
mesure invariante pour la P -chaîne de Markov si l’on a µP = µ.
Deux questions se posent immédiatement : la chaîne de Markov admet-elle
une probabilité invariante ? Le cas échéant, a-t-on l’unicité de cette probabilité
invariante ?
Propriété 8.2.2. Si E est fini, il y a au moins une probabilité invariante.
On observe en effet que le produit de la matrice stochastique P avec le vecteurcolonne 1 constitué uniquement de 1 est égal à 1. Des résultats d’algèbre linéaire
nous donnent immédiatement l’existence d’un vecteur ligne v dont tous les coefficients sont positifs tel que vP = v.
On ne dispose pas de l’unicité.
1 0
Contre-exemple 8.2.3. On prend la matrice P :=
. On peut vérifier
0 1
que c’est bien une matrice stochastique. Or, µ(1) := (1, 0) et µ(2) := (0, 1) sont des
probabilités invariantes.
Exemple 8.2.4. On prend maintenant un espace d’état infini : E = Z. On considère la marche aléatoire la plus simple c’est-à-dire :
P (n, n + 1) = P (n, n − 1) =
1
.
2
On résout l’équation µP (x) = µ(x) pour tout x ∈ Z :
µP (x) =
µ(x + 1) + µ(x − 1)
= µ(x) .
2
On obtient µ(x + 1) − µ(x) = µ(x) − µ(x − 1) = C d’où µ(x) = xC + µ(0).
Si C = 0, µ est une constante et n’est pas une probabilité. Si C 6= 0, (µ(x))x est
non borné. Il n’y a donc pas de probabilité invariante.
Téléchargement