Cours de Probabilités Dominique PASTOR

publicité
Cours de Probabilités
par
Dominique PASTOR
Département Signal et Communications
Technopôle Brest-Iroise, CS 83818, 29238 Brest Cedex
e-mail : [email protected]
Tél : 02 98 00 14 87
Fax : 02 98 00 10 98
Septembre 2003
Objectifs pédagogiques
Les probabilités interviennent dans tous les domaines de l’ingénierie. En télcommunications, on est amené à traiter des données qui par nature sont aléatoires.
Il va falloir par exemple calculer la probabilité d’erreur d’une transmission lorsqu’on transmet des séquences de valeurs binaires et .
Ainsi, un cours de probabilité est incontournable dans toute école d’ingénieur
et en particulier, ici, à l’ENST Bretagne.
Les objectifs pédagogiques du cours supporté par ce polycopié sont alors les
suivants en terme de "être capable de" et "être sensibilisé à". Pour chaque objectif
listé ci-dessous, nous pointons vers le chapitre où l’étudiant trouvera les informations nécessaires permettant de remplir l’objectif pédagogique.
i
Objectif : être capable de
Donner la définition d’un espace probabilisé
Effectuer des calculs combinatoires de probabilités
Calculer des probabilités conditionnelles élémentaires
Donner la définition de l’indépendance entre événements
Calculer des lois conditionnelles
Donner la définition correcte d’une variable aléatoire réelle ou généralisée
Donner les théorèmes de convergence monotone et de convergence dominée
Donner la définition de l’espérance d’une variable aléatoire
Donner la définition des moments d’ordre supérieur
Donner la définition de la fonction caractéristique
Donner la définition de la fonction de répartition et d’une densité de probabilité
Donner la définition des variables aléatoires absolument continues et celle
des variables discrètes
Savoir calculer les fonctions de répartitions et les densités de probabilités
des variables aléatoires absolument continues
Donner la définition d’un vecteur aléatoire
Donner la définition de l’espérance d’un vecteur aléatoire
Donner la définition de la fonction de répartition d’un vecteur aléatoire
Donner la définition des lois conjointes
Manipuler les densités de probabilité conditionnelles
Utiliser le théorème de changement de variable et le théorème de transfert
pour les calculs usuels (notamment, différentes méthodes de calcul de la
densité d’une somme de variables aléatoires)
Savoir définir et manipuler les matrices de covariance
Donner la définition des vecteurs aléatoires gaussiens et leurs propriétés
élémentaires
Donner l’inégalité de Bienaymé-Chebyshev (version probabiliste)
Connaître et d’utiliser le théorème de la limite centrale
TAB . 1 – Objectifs "être capable de".
ii
Voir
Chapitre 1
Chapitre 2
Chapitre 3
Chapitre 3
Chapitre 12
Chapitre 4
Chapitre 5
Chapitre 9
Chapitre 9
Chapitre 9
Chapitre 10
Chapitre 10
Chapitre 10
Chapitre 12
Chapitre 12
Chapitre 12
Chapitre 12
Chapitre 12
Chapitre 12
Chapitre 12
Chapitre 13
Chapitres 9 et 15
Chapitre 15
Objectif : être sensibilisé à
Aux principales lois utilisées dans la pratique et les phénomènes qu’elles modélisent
A la théorie de la mesure et de l’intégration
Aux notions de "presque partout" et de "presque sûrement"
Aux extensions des théorèmes de convergence de la théorie
de Lebesgue
Au théorème de Fubini et son application
Aux relations entre intégrales de Lebesgue et de Riemann
Au théorème de Radon-Nikodym
A la théorie des variables aléatoires conditionnelles (par
rapport à un événement, une tribu, une variable aléatoire)
A la théorie des variables aléatoires complexes
Aux différents modes de convergence des variables aléatoires
Aux méthodes de génération des variables aléatoires
TAB . 2 – Objectifs "être sensibilisé à".
iii
Voir
Chapitre 11
Chapitre 5
Chapitre 6
Chapitres 5 et 6
Chapitre 7
Chapitre 8 et Annexe C
Chapitre 10
Chapitre 10 et Annexe D
Chapitre 14
Chapitre 15
Chapitre 16
Guide de lecture de la bibliographie
Vous trouverez en fin de ce polycopié une bibliographie complète du cours de
probabilité. Nous donnons ici un guide de lecture de cette bibliographie.
[10] est un livre ancien qui présente les probabilités selon le point de vue des
statisticiens. Les outils mathématiques utilisés y sont essentiellement l’algèbre et
l’analyse élémentaire. Cette référence n’utilise pas la théorie de la mesure. Etant
court et très concis, il permet au lecteur de retrouver très rapidement les résultats
classiques de la théorie. C’est donc un excellent aide-mémoire qui permet aussi
d’éclairer certains aspects de la théorie sous un angle pratique et applicatif. Son
défaut : l’ouvrage étant ancien, il est parfois difficile à trouver.
La présentation des probabilités dans [3] est, dans une certaine mesure, une extension de celle de [10] où on retrouve l’axiomatique de Kolmogorov basée sur la
théorie de la mesure. Cet ouvrage est court et permet aussi au lecteur de retrouver
très facilement les résultats classiques de la théorie. Cet ouvrage donne aussi un
éclairage statistique de la théorie des probabilités et de nombreux exemples. A la
différence de [10], on le trouve beaucoup plus facilement dans les bibliothèques.
Les ouvrages [18, 19, 6, 7] s’adressent aux étudiants ayant besoin d’un cours
plus approfondi pour le reste de leur formation à l’école. Ce sont aussi des références classiques pour les ingénieurs en traitement du signal et télécommunications. Dans les références [6, 7, 19], on peut trouver, en plus des démonstrations théoriques des résultats fondamentaux, des exercices et problèmes résolus
ou commentés.
[8] (Tomes 1 et 2) est une référence incontournable en théorie des probabilités.
Ouvrage mathématique, il expose la théorie dans toute sa complexité. On y trouve
des extensions des théorèmes des grands nombres. Il est adapté aux travaux de
recherche.
[11] et [24] sont les ouvrages préférés de l’auteur de ce polycopié. Ils représentent l’école russe dans toute sa subtilité. Ce sont des ouvrages mathématiques.
Ils sont parfois difficiles car utilisent des éléments de théorie de la mesure peu
connus des ingénieurs. Le polycopié que nous vous fournissons, souvent influencé
par ces références, devrait vous donner les clefs suffisantes pour exploiter ces ouvrages. Ceci dit, ces oeuvres s’adressent principalement aux chercheurs, voire aux
ingénieurs de recherche.
[20] est un ouvrage remarquable, mais très spécialisé, sur les mesures conditionnelles. On y voit que la théorie des probabilités conditionnelles est un domaine
iv
très complexe que nous nous contentons d’effleurer. Cet ouvrage s’adresse avant
tout à des mathématiciens. Après avoir lu l’annexe D, le lecteur ne devrait cependant n’avoir aucune difficulté à lire les quatre premiers chapitres de ce livre.
[21, 12, 22] sont des ouvrages de référence en théorie de la mesure. La présentation donnée dans ce cours concernant la théorie de la mesure est très influencée
par ces ouvrages. La présentation de l’intégrale de Lebesgue que nous donnons au
chapitre 5 et que nous précisons à l’annexe ?? est fortement influencée par [21]
et [22]. La présentation de l’intégrale de Lebesgue-Stieltjes à l’annexe B est issue
de [12]. Le premier chapitre de [22] devrait au moins être lu une fois par tout
étudiant.
[16] et [1] sont des ouvrages incontournables tant en analyse, en algorithmie qu’en probabilités. Ils contiennent énormément de résultats utiles en calcul
et notamment des descriptions détaillées des fonctions spéciales qu’il arrive de
rencontrer au détour de problèmes qui ne sont pas seulement académiques.
Qui dit probabilités dit aussi statistiques. Vous trouverez trois références essentielles dans le domaine ([17, 2, 15]). [17] est une extension de [2]. Dans ces
ouvrages, on trouvera énormément de résultats et de lois dérivant des lois Gaussiennes multidimensionnelles. [15] est une des ouvrages les plus connus dans le
domaine. Il pourra notamment servir ceux qui seront confrontés à des problèmes
d’estimation statistique (maximum de vraisemblance, moindres carrés, etc.).
Les références [14, 5] se rapportent à la théorie de la mesure. Ce sont des
polycopiés ENSTB très synthétiques qui présentent les résultats principaux de la
théorie.
Nous recommendons aussi la lecture de [9, 4, 13, 23, 5] qui sont des polycopiés de l’ENSTB. En particulier, [5] et [23] sont d’excellents documents de
synthèses qui mettent en évidence les principaux résultats de la théorie des probabilités. Dans [4], on trouvera aussi un exposé très complet des différents types de
convergence.
v
Remerciements
Je remercie Samir Saoudi et Thierry Chonavel, professeurs à l’ENST de Bretagne pour m’avoir fourni leurs polycopiés ([23], [5]) et leurs planches de présentation. Leur travail m’a fortement guidé et inspiré dans la rédaction du présent
document et des notes de cours.
Je remercie aussi Karine Amis, Maître de Conférences à l’ENST de Bretagne,
pour sa contribution à l’élaboration, l’organisation du cours et ses ajouts et commentaires sur différents chapitres de ce polycopié.
Enfin, je remercie mon ami et professeur Roger Gay qui a bien voulu prendre
sur son temps pour relire et corriger certains passages de ce document et qui m’a
fait connaître et apprécier bon nombre des références que je recommande à mon
tour.
vi
Table des matières
1 Espace probabilisable et Espace probabilisé
1.1 Idées fondamentales sur les espaces de probabilité
1.2 Espace probabilisable ou mesurable . . . . . . .
1.3 Tribu des boréliens de
. . . . . . . . . . . . .
1.4 Tribu des boréliens de
. . . . . . . . . . . . .
1.5 La tribu des boréliens de la droite réelle étendue .
1.6 Mesure positive . . . . . . . . . . . . . . . . . .
1.7 La mesure de Lebesgue . . . . . . . . . . . . . .
1.8 Définition d’une probabilité . . . . . . . . . . . .
1.9 Espace produit . . . . . . . . . . . . . . . . . .
1.10 Exercice corrigé . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
. . . . . . .
1
. . . . . . .
5
. . . . . . .
6
. . . . . . .
8
. . . . . . .
8
. . . . . . .
9
. . . . . . . 10
. . . . . . . 12
. . . . . . . 13
. . . . . . . 13
2 Calcul combinatoire des probabilités
2.1 Généralités . . . . . . . . . . .
2.2 Rappels d’analyse combinatoire
2.3 Exemple . . . . . . . . . . . . .
2.4 Exercice corrigé . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
15
15
15
16
16
3 Probabilités conditionnelles et indépendance
3.1 Probabilités conditionnelles . . . . . . . . . . .
3.1.1 Définition . . . . . . . . . . . . . . . .
3.1.2 Formule de Bayes . . . . . . . . . . .
3.2 Evénéments indépendants . . . . . . . . . . . .
3.2.1 Indépendance de deux événements . . .
3.2.2 Indépendance d’une suite d’événements
3.2.3 Théorème de Borel-Cantelli . . . . . .
3.3 Indépendance de tribus . . . . . . . . . . . . .
3.4 Exercice corrigé . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
19
19
19
20
20
20
21
22
22
22
vii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4 Variables aléatoires (réelles et généralisées)
4.1 Applications mesurables . . . . . . . . . . . . . . .
4.2 Variables aléatoires réelles et généralisées . . . . . .
4.3 Critères de mesurabilité . . . . . . . . . . . . . . . .
4.4 Propriétés élémentaires des applications mesurables
riables aléatoires réelles . . . . . . . . . . . . . . . .
4.5 Limites de variables aléatoires . . . . . . . . . . . .
. . . .
. . . .
. . . .
et des
. . . .
. . . .
. . .
. . .
. . .
va. . .
. . .
25
26
26
28
30
31
5 Intégration des variables aléatoires réelles et généralisées (intégrale
de Lebesgue)
5.1 La construction usuelle de l’intégrale des variables aléatoires
réelles gńéralisées positives . . . . . . . . . . . . . . . . . . . . .
5.2 Une construction algorithmique de l’intégrale des variables aléatoires réelles gńéralisées positives . . . . . . . . . . . . . . . . .
5.2.1 Intégration des applications à valeurs sur la demi droite
réelle étendue . . . . . . . . . . . . . . . . . . . . . . . .
5.2.2 Le théorème de la convergence monotone . . . . . . . . .
5.2.3 Où l’on retrouve la définition classique de l’intégrale des
fonctions à valeurs réelles positives . . . . . . . . . . . .
5.2.4 Quelques propriétés utiles de l’intégrale des variables
aléatoires positives . . . . . . . . . . . . . . . . . . . . .
5.2.5 Intégrale des variables aléatoires généralisées de signe
quelconque . . . . . . . . . . . . . . . . . . . . . . . . .
5.3 Théorèmes de convergence . . . . . . . . . . . . . . . . . . . . .
5.4 Inégalité de Bienaymé-Chebyshev . . . . . . . . . . . . . . . . .
5.5 Intégration sur une partie mesurable . . . . . . . . . . . . . . . .
50
56
58
60
6 Ensembles négligeables et compléments sur l’intégration
6.1 Ensembles négligeables et mesure complète . . . . . . . . .
6.2 Le "presque partout" et le "presque sûrement" . . . . . . . .
6.3 Complétée d’une tribu . . . . . . . . . . . . . . . . . . . .
6.4 Mesure complétée . . . . . . . . . . . . . . . . . . . . . .
6.5 Le cas de la mesure de Lebesgue . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
6.6 L’ espace
6.7 La version définitive du théorème de la convergence dominée
.
.
.
.
.
.
.
63
64
65
66
67
69
69
71
7 Intégration sur les espaces produits
7.1 Tribu produit : définition et premières propriétés . . . . . . . . . .
73
73
viii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
34
35
37
43
44
47
49
7.2
7.3
7.4
7.5
Mesurabilité des applications définies sur un produit cartésien . .
Mesure produit ou produit tensoriel de mesures . . . . . . . . . .
Le théorème de Tonelli-Fubini . . . . . . . . . . . . . . . . . . .
La mesure de Lebesgue sur
et application aux calculs des probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
75
76
77
79
8 Lebesgue et Riemann : éléments de synthèse
8.1 Apport de la théorie de Lebesgue en théorie des probabilités
8.2 Comparaison des intégrales de Riemann et de Lebesgue . . .
8.3 Dérivation . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.4 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
81
82
82
88
88
9 Fonctions et paramètres d’une variable aléatoire
9.1 Espérance mathématique . . . . . . . . . . . . . . . . .
9.2 Moments d’ordre supérieur . . . . . . . . . . . . . . . .
9.3 Variance . . . . . . . . . . . . . . . . . . . . . . . . . .
9.4 Inégalité de Markov et de Bienaymé-Tchebychev . . . .
9.4.1 Expression générale de l’inégalité de Tchebychev
9.4.2 Inégalité de Markov . . . . . . . . . . . . . . .
9.4.3 Inégalité de Bienaymé-Tchebychev . . . . . . .
9.5 Fonction caractéristique . . . . . . . . . . . . . . . . . .
9.6 Fonction génératrice . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
92
92
93
94
94
94
94
95
95
96
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
10 Loi d’une variable aléatoire réelle
10.1 Mesure ou loi image et théorème de transfert . . . . . . . . . . .
10.2 Application à une mesure de probabilité . . . . . . . . . . . . . .
10.3 Fonction de répartition d’une variable aléatoire réelle . . . . . . .
10.4 Les densités de probabilité . . . . . . . . . . . . . . . . . . . . .
10.5 Variables aléatoires absolument continues . . . . . . . . . . . . .
10.6 Variables aléatoires discrètes . . . . . . . . . . . . . . . . . . . .
10.7 Exercices corrigés . . . . . . . . . . . . . . . . . . . . . . . . . .
10.7.1 Exercice corrigé 1 . . . . . . . . . . . . . . . . . . . . .
10.7.2 Exercice corrigé 2 : variable aléatoire discrète de Poisson .
10.7.3 Exercice corrigé 3 : le cas de la loi absolument continue
dite exponentielle . . . . . . . . . . . . . . . . . . . . . .
10.7.4 Mesure absolument continue par rapport à une autre . . .
10.7.5 Le théorème de Radon-Nikodym . . . . . . . . . . . . . .
ix
97
97
100
100
104
105
107
109
109
110
111
112
113
10.7.6 Application aux probabilités : variables aléatoires absolument continues . . . . . . . . . . . . . . . . . . . . . . . 114
11 Exemples de lois
11.1 La loi de Bernouilli . . . . . . . . . . . . . . . . . .
11.2 La loi géométrique . . . . . . . . . . . . . . . . . .
11.3 La loi binomiale . . . . . . . . . . . . . . . . . . . .
11.4 La loi de Poisson . . . . . . . . . . . . . . . . . . .
11.5 La loi uniforme . . . . . . . . . . . . . . . . . . . .
11.6 La loi normale (ou loi de Gauss) . . . . . . . . . . .
11.7 La loi Log Normale . . . . . . . . . . . . . . . . . .
11.8 La loi Exponentielle . . . . . . . . . . . . . . . . . .
11.9 La loi du . . . . . . . . . . . . . . . . . . . . . .
11.10La loi du non centrée de paramètre de décentrage 11.11La loi de Rayleigh . . . . . . . . . . . . . . . . . . .
11.12La loi de Rice . . . . . . . . . . . . . . . . . . . . .
11.13La loi Gamma . . . . . . . . . . . . . . . . . . . . .
11.14La loi de Cauchy . . . . . . . . . . . . . . . . . . .
11.15La loi Beta . . . . . . . . . . . . . . . . . . . . . . .
11.16Loi de Student . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
116
116
116
117
117
119
119
121
121
122
124
125
125
126
127
127
128
12 Vecteurs aléatoires
130
12.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
12.2 Intégration des vecteurs aléatoires . . . . . . . . . . . . . . . . . 130
12.3 Mesure image et théorème de transfert . . . . . . . . . . . . . . . 131
12.4 Loi de probabilité et espérance mathématique d’un vecteur aléatoire132
12.5 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . 133
12.6 Loi conjointe . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
12.7 Formule du changement de variables . . . . . . . . . . . . . . . . 135
12.7.1 Cas bijectif . . . . . . . . . . . . . . . . . . . . . . . . . 136
12.7.2 Cas général . . . . . . . . . . . . . . . . . . . . . . . . . 136
12.8 Fonction caractéristique . . . . . . . . . . . . . . . . . . . . . . . 136
12.9 Variables aléatoires indépendantes . . . . . . . . . . . . . . . . . 137
12.10Lois conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . 138
12.11Covariance et Matrice de covariance . . . . . . . . . . . . . . . . 140
12.11.1 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . 140
12.11.2 Matrice de covariance . . . . . . . . . . . . . . . . . . . 141
12.12Droite et courbe de régression . . . . . . . . . . . . . . . . . . . 141
x
12.12.1 Droite de régression . . . . . . . . . . .
12.12.2 Courbe de régression . . . . . . . . . . .
12.13Exercice corrigé . . . . . . . . . . . . . . . . . .
12.14Problème corrigé : somme de variables aléatoires
densité conjointe . . . . . . . . . . . . . . . . .
12.15Problème corrigé : somme de variables aléatoires
n’admettant pas de densité conjointe . . . . . . .
13 Vecteurs gaussiens
13.1 Définition . . . . . . . . . . . . . . . .
13.2 Quelques propriétés du vecteur gaussien
13.3 Quelques figures . . . . . . . . . . . .
13.4 Exercice corrigé . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
admettant une
. . . . . . . . .
indépendantes
. . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
142
142
143
145
148
151
151
151
152
157
14 Variables aléatoires complexes
161
14.1 Variable aléatoire complexe : paramètres . . . . . . . . . . . . . . 161
14.2 Vecteur aléatoire complexe . . . . . . . . . . . . . . . . . . . . . 162
14.3 Vecteur aléatoire complexe gaussien . . . . . . . . . . . . . . . . 162
15 Convergence des variables aléatoires
165
15.1 Convergence en probabilité . . . . . . . . . . . . . . . . . . . . . 165
15.2 Convergence en moyenne d’ordre et loi faible des grands nombres165
15.3 Convergence presque sûre et loi forte des grands nombres . . . . . 166
15.3.1 Inégalité de Kolmogorov . . . . . . . . . . . . . . . . . . 166
15.3.2 Convergence presque sûre . . . . . . . . . . . . . . . . . 167
15.3.3 Loi forte des grands nombres de Kolmogorov . . . . . . . 167
15.4 Convergence en Loi, théorème de la limite centrale et théorème
de Lyapounov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
15.5 Exemple d’utilisation du théorème de la limite centrale . . . . . . 169
15.6 Exercice corrigé . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
16 Génération de variables aléatoires
. . . . . . . . . .
16.1 Génération de la distribution uniforme sur
16.1.1 Méthode de congruences multiplicatives de Lehmer . . . .
16.2 Génération de variables aléatoires de loi de probabilité quelconque
16.2.1 Génération par inversion de la loi de répartition . . . . . .
16.2.2 Génération par changement de variables . . . . . . . . . .
16.2.3 Génération par convergence en loi . . . . . . . . . . . . .
xi
173
173
174
174
174
174
175
16.2.4 Autres méthodes . . . . . . . . . . . . . . . . . . . . . . 175
Bibliographie
175
A Mesurabilité dans
178
B La mesure et l’intégrale de Lebesgue-Stieltjes
B.1 Problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . .
B.2 Un théorème fondamental d’extension . . . . . . . . . . . . . . .
B.3 La construction de Caratheodory . . . . . . . . . . . . . . . . . .
B.3.1 Les mesures extérieures et le théorème d’extension de Caratheodory . . . . . . . . . . . . . . . . . . . . . . . . .
B.3.2 Construction d’une mesure sur un anneau par extension
d’une mesure sur un semi-anneau . . . . . . . . . . . . .
B.3.3 Application à la preuve du théorème d’extension . . . . .
B.4 La tribu et la mesure de Lebesgue-Stieltjes . . . . . . . . . . . . .
B.5 L’intégrale de lebesgue-Stieltjes . . . . . . . . . . . . . . . . . .
B.6 Le cas de la mesure de Lebesgue . . . . . . . . . . . . . . . . . .
B.7 Complément . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
182
183
184
185
185
188
190
191
193
194
195
C Compléments sur la comparaison des intégrales de Riemann et de Lebesgue
197
D Probabilités conditionnelles
D.1 Un résultat préliminaire . . . . . . . . . . . . . . . . . . . . . . .
D.2 Conditionnement par rapport à un événement . . . . . . . . . . .
D.2.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . .
D.3 Conditionnement par rapport à une tribu . . . . . . . . . . . . . .
D.3.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . .
D.3.2 Propriétés de l’espérance conditionnelle . . . . . . . . . .
D.3.3 L’espérance contitionnelle par rapport à une tribu est une
projection orthogonale . . . . . . . . . . . . . . . . . . .
D.3.4 Théorèmes de convergence . . . . . . . . . . . . . . . . .
D.4 Conditionnement par rapport à une variable aléatoire . . . . . . .
D.4.1 Conditionnement par rapport à une variable aléatoire discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
D.4.2 Application aux variables aléatoires absolument continues
D.4.3 Courbe de régression . . . . . . . . . . . . . . . . . . . .
xii
201
203
204
204
210
210
212
214
215
217
222
224
228
Table des figures
5.1
5.2
5.3
5.4
Intégration de Lebesgue-1
Intégration de Lebesgue-2
Intégration de Lebesgue-3
Intégration de Lebesgue-4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
38
39
41
42
. . . . . . . . . 117
. . . . . . 118
. . . . . . . . . 118
. . .. .. .. .. .. .. .. 120
120
et
(trait
. . . . . . . . . 121
" !
. . . . . . . . . 122
$# # . . . . . . . . . 123
. . . . . . . . . 123
&% . . . . . . . . . 124
'( . . . . . . . . . 126
) * ,+ 0/ 1 et + / ((- . 127
et
.
. . . . . . . . . 128
43 5 . . . . . . . . . 129
.
Distribution de la loi géométrique avec
Distribution de la loi Binomiale avec
. .et. .
Distribution de la loi de Poisson
. . . . .
Distribution de la loi Uniforme
Distribution de la loi Normale :
et
Distribution de la loi Log Normale :
,
continue) ou . . . . . . . . . . . . . . . . . . .
..
11.7 Distribution de la loi Exponentielle
11.8 Distribution de la loi du Chi- :
. . . .
11.9 Distribution de la loi du Chi- :
. . . . . .
11.10Distribution de la loi du Chi- :
. . . . . .
..
11.11Distribution de la loi Rayleigh :
11.12Distribution de la loi Gamma :
avec
avec
11.13Distribution de la loi de Cauchy :
ou . . . . . . . . . . . . . . . . . . . . . . . .
et 11.14Distribution de la loi Beta :
11.1
11.2
11.3
11.4
11.5
11.6
.
.
.
.
2
76 78 9 ;:
12.1 Nuage de points représentant 1000 réalisations d’un couple gauset
) . . . . . . . . . . . . . . 142
sien corrélées (
9 < < =6 >8 13.1 Loi gaussienne bidimensionnelle avec
,
,
et
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
13.2 Contours correspondant à la figure 13.1 . . . . . . . . . . . . . . 153
xiii
9 ;:
13.3 Loi gaussienne bidimensionnelle avec
. . . . . . . . . . . . . . . . .
13.4 Contours correspondant à la figure 13.3
13.5 Loi gaussienne bidimensionnelle avec
. . . . . . . . . . . . . . . . . .
13.6 Contours correspondant à la figure 13.5
13.7 Loi gaussienne bidimensionnelle avec
. . . . . . . . . . . . . . . . .
13.8 Contours correspondant à la figure 13.7
9 9 ;:
xiv
< < , =6 . . .
. . .
,
. . .
. . .
,
. . .
. . .
. . .
. . .
,
. .
. .
,
. .
. .
,
. .
. .
>8 . . .
. . .
< < =6 >8 . . .
. . .
. . .
. . .
< < =6 >8 . . .
. . .
. . .
. . .
et
. . .
. . .
et
. . .
. . .
et
. . .
. . .
154
154
155
155
156
156
Liste des tableaux
1
2
Objectifs "être capable de". . . . . . . . . . . . . . . . . . . . . .
Objectifs "être sensibilisé à". . . . . . . . . . . . . . . . . . . . .
ii
iii
12.1 Exemple de loi dont les lois marginales ne permettent pas de retrouver la loi conjointe . . . . . . . . . . . . . . . . . . . . . . . 134
xv
Chapitre 1
Espace probabilisable et Espace
probabilisé
1.1 Idées fondamentales sur les espaces de probabilité
Le but de ce paragraphe est d’introduire le concept d’espace probabilisable.
En théorie générale de la mesure et de l’intégration, on parle d’espece mesurable,
mais les deux notions sont totalement identiques, comme nous le verrons.
Une expérience de physique est toujours assujettie à des conditions expérimentales. Ces conditions expérimentales limitent les expériences que l’on peut
réaliser. Pour un jeu de conditions expérimentales données, on parlera donc d’expérience possible ou, de manière abrégée, de possible, par contraste avec toutes
les expériences qui sont impossibles relativement à ces mêmes conditions.
Prenons un exemple classique qui servira de fil conducteur dans la suite. Supposons que nous disposions d’un dé à six faces. Lancer ce dé et noter le chiffre sur
la face supérieure de ce dé est évidemment une expérience possible relativement
aux conditions expérimentales que nous nous sommes données. Une expérience
qui n’est pas possible sous cette condition expérimentale serait celle consistant à
jeter deux dés à faces en même temps puisque nous ne disposons que d’un seul
dé.
Soit maintenant une expérience possible. Une réalisation de cette expérience
est appelée une épreuve. Le résultat de cette épreuve est aléatoire. Le but d’une
épreuve est d’observer la réalisation (ou la non-réalisation) d’un événement
donné. Un événement peut être observable lors de la réalisation d’une expérience
1
possible ; d’autres événements ne seront pas observables. Ainsi, si nous considérons de nouveau notre expérience consistant à jeter un dé à faces et à noter le
chiffre qui apparaît sur la face supérieure, les événements
le numéro sortant est le ,
le numéro sortant est le ,
,
le numéro sortant est le ,
'(
sont trivialement des événements observables (ou observables, en abrégé). Par
contre, l’événement le numéro sortant est le n’est pas un obervable.
, nous voyons que chaque événement obSi nous posons
servable que nous venons de citer correspond, de manière unique, à un singleton
. Mais les événements observables pour cette expérience ne se limitent pas à
ceux que nous venons de citer. Un événement observable est par exemple Le numéro sortant n’est pas le , qui correspond à la négation logique de l’événement
de , c’estLe numéro sortant est le , soit encore au sous-ensemble
à-dire le complémentaire de
dans .
Un autre événement que l’on peut considérer est Le numéro sortant est pair.
de , c’est-à-dire,
Cet événement corrrespond au sous-ensemble trivialement, à l’union des trois singletons
,
,
ou, de manière équivalente, au "OU" logique ( )
, 2 2 Le numéro sortant est le
Le numéro sortant est le
Le numéro sortant est le .
2
2
Un autre événement observable est Le numéro sortant est un multiple de autre
de . Là encore, cet événeque , qui correspond au sous-ensemble ment correspond au "OU" logique
Le numéro sortant est le
2
Le numéro sortant est le
Nous pouvons alors considérer l’événement Le numéro sortant est pair et multiple
de , ce qui correspond au singleton
, mais aussi au "ET" logique ( )
2
Le numéro sortant est pair
2
Le numéro sortant est un multiple de autre que
2
.
Cet événement correspond aussi à l’intersection Ces quelques exemples nous conduisent à munir l’ensemble des événements
observables d’une structure logique qui obéit à des conditions de stabilité par rapport aux opérations logiques fondamentales , et la négation. En théorie des
probabilités, on préfère l’interprétation ensembliste des événements telle que nous
l’avons proposé sur notre exemple de base. Chaque événement observable à l’is
sue d’un possible sera identifié à une partie d’un ensemble . Soit alors l’ensemble
de ces observables. Cet ensemble sera alors identifié à un ensemble d’ensembles
puisque chaque observable est lui-même une partie de . On préfèrera parler de la
collection des observables. Conformément aux remarques précédentes, l’axiomatique de la théorie des probabilités consiste à munir cette collection de conditions
de stabilité par rapport aux opérations fondamentales sur les ensembles que sont
l’union ( ), l’intersection ( ) et le complémentaire.
Ainsi, si est un événement observable, nous ferons l’hypothèse que est
aussi un événement observable. Si et sont deux événements observables,
et seront eux-aussi des événements observables. Si dénote la collection des événements observables, une axiomatique permettant de rendre compte
des remarques précédentes consiste donc à supposer que est stable par complémentarité, union et intersection finie.
Les jeux de hasard tels que celui de pile ou face, les jeux de dés, de cartes ou
la loterie fournissent des exemples d’expériences aléatoires pour lesquelles est
fini. Il nous faudra cependant aller un peu plus loin car l’expérience qui consiste
à observer le nombre d’appels passant par un central téléphonique par jour, fourni
un ensemble infini dénombrable ( ).
, l’événement observable "le nombre d’appels est " sera
Pour tout
identifié au singleton
. L’événement "le centre de réception a recu plus d’un
appel" se doit d’être observable car c’est le moins que l’on puisse attendre de
l’application de la théorie à l’exemple utilisé. Cet événement sera identifié à l’en
semble qui est une union dénombrable, certes, mais infinie, de singletons
.
Nous sommes donc obligés d’introduire une condition de stabilité par rapport
, est une séquence d’événements
aux unions dénombrables. Si ,
observables, nous ferons donc l’hypothèse que est aussi un événement
observable. Autrement dit, en reprenant les notations précédemment introduites,
on demandera à d’être stable par union dénombrable (et donc par intersection
dénombrable).
Rajoutons à ceci que l’ensemble sera considéré comme un cas trivial d’observable et nous obtenons une définition axiomatique des observables associés
à une expérience possible. C’est une collection de sous-ensembles de qui
+
+
+
+
+ ('
3
contient et qui est stable par complémentarité et union dénombrable. Nous venons de définir la notion de tribu (ou -algèbre dans la littérature anglo-saxonne)
qui est si fondamentale en théorie des probabilités mais aussi en théorie de la mesure.
Nous voyons donc émerger une structure mathématique commode pour dé
crire les événements observables à partir d’un ensemble . Il faut cependant gar
der à l’esprit que toutes les parties de ne sont pas nécessairement observables,
même si l’ensemble des parties de est effectivement une tribu. Parce que l’en
semble des parties de est une tribu, on appellera événement tout sous-ensemble
de . Mais certains de ces événements, répétons-le, seront observables pour une
expérience possible (ils seront membres d’une tribu adaptée à l’expérience que
l’on réalise), d’autres non. Par exemple, pour notre passionnant jeu de dé, nous
pourrions très bien choisir
pour décrire l’expérience en limitant
. L’événeles observables à l’ensemble des parties du sous-ensemble
ne serait pas observable. Evidemment, choisir cet ensemble pour
ment
décrire notre jeu de dé n’est pas bien malin. Par contre, supposons que nous dis
posions aussi d’un dé à 12 faces. Cet espace nous permet donc de décrire tout
aussi bien le jeu de dé à faces (en se limitant à la tribu des observables adéquate)
que le jeu de dé à
faces (en prenant comme tribu des événements l’ensemble
des parties de ). Cet exemple trivial montre aussi, et ceci est particulièrement significatif, que le choix de la tribu est conditionné par l’expérience possible. Cette
notion recevra un traitement mathématique particulier dans la suite.
Pour finir avec cette introduction des idées fondamentales en théorie des probabilités, mentionnons deux conventions de langage et deux éléments supplémentaires de terminologie.
Même si certains événements sont observables et d’autres non, l’usage veut
qu’on omette le qualificatif d’observable pour les éléments de la tribu des observables. Ceci est un abus de langage fort acceptable car ce sont ces événements qui
nous intéressent et non les événements non observables.
Lorsque est fini ou dénombrable, les singletons
,
, sont généralement des événements observables (mais ce n’est pas forcément vrai, nous l’avons
vu). D’où l’usage d’appeler événement élémentaire (ou éventualité) tout élément
de .
L’ensemble est appelé l’événement certain tandis que l’ensemble vide est
l’événement impossible .
(( ('
4
1.2 Espace probabilisable ou mesurable
De manière générale, on part d’un ensemble arbitraire dont les éléments
sont appelés les événements élémentaires. Par toutes les opérations introduites
d’événements (observables).
précédemment, nous construisons une famille
Cette famille est appelée une tribu , ou -algèbre.
Définition 1 Soit un ensemble, un ensemble de parties de . On dit que
est une tribu de si elle contient et si elle est stable pour les opérations de
complémentation et de réunion dénombrable, soit :
1.
2.
3.
Le couple
définit un espace probabilisable (ou mesurable). On peut véri
fier que la tribu des événements est aussi stable pour l’opération d’intersection
dénombrable.
Exemples de tribus : La collection
est la plus petite tribu possible.
des parties de est aussi
La collection
une tribu et c’est même la
plus grosse possible. De fait, pour tout sous-ensemble de , il existe au moins une
. Comme il est facile de
tribu qui contient ce sous-ensemble, en l’occurrence
vérifier que l’intersection d’une famille quelconque de tribus est aussi une tribu,
la définition suivante a donc un sens.
Définition 2 On appelle tribu engendrée par une classe de parties de la plus
petite tribu contenant , c’est-à-dire l’intersection de toutes les tribus contenant
. La tribu engendrée par est notée .
Il est à noter que l’on peut très bien avoir pour deux
collections
différentes
de sous-ensembles de . Par exemple, si et
et . En effet, la tribu engendrée par est
où , .
Définition 3 Soit
un espace probabilisable, dénombrable. On dit que la
famille est un système complet de constituants pour si et seulement si :
a) b) "! 5
En particulier,
.
Définition 4 Un événement .
ou est élémentaire si et seulement si Théorème 1 Soit
un espace probabilisable, tel que soit dénombrable.
Alors admet un système complet de constituants formé d’événements élémentaires.
Nous aurons l’occasion de rencontrer aussi la tribu trace d’une tribu. Cette
tribu trace est définie comme suit.
Soit
un espace probabilisable et
soit mesurable. Posons
que le sous-ensemble
. Noter qu’on ne requiert pas
(1.1)
Cette collection d’ensembles est une tribu sur . Nous laissons au lecteur le soin
de le montrer. Ce n’est vraiment pas difficile. Notons seulement que la stabilité
et non dans . On
par complémentarité concerne la complémentarité dans
pose alors la définition suivante.
Définition 5 Soit
un espace probabilisable et
. On appelle tribu
trace de sur , la collection d’ensembles définie par (1.1).
1.3 Tribu des boréliens de
La tribu borélienne (ou de Borel ou des boréliens) d’un espace topologique est
la tribu engendrée par l’ensemble des ouverts de cet espace. Dans ce cours, nous
pour
aurons particulièrement besoin de la tribu borélienne de et de celle
traiter nombre de cas où l’espace est non dénombrable. Expliquons ceci par un
exemple particulier.
Considérons le jeu de fléchette avec une cible circulaire. Si l’on admet que le
point d’impact est localisé de manière aléatoire, nous pouvons considérer que les
événements élémentaires sont représentsés par des points mathématiques situés
à l’intérieur d’un cercle de rayon . Les événements possibles sont également
des ensembles de points à l’intérieur du cercle. Soit un domaine quelconque
l’ensemble des points de la cible appartenant à . On suppose
et soit 6
que le point est uniformément distribué, ce qui signifie que la probabilité de
l’événement est :
où est la surface du domaine . Ceci prouve que tout événement élémentaire
a une probabilité nulle puisque la surface associée à un point est nulle. Ainsi,
tout événement élémentaire est un événement de probabilité nulle, ce qui n’etait
pas le cas pour le jeu de dés où l’ensemble était un ensemble fini. Ainsi dans
le cas continu, le calcul de la probabilité d’un événement arbitraire nécessite des
méthodes mathématiques plus avancées qui vont reposer sur la notion de boréliens
de .
Définition 6 La tribu borélienne de est la tribu engendrée par la famille des
. Un élément de cette tribu sera appelée
ouverts de . Cette tribu sera notée
un borélien ou une partie borélienne de .
Les propositions suivantes résument les propriétes essentielles de cette tribu.
Proposition 1 Tout intervalle (ouvert, fermé ou semi-ouvert) de est un élément
. Il en va de même pour toute réunion finie ou dénombrable d’intervalles.
de
3 5 La démonstration
repose sur le fait que tout intervalle fermé peut
s’écrire
sous la forme
, que tout intervalle
est égal à
et que tout intervalle
.
est la réunion dénombrable 5
5 3 5 Proposition 2 La tribu des boréliens de
cune des familles suivantes :
(i) (ii) (iii) (iv) (v) (vi) (vii) (viii) 3
43
43
3
On a donc
est aussi la tribu engendrée par cha-
, La tribu des boréliens n’est pas dńombrable. Elle a en fait la puissance du
.
continu : il existe une bijection entre et
7
1.4 Tribu des boréliens de La tribu des boréliens de
se définit de manière analogue à celle de .
, est la tribu engendrée par
.
Définition 7 La tribu borélienne de , notée
la famille des rectangles ouverts ou pavés ouverts 3
n’est pas la Nous le verrons un peu plus loin : la tribu borélienne de
puissance cartésienne de la tribu des boréliens de .
Proposition 3 On démontre que la tribu
classe des rectangles de la forme est la tribu engendrée par la
où les sont réels.
1.5 La tribu des boréliens de la droite réelle étendue
Les détails des résultats donnés ci-dessous sont donnés à l’annexe A.
La topologie usuelle de
est
% 3 et comme nous l’avons dit plus haut, la tribu des boréliens de
par les ouverts de cette topologie usuelle.
est celle engendrée
Pour définir une tribu commode sur , on procède de manière analogue. On
commence par se donner une topologie, dite usuelle, sur , puis on appelle tribu
de , la tribu engendrée par les ouverts de au sens de cette topologie usuelle.
Les détails de cette construction sont donnés à l’annexe A. Le résultat le plus
important est la propostion suivante.
Proposition 4 La tribu des boréliens de
quelconque des collections suivantes :
3
. .
. .
On a donc
3
, notée
est engendrée par l’une
. Exercice 1 Montrer que la tribu trace de
.
boréliens
8
sur
est exactement la tribu des
1.6 Mesure positive
un espace probabilisable. Une application Définition
8
Soit
une mesure positive si pour toute suite dénombrable
d’événements
est
mutuellement disjoints (ou incompatibles, ), on a :
Cette propriété est la propriété dîte de -additivité . Le triplet
espace mesuré.
(1.2)
est appelé
De cette définition, nous pouvons déduire les quelques propriétés suivantes :
1.
2. Soit
une suite d’événements de . Alors :
Si les événements
vient une égalité :
3.
4.
sont de plus mutuellement disjoints, l’inégalité de-
soit une suite croissante d’événements (au sens de l’inclusion) et
est croissante et converge vers
soit . Alors la suite
quand .
#
.
soit une suite décroissante d’événements telle que Soit est décroissante et converge vers
quand 3 . Alors la. suite 5.
Exemples de mesures :
– La mesure nulle est celle qui vaut pour tout événement.
– La mesure infinie est celle qui vaut
pour tout événement qui n’est pas
vide et zéro pour l’ensemble vide.
9
– La mesure de Dirac en un point
de
est notée et vaut
si
sinon
(1.3)
pour .
– La mesure de comptage est celle qui associe à un événement son cardinal.
#
Définition 9 Soit
.
un espace mesuré. La mesure
est dite bornée si
Une conséquence immédiate de cette définition est que, dans ce cas, la mesure de
tout événement de la tribu est finie.
1.7 La mesure de Lebesgue
Nous définissons maintenant la mesure qui est la plus importante en analyse et
en probabilités. C’est la mesure de
la longueur dans le cas
Lebesgue qui mesure
de , la surface dans le cas de
, le volume dans
et qui se définit dans tout
,
.
Commençons par muni de sa tribu des boréliens
intervalles est usuelle :
3
que égale
,
,
.
ou La longueur des
(1.4)
On peut montrer, et ce n’est pas si simple qu’il n’y paraît, que dès que les sont des intervalles deux à deux disjoints dont l’union
est encore un intervalle. Ceci ressemble à la propriété de -additivité mais il faut
encore travailler car l’ensemble des boréliens de ne se limite pas à l’ensemble
des intervalles ouverts, fermés ou semi-ouverts. Avec beaucoup de sueur, on arrive
à montrer le théorème suivant.
Théorème 2 Il existe une et une seule mesure positive sur
qui vérifie
(1.4). La mesure de Lebesgue est définie comme étant cette unique mesure positive.
Ce résultat est un des plus difficiles à montrer. Nous omettrons donc sa démonstration mais le lecteur intéressé peut se reporter à l’annexe B qui présente
10
une synthèse de la la construction de la mesure de Lebesgue-Stieltjes. Le théorème précédent est un cas particulier de cette construction.
La difficulté majeure est l’existence de la mesure . C’est le théorème de prolongement dont une version plus générale est donnée par le théorème 35 : on
connaît sur la classe des intervalles ouverts à gauche et fermés à droite ; cette
classe engendre bien la tribu des boréliens et la partie difficile est de montrer que
. Il est plus facile de montrer l’unicité.
peut être prolongée à toute la tribu
En fait, la tribu des boréliens n’est pas la plus grande tribu sur laquelle on
peut définir la mesure de Lebesgue et cela apparaît dans la démonstration même
du résultat. Le prolongement qui assure l’existence de la mesure de Lebesgue se
plus grande que . Cette tribu est ce qu’on appelle
fait sur une tribu
. Nous reviendrons sur ce point un peu plus tard. Ce qu’il
la "complétée" de
faut retenir pour l’instant est :
est ce qu’on appelle la tribu de Lebesgue sur ;
(a) Ladite tribu
(b) Même si, par abus de langage, la tribu de Lebesgue est souvent confondue avec la tribu des boréliens pour des raisons que nous expliciterons au
chapitre 6, la tribu des boréliens est strictement incluse dans la tribu de
Lebesgue.
Voici quelques propriétés simples de la mesure de Lebesgue :
– La mesure de Lebesgue est invariante par translation et c’est d’ailleurs la
seule mesure sur qui vérifie cette propriété.
– La mesure de Lebesgue des singletons est nulle.
– Tout ensemble fini ou dénombrable
est un borélien de mesure nulle.
non vide. Cet intervalle est évidem– Considérons un intervalle .
ment l’union infinie mais non dénombrable des singletons
où
Cependant, on ne pourra pas écrire . Ceci pour deux
raisons. La première est que la mesure de chaque singleton est nulle de sorte
que la seule valeur raisonnable que l’on pourrait donner à cette somme serait . La seconde raison est qu’on ne sait pas définir la somme d’une infinité non dénombrable de termes. Ceci explique pourquoi la définition d’une
tribu se limite à des unions au plus dénombrables et pourquoi, par conséquent, la -additivité elle-aussi ne concerne que des réunions dénombrables.
Définissons maintenant la mesure de lebesgue
de
assez direct. Le "volume" d’un rectangle 11
3
,
. En fait, c’est
est
(1.5)
et nous avons l’analogue du théorème 2 :
Théorème 3 Il existe une et une seule mesure sur
(1.5). cette unique mesure est la mesure de Lebesgue.
qui vérifie
1.8 Définition d’une probabilité
La notion de mesure introduite plus haut nous permet de définir la notion de
probabilité.
Définition 10 Soit
un espace probabilisable. Une probabilité
telle que mesure positive bornée sur
est une
Nous pouvons donner une autre définition de la probabilité utilisable en pratique.
un espace probabilisable. On appelle probabilité toute
dans telle que :
Définition 11 Soit
application de
1. 2.
(relation de normalisation)
Pour toute suite décroissante d’événements de , notée convergeant
est décroissante et converge vers (relation de
vers , la suite
3. Pour tout couple d’événements disjoints de ,
(relation d’additivité)
4.
continuité)
Exercice 2 Montrer que les définitions 10 et 11 sont effectivement équivalentes.
Le triplet
est un espace mesuré, certes, mais étant muni d’une mesure de probabilité, on préfère parler d’espace probabilisé.
Une probabilité est entièrement définie par la donnée des valeurs prises par
chaque événement d’un système de constituants.
Pour construire une probabilité sur un espace probabilisable dénombrable, on
peut utiliser le théorème ci-dessous.
12
Théorème 4 Soit
un espace probabilisable où est dénombrable. On sup
.
pose que est un système complet de constituants tel que
, est entièrement connue si on connaît
a) Si est une probabilité sur
les .
b) Réciproquement, soit une suite de réels à valeurs dans
telle
vérique . Alors il existe une unique probabilité sur
fiant .
1.9 Espace produit
Remarquons qu’à une expérience aléatoire répétée plusieurs fois correspond
un espace produit. Le cas du jeu Pile ou Face répété une infinité de fois donne
comme
élémentaire une suite ordonnée
infinie de Piles et de Faces :
événement
et .
((
1.10 Exercice corrigé
Soit l’expérience aléatoire consistant à lancer une pièce jusqu’à l’apparition
qui modélise cette expérience.
de pile. Donner l’espace de probabilité
Réponse :
(' (' est donc dénomL’événement ”Pile n’apparaît jamais” est à considérer.
brable. La tribu peut être choisi comme . On obtient ainsi un espace
probabilisable. La probabilité
, peut être choisi, comme :
(' . Pour l’événement élémentaire (( , onesta le -uplet
. On peut vérifier que
est une probabilité (la
3
). On obtient ainsi un espace probabilisé.
propriété de la
additivité et
où Compléments : Boréliens d’un espace topologique
Le fait que et que puissent être munis de structures topologiques, dites usuelles,
nous permet de rendre ces ensembles mesurables en considérant la tribu engendrée par les
13
éléments de ces topologies. De là, à construire un espace mesurable à partir de tout espace
topologique, il n’y a qu’un pas. En fait, en théorie de l’intégration, on pose la définition
générale suivante.
un espace topologique. La tribu Définition 12 Soit
espace topologique est la tribu engendrée par les éléments de
des boréliens de cet
:
Exercice 3 Comment peut-on définir la tribu des boréliens de , de 14
où ?
Chapitre 2
Calcul combinatoire des probabilités
2.1 Généralités
Dans ce chapitre, nous considérons des ensembles d’événements élémentaires
finis ou infinis dénombrables munis de la tribu constituée par toutes les parties
. La donnée d’une probabilité sur est équivalente à la
de :
de nombres
donnée d’une famille finie ou infinie dénombrable
compris entre 0 et 1 telle que
.
Dans le cas d’un fini, un exemple est la probabilité uniforme pour lequel
chaque événement élémentaire a la même probabilité. On a alors :
et
Nb de cas favorable
Nb de cas possible
(2.1)
(2.2)
Cette probabilité traduit mathématiquement l’expression "au hasard".
2.2 Rappels d’analyse combinatoire
'( une population formée de individus distincts.
Soit
Un
échantillon
(( de taille extrait de cette population est une suite ordonnée
de éléments de . Il faut distinguer deux manières de tirer
un échantillon :
15
'(
– tirage avec
remise
: la suite peut comporter plusieurs fois le même élément.
On a
et
– tirage sans remise : ( on a :
(2.3)
),
3 (' 3
3 (2.4)
Un tirage dans ce cas est un arrangement.
On peut définir aussi les sous-populations de taille p ( ) de . C’est un
sous-ensemble de comportant éléments distincts pour lequel l’ordre n’intervient plus. Le nombre de tels sous-ensembles est égal au nombre d’échantillons
de taille , sans remise, divisé par qui est le nombre de bijections (on dit aussi
de permutations) d’un ensemble à éléments. On a alors :
5 3 est appelé aussi le nombre de combinaisons de
(2.5)
éléments parmi .
2.3 Exemple
Considérons le jeu de Bridge (jeu à 52 cartes). La distribution des cartes
étant faite au hasard. "La main" d’un joueur
est une sous-population de 13
. Soit l’événement
cartes. Le nombre de "main" possible est
le joueur a exactement
3 As . On a :
.
2.4 Exercice corrigé
On lance successivement 3 dés distincts équilibrés.
1. Définir l’ensemble des événements élémentaires .
2. Quel est le nombre d’événements élémentaires (ou
16
)?
.
3. Soit
4. Soit l’événement "obtenir le même résultat pour les trois dés". Calculer
.
l’événement "obtenir trois résultats différents". Calculer
. l’événement "au moins deux dés donnent le même résultat". Calculer
5. Soit
6. Soit l’événement "deux dés parmi les trois donnent le même résultat, le
troisième donnant un résultat différent". Calculer .
Réponse :
1. L’ensemble
2. Il y a
3.
est l’ensemble des triplets d’entiers définis par :
événements élémentaires ayant la même probabilité
5 Pour obtenir l’événement , il faut obtenir un triplet de la forme
.
et
six situations différentes sont possibles. En conséquence, nous avons :
5 5 2 4. L’événement obtenu lorsque
les trois
résultats sont différents. Ceci peut
s’écrire
sous la forme
avec
distincts. Choisissons tout d’abord
: il y a six possibilités. Nous devons ensuite choisir tel que
, il y
a ainsi
5 choix différents possibles. De même, pour , qui doit être différent
de et , n’a que 4 choix possibles. Nous obtenons par conséquent :
5. Remarquons que
3
5 5 :
, et par suite :
3
3 5: 5:
6. Les événements
prennent la forme
ou
ou
, où correspondants
. Le nombre d’événements distincts de la forme
est évidemment
. En conséquence, la probabilité de l’événement
vaut :
2
: 5
17
5 On
que et il est évident que tout événement
. Les événements et vérifie
appartient
à la réunion ,
constituent une partition de . Si on prend comme tribu, l’ensemble
l’ensemble des parties de , on définit ainsi,
, un espace probabilisable (dit
aussi mesurable). Muni de la probabilité uniforme (équiprobabilité entre les
.
événements élémentaires), on obtient un espace probabilisé
18
Chapitre 3
Probabilités conditionnelles et
indépendance
3.1 Probabilités conditionnelles
3.1.1 Définition
un événement de
Définition 13 Etant donné un espace probabilisé
de probabilité non nulle. La probabilité de l’événement etconditionnelllement
à l’événement , notée , est définie par :
5
5 (3.1)
Remarques :
se lit aussi "probabilité de sachant ".
1.
2. Notez que l’on utilise également cette notion sous la forme :
5
que l’on généralise à :
(( 5 5 5 '( 5 (( 3. Nous pouvons aussi déduire ce que l’on appelle la règle de Bayes, écrite
sous la forme :
5 19
5 Proposition 5 L’application :
3
3
).
est une probabilité (sur
3.1.2 Formule de Bayes
Soit une partition finie ou infinie de
Une telle partition est caractérisée par :
Nous en déduisons la formule de Bayes :
5 telle que pour tout ,
et
On a alors pour tout événement arbitraire :
5
5 %
.
(3.2)
5 (3.3)
(3.4)
C’est une conséquence directe de la règle de Bayes.
3.2 Evénéments indépendants
3.2.1 Indépendance de deux événements
Définition 14 Soit
un espace probabilisé et A et B deux événements. On
dit que A et B sont stochastiquement indépendants si et seulement si :
Remarques :
(3.5)
1. Lorsque sont stochastiquement indépendants si et seule
, A et B, ce
ment si qui signifie que la probabilité de n’est pas
modifiée par la réalisation de .
5
20
2. La notion d’indépendance dépend de la probabilité . Deux événements
peuvent être indépendants pour une probabilité et pas pour une autre
probabilité .
3. Un événement de probabilité nulle est indépendant de n’importe quel
événement de probabilité non nulle.
4. Si et sont indépendants alors et ou ( et )).
5. Si et et sont indépendants alors :
sont indépendants (idem pour 3
(3.6)
Exemple :
Dans le cas du lancer d’un dé, considérons les deux événements . Pour la probabilité uniforme, et sont indépendants puisque :
et 2 2
3.2.2 Indépendance d’une suite d’événements
Définition 15 Soit une suite (finie ou infinie) d’événements d’un espace pro . On dit que la suite est indépendante si et seulement si
babilisé
extraite de la suite , on a :
pour toute suite finie '(
(3.7)
Remarques :
1. Cette définition est équivalente à :
pour tout indices
.
2.
La suite %
5 (( (( deux à deux distincts tels que
est indépendante implique que la suite
ou ) est indépendante.
21
(où désigne
3.2.3 Théorème de Borel-Cantelli
Soit une suite d’événements. L’événement “un nombre infini d’évé
. Dans le
nements a lieu” est appelé limite supérieure de la suite et est noté
même esprit, l’événement “seul un nombre fini d’événements a lieu” est appelé
.
limite inférieure de la suite et est noté
On peut écrire :
Ces deux événements étant introduits, nous pouvons énoncer le théorème de
Borel-Cantelli. Ce théorème est utilisé pour démontrer la convergence presque
sûre d’une suite d’événements (cf. section ??).
Théorème 5 (Théorème de Borel-Cantelli)
1. Si une suite d’événements
.
est telle que
2. Si une suite d’événements indépendants
, alors
.
#
est telle que
, alors
3.3 Indépendance de tribus
Pour terminer ce chapitre, nous noterons que l’indépendance s’étend aux tribus :
Définition 16 Soit
un espace probabilisé. Une suite de sous tribu
de
est dite indépendante si et seulement si pour toute suite d’événements ,
, est indépendante.
telle que 3.4 Exercice corrigé
Dans une population,
des individus sont contaminés par un virus. On dispose d’un test de dépistage qui présente les propriétés suivantes : Parmi les indivi
dus contaminés, le test est positif à
; Parmi les individus non contaminés, le
test est tout de même positif à
(il y a donc des risques de mauvais diagnostic).
2
::
22
1. Quelle est la probabilité, que le test appliqué à un individu pris au hasard
soit positif ?
2. Sachant, pour un individu donné, le test est positif, quelle est la probabilité
que cet individu soit contaminé ?
3. Calculer les probabilités intéressantes pour ce problème et en déduire les
remarques de bon sens que cela vous inspire.
Eléménts de correction de l’exercice :
Définissons les événements dans notre population .
"le test est positif",
"l’individu est contaminé",
Les données de l’énoncé s’interprétent en disant que :
,
,
.
::
5 5
2
5 5 : 1. On a
.
Le fait qu’il y ait beaucoup de gens bien portant fragilise la fiabilité du test.
2.
5 5 Un tiers (
) des personnes qui ont fait virer le test ne sont pas contaminés.
Il est difficile de faire un test fiable quand la maladie est rare.
3. On peut s’amuser à calculer d’autres probabilités non demandées par
l’énoncé.
5 5 :: : 23
Il est aussi interessant de se poser la question des malades non dépistés par
le test.
5 5 Peu de personnes contaminées ne seront pas dépistées par le test. Faire les
tests dans les populations exposées au virus est une bonne stratégie de politique de santé publique.
24
Chapitre 4
Variables aléatoires (réelles et
généralisées)
Dans de nombreuses expériences physiques ou dans des problèmes de traitement du signal il est nécessaire d’associer une valeur numérique aux résultats d’une épreuve expérimentale. Dans le cas du lancer d’une pièce on pourra
à l’événement élémentaire
Pile et
à
par
exemple décider d’associer
Face.
Nous devons donc savoir comment associer une valeur numérique à chaque
élément de l’ensemble et introduire des applications prenant des
valeurs réelles. Les notions d’application mesurable, de variable aléatoire et de
variable aléatoire généralisée permettent de poursuivre dans cette voie de façon
satisfaisante.
3
Avant de continuer, donnons quelques précisions d’ordre terminologique. Par
fonction
, nous entendons une correspondance entre et pour
laquelle tout élément de a au plus une image dans . Par application, nous
entendons une fonction pour laquelle tout élément de a une image et une seule
dans .
Cette terminologie n’est pas exactement celle utilisée dans la littérature anglosaxonne. Les termes "function" et "application" se rencontrent dans cette littérature avec le sens que nous venons de donner. En général, cependant, le terme
"map" ou "mapping" est utilisé dans le sens d’application. Le terme de "function"
est alors souvent employé pour désigner une application à valeurs dans , , voire
. Attention donc lors de la lecture d’articles et d’ouvrages.
25
4.1 Applications mesurables
et deux espaces probabilisables. Soit Définition 17 Soient
une application de dans , est une application mesurable de dans
si l’image réciproque de tout sous-ensemble mesurable de (id est, tout
élément de ) est un sous-ensemble mesurable de (id est, un élément de ).
On rappelle que si est un sous-ensemble de (non nécessairement mesurable,
est l’ensemble des éléments de dont
notons le), l’image réciproque
l’image par appartient à :
Ne pas confondre cette notation avec celle utilisée pour désigner la fonction
réciproque ou fonction inverse de lorsque cette fonction est bijective.
appartient à pour tout
Si est mesurable,
pour signifier que parfois rapport aux tribus mises en jeu.
Lorsque
respectives
dans et on écrit
est mesurable par
et avec avec leurs tribus boréliennes
respectives, une fonction mesurable de etest appelée
fonction borélienne.
Exemples : Avec les notations introduites précédemment :
1. Si
de toutes ses parties, toute application de
est muni de la tribu
dans
est mesurable.
2. Toute fonction constante de
dans
est mesurable.
4.2 Variables aléatoires réelles et généralisées
La terminologie que nous utilisons est celle proposée dans [11], qui est une
référence que nous utiliserons pour la présentation des processus aléatoires.
Définition 18 Soit
un espace probabilisable.
(i) On appelle variable aléatoire réelle toute application mesurable de
où désigne la tribu des boréliens de .
dans
26
(ii) On appelle variable aléatoire généralisée toute application mesurable de
dans où désigne la tribu des boréliens de la droite étendue
.
Remarques :
1. Dans la pratique, les variables aléatoires sont en général suffisantes pour
traiter les problèmes usuels. Nous introduisons les variables aléatoires généralisées car celles-ci interviennent dans certains cas qui ne sont pas pathologiques mais qui jouent un rôle significatif.
2. La définition d’une variable aléatoire, qu’elle soit réelle ou généralisée, ne
demande pas à ce que l’ensemble soit probabilisé ou non. Il faut quand
même que cet ensemble soit muni d’une tribu.
pour désigner les
3. En général, on utilise les lettres majuscules
variables aléatoires réelles ou généralisées.
4. Si réciproque de par une variable aléatoire
, l’image
est souvent
au lieu de . notée
((
Il en va de même si et
est une variable
aléatoire généralisée.
est un espace
5. A titre d’exercice, le lecteur pourra montrer que si
probabilisable, alors les trois propositions suivantes sont équivalentes :
(i) 1l est une variable aléatoire
)
(ii) est un ensemble mesurable (
(iii) 1l est une variable aléatoire généralisée
Ce résultat illustre la cohérence entre la notion de mesurabilité d’une fonction et celle d’un ensemble.
Il est bon de garder à l’esprit les lemmes suivants, dont les démonstrations
aisées sont laissées au lecteur.
un espace probabilisable, et la tribu trace de
Lemme 1 Soit
sur , c’est-à-dire la collection . Soit ou
et l’espace mesurable correspondant.
une application mesurable.
(a) Soit de à définie, pour
(i) La restriction
tout
, est mesurable par rapport aux tribus
et , par
.
27
(ii) L’application 1l aux tribus et .
(b) Soit
, désignons par Alors
est mesurable par rapport
une application mesurable. Pour tout
l’extension de définie par
si si
est mesurable par rapport aux tribus
et .
Lemme 2 Soit
un espace probabilisable,
et
pace mesurable correspondant. Soit
est incluse dans : .
l’image
ou
et l’es
une application dont
la tribu trace de sur , l’application En
désignant
par
est mesurable
et si et seulepar rapport aux tribus est mesurable par rapport aux
ment si l’application
tribus et .
En gardant les notations de ce lemme, celui-ci signifie en particulier que la
entraîne celle de lorsqu’on est
mesurabilité de
considérée comme une application à valeurs dans qui contient .
Aussi, une variable aléatoire réelle est un cas particulier de variable aléatoire
généralisée. Une variable aléatoire réelle est aussi un cas particulier de variable
aléatoire complexe.
De même une variable aléatoire généralisée
positive, c’est-à-dire une variable
aléatoire
comme une va peut
être
considérée
et une variable
riable aléatoire généralisée.
aléatoire
réelle positive
est aussi un cas particulier de
variable aléatoire et de variable aléatoire généralisée positive.
4.3 Critères de mesurabilité
Le premier critère que nous énonçons ci-dessous est celui que l’on présente
classiquement en théorie de la mesure et de l’intégration. Il n’est ni plus simple,
ni plus compliqué que ses applications aux variables aléatoires réelles et généralisées.
28
où et sont deux espaces proProposition 6 Soit . Pour que babilisables. Soit une classe de parties de telle que appartienne à pour tout élément
soit mesurable, il faut et il suffit que
de .
Nous proposons au lecteur de prouver ce résultat sous forme d’exercice selon
les étapes suivantes.
Exercice :
1. Montrer que la condition est nécessaire
2. Réciproquement, supposons que
dans et considérons
(b) Montrer que
est une tribu de
est inclus
(a) Montrer que
et en déduire que
(c) Conclure
Un critère fort utile dès que l’on considère des applications définies sur un
espace vectoriel de dimension finie et à valeurs dans un autre espace vectoriel de
dimension finie est le suivant.
Proposition 7 Toute application continue de
rélienne.
dans où
est bo-
Nous passons maintenant au cas des variables aléatoires réelles grâce à la proposition suivante qui est une application directe des propositions 6 et ??.
Proposition 8 Soit
un espace probabilisable. Pour qu’une application
soit une variable aléatoire, il faut et il suffit qu’elle vérifie l’une
quelconque des conditions suivantes :
(i)
(ii)
#
est un élement de
est un élement de
pour tout
pour tout
29
.
.
Exercice 4 Avec les notations introduites ci-dessus, montrer que pour que
soit une variable aléatoire, il faut et il suffit que l’une quelconque des
conditions suivantes soient réalisées :
(iii)
(iv)
%
est un élement de
est un élement de
pour tout
pour tout
.
.
Exercice
5 Enoncer un critère de mesurabilité basé sur les intervalles
,
,
,
.
,
Exercice 6 Soit
. Montrer que est mesurable lorsque est muni
de la tribu
si et seulement si l’une quelconque des conditions (i-iv) de la
proposition 8 et de l’exercice 4 est vérifiée.
Exercice 7 Montrer que l’on peut remplacer "
énoncés des exercices précédents.
" par "
" dans les
4.4 Propriétés élémentaires des applications mesurables et des variables aléatoires réelles
Les propriétés suivantes sont celles des applications mesurables et sont donc
valables pour les variables aléatoires puisque celles-ci sont les applicationes mesurables à valeurs dans muni de sa tribu des boréliens.
et , espaces proProposition 9 Soient trois
babilisables. Si est une application mesurable de dans dans , alors l’apet
une application mesurable de
dans
plication composée
est une application mesurable de
.
)
Proposition 10 Soient variables aléatoires réelles (
définies sur le même espace probabilisable
et
( ) une fonction borélienne. L’application
définie, pour chaque
, par
dans .
mesurable de
30
('
(' est alors
Nous engageons le lecteur à démontrer ce résultat à titre d’exercice. Pour cela,
il devra utiliser les propositions 3, 8 et 9.
Ce résultat permet de construire énormément d’applications mesurables et de
variables aléatoires. Il est particulièrement utilisé lorsque la fonction ci-dessus
sont des variables aléatoires, les applicaest continue. Ainsi, si tions suivantes
('
(i)
(ii)
(iii)
où les sont réels,
où chaque est un entier relatif, non nul si
(( et '( peut s’annuler,
sont aussi des variables aléatoires réelles.
Exercice 8 Soient et
,
ensembles
considérer l’application
deux variables aléatoires réelles. Montrer que les
# et sont mesurables. (Indication :
3 ).
Exercice 9 Le rapport de deux variables aléatoires étant nul par convention lorsque le numérateur et le dénominateur le sont simultanément, montrer
qu’avece cette convention, le rapport de deux variables aléatoires réelles est
une variable aléatoire généralisée.
68
Cet exercice nous donne un premier exemple de l’importance des variables
aléatoires généralisées.
4.5 Limites de variables aléatoires
une séquence à valeurs dans
Soit
. Posons (( pour + (( . Il est facile de voir ou
que la séquence est décroissante. A ce titre, elle admet donc une limite dans qui peut donc être
3 . Posons / ( ( . La valeur / est appelée limite
supérieure de la séquence et l’on écrit
/ ou encore
/ 31
La limite inférieure de la suite est définie de manière analogue. Si
pour
, la séquence
on considère la suite est croissante et admet donc une limite dans . On pose donc
. La valeur est appelée limite inférieure de la sé
quence et l’on écrit
(( + ((
((
ou encore
On peut remarquer que
3
43 On montrera à titre d’exercice
que pour que
la suite
.
et il suffit que
(4.1)
converge il faut
Ce que nous venons de rappeler pour les séquences de valeurs réelles peut
s’appliquer à des séquences d’applications à valeurs dans ou à valeurs dans
. Nous pouvons, en particulier, appliquer ces notions aux variables aléatoires
un espace
réelles et aux variables aléatoires généralisées. En effet, soit
une séquence de variables aléatoires réelles ou généprobabilisable et
(resp. comme l’apralisées. Nous pouvons alors définir
, associe la valeur
plication définie
sur et à valeurs dans qui, à tout
), c’est-à-dire la limite supérieure (resp. la
(resp.
.
limite inférieure) de la suite et
Nous sommes obligés de considérer les applications
comme des applications à valeurs dans et non pas simplement dans
pour la simple et bonne raison que les limites supérieures et inférieures d’une
séquence de réels, même si elles existent toujours, ne sont pas nécessairement
finies.
Proposition 11 Soit
néralisées.
(i) Les applications (ii) Les applications
néralisées.
une séquence de variables aléatoires réelles ou gé-
et
et
sont des variables aléatoires généralisées.
32
sont des variables aléatoires gé-
(iii) Si la suite
généralisée.
converge simplement, sa limite est une variable aléatoire
Cette proposition nous montre, une fois de plus, que les variables aléatoires
généralisées ne sont pas curiosités pathologiques mais interviennent de manière
naturelle dans la théorie.
une suite de variables aléatoires réelles, montrer que
Exercice 10 Soit
converge est mesurable (utiliser le
l’ensemble des
où la suite résultat de l’exercice 8). En est-il de même si la séquence est une suite de variables
aléatoires généralisées ?
Compléments : variable aléatoire complexe
et sont mesurables. D’où la définition
et de dire que est mesurable si
suivante.
est une variable
Définition 19 Soit
un espace mesurable. On dit que aléatoire complexe si les parties réelles et imaginaires de sont des variables aléatoires
Soit
un espace mesurable et
. Comment peut-on définir une notion
de mesurabilité pour
à partir de celle qui
a été introduite précédemment
? C’est
très
où
facile. Il suffit d’écrire sous la forme
sont les parties réelles et imaginaires respectives de définies pour tout
par :
réelles.
33
Chapitre 5
Intégration des variables aléatoires
réelles et généralisées (intégrale de
Lebesgue)
3
#
#
une fonction intégrable au sens de Riemann où
Soit . Il est connu que la quantité
représente la moyenne de cette
fonction . De manière analogue, l’intégrale d’une variable aléatoire va représenter la moyenne de cette variable aléatoire. On préfère alors parler d’espérance
(mathématique) de la variable aléatoire concernée.
Toute la difficulté va être de définir cette intégrale de variables aléatoires en se
servant uniquement de la structure de tribu dont est muni l’espace probabilisé et
des propriétés fondamentales de la probabilité (la -additivité en particulier).
Dans toute la suite de ce chapitre, nous nous plaçons dans le cas général d’un
muni d’une mesure , qui n’est pas
espace probabilisable (ou mesurable)
forcément une mesure de probabilité.
Si nous présentons l’intégration dans ce cadre abstrait, c’est tout simplement
parce que la construction de l’intégrale par rapport à la mesure de Lebesgue sur
ou par rapport à une mesure de probabilité n’est absolument pas plus simple que
la théorie générale.
#
La construction de l’intégrale se fait usuellement en trois étapes :
1. On définit l’intégrale des variables aléatoires à valeurs dans
variables aléatoires généralisées positives ;
, dites
2. On définit l’intégrale des variables aléatoires à valeurs dans en écrivant
une telle variable aléatoire comme différence de deux variables aléatoires
34
généralisées positives ;
3. On définit l’intégrale d’une variable aléatoire complexe en intégrant la partie réelle et la partie imaginaire de cette application à valeurs complexes qui
sont des variables aléatoires réelles, donc des cas particuliers de variables
aléatoires généralisées.
Dans la suite, nous nous intéressons principalement aux deux premières
étapes, la troisième étant présenté sous forme de compléments au cours à la fin
de ce chapitre.
5.1 La construction usuelle de l’intégrale des variables aléatoires réelles gńéralisées positives
Il est d’usage de construire l’intégrale des fonctions réelles positives en deux
sous-étapes. On commence par définir l’intégrale des variables aléatoires
dites
.
L’insimples parce qu’elles ne prennent qu’un nombre fini de valeurs dans
tégrale d’une variable aléatoire réelle positive sera alors le supremum des intégrales de toutes les variables aléatoires simples qui minorent .
On part de la définition suivante :
Définition 20 Soit espace probabilisé. Une variables aléatoire gé
est un
néralisée appelée fonction
simple ou fonction étagée si elle
ne prend qu’un nombre fini de valeurs dans
. On notera l’ensemble de ces
fonctions simples.
Soit
l’image de
par . On peut donc écrire
1l (5.1)
et 1l désigne la fonction
où, par convention,
, 1l indicatrice d’un ensemble quelconque : 1l si
sinon.
Cette écriture, dite canonique, est unique car les ensembles
. De plus, chacun de ces ensembles est mesurable forment
une
partition
finie
de
puisque
est mesurable, de sorte que
a un sens.
Avec la convention
, on définit l’intégrale des fonctions
simples comme suit.
35
Définition 21 Soit un espace probabilisé. L’intégrale de toute fonction
simple
1l par rapport à la mesure est la valeur réelle posi ou et définie par
tive notée indifféremment
(5.2)
L’intégrale d’une fonction simple est donc une valeur de
. Cette intégrale
possède des propriétés qui seront étendues plus loin (cf. théorème 9).
Lemme 3 Soit
un espace mesuré,
deux fonctions simples.
(i)
implique que
.
(ii)
(iii)
et
.
P REUVE : Les assertions (i) et (ii) sont immédiates. Nous nous contentons donc
de démontrer (iii).
1l . Comme les enOn pose
1l et
forment une partition finie de , on a
sembles
Aussi, 1l 1l calcul analogue, on aura
1l 1l 1l . Par un
de sorte que
1l 1l . Nous en déduisons
1l 1l de sorte que
36
Le premier
terme
du
membre
de
droite
est
égal
alors
à
. Le second terme du membre de droite est égal à
à-dire
. D’où le résultat.
c’est-à-dire
, c’est ,
On passe alors à l’intégrale des fonctions mesurables à valeurs dans
grâce au lemme suivant.
Lemme 4 Toute variable aléatoire généralisée à valeurs dans
simple d’une suite croissante de fonctions simples.
La démonstration de ce lemme est très simple. Soit
, il suffit de poser
généralisée à valeurs dans
+5
si
si
est limite
une variable aléatoire
# et + (( 3
(5.3)
On pose alors la définition suivante :
Définition 22 L’intégrale
par rapport à
sée
est
et définie parla valeur de
de toute variable aléatoire générali ou
, indifféremment notée
et
(5.4)
5.2 Une construction algorithmique de l’intégrale
des variables aléatoires réelles gńéralisées positives
La définition de l’intégrale d’une variable aléatoire généralisée positive
comme le supremum des intégrales de toutes les fonctions simples minorant cette
variable aléatoire ne constitue pas un moyen commode de calculer cette intégrale
en pratique.
La construction que nous présentons dans cette section est, elle, plus algorithmique car basée, dès le départ, sur une définition "numérique" de l’intégrale. Cette
présentation est totalement équivalente à la précédente et se rencontre assez peu
dans la littérature. Elle est rapidement esquissée dans [21, Chapter I, page 14].
37
((
((
Comme le disent les auteurs, la définition que nous allons donner est " the
best to keep in mind when thinking intuitively" et " for technical purposes (that
is, proving theorem !) one makes a different definition (celle donnée au paragraphe
précédent) which can be shown to agree with this definition (celle que nous donnons maintenant) after a lot of work.".
Intégrer une fonction positive selon l’approche de Riemann consiste à approcher la fonction considérée par une suite de fonctions en escalier ou étagées. Cette
façon d’opérer est intimement liée aux propriétés de l’ensemble de départ. L’intégrale ainsi obtenue représente la surface située sous le graphe de la fonction
positive.
./-0"
Considérons maintenant les figures 5.1 et 5.2.
,
&
$ %'&()*+#"
!#"
F IG . 5.1 – Intégration de Lebesgue-1
38
-
./-0"
&
,
-
. &"!$#
&(. !"#
. %!$#
!"#
. &!$#
F IG . 5.2 – Intégration de Lebesgue-2
Ici, on compte à l’envers par rapport à l’intégration de Riemann : on part de
valeurs discrètes prises par la fonction et on mesure la "longueur" (dans le cas
considéré ici de ) de l’ensemble des points où la fonction prend ces valeurs. On
voit tout de suite que pour compter ainsi, on a besoin uniquement d’une "mesure"
sur l’ensemble de départ et pas de propriétés trop spécifiques de cet ensemble de
départ, qui est ici pour simplifier la présentation, mais qui pourrait être tout
ensemble mesurable. On voit aussi qu’il va falloir que les applications que l’on
va intégrer soient mesurables pour que les images inverses soient elles-mêmes
39
mesurables.
En augmentant le pas de discrétisation comme proposé dans les figures 5.1 et
5.2, nous voyons aussi, que comme dans le cas de Riemann, nous approchons par
approximations successives l’aire située sous le graphe de la fonction. La définition suivante, qui est celle adoptée dans [21, page 14], n’est que la transcription
formelle des remarques intuitives qui précèdent.
Définition 23 (Intégration des variables aléatoires à valeurs dans
.)
Soient
un espace mesuré et
une variable aléatoire.
ou
L’intégrale
de
par
rapport
à
est
la
quantité
notée
indiféremment
et définie par :
#
(5.5)
Mais en fait, il existe une autre façon de faire le calcul. C’est celle présentée
par les figures 5.3 et 5.4.
Dans ces figures, l’aire située sous le graphe de la fonction est approchée à
l’aide par empilement. Intuitivement, nous devrions donc avoir aussi
(5.6)
#
$
Ce résultat peut effectivement se démontrer mais la démonstration n’est pas
simple. Nous la donnerons pas ici car le chemin est relativement long et technique pour parvenir au résultat. Nous admettrons donc le résultat qui se retrouve
d’ailleurs à partir de la définition "universelle" donnée au paragraphe précédent.
En fait, pour arriver exactement au même point que là où nous en sommes
avec l’approche classique, il nous faut
(a) étendre
la définition aux variables aléatoires réelles positives à valeurs dans
(section suivante)
(b) Montrer que la définition que nous venons de donner reste compatible de la
définition 22.
fait l’objet de la sous-section suivante. On y verra d’ailleurs une
Le point
à
justification de la convention
. Avant de traiter le point
la section 5.2.3, nous aurons besoin d’un résultat intermédiaire, le théorème de la
convergence monotone, qui se trouve être un des résultats les plus importants de
la théorie.
40
. -0"
&
,
&
-
$ %'&( "
"
F IG . 5.3 – Intégration de Lebesgue-3
Exercice 11 Soit
un espace mesuré et
variable aléatoire positive. On définit pour tout
%
et 1. Montrer que
par
3
.
1l 41
une
. -0"
&
,
.
$%'&( "
.
.
-
!#
"
!#
!#
F IG . 5.4 – Intégration de Lebesgue-4
3
2. Montrer que
3. En déduire que
#
42
3
5.2.1 Intégration des applications à valeurs sur la demi droite
réelle étendue
Examinons maintenant comment
nous pouvons intégrer une variable aléatoire
généralisée positive
. Nous allons procéder de manière à justifier
.
la convention courante
Pour tout
,
"6 1l 1l"6 De fait, pour pouvoir espérer que l’intégrale de par rapport à la mesure soit
une opération croissante et linéaire avec la ou les fonctions à intégrer, il faut choisir une définition de l’intégrale
de
telle que cette intégrale soit supérieure ou
pour tout entier non nul . Or, l’intégrale
égale à
1l 1l 1 de 1l est
.
"6
"6
"6 supérieure ou égale à
Nous voulons donc que l’intégrale de
pour tout soit
1l "6 .
Si
, nous définirons l’intégrale de
comme étant en fait
, l’enl’intégrale de 1l "6 . En d’autres termes, lorsque
ne compte pas pour intégrer et, parce que sa mesure est
semble
est négligeable.
nulle, nous dirons que l’ensemble
Si
, alors et nous n’avons d’autre
choix que de considérer l’intégrale de
par rapport à la mesure
C’est pour cette raison que l’on introduit la convention
par
et que nous définissons l’intégrale de 1
"6 1l "
%
*"
! # " &#"% $ &" %
. / 0 1" 2 #3 "
')(+* -, Il suffit en effet de remarquer que
1l
de sorte que
comme infinie.
1l
.
43
(5.7)
D’après (5.5), nous pouvons encore écrire
#
Pour finir,
nous allons montrer que l’égalité (5.6) définit aussi l’intégrale de
. En effet, nous avons
#
#
"6 de sorte que
1l Nous avons donc, en prenant en compte (5.6) et (5.7) :
1l #
#
#
"6
"6 1l Comme annoncé, l’égalité (5.6) permet de définir tout aussi bien l’intégrale
des fonctions à valeurs réelles positives finies que celle des fonctions à valeurs
réelles positives étendues.
5.2.2 Le théorème de la convergence monotone
Nous allons dès à présent démontrer le très important théorème de convergence monotone qui préfigure les théorèmes de convergence énoncés ci-dessous
(section 5.3).
Avant d’énoncer ce théorème, nous présentons un lemme, dont la démonstration est laissée au lecteur. Ce lemme, somme toute trivial, joue en fait un rôle
fondamental dans toute la partie théorique sous-jacente à la construction de l’intégrale présentée ci-dessus.
Ce lemme préfigure le théorème de la convergence monotone, et donc les théorème de convergences de la section 5.3. Nous invitons le lecteur à y réfléchir
quelques instants.
44
une séquence doublement indéxée, à valeurs
Lemme
5 Soit
(resp. ) sont croissantes
dans
et telle que les séquences avec (resp. ).
On a alors
où toutes les limites considérées existent dans
.
Théorème 6 (Convergence monotone) Soit
espace mesuré
et
une séquence de variables aléatoires généraliséesunà valeurs
dans
telle que
pour tout
,
(i) (ii)
Alors,
((
pour tout
.
est une variable aléatoire généralisée et
(5.8)
P REUVE : La mesurabilité de découle des résultats généraux sur la mesurabilité. Nous nous concentrons donc sur la démonstration de (5.8) 2 .
En vertu de (5.6),
avec
#
Grâce au lemme 5 , nous avons alors
2
#
(5.9)
La démonstration que nous présentons diffère de celles que l’on trouve classiquement dans la
littérature (cd. [22] par exemple). En effet, nous basons cette démonstration sur (5.6). Cela nous
permet de souligner un peu plus l’intérêt de cette définition.
45
En appliquant de nouveau le lemme 5 et en prenant en compte la définition que
, il vient :
nous nous sommes données de # #
#
#
et # vers
en tout
La suite des ensembles est croissante avec
en raison de la croissance de la séquence
point
. Nous obtenons donc l’égalité
Reportée dans (5.9), cette égalité nous conduit à
#
(5.10)
qui est le résultat annoncé.
Dans la foulée, nous présentons une première version du lemme de Fatou,
qui est une conséquence de la convergence monotone. Une version améliorée du
lemme de Fatou sera donnée au paragraphe 5.3
espace
mesuré. Pour toute suite
Lemme 6 (Lemme de Fatou) Soit
d’applications mesurables à valeurs un
dans
,
La preuve est laissée au lecteur. Au cas où le lecteur rencontrerait des difficul
tés, il peut se reporter à [22]. La démonstration repose sur le fait que
est la limite de la suite croissante
, suite qui satisfait les
conditions du théorème de convergence monotone.
'(
, , #
positives telles que
Exercice
12 Soit
un espace mesuré et
, une suite de variables aléatoires généralisées
et .
((
46
(( (i) Montrer que pour tout
,
existe dans
et que l’applica
est alors une variable aléatoire généralisée positive.
tion
(ii) Montrer que l’on a alors
(iii) Pourquoi la condition
#
est-elle indispensable pour conclure ?
5.2.3 Où l’on retrouve la définition classique de l’intégrale des
fonctions à valeurs réelles positives
Dans cette section, nous nous proposons de retrouver l’égalité 5.4, non pas
comme une définition, mais comme une conséquence de l’approche suivie dans
cette section. Ainsi, nous aurons montré que les deux méthodes proposées pour
calculer l’intégrale d’une variable aléatoire généralisée sont équivalentes.
((
Nous commençons par considérer une
simple admettant
fonction
réelles positives distinctes que l’on note
. Nous écrirons donc
1l D’après l’égalité (5.6), nous calculons l’intégrale de
tend vers l’infini, de
Comme les ensembles mesurables
de , nous pouvons encore écrire
% en prenant la limite, lorsque
% , + ' ( valeurs
47
% , forment une partition
(5.11)
En utilisant ce lemme dans l’égalité 5.11, on aboutit alors à
% % % 3 4 (5.12)
, nous déduisons par passage à la limite
Etant donné que
dans l’expression (5.12) que l’intégrale de est
qui correspond à la définition 21.
Si nous considérons
maintenant deux variables aléatoires généralisées
et
et telles que
à valeurs dans
,
l’ensemble
est
tri , de sorte que vialement
inclus
dans
l’ensemble
est une variable aléatoire généralisée
. Aussi, si .
et une fonction simple inférieure ou égale à , nous aurons
Nous en déduisons que
%
%
%
%
Pour démontrer l’inégalité inverse, il suffit de trouver une séquence de fonctions
simples, toutes inférieures ou égales à , dont les intégrales convergent vers l’intégrale de . D’après le lemme 4, il existe une telle séquence croissante de fonctions simples qui converge simplement vers . D’après le théorème de la convergence monotone, la séquence des intégrales de ces fonctions simples converge
vers l’intégrale de . Ainsi, l’égalité (5.4) est une conséquence de la construction
que nous avons proposée.
48
5.2.4 Quelques propriétés utiles de l’intégrale des variables
aléatoires positives
Nous énonçons maintenant quelques résultats qui serviront dans la suite et qui
constituent des propriétés fondamentales de l’intégrale des variables aléatoires
positives.
Nous commençons par la proposition suivante qui nous dit que l’intégrale des
variables aléatoires positives possèdent des propriétés analogues à celles vérifiées
par l’intégrale des fonctions simples (cf. lemme 3).
Proposition 12 Soit
un espace mesuré,
deux variables aléatoires généralisées positives et
(i)
(ii)
.
.
.
P REUVE :
Preuve de (i). D’après le lemme 4, il existe deux suites croissantes et
de fonctions simples, la première convergeant vers et la seconde
est donc croissante et converge vers
convergeant vers . La suite . D’après le théorème de
convergence
monotone, on a donc mais aussi et . Or, nous
. D’où (i).
savons (cf. lemme 3) que
Preuve de (ii). On sait (lemme 4) qu’il existe une suite de fonctions
simples
qui converge
vers . D’après la convergence monotone, on a donc
. Nous avons ensuite . Toujours
par le
.
théorème de la convergence monotone, nous avons
L’assertion (ii) dérive alors du lemme 3 qui nous dit que
.
Nous continuons par une simple application du résultat précédent et du théorème de convergence monotone.
Théorème 7 Soit
un espace mesuré et
aléatoires généralisées positives 49
une séquence de variables
.
Soit
, alors
converge en croissant
P REUVE : On pose . La séquence
vers . On a donc
d’après le théorème de convergence
, d’où le
monotone. D’après le théorème 12 (i),
résultat.
Le théorème précédent a une conséquence très utile.
un espace mesuré et
Théorème 8 Soient
variable aléatoire généralisée positive. L’application par
tout
1l une
définie pour
est une mesure et pour toute variable aléatoire généralisée positive
, on a
Nous laissons la démonstration de ce résultat au lecteur à titre d’exercice. On
.
écrit souvent la seconde assertion de ce résultat sous la forme 5.2.5 Intégrale des variables aléatoires généralisées de signe
quelconque
3
Pour définir l’intégrale des variables aléatoires de signe quelconque, on utilise
le fait qu’une application
est toujours la différence
de deux applications positives. Cette décomposition n’est évidemment pas unique.
Mais nous allons voir que si est une variable aléatoire (id est, est mesurable),
et sont elles-aussi des variables aléatoires. L’idée consiste
à définir alors
.
l’intégrale de
par rapport à une mesure par
Mais pour que cette définition ait un sens, il ne faut pas que la différence que nous
venons d’introduire soit
.
3
50
13
Pour que la construction proposée soit réellement utilisable il nous faudra aussi
traiter le problème suivant. Supposons que et sont deux autres variables
et que
aléatoires
généralisées
telles que
et ont un sens, alors on peut raisonablement espérer que
. Encore faudra-t-il le démontrer pour que la
construction soit complète.
3
3
3
3
3
3
Dès le départ, nous avons intérêt à choisir et aussi "petites" que possible. En effet, si on augmente , il faut augmenter de la même quantité pour
. On augmente alors les intégrales de et de
préserver l’égalité
et on prend donc le risque que ces intégrales deviennent infinies.
3
Soit alors
Soit
"6 1l une variable aléatoire généralisée.
3
et
"6 1l Ces deux applications sont trivialement deux variables aléatoires généralisées
positives et nous avons
(5.13)
3
Supposons alors que et sont deux autres variables aléatoires générali . Pour tout , les deux termes sées positives
telles
que
ne sont alors pas tous les deux infinis.
et 3
& 3
#
et sont, tous deux finis et donc
. Si . Si , alors
,
alors on a nécessairement
car si
était fini, on ne pourrait pas
. Enfin, si avoir
,
et est donc
trivialement inférieur ou égal à
. Nous avons donc
.
Si
3
1
Le même type de raisonnement montre que
#
.
En définitive, le couple
représente le choix "minimal" que nous
pouvons faire pour décomposer une variable aléatoire généralisée en la différence
de deux variables aléatoires généralisées positives.
Remarques
3
– Il est très important de remarquer pour la suite que, non seulement
, mais qu’aussi,
.
51
– Dans de nombreux ouvrages d’analyse fonctionnelle et d’intégration (cf.
et
[22]), il est d’usage d’écrire
et
sous la forme
.
–
et
sont appelés respectivement la partie positive et la partie négative de .
&
3
3
Conformément à ce qui a été dit au début de ce paragraphe, nous posons la
définition suivante.
Définition 24 Soit
un espace mesuré et
variable aléatoire généralisée.
&
une
(i) On dit que
admet
par rapport à la mesure , ou que son
une intégrale
. Dans ce cas, l’intégrale
intégrale existe, si
de est la quantité
3
(5.14)
(ii) On dit que est intégrable par rapport à ou que est -intégrable si
l’intégrale de
est finie. Ceci équivaut à dire que les intégrales de
et
de
sont toutes les deux finies et donc, que l’intégrale de existe et est
finie.
(iii) L’ensemble des variables aléatoires généralisées intégrables sera noté
.
Remarques :
– Cette terminologie usuelle est un peu déroutante car une variable aléatoire
généralisée peut très bien ne pas être intégrable et avoir une intégrale (qui
est alors
ou
). On sera donc particulièrement prudent dans la manipulation de ce vocabulaire.
– L’intégrale de la fonction nulle est nulle. C’est quand même la moindre des
choses.
3
3
La définition que nous avons donnée de l’intégrale d’une fonction de signe
quelconque repose sur la décomposition commode
. On peut alors
se poser la question suivante : si admet une intégrale et si l’on considère deux
, a-t-on
et telles que
autres variables
aléatoires
généralisées
? Pour pouvoir espérer répondre à la question,
encore
3
52
3
et
il
faudra
dès
le
départ
supposer
que
l’une
au
moins
des
deux
intégrales
est finie. Sous cette hypothèse supplémentaire, la réponse est oui. On a le
résultat suivant.
3
est
Lemme 7 Avec les notations précédemment introduites, si
la différence
de deux variables aléatoires généralisées positives et si les deux
et ne sont pas toutes les deux infinies, alors admet
intégrales
une intégrale et
3
#
P REUVE : Supposons que
(la démonstration est analogue si l’on
de sorte que
suppose
d’intégrale finie). Nous avons déja vu que
. Nous en déduisons que admet une intégrale et cette
intégrale est alors donnée par (5.14).
#
3
3
, on a
, même pour
Etant donné que
les
tels que
(nous laissons au lecteur le soin de le vérifier),
nous déduisons de la proposition 12 que
Comme
3
Il
s’ensuit que
3
(5.15)
, alors nous avons nécessairement
3
admet une intrégrale finie, il vient
Si
3
#
et
puisque
.
#
. On a donc
1
Si
, alors, c’est l’intégrale de
qui est infinie et l’intégrale de
puisque
qui est finie. D’après (5.15), l’intégrale
de est supposée
finie. On en déduit encore que
.
3
53
Si
est finie, nous déduisons de (5.15) que
3
3
de sorte que
#
, ce qui complète la preuve.
Le théorème suivant est l’amélioration promise du lemme 3 et étend la proposition 12.
Théorème 9 Soit
un espace mesuré.
0/
(i) Pour toute paire de variables aléatoires généralisées
,
de réels
/ /
et tout couple
3
(ii) L’application
est une forme linéaire
positive : cela signifie que cette application est linéaire et à valeurs dans
et qu’elle est positive au sens où
implique
que
. Le
raisonnement est analogue pour démontrer que
.
(iii) Pour tout élément
de
,
(iv) Si
alors
et si
.
et
est une variable aléatoire telle que
P REUVE :
Preuve de (i). Soient
et donc
#
deux éléments de
.
. On a
Preuve de (ii). Nous savons que le résultat est vrai pour
de la proposition 12.
et
,
positives, en vertu
quelconque et intégrables, nous écrivons
3 et et sont3 de .signe
Si&maintenant
Par suite, nous avons
54
L’assertion (ii) ayant été prouvée pour des variables aléatoires positives, nous
avons
Les intégrales intervenant dans cette égalité étant toutes finies, il suffit de transférer les termes à notre gré pour obtenir le résultat.
, .
Nous prouvons maintenant que pour tout
Le résultat a déjà été prouvé pour
3
&
et
positives (cf. proposition 12).
3 &
Si est de signe quelconque et intégrable, nous écrivons
sorte
que . De ce qui précède, nous avons donc
ce qui montre que
3
43
& Pour
3 3
3
On en déduit que
(5.16) en séparant les cas
#
(5.16)
intégrable, nous écrivons encore
. D’après (i), on a :
3 de
4 3 et de signe quelconque et
de sorte que
3 par application de la proposition 12 et de
et
.
Il nous faut maintenant prouver que si
,
. On sait que
est la limite d’une suite croissante
de fonctions simples positives. Par le théorème
est la limite des intégrales de ces fonctions
de convergence monotone,
simples. Comme ces intégrales sont positives en vertu du lemme 3, le résultat est
acquis.
3
de sorte qu’on obtient
Preuve
de (iii). On écrit simplement
que
en utilisant (ii). D’où le résultat.
. D’où le résultat.
Preuve de (iv). Si
, alors
3
Remarques : L’espace
n’est pas un espace vectoriel car l’addition
sur cet ensemble n’en fait pas un groupe. Prenons par exemple les applications
1l et
. On a bien
1l 1l mais on n’a pas
.
55
5.3 Théorèmes de convergence
Nous avons déjà rencontré un important théorème de convergence, c’est celui de la convergence monotone (théorème 6). Nous avons aussi vu le lemme de
Fatou. Nous allons maintenant compléter ces résultats en commençant par une
version plus générale du lemme de Fatou et nous continuons ansuite avec le très
important théorème de la convergence dominée de Lebesgue. Cette version du
théorème de convergence monotone sera améliorée au chapitre 6, section 6.7.
Nous procédons en deux étapes à des fins purement pédagogiques.
Avec le théorème de convergence monotone, le lemme de Fatou et la convergence dominée de Lebesgue sont essentiels et doivent être parfaitement connus.
Théorème 10 (Lemme de Fatou) Soit
un espace mesuré. Soit une séquence d’applications mesurables à valeurs dans et
(i) Si
(ii) Si
pour tout entier
pour tout entier
P REUVE :
, alors
(5.17)
, alors
3
(5.18)
est poPreuve de (i) On pose . Chaque variable
aléatoire
.
sitive. On serait tenté d’écrire directement que
Mais nous n’avons pas le droit d’écrire cette égalité sans prendre quelques précautions. En effet, la linéarité de l’opérateur intégrale a été énoncé pour des
éléments de
(cf. théorème 9) ou pour une différence
de variables
aléatoires positives (cf. lemme 7). Lorsque nous écrivons ,
nous ne sommes dans aucun de ces cas. Pour aboutir, il nous faut écrire que
. La variable aléatoire est positive, la variable
.
aléatoire
est aussi positive et d’intégrale finie puisque
Maintenant,
nous sommes dans les
hypothèses
du lemme
7 et nous avons donc
.
3
3
3
56
3
On a clairement
, et en procédant
comme ci dessus, on peut écrire que
.
La suite vérifie les conditions requises par la version préliminaire du
lemme de Fatou (cf. lemme 6). On a donc
D’où (i).
3
3
Preuve de (ii). En fait, (i) implique (ii). En effet, si nous supposons être sous les
et
hypothèses de (ii), posons . On vérifie aisément que
, que est trivialement intégrable et borne inférieure
ment les . On applique donc (5.17) à la suite des et on obtient alors (5.18)
pour la suite en changeant de signe.
3
Remarque : La version préliminaire du lemme de Fatou (cf. lemme 6) est évidemment le cas particulier de (5.17) avec
.
Théorème 11 (Théorème de la convergence dominée-I) Soit
une séquence d’applications mesurables un es-
pace mesuré. Soit
telle que
existe pour tout
.
S’il existe une application intégrable
alors
(i)
(ii)
,
, 2 '( telle que
57
(5.19)
(iii)
3
P REUVE :
Preuve de (i). La condition (5.19) entraîne que
intégrable. D’où (i).
est mesurable et
Preuve de (ii). Nous commençons par prouver le résultat pour les variables aléatoires réelles ou généralisées ( ou ).
Etant donné que
suite de valeurs réelles lemme de Fatou (théorème 10)
et que,
trivialement pour toute
, on a, en appliquant le
(par (5.17))
(par (5.18))
ce qui équivaut à (ii) lorsque les variables aléatoires
sées.
3
Preuve de (iii) Si on pose applique donc les résultats précédents à
sont réelles ou générali-
, on a et
pour obtenir (iii)
. On
Exercice 13 Démontrer le théorème de la convergence dominée pour les variables aléatoires réelles ou généralisées en utilisant simplement la version préliminaire du lemme de Fatou (lemme 6) et les résultats de l’exercice 12. Indication :
on posera , pour tout entier
et on vérifiera
que cette suite vérifie les hypothèses requises dans l’exercice 12.
3
+ 5.4 Inégalité de Bienaymé-Chebyshev
se démontre
Cette
etinégalité
ne requiert pas que
très simplement pour tout ensemble mesuré
soit bornée. Cependant, cette inégalité joue un
rôle particulièrement important en théorie des probabilités. En probabilité, il est
en fait usuel de la décliner sous plusieurs formes que nous présenterons ultérieurement (cf. 9.4).
58
Lemme 8 Soit
plication mesurable.
(i) Pour tout
(ii) Pour tout
avec la convention
(5.20)
.
(5.21)
, l’inégalité (5.21) est vraie pour tout une ap-
,
(iii) Si
,
un espace mesuré et
.
P REUVE : Remarquons
tout d’abord que le membre de droite dans (5.20) est tou jours définie dans
est une variable aléatoire généralisée posi puisque
tive.
Preuve de (i). Si
, le membre de gauche dans (5.20) vaut avec la convention
(que nous avons justifiée par ailleurs) :
et l’inégalité (5.20)
est donc trivialement vérifiée.
6
. On pose
1l .
Nous démontrons donc (5.20) pour
L’application
est
mesurable
et
trivialement,
de
sorte
que
. Or, , d’où le résultat.
Preuve de (ii). Lorsque
égalité (5.20).
#
, l’inégalité (5.21) découle directement de l’in
Preuve
de (iii). Il suffit
de montrer
que (5.21) est vraie pour
lorsque
et donc (5.21) est trivialement vérifiée.
. Si ,
Si
,
et le membre de gauche dans (5.21) est égal à la mesure
de l’ensemble
#
. Dans le cas
. La mesure de cet ensemble est alors nulle puisque
, il y a donc égalité entre les deux membres de
(5.21).
59
5.5 Intégration sur une partie mesurable
un espace mesuré et Soit
aléatoire généralisée. On est souvent amené à intégrer
de . On pose alors la définition suivante.
une variable
sur une partie mesurable
. Soit
, on définit l’intégrale
de
mesuré et
Définition 25 Soit
une partie mesurable de un. Siespace
1l par rapport à la mesure par
sur
1l (5.22)
Exercice 14 Avec les notations de la définition précédente, soit la tribu trace
telle qu’elle est définie par (1.1).
de sur
Soit restriction de à .
1. Montrer que la mesurabilité de par rapport aux tribus
et entraîne
celle de
par rapport aux tribus
et
.
. Vérifier que est une
2. Soit la restriction
de à
mesure.
par rapport à la
3. Montrer que l’intégrale de mesure est égale à l’intégrale de 1l par rapport à la mesure .
On remarquera que l’intégrale définie sur tout est un cas particulier de la
définition 25 et et de l’exercice précédent puisque 1l et . Aussi,
au lieu de définir l’intégrale de sur (comme nous l’avons fait) pour ensuite
définir celle de
sur une partie mesurable de , nous aurions pu procéder en
sens inverse : nous aurions pu commencer par définir l’intégrale de
sur tout
sous-ensemble mesurable de (en procédant comme dans l’exercice précédant)
et considérer l’intégrale sur comme un simple cas particulier.
L’exercice précédent montre que ces deux approches sont équivalentes et que
choisir l’une ou l’autre n’est qu’affaire de goût. Ainsi, dans [22], l’auteur préfère
la seconde.
Cette remarque entraîne que tous les résultats que nous avons énoncés en
utilisant l’intégrale sur tout restent valables lorsqu’on remplace par un
sous-ensemble mesurable de .
Nous terminons cette section par quelques résultats utiles.
60
Proposition 13 En supposant l’existence des intégrales et la mesurabilité des ensembles et des applications utilisées, nous avons :
(a) Si , alors .
et
(b) Si
, alors .
.
pour tout
, alors même si
(c) Si
pour tout .
(d) Si
, alors même si
P REUVE :
Preuve de (a). Il suffit de remarquer que 1l (ii) du théorème 9.
Preuve de (b). Il suffit de remarquer que 1l théorème 9.
Preuve de (d). Par définition
#
1l Or,
pour tout
. Aussi, si
et . D’où le résultat.
et d’appliquer (ii) du
1l ,
. D’où le
pour tout
#
#
et d’appliquer l’assertion
1l 1l Preuve de (c). On a évidemment
résultat.
1l #
Compléments : intégration des variables aléatoires
complexes
un espace mesuré. Nous décrivons comment on intègre des variables
Soit
aléatoires complexes, c’est-à-dire des applications
définies sur et à valeurs dans dont
les parties
réelles
et imaginaires,
notées
et
, sont des variables aléatoires
.
61
Cette construction
est très simple.
Puisque
nous pouvons écrire
sous la forme
et que
et
sont mesurables, nous poserons la définition suivante :
Définition
26 Soit
un espace mesuré. Une variable aléatoire complexe
est intégrable si la variable aléatoire réelle
est intégrable et l’intégrale de est alors le nombre complexe
L’ensemble des variables aléatoires complexes intégrables est noté
(5.23)
.
Le théorème suivant, dont nous laissons la démonstration au lecteur en guise d’exercice, est l’analogue du théorème 9.
Théorème 12 Soit
(i)
L’ensemble (ii) L’application
un espace mesuré.
(iii) Pour tout élément
, alors
(iv) Si
de et
si
est un espace vectoriel sur .
est une forme linéaire.
,
est une variable aléatoire complexe telle que
.
Exercice 15
1. Démontrer que le théorème de convergence dominée reste vrai dans le cas complexe, c’est-à-dire lorsqu’on change en dans l’énoncé du théorème 11.
2. Peut-on énoncer l’inégalité de Bienaymé-Chebyshev dans le cas des variables aléatoires complexes.
62
Chapitre 6
Ensembles négligeables et
compléments sur l’intégration
Considérons un ensemble mesuré
où la mesure n’est pas nécessairement bornée. Même bornée, rien de ce qui va être dit ne serait modifié ou
simplifié.
Supposons que soit mesurable et de mesure nulle et considérons une va
. Supposons aussi que l’intégrale
riable
réelle
aléatoire
existe.
et , nous voyons que
Si nous comparons alors les intégrales
1l ces
intégrales
sont
égales.
En
effet,
nous
pouvons
écrire
1l . Si nous considérons la partie positive
de , nous avons alors
1
% % % 1l
est un ensemble mesurable, inclus dans qui est de mesure
Or,
nulle. On a donc
et donc
. De même,
on
aura . . Aussi, l’intégrale de 1l est nulle et nous avons bien
%
&
Ce simple calcul nous montre donc que les ensembles mesurables de mesure
nulle ne comptent pas du point de vue de l’intégration. On pourrait s’arrêter là
63
en définissant les ensembles négligeables comme les ensembles mesurables de
mesure nulle. On pourrait alors dire qu’une propriété est vraie presque partout si
elle est vraie sur le complémentaire d’un ensemble négligeable (donc mesurable
et de mesure nulle). Ces définitions de la négligeabilité et du presque partout sont
suffisantes pour énoncer le théorème de convergence dominée dans sa version
finale (cf. théorème 14) et dans une première lecture, le lecteur peut s’en contenter.
Cependant, nous allons aller un peu plus loin dans la démarche. En effet, à cer
de mesure
tains égards, on aimerait qu’un sous-ensemble d’un ensemble nulle soit lui aussi mesurable et de mesure nulle. C’est tout particulièrement le cas
lorsqu’on manipule des probabilités. En effet, en théorie des probabilités, l’inclusion signifie que l’événement implique l’événement . Si est de
probabilité nulle, on aimerait dire que est aussi
de probabilité nulle. En d’autres
termes, on aimerait pouvoir écrire que si avec , alors .
Hélas, nous n’avons pas toujours le droit d’écrire une telle implication : rien ne
nous dit que est mesurable et, donc, que a une mesure.
Nous allons donc construire, à partir d’un espace mesuré quelconque
où les sous-ensembles d’ensembles négligeables ne sont pas forcément mesu
légèrement plus grand (dans le sens où
rables,
mesuré
unetespace
est exactement ) où tous les ensembles néglila restriction de
nulle. La mesure sera dite
geables sont désormais mesurables et de mesure
complète.
Nous verrons aussi quelques conséquences importantes de cette construction,
notamment en ce qui concerne la tribu des boréliens et la tribu de Lebesgue. Nous
terminerons par une version définitive du théorème de convergence dominée, qui,
soulignons-le encore, fonctionne très bien que la mesure soit complète ou non.
On commence par se donner une terminologie adéquatee aux définitions suivantes.
6.1 Ensembles négligeables et mesure complète
Définition 27 Soit
mesuré. Une partie de de sera dite
-négligeable, ou négligeableunparespace
rapport à , ou simplement négligeable s’il n’y
a aucune ambiguïté sur la mesure considérée, s’il existe un ensemble mesurable
( ) de mesure nulle et contenant :
négligeable
64
et
Dans la suite, on désignera par
de par rapport à la mesure .
la collection de toutes les parties négligeables
Définition 28 Soit
un espace mesuré. La mesure est dîte complète si
tout sous-ensemble d’un ensemble négligeable pour cette mesure est un ensemble
mesurable.
Remarque : Pour une mesure complète, les ensembles négligeables sont exactement les ensembles de mesure nulle.
6.2 Le "presque partout" et le "presque sûrement"
un espace mesuré. Une propriété est dite vraie
Définition 29 Soit
-presque partout (ou plus simplement presque partout lorsqu’il n’y a aucune
ambiguïté quant à la mesure ) si le complémentaire de l’ensemble des points
où elle est vraie est négligeable par rapport à la mesure . En abrégé, on écrit vraie -p.p. S’il n’y a aucune ambiguïté sur la mesure, on se contentera d’écrire
vraie p.p.
Si est vraie presque partout par rapport à une mesure de probabilité ,
on dit plutôt que la propriété est vraie -presque sûrement (ou simplement
presque sûrement en l’absence d’ambiguïté sur la mesure de probabilité concernée). De manière analogue au cas d’une mesure quelconque, on écrire que est
vraie -p.s. ou plus simplement que est vraie p.s.
Exemples :
– Avec les notations introduites ci-dessus, si et sont deux fonctions défi
-presque partout si l’ensemble est
nies sur , on dit que
négligeable (
). A noter que dans ce qui précède, nous n’avons
pas besoin de préciser si et sont mesurables ou non et, de fait, grâce à
la définition donnée des ensembles mesurables,
n’a pas lieu d’être
mesurable.
, -presque partout si 1l 1l
– Par abus de notation, on écrira que -p.p. Là encore, aucune condition de mesurabilité
n’est imposée à et
. Le lecteur vérifiera que cette condition d’égalité presque partout entre
deux sous-ensembles de équivaut à la -négligeabilité de la différence
.
symétrique 65
Exercice 16 Soit
un espace mesuré. Soient deux parties et de . On
dira que -presque partout si 1l 1l -p.p. Montrer que -p.p.
si et seulement si est -négligeable.
6.3 Complétée d’une tribu
un espace mesuré. Comme nous l’avons dit dans l’introduction,
Soit
la mesure n’est pas forcément complète. Nous voulons agrandir en une nou et définir sur cette tribu une mesure qui, elle, sera complète et
velle tribu
doit alors contedont la restriction à est . Il est évident que la nouvelle tribu
nir la collection des ensembles -négligeables. Il est donc nécessaire que
contienne . Cette collection d’ensembles n’est pas une tribu. Qu’à cela ne
tienne : si nous voulons minimiser le risque d’agrandir la mesure , commençons
donc par analyser la tribu engendrée par puisque celle-ci est la plus petite
tribu que nous pouvons construire à partir de la tribu de départ et de la collection
des sensembles -négligeables. Nous allons voir que cette tribu est celle qu’il nous
faut pour construire une mesure complète. Aussi, posons la définition suivante.
Définition 30 Soit
espace mesuré. On appelle tribu -complétée de
la tribu engendrée par un
la collection où
est la collection des en
sembles -négligeables :
La tribu -complétée jouit de propriétés très intéressantes résumées dans le
théorème suivant.
Proposition 14 Soit
un espace mesuré. Soit
la tribu -complétée de
.
(a)
(b)
est la collection des parties de pour lesquelles il existe deux éléments
et de tels que
et (c)
est la collection des parties
avec
de
pour lesquelles il existe
66
Du moment que nous venons de construire une tribu un tout petit peu plus
grande que celle du départ et qui englobe les ensembles négligeables, que se passet-il au niveau des variables aléatoires réelles ou généralisées ? On aimerait bien
ne diffère pas
que les variables aléatoires réelles ou généralisées par rapport à
trop des variables aléatoires réelles ou généralisées par rapport à .
Le résultat suivant montre, qu’effectivement, les applications mesurables pour
et pour ne diffèrent que sur un ensemble négligeable.
Proposition 15 Soit
un espace mesuré. Soit
. Une application définie sur
et à valeurs dans oula tribu
-complétée de
est -mesurable si
et seulement si l’une quelconque des deux conditions suivantes est satisfaite :
-p.p., id est
(a) Il existe une application -mesurable telle que
l’ensemble
est -négligeable.
(b) Il existe deux applications -mesurables et telles que
et 3 La démonstration de ce résultat est laissée au lecteur. Ce résultat signifie en
pratique que les variables aléatoires réelles ou généralisées au sens de la tribu
que par
ne diffèrent des variables aléatoires réelles ou généralisées au sens de
un ensemble négligeable.
6.4 Mesure complétée
un espace mesuré et la tribu -complétée de . Nous allons
Soit
maintenant étendre la mesure définie sur en une mesure complète définie sur
.
. Nous savons que nous
Cela se fait assez facilement. En effet, soit et . Il est
pouvons écrire sous la forme avec alors naturel de poser
puisque est négligeable. La difficulté
à contourner est qu’il peut exister un autre ensemble mesurable et un autre
ensemble négligeable tels que . Il faut alors vérifier que l’on a
de manière à ce que
encore soit défini de manière unique.
Heureusement, c’est le cas et
ne dépend pas de la décomposition choisie
pour .
De manière précise, on a le résultat suivant dont nous laissons la démonstration
facile au lecteur.
67
Lemme 9 Soit
un espace mesuré et
la tribu -complétée de .
et
(i) Si est un élément de
tel que où , alors où , , , on définit une
(ii) En posant
dans qui est une extension de dans le sens où pour
mesure de
. La mesure est l’unique extension possible
tout ,
de à .
Ce lemme justifie la définition suivante.
Définition 31 Soit
un espace mesuré et
la tribu -complétée de .
L’unique extension possible
de à
définie par le lemme 9 est appelée me
sure complétée de .
Il nous reste à voir que
est bien une mesure complète et étudier s’il existe
une différence entre l’intégrale par rapport à cette nouvelle mesure et l’intégrale
par rapport à la mesure de départ. On a le résultat suivant.
Proposition 16 Soit
la mesure complétée de . un espace mesuré, la tribu complétée de et
(a) La collection des ensembles -négligeables est la même que la collection
des ensembles -négligeables.
est une application mesurable et si (b) Si
est une application mesurable égale -presque partout
si
à , alors admet une intégrale (resp. est intégrable) par rapport à
et seulement si admet
(resp.
par rapport à
, et dans ce cas une
intégrale
est
intégrable)
.
Cette proposition signifie donc qu’il ne sert à rien de chercher à compléter la
par rapport à . Cette proposition nous dit aussi qu’intégrer par rapport
tribu
à la mesure complétée et la tribu complétée, c’est intégrer par rapport à la mesure
de départ et la tribu d’origine. Définitivement, les ensembles -négligeables (et
pas seulement les ensembles de mesure nulle) ne comptent pour l’intégration.
Le théorème nous dit que toute mesure peut toujours être complétée. Aussi,
chaque fois que cela sera nécessaire, on pourra toujours travailler avec la mesure
complète. Cela nous donnera juste des ensembles mesurables supplémentaires et
plus d’applications mesurables. Au niveau du calcul des intégrales, cela ne chan
gera rien : définitivement, les ensembles -négligeables (et pas seulement les ensembles de mesure nulle) ne comptent pour l’intégration.
68
Nous allons maintenant préciser la différence (subtile) que nous avons déjà
signalée et qui existe entre la tribu de Lebesgue et celle des Boréliens.
6.5 Le cas de la mesure de Lebesgue
Nous avons déjà signalé (cf. 1.7) que la mesure de Lebesgue sur
nit sur une tribu strictement plus grande que la tribu des boréliens
pouvons maintenant expliquer pourquoi.
se défi-
. Nous
En fait, la tribu des boréliens
n’est pas une tribu complète. On peut donc
. C’est cette tribu complète
la compléter et construire la tribu complète
que l’on appelle tribu de Lebesgue . La mesure
de Lebesgue se définit
et la mesure de
en fait comme la seule mesure sur cette tribu complète
telle que Lebesgue est la seule mesure complète sur
où .
#
3
#
Le théorème 16 explique aussi pourquoi, dans la littérature, on confond fré et la mesure de Lebesgue avec la tribu des
quemment la tribu de Lebesgue
et la restriction de la mesure de Lebesgue à la tribu des boréliens.
boréliens
6.6 L’ espace associe le nombre réel
Considérons
l’application qui à
. C’est une application qui ne prend que des valeurs positives.
Nous avons alors le résultat suivant.
Proposition 17 Avec les notations précédentes, l’application norme .
est une semi-
Nous laissons la démonstration facile
de ce résultat au lecteur en guise d’exer
cice. On rappelle qu’une semi-norme sur un espace vectoriel de corps de base
(égal à ou en pratique) est une application à valeurs réelles positives telle
que : –
, – Pour tout , – Pour tout
69
Le point crucial de ce résultat est que n’est qu’une semi-norme et non pas
une norme. Pour que soit une norme, il faudrait que l’implication soit vraie. Or cette implication n’est pas vraie en raison du théorème
suivant.
Théorème 13 Avec les notations précédentes,
p.p.
P REUVE : L’implication directe est une conséquence directe du théorème 16 (b).
La réciproque
est une conséquence de l’inégalité de Bienaymé-Chebyshev. En
effet, si
, alors l’inégalité de Bienaymà c -Chebyshev implique que
pour tout entier
et comme
croît vers
, on en déduit que
et donc que
(p.p.).
Ce résultat nous montre qu’une application mesurable nulle seulement presque
partout a une intégrale nulle. Définitivement, n’est qu’une semi-norme.
sur
Définissons alors la relation
par
- p.p
5
Il est facile de voir que est une relation d’équivalence. On peut donc définir l’en par cette relation d’équivalence
semble quotient
de
et on pose la définition suivante.
l’ensemble quotient Définition 32 On note
de
par la relation d’équivalence "égalité presque partout" notée .
L’ensemble
est donc, par définition d’un ensemble quotient, l’ensemble des classes d’équivalence pour la relation d’équivalence .
Si
(ce qui signifie que est une classe d’équivalence et non
pas, à proprement parlé, une application), on note la valeur commune des
lorsque parcout la classe d’équivalence de .
3
On montre que l’ensemble
est un espace vectoriel sur et que
associe l’application qui à
est complet
est maintenant une norme sur ce nouvel espace. L’espace
pour cette norme.
70
6.7 La version définitive du théorème de la convergence dominée
un espace
Théorème 14 (Convergence dominée de Lebesgue-II) Soit
une suite d’applications mesurables mesuré et
. S’il existe une application mesurable telle que
, 3 pour tout entier et si la suite converge -p.p
3
vers une limite
alors :
(i)
(ii)
,
(iii)
P REUVE : Posons
,
.
. Les ensembles
%
. ,
, et
et
sont mesurables et négligeables par
et négligeable aussi.
est donc mesurable
, l’application
par
. .
si si
1l . Définissons aussi En d’autres termes, nous avons par
si si
1l . Pour tout , nous avons et
c’est-à-dire
. Aussi, la séquence satisfait-elle les conditions de la
hypothèse 1 . L’union
Définissons alors, pour tout entier
première version du théorème de convergence dominée de Lebesgue que nous
avons donnée (théorème 11).
3
3
Comme presque partout, nous avons donc
presque partout et donc, d’après la proposition 16,
. D’après le théorème 11 (i), nous avons donc
3
3
3
3
3
presque partout et que d’après le théorème 11 (ii),
Comme
, nous en déduisons
(ii) par application de la proposition 16.
1
.
Le fait que les ensembles négligeables qui interviennent sont mesurables explique pourquoi il
n’est pas nécessaire de supposer la mesure complète.
71
presque
Enfin,
comme partout
et que
presque partout, nous
et
avons
d’après la proposition 16. Nous
obtenons donc (iii) comme conséquence du théorème 11 (iii).
Ce théorème a une version continue très utile.
Corollaire 1 Soit
un espace mesuré. Soit une famille d’élé
ments de
. Supposons qu’il existe
et une application (nécessai
telle que
presque
rement mesurable)
partout. S’il existe une application
telle que pour tout
,
presque
partout, alors
(i)
,
(ii)
, .
(iii)
3
presque
partout si et seuleP REUVE : Il suffit de remarquer que
et
ment si, pour tout suite convergeant vers ,
d’appliquer le théorème de la convergence dominée.
Remarque : le théorème de convergence dominé est évidemment très utile dans la
pratique. Insistons sur le fait que le "presque partout" utilisé dans l’énoncé de ce
terme fait que les ensembles négligeables que l’on considère sont des ensembles
mesurables. Pour énoncer ce théorème, on peut donc très bien se contenter de
définir un ensemble négligeable comme un ensemble mesurable de mesure nulle.
Exercice 17 Montrer que le théorème de convergence dominée reste vrai si on
remplace par ou .
Exercice 18 Démontrer la proposition suivante qui généralise la proposition 13.
Proposition 18 En supposant l’existence des intégrales et la mesurabilité des ensembles et des applications utilisées, nous avons :
(a) Si presque partout, alors .
et
presque partout, alors .
(b) Si
(c) Si
pour presque tout
, alors même si
.
pour presque tout
(d) Si
, alors même si
.
Expliquer pourquoi il n’est pas nécessaire de supposer la mesure complète.
72
Chapitre 7
Intégration sur les espaces produits
Le but de ce chapitre est essentiellement de présenter le théorème de TonelliFubini. Ce théorème est essentiel pour intégrer des applications définies sur des
dans .
espaces produits, notamment des applications de
7.1 Tribu produit : définition et premières propriétés
où est un enConsidérons une famille d’espaces mesurables '( , que nous
tier supérieur ou égal
à . Le produit cartésien
noterons
des suites à éléments (ou -uplets=
est + l’ensemble
(( aussi
où, pour
, .
chaque
On appellera rectangle ou pavé mesurable tout sous-ensemble
de de la
(( , que nous noterons aussi où, pour tout
forme + , .
On construit alors très facilement une tribu sur
vante.
à l’aide de la définition sui-
Définition 33 Avec les notations qui précèdent, on définit la tribu produit , que l’on notera aussi , comme étant la tribu engendrée par
:
le produit cartésien des tribus ,
((
+ 73
En d’autres termes, la tribu produit sur
tangles mesurables de .
est la tribu engendrée par les rec-
Remarque : Il est très important de noter que l’ensemble des rectangles ou pavés
mesurables n’est pas forcément une tribu. D’où la nécessité de considérer la tribu
engendrée par ces rectangles.
définie, pour tout
On appelle ème coordonnée , l’application +
(( , par
(' . On alors la proposition suivante.
Proposition 19 Avec les notations précédentes, la tribu produit est la plus petite
,
tribu
sur telle que chaque application coordonnée soit
mesurable.
+ P REUVE : Nous faisons la démonstration dans le cas
présente pas de difficulté supplémentaire.
. Le cas % ne
Supposons que
soit une tribu sur telle et soient mesurables. Soit
. Il est facile de voir que un élément
de et .
et
que . Comme et sont supposées
Aussi, et sont
mesurables et que
est une tribu, les ensembles des éléments de
ainsi que . Nous venons donc de montrer que si et
sont mesurables, alors .
Nous traitons la réciproque. Nous supposons donc que
est une tribu qui
et nous cherchons à montrer que les applications
et sont
contient mesurables. Soit . L’image réciproque de par est simplement , qui est trivialement un
et donc un élément de par
élément de hypothèses. Il en va de même pour l’image réciproque par de tout élément de
. Nous en déduisons donc que et sont mesurables et donc l’équivalence
énoncée par la proposition.
Une application très importante dans la pratique de ce résultat est le théorème
suivant.
Théorème 15 La tribu des boréliens
:
74
est égale à la tribu produit
Exercice 19 Démontrer ce résultat en se rappelant que la tribu des boréliens de
est engendrée par l’ensemble des rectangles où chaque est ouvert et que les coordonnées de
sur sont trivialement continues donc
mesurables.
Il est important de dire que le produit de tribus est associatif. Si nous reprenons
les notations utilisées depuis le début de cette section, posons
et
est la tribu
. Il est clair que
où, bien sûr, produit de l’espace produit et que
est la tribu
de l’espace
produit
. On a bien sûr
produit . On montre
et sont égales.
alors que les tribus produits
# 3
Une conséquence immédiate est donc que
.
7.2 Mesurabilité des applications définies sur un
produit cartésien
et deux espaces mesurables et leur produit Soient
.
, on appellera respectivement -section et -section
Pour
les ensembles
de
Le premier résultat que l’on a est le suivant.
Théorème
16 Si
tout
.
, alors
et
pour tout
et
Exercice 20 Démontrer ce résultat.
Indication : Pour tout
)
, poser
)
, est une tribu qui contient et montrer que pour tout pour . Procéder de manière analogue en ce qui concerne
.
75
. Conclure
,
Soit
où est un ensemble quelconque. Pour tout l’application
on désigne par
qui, à tout
, associe la
valeur
. De même,
tout
, on désigne par
pour
associe . On a alors le résultat suivant.
l’application qui à tout !
!
!
!
! ! est mesurable. Si -mesurable, alors
Théorème 17 Supposons que
est une application
!
,
,
(ii) Pour tout (i) Pour tout
est -mesurable.
est -mesurable.
Exercice 21 Prouver ce résultat.
Indication : Il suffit de remarquer que
.
7.3 Mesure produit ou produit tensoriel de mesures
un espace mesuré. On dit que est une mesure Définition 34 Soit
(( finie s’il existe une suite croissante d’ensembles mesurables telle que, pour tout entier
,
#
.
Le théorème suivant annonce les théorèmes de Tonelli et de Fubini.
Théorème 18 Soient
.
L’application qui à tout
l’intégrale 1l
(i) L’application qui à tout
l’intégrale 1l
(ii)
et
1l
associe , c’est-à-dire la valeur de
est -mesurable.
, c’est-à-dire la valeur de
associe est elle aussi mesurable.
(iii) On a :
deux espaces mesurés. Soit
3
1l
3
Ce théorème
définir la mesure produit.
nous
permet alors
de
En
effet,
1l
le fait que et que 76
1l
les applications
soient mesurables et à valeurs dans
3
3
et
1l
1l
entraîne que
. Ces mesures, en vertu de l’assertion (iii)
sont des mesures positives sur du théorème précédent sont même égales. Elles définissent alors ce qu’on appelle
. On pose la définition suivante.
la mesure produit Définition 35 Avec les notations du théorème précédent, on définit la mesure pro comme étant l’application d’ensembles duit associe
qui à tout 1l
1l
On a alors le théorème suivant qui justifie, dirons-nous, l’appellation de me
.
sure produit donnée à Théorème 19 Avec les notations précédentes, la mesure produit
telle que, pour tout seule mesure définie sur ,
est la
7.4 Le théorème de Tonelli-Fubini
Théorème 20 (Théorème de Tonelli-Fubini) Soit deux espaces mesurés -finis
et . Soit une appli
-mesurable à valeurs dans un espace mesurable où cation est , ou .
!
77
(a) Si
, les applications
et
sont respectivement
(b) Si
3
3
et
(7.1)
(7.2)
mesurables et
(7.3)
est à valeurs étendues ou à valeurs complexes et si
#
(7.4)
.
, alors pour presque tout , (c) Si
pour presque tout ; les applications définies par (7.1) et
et et l’égalité (7.3)
(7.2) presque partout sont respectivement
alors
est encore valable.
Remarques :
– Il est très important de garder en mémoire que la mesurabilité de par rapport à la mesure produit est yne hypothèse incontournable dans l’énoncé du
théorème de Tonelli-Fubini. Sans cette hypothèse, on ne sait pas conclure.
– Le théorème de Tonelli-Fubini permet d’intervertir l’ordre des intégrales et
d’intégrer de manière séquentielle par rapport à chacune des variables, sous
certaines conditions quand même ! ! Ainsi, même lorsque est mesurable,
il ne faut pas oublier, avant d’appliquer Fubini, de vérifier que
est de
signe constant ou intégrable. Si n’est pas de signe constant ou n’est pas
intégrable, l’égalité (7.3) n’est pas forcément vraie.
78
– Avec toujours les mêmes notations que précédemment, considérons deux
applications et telles que . On définit sur l’application par
et . Cette application est mesurable
d’après les résultats précédents. Le théorème de Tonelli-Fubini implique
et que
immédiatement que Tout ce qui précède s’étend assez facilement au cas de espaces mesurables.
On montre que le produit de mesures est associatif. On montre aussi, dans la
formule d’intégration successive (variable par variable) que les variables peuvent
en fait être intégrées dans l’ordre que l’on veut.
Si nous résumons les remarques précédentes de manière un peu caricaturale
(mais correcte) : si on intégre une application positive, on fait ce qu’on veut ; si
est de signe quelconque ou complex, on commence par montrer que
est
intégrable par rapport à la mesure produit et ensuite, et seulement ensuite, on se
permet d’intégrer comme on veut.
7.5 La mesure de Lebesgue sur
aux calculs des probabilités
et application
Nous avons déjà présentée la mesure de Lebesgue sur
,
. Dans ce
paragraphe, nous allons comparé cette mesure de Lebesgue au produit tensoriel
des mesures de Lebesgue sur . Le but est évidemment de nous donner le moyen
de ramener le calcul d’intégrales multiples à celui d’une succession d’intégrales
simples.
(
Nous avons vu (cf. théorème 15) que la tribu des boréliens
.
la tribu produit et que
est égale à
savons, de plus, grâce à ce qui précède, que la mesure produit Nous
. On s’attendrait, évidemment, à
est définie de manière unique sur
ce que
soit exactement la mesure de Lebesgue .
En fait, il n’y a pas tout à fait égalité entre les deux mesures. Elles coïncident
mais la mesure de Lebesgue est définie sur la tribu dite de Lebesgue, qui
sur
contient tous les boréliens, mais qui reste strictement plus grande que la tribu des
79
boréliens. Il est facile de s’en rappeler : la tribu de Lebesgue sur
ne l’est pas !
alors que la tribu produit
est complète
((
Il se trouve que la mesure de Lebesgue sur
est la mesure complétée de
la mesure produit
, que l’on notera . On peut donc
formellement identifier ces deux mesures et appliquer Fubini en respectant les
remarques faites à la fin du paragraphe précédent.
((
En probabilité, il arrive qu’on ait à considérer des densités de probabilité à
et que ayons à intégrer cette fonction à
variables réelles
variables. Etant donné que est positive (par définition d’une densité de probabilité), le théorème de Fubini va pouvoir s’appliquer sans se poser de questions et
l’on aura :
(( ( ' (( ((
(
(
et l’ordre d’intégration des variables peut être changé arbitrairement.
80
Chapitre 8
Lebesgue et Riemann : éléments de
synthèse
Au vu des notions qui ont été introduites jusqu’ici, il est opportun de faire le
point sur la théorie de l’intégration en prenant en compte, dans notre réflexion,
l’intégrale de Riemann qui est l’outil usuel auquel les étudiants sont habitués lorsqu’ils découvrent la théorie de Lebesgue. En général, un chapitre de synthèse de
ce type où la comparaison entre l’intégrale de Riemann et l’intégrale de lebesgue
sous-tend une réflexion pratique sur l’utilisation de ces théories est souvent réduit
à quelques remarques dans les ouvrages spécialisés. Nous pensons, au contraire,
que pour une bonne compréhension de la théorie et de son utilisation, ce chapitre
n’est pas de trop et mérite que le lecteur s’y attarde quelque peu pour les raisons
suivantes.
A ce niveau du cours, il est tout à fait normal que les étudiants se posent
quelques questions. Ils peuvent se demander s’il faut utiliser Lebesgue ou Riemann en pratique, si on peut statuer sur l’approche la plus commode dans les
applications, s’il faut oublier définitivement Riemann et considérer que Lebesgue
répond à tous les problèmes. D’autres peuvent même penser que la théorie de Lebesgue ne sert pas à grand-chose et qu’il vaut mieux se contenter de Riemann car
c’est cette théorie de l’intégration que l’on va vraiment utiliser.
Que les étudiants se rassurent. Ces interrogations sont aussi partagées par
beaucoup de physiciens, qui considèrent que le gain apporté par la théorie de
Lebesgue par rapport à l’intégrale de Riemann ne justifie pas l’investissement intellectuel que la théorie de Lebesgue requiert.
Ces opinions et approches diverses ne peuvent qu’ajouter à la confusion de
81
l’étudiant. Notre but est donc d’éclaircir la situation et, du coup, de préparer le
lecteur à ce qui va suivre. En effet, dans la suite de ce cours, de plus en plus de
cas concrets que l’on rencontre en pratique vont être inclus.
De manière plus précise, nous allons rappeler que la théorie de Lebesgue
est particulièrement commode en théorie des probabilités pour manipuler des
variables aléatoires qui sont définies sur un espace relativement abstrait somme
toute. En ce sens, l’apport de la théorie de Lebesgue en théorie des probabilités
justifie l’effort requis.
Puis nous présenterons une comparaison mathématique de l’intégrale de Riemann et de l’intégrale de Lebesgue. Cette présentation nous permettra de répondre
aux questions soulevées ci-dessus.
8.1 Apport de la théorie de Lebesgue en théorie des
probabilités
Nous avons vu dès le début de ce cours que la notion de tribu apparaît très
naturellement lorsqu’on cherche à formaliser des expériences dont le résultat est
aléatoire et que la probabilité d’un événement est, là encore de manière naturelle,
une mesure sur la tribu des événements possibles. Lorsqu’on veut alors intégrer
une variable aléatoire, on ne dispose que de peu de connaissances sur l’espace probabilisable qui nous sert à modéliser notre expérience : nous n’avons qu’une tribu
et qu’une mesure. La théorie de Riemann n’est donc pas applicable directement
puisque cette théorie concerne . La théorie de Lebesgue est donc pratiquement
incontournable en théorie des probabilités pour construire l’intégrale des variables
aléatoires. En théorie des probabilités, définitivement, l’effort intellectuel requis
par la théorie de l’intégration est rentable.
8.2 Comparaison des intégrales de Riemann et de
Lebesgue
Lorsqu’on considère maintenant des applications définies sur et que est
muni de la mesure de Lebesgue, voire d’une mesure de Lebesgue-Stieltjes (cf.
annexe B, en va-t-il de même ? Est-ce qu’il nous faut obligatoirement utiliser la
théorie de Lebesgue ?
82
Nous allons répondre à cette question en analysant la relation entre l’intégrale
de Riemann et l’intégrale de Lebesgue. Cette analyse, d’ailleurs, nous permettra
de compléter nos remarques d’introduction du chapitre 5. En effet, nous avons justifié notre construction de l’intégrale de Lebesgue en décrivant comment calculer
la surface sous la courbe représentative d’une application positive. Nous sommes
donc en droit d’espérer que les intégrales de Lebesgue et de Riemann coïncident.
On espère aussi gagner quelque chose avec la théorie de Lebesgue, à savoir que
les applications intégrables au sens de Lebesgue forment une classe plus grande
que les applications intégrables au sens de Riemann.
C’est ce que nous allons voir maintenant. Il s’avère effectivement que les fonctions intégrables au sens de Riemann sont également intégrables au sens de Lebesgue et que les intégrales de Riemann généralisées, à condition qu’elles soient
absolument convergentes, sont elles-aussi intégrables au sens de Lebesgue.
Quelques rappels sur l’intégrale de Riemann sont nécessaires.
Tout d’abord, un point sur la terminologie. La notion d’intégrale de Riemann
concerne (nous allons le voir dans la définition
que nous rappelons ci-dessous),
(
les applications
définies
sur
sur
un
intervalle
borné de
). Lorsque
et / ou
, on parle alors d’intégrale généralisée de
Riemann. Nous reviendrons sur ces intégrales généralisées un peu plus loin. Pour
l’instant, traitons l’intégrale de Riemann sur un intervalle borné.
3
3
3
#
#
#
#
,
, est dîte intéDéfinition 36 Une application grable au sens de Riemann ou, plus simplement, Riemann-intégrable s’il existe
deux suites de fonctions en escaliers et , respectivement croissante
et et décroissante, telles que .
3
,
Avec les notations de la définition précédente, la séquence
, est croissante du fait de la croissance de . On a de plus
((
#
,
'( et , ((
de sorte que les séquences
,
Les limites
admettent chacune une limite.
de chacune de ces suites sont en fait
3
. On montre de plus que
égales du fait que
cette limite commune ne dépend pas du choix des séquences
définition suivante.
83
et
. D’où la
3
#
#
Définition 37 Soit ,
, une application Riemann intégrable. Soient deux suites quelconques de fonctions en escaliers et
, respectivement croissante et décroissante, telles que et
3 de l’application
L’intégrale de Riemann
la valeur commune des limites des séquences
lorsque tend vers l’infini :
,
, ((
, (( estet
sur l’intervalle
,
N’oublions pas du’une application intégrable au sens de Lebesgue (on dira
Lebesgue-intégrable) est, avant tout, une application mesurable. Si nous voulons alors étudier
l’intégrabilité au sens de Lebesgue d’une application Riemann , nous devons d’abors étudier la mesurabilité
de cette
intégrable application. En effet, pour une application quelconque Riemann
intégrable, rien ne nous garantit une quelconque mesurabilité de .
Dans ce cours, nous allons évacuer cette difficulté. Nous alons supposer dans
l’énoncé des résultats suivants que l’application que l’on considère est effectivement mesurable par rapport à la tribu de Borel. Nous nous permettons de procéder
ainsi car la plupart des applications que l’on rencontre en pratique sont continues
ou continues par morceaux, et donc mesurables par rapport à la tribu des boréliens.
3
#
#
Proposition 20 Si ,
, est une application mesu
rable et Riemann intégrable sur
, alors est intégrable au sens de Lebesgue
et les deux intégrales sont égales :
1l
P REUVE : Il existe une suite croissante de fonctions en escaliers
décroissante de fonctions en escaliers telles que tende vers avec et on a :
84
et une suite
et 3
(8.1)
, est clairement intégrable. De plus, une fonction en
Comme escalier est trivialement mesurable et intégrable au sens de Lebesgue. On a donc,
pour tout ,
1l
1l
1l
(8.2)
Il suffit de combiner (8.1) et (8.1) pour terminer la démonstration.
Traitons maintenant des intégrales généralisées de Riemann.
Définition 38 Soit .
(i) On dit que est localement
intégrable
au
sens
de
Riemann
si
est inté grable sur tout intervalle
.
,
(ii) Soit
et
.
On
dit
que
admet une intégrale
(ou que l’intégrale généralisée de est convergente
généralisée sur
) si est localement intégrable et
sur
existe dans
. On écrit
3
3
#
3
#
#
#
3
(iii) Soit
#
3
et
#
#
. On
dit que admet une intégrale
généralisée absolument
convergente sur
(ou que est absolument in tégrable sur
) si est localement intégrable et
admet une intégrale
généralisée (id est
). On écrit
#
#
Remarques :
– Si est absolument intégrable alors admet une intégrale
généralisée.
– Pour que admette
une intégrale généralisée sur
, il faut et il suffit que
pour tout
, admette une intégrale généralisée sur
et sur
et l’on a
.
Nous avons alors le résultat suivant qui généralise la proposition 20 aux intégrales généralisées de Riemann.
une application mesurable et localement intéProposition 21 Soit grable au sens de Riemann, id est intégrable sur tout intervalle fermé borné de
.
85
3
, (a) est intégrable au sens de Lebesgue sur
si et seulement si
,
c’est-à-dire
si
admet une intégrale
.
absolument convergente sur
(si donc, de manière
(b) Si est intégrable au sens de Lebesgue sur
équivalente,
l’intégrale
généralisée
de
est
absolument
convergente sur
), on a
#
1l
1l
(8.3)
P REUVE : Nous nous contentons de faire la démonstration pour
et
les autres cas englobés par la proposition se démontrant de manière analogue.
,
Preuve de (a). D’après la proposition 20,
1l
(8.4)
pour tout entier . Le théorème de la convergence monotone nous permet alors
d’écrire que
1l
(8.5)
D’où l’assertion (a).
Preuve de (b). La première égalité dans (8.3) est aussi une conséquence immédiate
de (8.5). Pour démontrer la seconde égalité de (8.3), on utilise la convergence
dominée au lieu de la convergence monotone. En effet, la séquence d’applications
1l converge vers 1l
. De plus, 1l . Aussi, si est intégrable
, on a, par application du théorème de convergence
au sens de Lebesgue de
dominée :
1l 1l
#
Il suffit d’appliquer alors (8.4) pour obtenir le résultat énoncé.
Attention : L’égalité entre une intégrale généralisée de Riemann et l’intégrale de
Lebesgue n’est valable que si l’intégrale généralisée est absolument convergente.
Nous n’insisterons jamais assez sur ce point. Si l’absolue convergence n’est pas
86
assurée, on ne peut rien dire. Ainsi, la fonction
généralisée et on a
3
admet une intégrale
alors que cette fonction n’admet pas d’intégrale généralisée absolument convergente et n’est donc pas Lebesgue-intégrable. Ce contre-exemple montre quand
même que l’intégrale de Riemann a encore son utilité dans certains cas qui ne
sont pas rares étant donné que la fonction
joue un rôle fondamental en
traitement du signal.
3
Comme nous l’avons déjà dit, les résultats présentés ci-dessus supposent, dès
le départ, que l’application est mesurable par rapport à la tribu des boréliens.
C’est une hypothèse raisonable compte-tenu des applications que l’on rencontre
dans la pratique.
Si on ne fait pas cette hypothèse, il faut alors prouver la mesurabilité de .
Par une amélioration des démonstrations présentées ci-dessus, on aboutit à des
résultats analogues à ceux qui précèdent mais où la mesurabilité de est assurée
seulement par rapport à la tribu de Lebesgue, et où les intégrales de Lebesgue sont
calculées par rapport à la mesure de Lebesgue complète . Ces résultats plus
généraux où on n’évacue pas le problème de la mesurabilité de sont énoncés
et démontrés à l’annexe C. Le lecteur verra le rôle déterminant joué alors par
théorème 16.
– La classe des applications Lebesgue-intégrables par rapport à la mesure de Lebesgue (complète) contient la classe de toutes les applications
Riemann-intégrables. 1
– La classe des applications Lebesgue-intégrables par rapport à la mesure
de Lebesgue (complète) contient aussi la classe de toutes les applications
dont l’intégrale généralisée de Riemann est absolument convergente.
– La classe des applications Lebesgue-intégrables par rapport à la mesure
de Lebesgue (complète) ne contient pas la classe de toutes les applications
admettant une intégrale généralisée non absolument convergentes.
,
&,
1
La classe des fonctions Lebesgue-intégrables est même
strictement plus grande que celle des
%
applications Riemann-intégrables, puisque l’application
qui associe à tout , est intégrable au sens de Lebesgue (son intégrale vaut ) mais non
et à tout élément de
Riemann-intégrable.
87
8.3 Dérivation
Un des résultats les plus importants de la théorie de Riemann
est le suivant.
Si est continue, alors, pour
, la fonction
est dérivable et a pour dérivée . Evidemment, on peut espérer avoir un résultat
analogue pour l’intégrale de Lebesgue, valable sur une classe plus large que celle
pour laquelle la théorie de Riemann le démontre. Effectivement, on a les deux
théorèmes suivants que l’on admettra.
Théorème 21 Si
et si on pose
, alors
pour tout
partout et
1l
(8.6)
est continue (et même uniformément),
- p.p.
3 # #
,
existe presque
Théorème
22 Si et si
point de
, alors
3 1l
, est différentiable en tout
(8.7)
Ces résultats montrent donc que l’intégrale de Lebesgue sur généralise les
résultats obtenus avec l’intégrale de Riemann. On ne demande plus à ce que
les fonctions soient continus mais qu’elles soient Lebesgue-intégrables. On a
donc élargi le domaine de validité des résultats classiques de Riemann en ce qui
concerne la dérivation.
8.4 Conclusions
En vertu des résultats exposés ci-dessus, nous pouvons conclure comme suit,
en espérant que ce qui suit permettra au lecteur de répondre aux interrogations
qu’il peut se poser.
Tous les résultats classiques et importants de la théorie de Riemann sont valables pour la théorie de Lebesgue sur pour une classe encore plus large de
fonctions, qui est la classe des fonctions Lebesgue-intégrables. Donc, dès que l’on
88
travaille avec des fonctions Lebesgue-intégrables, il n’y a aucune raison d’utiliser
des notations différentes pour l’intégrale de Lebesgue et l’intégrale de Riemann.
A partir de maintenant, on peut donc oublier et
et la notation
où
désignera tout aussi bien l’intégrale de Lebesgue
sur
que
l’intégrale de Riemann ou l’intégrale généralisée de Riemann (si ou est infini)
dès que est Lebesgue-intégrable. Par exemple, l’égalité (8.7) s’écrira désormais
.
3
3
Certains pourraient alors être tentés d’oublier l’intégrale de Riemann, au vu
de ce qui vient d’être dit.
Ceci dit, l’argument est fallacieux. En effet, dans la pratique, comment vérifiet-on qu’une application est Lebesgue-intégrable ? En général, la mesurabilité n’est
pas un problème car les applications rencontrées en pratique sont souvent continues ou continues par morceaux. Par contre, pour vérifier que l’intégrale du module de l’application est finie, on compare en général ce module à une application
qu’on sait être Lebesgue-intégrable. Cette application de référence sera dans la
plupart des cas Riemann-intégrable ou d’intégrale généralisée absolument convergente. On ne peut donc pas vraiment oublier les résultats principaux de l’intégrale
de Riemann.
De plus, il serait d’autant plus fâcheux d’oublier Riemann que l’on peut rencontrer des applications qui ne sont pas Lebesgue-intégrables mais qui admettent
quand même une intégrale généralisée. Ces cas ne sont pas pathologiques. Nous
avons déjà signalé celui de
: cette une fonction que l’on rencontre souvent en
pratique du signal.
Plus tard, nous traiterons des processus aléatoires. Soit
un espace
probabilisé, une partie de et
une application.
Pour tout
l’application de dans qui,
, désignons
par
à
,
associe
la va leur
. On dira que est un processus stochastique si pour tout
,
est une variable aléatoire. Nous serons amenés à donner
un sens à , c’est
à-dire à définir une application de dans qui à
associe .
La difficulté est que, même pour
fiwé, rien ne nous dit que la fonction
(qu’on appelle une trajectoire
de ) est mesurable. On aura alors
recours à la théorie de Riemann pour s’en sortir. Il est donc clair qu’en théorie des
probabilités et des processus aléatoires, certes Lebesgue est quasiment incontournable mais Riemann est aussi bien utile.
3
Il n’est donc pas conseillé d’oublier Riemann.
89
Plutôt que de chercher à oublier Riemann, il vaut mieux se souvenir des très
importants résultats de la théorie de Lebesgue que sont les théorèmes de convergence (Beppo-Levi mais surtout convergence monotone, convergence dominée)
et le théorème de Fubini-Tonelli et savoir les appliquer sans coup férir aux applications Riemann-intégrables (et donc mesurables) que l’on rencontre dans la
pratique.
Autrement dit, tant que l’on considère des fonctions réelles, Riemann agrémenté des résultats de convergence de la théorie de Lebesgue et du théorème de
Fubini suffit en général. Dès que l’on se place dans des espaces mesurés ou probabilisés, la théorie de Lebesgue est difficilement contournable mais Riemann ne
doit pas être oublié.
Quelques remarques sur le calcul numérique des intégrales de Lebesgue et de Riemann
On pourrait penser que l’intégrale de Lebesgue ne se calcule pas aussi
facilement
que
,
l’intégrale
de
Riemann,
même
pour
une
application
continue
.
En effet, on peut numériquement calculer l’intégrale de Riemann de
formule suivante :
(8.8)
Il suffit en effet de choisir
.
grâce à la
assez grand et d’approximer
par
Si on veut calculer numériquement cette intégrale en suivant la théorie de Lebesgue,
il faut alors séparer la partie positive
de de la partie négativé
(ce qui n’est pas
difficile et peu coûteux), puis calculer les intégrales de Lebesgue respectives de
et de
et faire la différence de ces intégrales. Le problème est alors le calcul de l’intégrale
de Lebesgue d’une application positive. Il est clair que la définition abstraite 5.4 du paragraphe 5.1 n’est pas très commode pour mener à bien ce calcul numérique. A première
vue, on peut donc penser que calculer l’intégrale de Lebesgue, même d’une application
continue, est relativement délicat.
Mais n’oublions pas les définitions 5.5 et 5.6 que nous avons données au paragraphe
5.2. Ces définitions nous permettent évidemment de calculer numériquement l’intégrale
90
au sens de Lebesgue. Le calcul numérique ainsi proposé est-il vraiment moins simple et
plus coûteux que le calcul de l’intégrale de Riemann ?
91
Chapitre 9
Fonctions et paramètres d’une
variable aléatoire
9.1 Espérance mathématique
une variable aléatoire définie sur un espace probabilisé
Définition 39 Soit
. On appelle espérance
mathématique (ou valeur moyenne) de , l’integrale, si elle existe :
(9.1)
si
On dit que est intégrable et on note
.
#
Remarque : L’ensemble
est l’ensemble des variables aléatoires qui
Dans la suite, suivant
sont égales presque partout à un élément de
.
.
l’usage commun, nous nous contenterons de manipuler
Propriétés importantes :
1.
#
.
Plus généralement,
Nous pouvons préciser la propriété importante suivante :
# / #
2. Comme l’espérance est une intégrale, elle est linéaire. L’espérance mathé . D’où, pour tout couple de
matique est une forme linéaire sur
variables aléatoires
, on a :
-/ 92
/
/
(9.2)
3. Une constante réelle
(constante) et l’on a :
peut être considérée comme une v.a. réelle
5.
6.
4.
3
presque partout (c’est à dire que
partout sauf sur un ensemble de mesure nulle).
mesurable de dans .
7. Inégalité de Jensen : Soit une fonction
convexe
.
Alors, si est intégrable,
N.B. : cette propriété reste vraie dans le cas des vecteurs aléatoires (cf. cha
pitre 12) avec de
dans .
9.2 Moments d’ordre supérieur
+ , si (c’est à dire que Définition 40 Soit
+
ment intégrable), le moment d’ordre
de
est absolu-
est défini par :
(9.3)
Remarque : l’espérance mathématique est tout simplement le moment d’ordre 1.
+
Définition 41 Le moment centré d’ordre
3
de
est défini par :
(9.4)
Une variable aléatoire est dite centrée si son espérance mathématique est nulle.
93
9.3 Variance
Définition 42 La variance d’une variable aléatoire est définie comme étant le
moment centré d’ordre , soit :
6 3
(9.5)
Nous pouvons vérifier que la variance peut s’écrire aussi comme :
6 L’écart-type de la v.a.
3 est défini par :
=6 (9.6)
3 (9.7)
est presque sûrement
Notez que si la variance d’une v.a. est nulle, alors
constante et égale à sa moyenne. Inversement, la variance d’une constante est
nulle.
9.4 Inégalité de
Tchebychev
Markov
et
de
Bienaymé-
9.4.1 Expression générale de l’inégalité de Tchebychev
Soit
une variable aléatoire
et une fonction positive paire et croissante sur
. Pour tout réel positif , on a :
3 (9.8)
où
désigne le supremum presque sûr de la variable aléatoire
et vaut
. En pratique seule la borne supérieure est utilisée. En considérant des fonctions particulières, on peut dériver les
inégalités de Markov et de Bienaymé-Tchebychev.
%
9.4.2 Inégalité de Markov
Théorème 23 Soit
ment positif, on a :
une v.a. de moment d’ordre k fini, pour tout
94
réel stricte(9.9)
9.4.3 Inégalité de Bienaymé-Tchebychev
L’inégalité de Tchebychev est un cas particulier de l’inégalité de Markov :
Théorème 24 Soit
ment positif, on a :
une v.a. de moment d’ordre 2 fini, pour tout
3
6 réel stricte(9.10)
9.5 Fonction caractéristique
6
Définition 43 On appelle fonction caractéristique d’une variable aléatoire
fonction à valeurs complexes
définie sur par :
6
Propriétés :
1. L’existence de
6
6 pour tout
6 .
est continue.
4. 6
6 6
5.
3. 6
2.
6
la
(9.11)
résulte du fait que :
# .
6. 43 .
+
, on a :
6 6
7. Si les moments d’ordre existent et si
ment dérivable) , alors :
6
est de classe
6 .
(k fois continue-
(9.12)
Nous complèterons ces propriétés un peu plus loin, lorsque nous aurons vu la
notion de loi d’une variable aléatoire.
95
9.6 Fonction génératrice
La fonction génératrice est définie uniquement dans le cas d’une v.a. entière
(à valeurs dans ).
Définition 44 Soit
définie par :
6
une variable aléatoire entière. La fonction génératrice est
Remarques :
– Lorsque
6 6 '6( .
.
3
3
, alors 6
–
–
–
–
5 6
.
est
+
6 3 .
96
6
fois différentiable et on a :
3 ( ( 3 +
(9.13)
Chapitre 10
Loi d’une variable aléatoire réelle
. Etant
Jusqu’ici, nous sommes restés dans un espace probabilisé
donné que cet espace probabilisé est, somme toute, assez abstrait, il n’est pas
toujours très commode pour faire les calculs des moments, de la fonction caractéristique, etc. Il serait bien plus agréable de travailler sur , à condition de savoir
transférer ce qui n’est pas commode sur en un calcul plus facile sur . La théorie de la mesure nous donne l’outil adéquat : c’est la notion de mesure image,
qui conduit sur le théorème dit de transfert et qui va nous permettre de mener les
calculs dans au lieu de . La notion de mesure image correspond à ce qu’on appelle la loi d’une variable aléatoire. Cette loi possède des propriétés remarquables
que nous décrirons.
10.1 Mesure ou loi image et théorème de transfert
et Définition 45 Soient un espace mesuré
une application
définie, pour
mesurable. La fonction d’ensemble,
tout est une mesure positive appelée mesure image de
par
la mesure par l’application mesurable . Lorsque la mesure est une mesure
est appelée loi image de par ou encore loi de .
de probabilité,
Remarques :
– Bien entendu, pour justifier cette définition, il faut évidemment vérifier que
est effectivement une mesure. Ceci est un exercice de
l’application
routine laissée au lecteur.
que nous utilisons est celle proposée par [11].
– La notation
97
6
De nombreux auteurs préfèrent utiliser la notation
pour désigner la me
sure image de par . Nous l’emploierons donc aussi. Cependant, la notation
, proposée dans [11], est très informative. En effet, la formule
indique tout de suite comment agit
puisque, dans cette écriture, on passe du membre de gauche à celui de droite en ajoutant une parenthèse
avant . Nous verrons aussi que certaines propriétés d’une mesure image s’expriment de manière très concise et très commode grâce à cette écriture.
L’importance et la commodité de la notion de mesure image est illustrée par
les résultats suivants.
Lemme 10 Soient un espace mesuré
,
,
la mesure
et image de par . La mesure
deux applications mesurables. Soit
par l’application mesurable est égale à la mesure image image de
de par l’application
mesurable
:
. On a, par définition, . Or, l’image réciproque de dpar l’application
. On a donc
est égale à l’ensemble
P REUVE :
Soit
est mesurable,
on a encore,
.
Comme
par définition de la mesure image,
La mesure image permet de transférer un calcul d’intégrale sur en un calcul
d’intégrale sur . C’est le très important théorème de transfert que nous énonçons
maintenant.
Théorème 25 (Théorème de transfert) Soient
espace mesuré,
une variable aléatoire réelle, une un
mesurable
et la mesure image de application
par :
36
3
(i) L’intégrabilité de
à la mesure
par rapport
image de par :
rapport à la mesure
98
équivaut à celle de
par
(ii) Si
est positive ou nulle ou si
, alors
est intégrable par rapport à la mesure
(10.1)
P REUVE : L’assertion (i) est une conséquence immédiate de (ii). Nous nous
contentons de démontrer (ii).
Commençons par supposer que
est positive ou nulle. D’après (5.6),
D’après la définition d’une mesure image et le lemme 10,
(10.2)
En reportant cette égalité dans (10.2), le résultat dérive de la définition même de
donnée par (5.6).
l’intégrale de
3 3
3
Supposons maintenant de signe quelconque et
intégrable. Nous pou
et
.
vons écrire sous la forme
avec
1l 1l Comme
est intégrable,
et
le sont aussi et on a
(10.3)
On applique
alors la première
partie
de la démonstration
à et , de .
sorte que
et
On en déduit donc que
et
sont intégrables par rapport à la mesure
, et que est aussi intégrable
. On a donc
par
rapport
à
la
mesure
. Le résultat s’ob
3
tient alors en reportant cette dernière égalité dans (10.3).
Ce théorème donne donc une technique de calcul assez simple pour calculer
dans l’espace des réels l’espérance mathématique au lieu d’intégrer une fonction
dans l’espace des événements élémentaires . Nous verrons qu’il s’étend sans
problème au cas des vecteurs aléatoires (cf. chapitre 12).
99
10.2 Application à une mesure de probabilité
et une variable aléatoire
Considérons un espace probabilisé
. Nous voyons que nous pouvons exprimer le moment d’ordre +
qui complète la définition donnée par (9.3).
Si nous considérons la fonction caractéristique
l’écrire maintenant sous la forme
6
6 de
(10.4)
, nous pouvons
3 par
(10.5)
6
qui complète la définition donnée au paragraphe 9.5 (cf. (9.11)). L’égalité précé
dente nous montre qu’au coefficient
près,
est la transformée de Fourier
de la mesure positive
sur .
6
On montre alors que la fonction
caractérise la loi entièrement, dans le
) si et
sens où deux variables aléatoires
et ont même loi (
seulement si elles ont même fonction caractéristique :
6
8
et
ont la même loi
10.3 Fonction de répartition d’une variable aléatoire réelle
La notion de fonction de répartition est fondamentale en calcul des probabilités. Elle dérive de la notion de loi image.
Définition 46 La fonction de répartition
définie par :
6
3
3
6 3
6
d’une variable aléatoire réelle
3
est
Cette fonction de répartition possède des propriétés essentielles résumées dans
la proposition suivante.
100
Proposition 22 Soit
un espace probabilisé et une variable aléatoire réelle. La fonction de répartition
propriétés
suivantes :
(i) est croissante
(ii)
est continue
à droite.
(iii)
et
6
6
6
P REUVE :
Peuve de (i). Soit
, deux réels. Nous avons donc
, et donc,
montre que
est croissante.
3
#
3
6
de
possède les
6
6
3
#
3
#
#
, ce qui
Preuve de (ii). Soit une suite décroissante telle que . La séquence
d’ensembles
est décroissante
et tend vers
. D’après la section
décroît vers 1.6) nous en déduisons que
.
6
6
. La séPreuve de (iii). Soit une suite croissante telle que
,
quence formée par les ensembles
, est une suite croissante dont
. Toujours d’après les propriétés fondamentales des
la limite est
mesures (section 1.6), nous concluons que
, d’où le résultat.
6
3
Soit
une suite décroissante telle que
. La séquence
formée par les ensembles
,
, est cette fois une suite décroissante
dont la limite
est
l’ensemble
vide.
En
vertu
de
la
section
1.6,
il
vient
, d’où le résultat.
6
Remarque : Même si c’est trivial, il nous faut noter qu’une fonction de réparition
. En effet, si , ,
admet une limite à gauche en tout point
, est une suite croissante (puisque est
croissante) bornée par
.
( '
6
La proposition 22 admet une réciproque que nous énonçons sans démonstration
car celle-ci dépasse le cadre de ce cours.
Théorème 26 Si vérifie les conditions (i), (ii) et (iii) de la proposition 22, alors est la fonction de répartition d’une unique loi de probabilité
.
sur
101
Remarques :
1. Si vérifie les conditions (i), (ii) et (iii) de la proposition 22,
une unique mesure positive,
alors définit sur la tribu de Lebesgue
appelée mesure de Lebesgue-Stieltjes et notée . Cette mesure est
l’unique mesure sur la tribu de Lebesgue telle que pour tout intervalle de ,
(10.6)
La restriction de
à la tribu des boréliens
est aussi la seule mesure
3
définie sur
qui vérifie (10.6). Les propriétés (i) et (ii) sont d’ailleurs
suffisantes pour assurer ce qui vient d’être dit et nous invitons le lecteur à
se reporter à l’annexe B pour plus de détails.
2. En complément de la remarque précédente, considérons maintenant une
. La fonction de répartivariable
aléatoire
tion
de cette variable
(i), une mesure
aléatoire engendre, en vertu de
de Lebesgue-Stieltjes
la tribu de Lebesgue
part,
, elle, est une mesuresur
.etD’autre
sur
la
tribu
des
boréliens
vérifie
clai rement
propriétés d’unicité
est . laDesrestriction
rappelées
. En
ci-dessus, on en déduit que
de à
d’autres termes,
définit entièrement la loi de
6
6
3 6
6
6
6
Une fonction de répartition vérifie d’autres propriétés très importantes qu’il
est bon de connaître pour pouvoir effectuer les calculs en pratique.
3
Proposition 23 Soit
un espace probabilisé et
une
aléatoire réelle. Avec les conventions d’écriture
et
variable
(qui
se
justifient
au
vu
de
la
proposition
22
(iii),
la
fonction
de
ré
tels que
partition
de
possède les propriétés suivantes pour tout
:
3
#
#6 #
#
#
#
#
#
#
3
3 6 6 33 6 3 36 63 6 3 6 6 3 3 6 6 3 3 6
6
6
102
3
3
(10.7)
(10.8)
(10.9)
(10.10)
(10.11)
(10.12)
(10.13)
(10.14)
P REUVE : Nous donnons les démonstrations de ces résultats car elles permettent
de commencer à manipuler les fonctions de répartitions.
3
#
Preuve de (10.7). Nous
.avons
3 #
, de sorte que #
Preuve de (10.8) Soit des ensembles mesurables
. La séquence
décroît
et donc
. Or,
vers
d’après (10.7).
D’autre
part,
. On a
" donc
. D’où le résultat.
3
6
3 6 3 3
#
Preuve
de (10.10).
On écrit que
#
Preuve
Comme
de (10.11).
#
3
3
# #
#
Preuve de (10.13). On écrit que
et l’on applique (10.9) et (10.12).
#
, de sorte que
et l’on applique (10.7) et (10.9).
, nous avons
, d’où le résultat.
#
, de sorte
. Le résultat
dérive
Preuve de (10.14). Etant donné que
, le résultat découle de (10.9) et de (10.11).
Preuve
de
(10.12).
Il
suffit
d’écrire
que
et d’appliquer ensuite (10.9) et (10.11).
#
3
#
#
Preuve de (10.9).
Nous
que
écrivons
que
immédiatement de (10.8).
6
#
#
#
Remarque
: Dans certains ouvrages, la fonction de répartition est définie par
. Dans l’énoncé de la proposition 22, il faut alors remplacer
"continue à droite" par "continue à gauche". Les propriétés énoncées à la proposition 23 se voient elles-aussi légèrement modifiées. Il faut remplacer les limites à
gauche par des limites à droite et les limites à gauches par la valeur de la fonction
de répartition au point considéré.
6
103
10.4 Les densités de probabilité
Dans la suite de ce chapitre, nous allons manipuler les intégrales de fonctions réelles sur . En vertu des remarques du chapitre 8, tout ce qui va être dit
ci-dessous est valable que l’on considère les intégrales rencontrées comme des intégrales de Riemann ou comme des intégrales de Lebesgue. En effet, les fonctions
que nous allons rencontrer sont soit à support compact et Riemann-intégrables
(donc Lebesgue-intégrables), soit définie sur tout et absolument intégrables (ce
qui équivaut à leur intégrabilité au sens de Lebesgue). Nous nous contenterons de
parler de fonctions intégrables et cela signifiera donc que existe et
.
est fini, ce qui induit l’existence de
Compte-tenu du théorème 26, il est assez facile de construire une fonction de
répartition.
Il suffit de se donner une fonction positive et intégrable
telle que . En effet, la fonction définie par
(10.15)
est une fonction de répartition car elle vérifie toutes les propriétés requises. Elle
est même continue (et pas seulement à droite) et a pour dérivée . Cette remarque
très simple justifie la définition suivante.
Définition 47 Une fonction réelle si elle est positive, intégrable et vérifie
est appelée densité de probabilité
Si nous nous donnons une densité de probabilité nous savons construire une
fonction de répartition donnée par la formule (10.15).
Réciproquement, si
est une variable aléatoire dont la fonction de réparti
tion s’écrit sous la forme (10.15),
admet donc une densité qui est (en toute
rigueur : presque partout). On dit que admet comme densité.
6
Certes, dans la pratique, on rencontre souvent des variables aléatoires répartition avec densité et nous consacrerons un paragraphe entier à ce cas. Mais il
est très important de souligner que si la fonction de répartition existe toujours, il
n’en va pas de même pour la densité. Il existe, et ce ne sont encore pas des cas
pathologiques, des variables aléatoires qui n’ont pas de densité.
104
Il en va ainsi des variables aléatoires discrètes qui sont aussi très importantes
en pratique : un jeu de pile ou face ou on gagne euro si c’est pile et où on
perd euro si c’est face est un exemple basique de variable aléatoire discrète ; un
élément binaire dans une transmission numérique qui peut valoir ou est aussi
représenté par une variable aléatoire discrète. De telles variables aléatoires n’ont
pas de densité et nous verrons pourquoi.
On peut aussi considérer l’exemple suivant. Soit une fonction à valeurs réelles,
telle que
positive et intégrable et une séquence où
Alors, la fonction
définie, pour tout
, par
est une fonction de répartition, mais elle n’a pas de densité et n’est pas discrète
pour autant.
Mais que le lecteur se rassure : dans la réalité, on rencontre majoritairement
des fonctions de répartition à densité ou des fonctions de répartition discrètes.
De plus, lorsque la fonction de répartition admet une densité, cette densité est en
général continue sur ou un intervalle borné de de sorte que cette densité est
la dérivée en tout point de la fonction de répartition.
Aussi, dans la suite, nous allons dédier une section aux variables aléatoires
à densité (dites absolument convergentes) et une section aux variables aléatoires
discrètes
10.5 Variables aléatoires absolument continues
Définition 48 Soit
variable aléatoire définie sur un espace probabilisé
. On dit estune
variable aléatoire absolument continue s’il existe une
, appeléeune
fonction
densité de probabilité, telle que :
6
6
105
6
(10.16)
Remarques :
1. Si la fonction de répartition
et
6
est continue, on a, pour tout
,
est :
2. La probabilité de tout borélien 6 (10.17)
6 3. La densité de probabilité
est toujours positive ou nulle mais non nécessairement majorée. Elle par contre finie (presque partout)
4.
6
est une densité de probabilité au sens de la définition 47.
5. Dans la pratique, la plupart des fonctions de répartition que l’on rencontre,
si elles ne sont pas discrètes sont continues et dérivables. Elles seront
donc absolument continues. Pour calculer la densité d’une variable aléatoire
réelle
continue , on calculera
la fonction de répartition
absolument
donc
et on dérivera
par
rapport
à
. Dans cer tains cas, on pourra même écrire directement
sous la forme (10.16).
Répétons-le, il est inutile de se poser la question de savoir si on travaille
avec Lebesgue ou Riemann. Ce sera la même chose. Il faut essentiellement
retenir les théorèmes de convergence, qui peuvent servir.
6
6
6
6. Le théorème de transfert appliqué à une variable aléatoire
absolument
continue de densité
nous donne la formule très utile suivante :
6
6 (10.18)
6
7. Si nous considérons la fonction caractéristique
d’une variable aléatoire
absolument continue de densité
, on a, par application de l’égalité
précédente
(10.19)
6
6
6
Cette égalité nous montre que la fonction caractéristique est la transformée
de Fourier de la densité , ce qui complète la remarque selon laquelle la
6
106
fonction caractéristique est la transformée de Fourier de la loi de
(cf.
(10.5)).
8. Nous pouvons compléter la remarque précédente par la suivante. Si la fonction caractéristique
d’une
variable aléatoire absolument continue est
absolument integrable (
), alors la densité de probabilité
de peut être déduite de
par transformation de Fourier inverse :
6
6
6 6
#
6 6
(10.20)
10.6 Variables aléatoires discrètes
Définition 49 Soit
variable aléatoire définie sur un espace probabilisé
. La variable une
est un ensemble fini
aléatoire est dite discrète si
ou dénombrable.
'( Remarques :
: , , , ....
1. Exemples d’ensembles de
2. La loi d’une variable aléatoire discrète est complètement déterminée par une
famille dénombrable de nombre positifs où tels que
.
'6 Soit une variable aléatoire discrète . Soit son image dans
où
de
par . Par définition, pour tout , . Calculons
la loi image
. Pour
tout , Définissons comme
: .
l’ensemble des indices
tels que Nous pouvons alors écrire que
Aussi,
. En faisant intervenir les mesures de
1
Dirac aux points (cf. (1.3)) , nous pouvons écrire que
(10.21)
1
par
On rappelle que la mesure de Dirac au point est la mesure définie pour tout " ,&
si
si
107
"
Les variables aléatoires discrètes nous donnent l’opportunité d’introduire rapidement le théorème de Radon-Nikodym dont on trouvera un énoncé à la section
10.7.3. Ce théorème nous permet de dire que les variables aléatoires discrètes
. Appliqué
n’ont pas de densité à partir de la formule donnée ci-dessus pour
à une variable aléatoire , le théorème de Radon-Nikodym nous dit que
est
absolument convergente si et seulement si tout borélien , de mesure nulle
:
pour la mesure de Lebesgue est aussi de mesure nulle pour la mesure
Or, nous venons de voir que la loi d’une variable aléatoire discrète
est de la
forme (10.21) et nous avons trivialement
et . L’en
semble mesurable ne vérifie pas le critère donné par Radon-Nikodym et,
effectivement, une variable aléatoire discrète n’a pas de densité par rapport à la
mesure de Lebesgue.
6
celle de la fonction de réparti 3 et donc
3 Nous déduisons de l’expression
de
tion de . Par définition
6
Pour terminer ce paragraphe, soulignons que l’application du théorème de
transfert à la variable aléatoire discrète
considérée jusqu’ici conduit à l’égalité
(10.22)
dès que
est positive ou que
'6 est intégrable.
Précisons aussi que si la fonction caractéristique
discrète est absolument intégrable, alors :
+ qui est l’analogue de (10.20).
108
6
6
de la variable aléatoire
(10.23)
10.7 Exercices corrigés
Nous terminons ce chapitre par trois exercices destinés à familiariser le lecteur
avec quelques calculs usuels sur les fonctions de répartition et les parmètres d’une
loi discrète et continue.
Notamment, Le lecteur peut reprendre les calculs des exercices 2 et 3 dans le
cas des exemples donnés dans le chapitre suivant qui présentent des lois élémentaires très utiles dans la pratique.
10.7.1 Exercice corrigé 1
6 3
est telle que son domaine de
Une variable aléatoire
absolument continue
forme
et le graphe de sa densité de probabilité
définition avec l’axe des x un triangle isocèle.
6
6 et de la fonction de répartition 6 .
43 .
2. Calculer la probabilité
% .
3. Calculer la probabilité
4. Donner la densité de probabilité ainsi que la fonction de répartition de la
variable aléatoire .
1. Donner l’équation de
5. Donner la densité de probabilité
ainsi que la fonction de répartition de la
.
variable aléatoire
Eléments de corrections de l’exercice :
1. La densité de probabilité
6
6 3
est :
si
si
sinon
#
3
La fonction de répartition est donné par :
6
2.
3.
4.
6
3 #
# 6 6 3 6 3 % 3
3 6 ,
8 # # 6 3 6 3 pour 109
,
d’où :
8
Or,
6
8 6
3 6
si
si
est une fonction paire, d’où :
8
6
si
sinon
5. même raisonnement que la question 4, on trouve que :
8
6 $#
si
sinon
10.7.2 Exercice corrigé 2 : variable aléatoire discrète de Poisson
"
Considérons une variable aléatoire de Poisson (voir 11.4) de paramètre
)
:(
+ + Espérance mathématique :
Variance :
6 D’où :
+ + =
+
=
3 6 6
6 6 110
Fonction caractéristique :
Fonction génératrice :
+ %
et inversement, à partir de la fonction caractéristique, on peut retrouver la loi
de en utilisant le théorème des résidus :
+ 6
+ Fonction de répartition :
6
# +
+ 10.7.3 Exercice corrigé 3 : le cas de la loi absolument continue
dite exponentielle
! Considérons une variable aléatoire qui suit une loi exponentielle (voir 11.8)
). La densité de probabilité est donnée par :
de paramètres (
6 Espérance mathématique :
Variance :
6 D’où :
6
Fonction de répartition :
6 6
6 6
3 Fonction caractéristique :
6 1l
3
# 3 1l 111
Compléments : le théorème de Radon-Nikodym et
son application en théorie des probabilités
La notion de variable aléatoire absolument convergente n’est qu’une application de
la notion d’absolue continuité que l’on rencontre en théorie de la mesure. La notion de
densité, qui accompagne cette notion d’absolue continuité, a fait l’objet de nombreux
développements théoriques. Un des résultats les plus importants est le théorème de RadonNikodym. Nous présentons ce théorème afin de familiariser le lecteur avec une notion
souvent utilisée dans les articles relatifs à la théorie des probabilités.
Dans cette section, nous commençons par présenter la notion de mesure absolument
continue par rapport à une autre mesure. Puis nous énonçons le théorème de RadonNikodym. Ce théorème précise ce qu’est une densité et donne un critère pour savoir si
une mesure (et en particulier une fonction de répartition) admet une densité.
Remarque : Nous avons préféré présenter la notion d’absolue continuité et le théorème de
Radon-Nikodym sous forme de complément que sous forme d’annexe. En effet, l’absolue continuité d’une mesure par rapport à une autre nous a servi à la section 10.6 et le
théorème de Radon-Nikodym nous servira ultérieurement.
10.7.4 Mesure absolument continue par rapport à une autre
Posons le problème dans le cas probabiliste.
d’une variable aléatoire est une mesure sur muni de la tribu des
Une loi nous
connaissons déjà une mesure, plus "naturelle", sur l’espace meboréliens . Or,
surable : il s’agit de la mesure de Lebesgue non complète. On peut donc se
et .
demander s’il existe une relation entre
En fait, la mesure de Lebesgue représente une certaine épaisseur de l’ensemble que
l’on va mesurer. Ce n’est peut-être pas évident à voir dans le cas de la droite réelle, mais
(elle
ça l’est beaucoup plus si on considère un instant la mesure de Lebesgue sur représente alors la surface) ou la mesure de Lebesgue sur (elle représente alors le
ne possède pas des propriétés analogues
volume). Si la mesure
à la mesure de
Lebesgue (si elle ne correspond pas à la mesure d’une certaine "épaisseur"), alors on
et . On peut par contre espérer aboutir à un
peut penser qu’il sera difficile de lier
résultat intéressant si
véhicule une notion d’épaisseur comparable à celle inhérente
à la mesure de Lebesgue.
La définition suivante permet de formaliser mathématiquement la notion d’épaisseur
d’une mesure par rapport à une autre.
112
Définition 50 Soient et deux mesures sur un espace mesurable
. On dit que
est absolument continue par rapport à la mesure si tout ensemble -négligeable est
aussi -négliegable et l’on écrit
ou
.
Exercice 22 Soit
un espace probabilisable et deux mesures et
Soent
et
les mesures complètes associées à et respectivement.
sur cet espace.
, a-t-on ?.
, a-t-on ?
Si
(i) Si
(ii)
En considérant les mesures et complètes, est donc absolument
continue par
,
rapport à si, pour tout
implique que
. En d’autres termes,
la mesure est "moins épaisse" que . Ceci explique la notation
, analogue à
celle utilisée en physique pour exprimer qu’une grandeur est négligeable par rapport à
une autre.
En fait, étant donné une mesure , on sait construire une infinité de mesures absolument continues par rapport à . Il suffit en effet de considérer
une
variable aléatoire
positive quelconque
et de poser, pour tout
1l
. L’application
,
est
bien
une
mesure
et
l’on
écrit
ou
encore
. On a alors :
. Aussi, si
,
est aussi égal à puisque
et il s’ensuit que
aussi. En
.
d’autres termes,
!
par
La réciproque est-elle vraie ? id est, lorsque une mesure est absolument continue
rapport à une autre mesure , existe-t-il une application mesurable telle que
?
10.7.5 Le théorème de Radon-Nikodym
Le théorème de Radon-Nikodym nous apprend que la réponse aux questions
précé
dentes est oui ... mais pour une certaine catégorie de mesures : les mesures -finies. Il
se trouve que la mesure de Lebesgue et toute mesure de probabilité sont (trivialement)
des mesures -finies. Le théorème de Radon-Nikodym va donc s’appliquer en théorie des
et la
probabilités et nous permettre de comparer l’épaisseur mesurée par une loi
mesure de Lebesgue.
De manière plus précise, on se donne la définition suivante.
Définition 51 Soit
un espace mesuré. On dit que
existe une suite croissante
d’ensembles
mesurables entier ,
.
113
( est une mesure -finie s’il
telle que, pour tout
Exercice 23
(i) Montrer que
la mesure de Lebesgue non complète
plète)
sont -finies.
et la mesure de Lebesgue (com-
(ii) Montrer que toute mesure de probabilité est -finie.
Théorème 27 (Théorème de Radon-Nikodym)
Soient et deux mesures -finies sur
un espace probabilisable
. La mesure est
absolument
continue
par rapport à si
et seulement si il existe un élément
tel
que
, c’est-à-dire,
tel
que
pour tout
1l
. Deux éléments
de
tels que
,
sont égaux -presque partout.
!
Remarques : Si
, alors la classe d’équivalence pour la relation " -presque partout"
des éléments de
tels que
est appelé dérivée de Radon-Nikodym
ou densité de la mesure par rapport à la mesure . Noter que cette classe d’équivalence
est unique d’après le théorème.
10.7.6 Application aux probabilités : variables aléatoires absolument continues
et sa
Si nous considérons maintenant une variable aléatoire
loi , nous savons que
et la mesure de Lebesgue sur me est absolument continue par rapportsontà ladeux
sures -finies. S’il se trouve que
mesure
de Lebesgue , alors
le théorème de Radon-Nikodym
nous dit qu’il existe une densité
telle que
. On peut donc se donner la définition
suivante.
6
6 Définition 52 Soit une variable aléatoire définie sur un espace probabilisé
.
de est absolument
On dit que est une variable absolument continue si la loi
continue par rapport à la mesure de Lebesgue :
. La densité de RadonNikodym est appelée densité de probabilité de la variable aléatoire .
Exercice 24 Soit
probabilisé
une variable aléatoire définie sur un espace
est absolument continue et de densité
.
6
presque partout. On pourra considérer les ensembles mesurables
6 et montrer
que la mesure de Lebesgue de ces ensembles et donc la
mesure de leur union est nulle.
6 Montrer que .
6
(i) Montrer que
(ii)
. Supposons que 114
(iii) Montrer que
47.
6
1l est une densité de probabilité au sens de la définition
Cet exercice montre que pour une variable aléatoire absolument continue , la densité de
par rapport à la mesure de Lebesgue est presque-partout une
Radon-Nikodym de
densité de probabilité au sens de la définition 47. C’est donc, presque partout, la dérivée
de la fonction de répartition de la variable aléatoire .
Le lecteur vérifiera aisément que la définition 52 que nous venons de donner pour
les variables aléatoires absolument continues est équivalente à celle donnée dans le coprs
principal de ce chapitre (cf. définition 48) et qui est celle généralement utilisée par les
statisticiens.
115
Chapitre 11
Exemples de lois
11.1 La loi de Bernouilli
$# #
3 Une variable aléatoire suit une loi de Bernouilli si elle ne peut prendre que les
)
,
deux valeurs 0 ou 1. On pose traditionnellement : (
et
Interprétation : C’est évidemment la loi du pile ou face. Un élément binaire qui
peut prendre la valeur ou obéit aussi à une loi de Bernouilli. Lorsqu’on prend
une décision sur la présence ou l’absence d’une cible radar, on a aussi affaire à
une loi de Bernouilli. Les exemples se multiplient à l’infini. C’est la loi discrète
basique et fondamentale que l’on rencontre tout le temps.
11.2 La loi géométrique
C’est une variable aléatoire de paramètre ,
dans . Soit N cette variable aléatoire, on a :
#
#
, qui prend ses valeurs
+ 3 Interprétation : lorsqu’on répète une infinité de fois une épreuve de Bernouilli
de manière indépendante. Le nombre aléatoire correspondant à l’indice de
la première apparition d’un succés (
) est une variable aléatoire qui suit la
loi géométrique.
116
Loi géométrique
0.5
P(X=k)
0.4
0.3
0.2
0.1
0
0
1
2
3
4
5
6
7
Indice k
F IG . 11.1 – Distribution de la loi géométrique avec
11.3 La loi binomiale
'( + 3 et ,
C’est une variable aléatoire de paramètres
ses valeurs dans l’ensemble
telle que : (
#
#
)
. Elle prend
Interprétation : lorsqu’on répète n fois une épreuve de Bernouilli de manière indépendante. Le nombre aléatoire correspondant au nombre de succés est une variable
aléatoire qui suit la loi Binomiale.
Remarquer qu’on peut considérer qu’une loi de Bernouilli est un cas particulier
.
de la loi Binomiale avec
11.4 La loi de Poisson
C’est une variable aléatoire entière de paramètre
)
dans , telle que :(
+ + 117
%
qui prend ses valeurs
Loi Binomiale B(n=10,p=0.7)
0.25
P(X=k)
0.2
0.15
0.1
0.05
0
0
2
4
6
8
10
Indice k
F IG . 11.2 – Distribution de la loi Binomiale avec
et Loi Poisson P(4)
0.25
P(X=k)
0.2
0.15
0.1
0.05
0
0
2
4
6
Indice k
8
10
F IG . 11.3 – Distribution de la loi de Poisson
118
12
Interprétation : La loi de Poisson est souvent utilisée dans la modélisation d’une
file d’attente (trafic téléphonique par exemple) pour dénombrer le nombre de
clients dans la file.
11.5 La loi uniforme
Les exemples qui vont suivre, contrairement aux exemples précédents, sont
des variables aléatoires absoluments
continues. On dit que la v.a. suit une loi
uniforme sur un intervalle
) si et seulement si sa densité de pro (
babilité est constante sur l’intervalle
, soit :
6 3
1l
Remarque : Le choix de la constante est donné par
. La loi uni
forme sur un intervalle
n’est autre que la formulation mathématique de la
phrase : "soit une valeur prise au hasard dans
".
6
Interprétation : Lors de la propagation d’une onde sur le canal radio-mobile, du
fait des phénomènes de diffusion, réflexion ou diffraction, l’onde emprunte plusieurs trajets. Sur chacun des trajets, elle subit
un déphasage aléatoire qui est sup posé distribué selon une loi uniforme sur
.
,
11.6 La loi normale (ou loi de Gauss)
Une variable aléatoire
souvent la notation :
suit une loi normale de paramètres et (On utilise
) si sa densité de probabilité est donnée par :
6
Remarque : La loi gaussienne joue un rôle fondamental en probabilité et elle apparaitra également quand nous étudierons le théorème de la limite centrale.
Interprétation : De nombreux phénomènes physiques aléatoires peuvent être modélisés comme des processus gaussiens. Citons par exemple le bruit thermique
généré par des composants électroniques (amplificateurs ...).
119
Loi Uniforme
1
0.9
0.8
densité de probabilité
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
-2
-1.5
-1
-0.5
0
x
0.5
1
1.5
F IG . 11.4 – Distribution de la loi Uniforme
2
Loi Gaussienne
0.5
0.45
0.4
densité de probabilité
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
-4
-2
0
2
axe des x
F IG . 11.5 – Distribution de la loi Normale :
120
4
6
et Loi Log Normale
densité de probabilité
0.5
0.4
0.3
0.2
0.1
0
1
2
3
4
5
6
axe des x
7
8
F IG . 11.6 – Distribution de la loi Log Normale :
continue) ou
9
,
10
et
11.7 La loi Log Normale
Une variable aléatoire suit une loi log normale de paramètres
sa densité de probabilité est donnée par :
1l Remarque : La v.a.
(trait
,
et
(
si
3 ( 6 où .
peut être obtenue par
Interprétation : Reprenons l’exemple de la propagation sur canal radio-mobile.
L’onde subit des évanouissements de deux types : grande échelle et petite échelle.
Les évanouissements à grande échelle se manifestent par une atténuation de la
puissance moyenne du signal reçu lorsque l’émetteur et le récepteur sont loin l’un
de l’autre. Cette atténuation suit une loi Log Normale.
11.8 La loi Exponentielle
!
Une variable aléatoire
suit une loi exponentielle de paramètres
) si sa densité de probabilité
est donnée par :
1l
6
121
(
Loi Exponentielle
1
0.9
0.8
densité de probabilité
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
1
2
3
4
5
axe des x
6
7
8
9
F IG . 11.7 – Distribution de la loi Exponentielle
10
! " Interprétation : La loi exponentielle sert entre autres à modéliser les instants d’arrivée des clients dans une file d’attente (cf. exemple du trafic téléphonique cité
plus haut pour la loi de Poisson).
11.9 La loi du Une variable aléatoire
suit une loi du (prononcer chi ) à
liberté si sa densité de probabilité est de la forme :
6 ) degrés de
1l ) "+ + 3 + ) 3 si
2. 6
3.
(( + 3 4. Soient variables aléatoires
et identiquement distribuées
. indépendantes
selon
une
loi
normale
Alors
la
variable
aléatoire normalisée suit une loi du chi- à degrés de liberté.
Remarques
1.
122
Loi du Chi−2 − 0 < n <2
4
3.5
densité de probabilité
3
2.5
2
1.5
1
0.5
0
0
1
2
3
4
5
axe des x
6
7
8
9
10
$# # F IG . 11.8 – Distribution de la loi du Chi- :
Loi du Chi−2 − n=2
0.5
0.45
0.4
densité de probabilité
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
0
1
2
3
4
5
axe des x
6
7
8
9
F IG . 11.9 – Distribution de la loi du Chi- :
123
10
Loi du Chi−2 − n>2
0.2
0.18
0.16
densité de probabilité
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
0
1
2
3
4
5
axe des x
6
7
8
9
10
% F IG . 11.10 – Distribution de la loi du Chi- :
11.10 La loi du non centrée de paramètre de décentrage
La densité de probabilité d’une variable aléatoire distribuée selon une loi du
non centrée s’exprime en fonction d’une fonction hypergéométrique dont on
trouvera les propriétés dans [1] et [16], entre autres.
où
.
=
deux entiers, et deux suites fiOn définit la fonction hypergéométrique générali et et de la variable complexe , notée
, par :
Définition 53 Soient et
nies d’éléments complexes.
sée
paramètres
de
=
+ (11.1)
Etant donnée cette définition, on peut à présent exprimer la densité de probabilité d’une variable aléatoire du non centrée à degrés de liberté et de paramètre
de décentrage :
6
) 124
%
(11.2)
variables aléatoires indépendantes de même variance .
suit une loi de Gauss de moyenne et de variance
:
. Alors la variable aléatoire normalisée
suit
une loi
du
chinon
centrée
à
degrés
de
liberté
et
de
paramètre
de
décentrage
.
Propriété : Soient
On suppose que
11.11 La loi de Rayleigh
Une variable aléatoire suit une loi de Rayleigh de paramètres
de probabilité est donnée par :
1l si sa densité
Remarque : Nous pourrons montrer, quand on introduira la notion du couple aléa
toire, qu’une variable aléatoire de Rayleigh peut être obtenue par . La
où et sont deux v.a. indépendantes et qui suivent la loi normale
loi de est donc celle de la racine carrée d’une loi du centrée à degrés de
liberté.
5
Interprétation : En reprenant l’exemple de la propagation radio-mobile, en l’absence d’un trajet direct entre la source et le récepteur, l’atténuation de l’amplitude
de l’onde sur chacun des trajets suivis par l’onde émise suit une loi de Rayleigh.
11.12 La loi de Rice
Une variable aléatoire suit une loi de Rice de paramètres et
de probabilité est donnée par :
1l
où
est la
de Bessel modifiée d’ordre
fonction
.
si sa densité
(cf. [1], [16]) qui est telle que
Interprétation : Lors de communications radio entre deux avions, il est possible
que l’onde émise se réfléchisse sur la surface de la Terre, provoquant des trajets
secondaires en plus du trajet direct. Les différentes répliques atténuées du signal
125
Loi Rayleigh
0.6
densité de probabilité
0.5
0.4
0.3
0.2
0.1
0
0
1
2
3
4
5
axe des x
6
7
8
F IG . 11.11 – Distribution de la loi Rayleigh :
9
10
(' initial résultant des différents trajets suivis par l’onde se superposent au niveau du
récepteur. Lorsque les différentes contributions ne peuvent être isolées, l’amplitude du signal reçu, superposition des différentes répliques (i.e addition) suit alors
une loi de Rice.
est la loi suivie
Exercice 25 Montrer que la loi de Rice de paramètres et
par la racine carrée d’une loi du
non centrée à deux degrés de liberté et de
paramètre de décentrage
de densité , montrer que
. Indication
: soit
la densité de
est
,
. Appliquer ce résultat en
prennant en compte
l’expression de
en fonction de la loi hypergéométrique
généralisée .
6
8
6
11.13 La loi Gamma
)
"
+
Une variable aléatoire
suit une loi Gamma de paramètres
) si sa densité de probabilité
est donnée par :
1l Remarques :
) + 6
"
+
)
est définie par :
) + 126
et
+
(
Loi Gamma
1
0.9
0.8
densité de probabilité
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
1
2
3
4
5
axe des x
F IG . 11.12 – Distribution de la loi Gamma :
) + "+ 3 + 6
7
8
) *,+ 9
10
avec
et
+ ((-
,
Dans le cas où
. Remarquer aussi que la loi exponentielle
.
n’est autre qu’un cas particuler de la loi Gamma, on a :
! " ) 11.14 La loi de Cauchy
.
aléatoire suit une loi de Cauchy de paramètres
Une
0 / )variable
si sa densité de probabilité est donnée par :
6
/
/
3
/
(
avec
et
Remarque : Nous verrons plus loin que cette v.a. n’admet pas de moments d’ordre
supérieur.
11.15 La loi Beta
Une v.a. suit une loi Beta de paramètres
si sa densité de probabilité est donnée par :
avec
6
3
127
% 3
% 3
et
(
)
Loi de Cauchy
0.4
0.35
densité de probabilité
0.3
0.25
0.2
0.15
0.1
0.05
0
-5
-4
-3
-2
-1
0
axe des x
1
F IG . 11.13 – Distribution de la loi de Cauchy :
2
Remarque : est définie par :
2
. 0/ 3 3
4
avec
5
1
et
/ ou
.
11.16 Loi de Student
Une variable aléatoire
suit une loi de Student à degrés de liberté si et
seulement si sa densité de probabilité définie sur est donnée par :
(11.3)
6
1. Posons
par :
6
. Si ) )
est entier, la fonction caractéristique de
) 3 + " ) =
128
est donnée
Loi beta
3.5
3
densité de probabilité
2.5
2
1.5
1
0.5
0
0
0.1
0.2
0.3
0.4
0.5
0.6
axe des x
F IG . 11.14 – Distribution de la loi Beta :
2. Si
et
male
0.7
0.8
43
0.9
1
5 et aléatoires indépendantes,
sont
etdes variables
à degrés
selon
une
loi
du
chi
8
selon la loi norde liberté, alors
suit une loi de Student à degrés de liberté.
Ce résultat s’applique directement au cas où on dispose de
va
riables aléatoires (
) gaussiennes
identiquement distri
buées de moyenne
nulle et de variance
inconnue. La variable aléatoire
suit une loi de Student à
degrés de liberté.
6
129
Chapitre 12
Vecteurs aléatoires
12.1 Définition
L’étude des vecteurs aléatoires est un outil important pour étudier la dépendance de plusieurs variables aléatoires réelles considérées comme les composantes du vecteur.
l’espace probablisable, où est un entier non nul, et Soit
est la tribu borélienne de , i.e. la tribu engendrée par les ensembles de la forme
est aussi
où les sont des boréliens
de . La tribu
.
engendrée, par exemple, par les pavés ((
'(
Définition 54 Soit
un espace probabilisable donné et
muni de la tribu
des boréliens
. Un vecteur aléatoire (de dimension ) est une application
:
mesurable de
dans
<
3
3
< ( ( Soit :
< (( (( '( 12.2 Intégration des vecteurs aléatoires
Nous nous contentons d’une définition très immédiate.
130
(12.1)
< un
si chacune des composantes
,
('
Définition 55 Soit
un espace mesuré et
.
vecteur aléatoire réel. Posons
< intégrable par rapport à
+ ,< estestintégrable.
(i) On dit que
(ii) L’ensemble des vecteurs aléatoires réels intégrables sera noté
(iii) L’intégrale
<
<
de
<
+ par rapport à
est définie par
(( :
12.3 Mesure image et théorème de transfert
sans que soit nécessairement une mesure de
Soit un espace mesuré
probabilité.
La notion de mesure image donnée à la section 10.1 (définition 45) s’étend
. En effet,
sans difficulté au cas d’un vecteur aléatoire
définie,
il est facile de montrer que la fonction d’ensemble
pour tout , par
<
< < <
est une mesure de probabilité. D’où la définition suivante, qui est quasiment identique à celle donnée à la définition 45).
< Définition 56 Soient un espace mesuré
et
un vecteur aléatoire. La fonction d’ensemble,
définie, pour
par
tout est une mesure positive appelée
mesure image de la mesure par le vecteur aléatoire . Lorsque la mesure est
une mesure de probabilité,
est appelée loi image de par ou encore loi
de .
<
<
<
<
<
<
<
Remarque : Dans la suite, nous noterons aussi cette mesure image par
.
la notation la plus répandue, même si je continue de préférer
<
6
, qui est
Le lemme 10 reste vrai même avec des vecteurs aléatoires et l’on peut énoncer :
131
<
Lemme 11 Soient un espace mesuré
un
, vecteur aléatoire et , une application mesurable.
par l’appliSoit
la mesure image de par . La mesure image de
de par l’application
cation mesurable est égale à la mesure image
mesurable
:
<
<
<
<
< < < Nous laissons la preuve au lecteur car celle-ci est identique à celle du lemme
10.
Avec les notations utilisées dans le lemme précédent, nous générons un nou , image de par . Cette
veau vecteur aléatoire
procédure nous permet alors de travailler dans l’espace probabilisable
muni de la loi image de par
. On peut alors énoncer un théorème de
transfert qui étend celui donné à la section 10.1 (cf. théorème 25) ?
<
< <
Théorème 28 (Théorème de transfert) Soit un espace mesuré
un vecteur aléatoire, une application mesurable,
et la mesure image de par :
<
36
3
<
<
< est intégrable
si et seulement si est intégrable par rapport à la mesure
< image de par :
< (ii) Si est intégrable par rapport à la mesure < , alors
< (12.2)
(i)
La preuve est laissée au lecteur car elle est analogue à celle du théorème 25.
12.4 Loi de probabilité et espérance mathématique
d’un vecteur aléatoire
,
Nous particularisons ce qui précède au cas d’un espace probabilisé
d’un vecteur aléatoire et d’une application mesurable
.
132
< Conformément à la définition 55, nous dirons que le vecteur aléatoire
si chacune de ses composantes est intégrable.
<
On définira alors l’espérance de
<
Remarques :
-/ 1. 2. < 4< < <
(( <
comme étant le vecteur
/ < <
<
/
<
<
tel que
< par < sur
:
< < La loi de probabilité du vecteur aléatoire
suite, d’après la définition 56, la loi image de
6 Si nous appliquons ensuite le théorème de transfert, en supposant
grable :
< (12.3)
inté-
(( < (( est en-
12.5 Fonction de répartition
Définition 57 La fonction de répartition
par :
6
<
3
3
d’un vecteur aléatoire
<
est définie
6 < 6 '( 6 3 (( 3 (( 3 < 3
# ((
# 12.6 Loi conjointe
(( Chaque composante <
aléatoire réelle. La loi de
6
<
d’un vecteur aléatoire est une variable
est aussi appelée loi conjointe des variables aléatoires
133
(( réelles . Les lois des différentes composantes sont appelées les
lois marginales du vecteur aléatoire . La loi marginale de la composante
est donnée par :
6 6
+
<
((
'(
(12.4)
Remarque importante :
La loi conjointe permet de déterminer toutes les lois marginales mais la réciproque est fausse comme le montre l’exemple suivant :
un vecteur aléatoire de dimension (un couple aléatoire). Soit
Soit
pour tout tel que , les différentes probabilités donnés par le tableau
(12.1).
5
6
6 8
3
3
8
TAB . 12.1 – Exemple de loi dont les lois marginales ne permettent pas de retrouver
la loi conjointe
La loi conjointe du couple
dépend du paramètre
des deux lois marginales est indépendante de ce paramètre.
<
alors que chacune
Définition 58 Soit
un vecteur aléatoire de dimension défini sur un espace
probabilisé
. On dit que
admet une densité de probabilité sur
si
et seulement si il existe une fonction
de
dans , appelée densité de
probabilité, telle que :
<
6 Remarques :
1. On a alors :
6
6 '( (' 6 (( (( 134
(12.5)
(12.6)
< 2. Si
avec une application de
théorème de transfert, on a :
< 3. On démontre que :
6 < <
6
6
((
6 (( 4. Chaque composante
par :
dans , en utilisant le
(12.7)
(( <
(12.8)
possède une densité de probabilité sur
6 (( (( donnée
(12.9)
12.7 Formule du changement de variables
un espace probabilisé, < un vecteur
Soit
une application mesurable. Le théoaléatoire et rème de transfert nous permet de ramener le calcul de
à une intégrale par
dans . Dans certains problèmes,
rapport à la mesure image <
il peut cepen
dant utile d’en savoir plus sur
et en particulier important de calculer la
loi de .
Le schéma suivant résume la situation qui est une extension de celle traitée par
le théorème de transfert dans le sens où l’on va considérer
muni de la mesure
image de par
.
3 6 6 3
3 37373 37373>37378 3>37373>37373>3
<
8 Lorsque admet une densité de probabilité, on peut calculer la loi de
à la formule de changement de variable.
135
grâce
12.7.1 Cas bijectif
< un vecteur aléatoire continu de dimension de densité de probabilité
6 Soit
. On suppose que < est à valeurs dans le borélien de . On
considère l’application mesurable de vers un borélien de . On suppose
que est bijective, dérivable et à dérivées partielles continues ainsi que son in verse. Alors
est un vecteur aléatoire continu de densité de probabilité
notée
et donnée par :
< 8
< < 8 < <
où
est le jacobien.
Remarque :
< < <
< <
((
<
((
..
.
< 6 < ..
.
<
..
.
(12.10)
(12.11)
<
< .
Exemple :
Soit
lité
un couple de v.a. réelles définies sur de densité de probabi6 8 . Quelle est la densité de probabilité de la nouvelle v.a. réelle
?
12.7.2 Cas général
, pour
déterminer
, on
<
<
<
8
6 3 .
Dans le cas plus général où est non bijective et que
en la fonction de répartition du vecteur aléatoire ,
avec cherche à évaluer la probabilité
8
12.8 Fonction caractéristique
6 <
Définition 59 On appelle fonction caractéristique d’un vecteur aléatoire
de
dimension , la fonction à plusieurs variables et à valeurs complexes
définie
par :
sur
(12.12)
6
< 136
6
pour tout
< Remarque :
Soit une matrice
et
< 6 < 6 <
, on a :
12.9 Variables aléatoires indépendantes
(( p variables aléatoires réelles définies sur l’espace
Définition 60 Soit (( sont indépendantes si et seulement si :
probabilisé
. (( (( 6 (( 6 (12.13)
Remarques :
6
1. Si
< (( , on a alors :
< (( '( 6 (( 6 est la loi du vecteur aléatoire
6 (' 6
est alors une loi produit :
6 6 ' ( 6
(' sont indé2. Si 6 a une densité de probabilité 6 sur , alors : (( 6 '( 6 .
pendantes si et seulement si 6
(( 3. Proposition :
sont indépendantes si
et seulement si
(continues
'( '
(
.
et
bornées)
(( .
4. Si
et sont deux variables alà c atoires indépendantes et absolument
continues, la densité de probabilité de la somme
n’est autre que le
produit de convolution des deux densités de probabilités :
68 6 8
3 137
6 8 3 6
8 Ce résultat se généralise bien sûre au cas d’une somme de v.a. réelles
indépendantes. On le retrouve aisément puisque la fonction caractéristique
de la somme de v.a. indépendantes est le produit de leurs fonctions caractéristiques. Comme la densité de probabilité est la transformée de Fourier
inverse de la fonction caractéristique, alors la densité de probabilité de la
somme des v.a. indépendantes est le produit de convolution de ces densités
de probabilités.
12.10 Lois conditionnelles
un couple aléatoire de loi 6 8
Soit
important d’utiliser la loi conditionnelle de
Dans le cas où est discrète et que
du conditionnement conduit à :
5
. Dans la pratique, il peut être
sachant
.
%
, la définition élémentaire
et
(12.14)
Dans le cas où la loi du couple est absolument continue, la loi conditionnelle
de
sachant
est définie, pour tout où
, par sa densité de
probabilité :
6 8 6 88 8 .
On utilise aussi la notation 6
8
%
(12.15)
Remarques :
Remarques :
6 8 8 1. La connaissance de
permet de calculer
par intégration puis
ensuite de déterminer les lois conditionnelles par la formule (12.15).
6 8 ainsi que la densité
2. Si l’on connait toutes les lois conditionnelles
marginale
, la formule (12.15) permet de calculer la loi conjointe du
.
couple aléatoire
et 3.
.
8
8
6 8
138
4. Il est possible de définir l’espérance conditionnelle d’une fonction
sachant
par :
6 8 (12.16)
et l’on a :
8 5. Nous avons alors les résultats très utiles suivants :
1l
. En particulier, si pour tout 8 (12.17)
,
8 (12.18)
Une conséquence de ces résultats est la proposition suivante dont la démonstration est donnée à l’annexe D.
Proposition 24 Soit
un espace probabilisé,
deux variables aléatoires
une application mesurable.réelles indépendantes et
(i)
(ii)
.
.
Ce résultat appelle les commentaires suivants.
1. L’hypothèse d’indépendance entre et n’est pas superflue : si et ne
sont pas indépendantes, (i) et (ii) peuvent être
En effet, considérons
et supposons que faux.. Le
,
membre de gauche
dans (ii) vaut
alors
alors que le membre de droite dans (ii) est nul
puisque
. Ni (i), ni (ii) ne sont donc vrais dans ce cas-là.
139
2. Démystifions quelque peu le résultat : (ii) peut être obtenu sans passer
par l’espérance conditionnelle. D’ailleurs, celle-ci n’intervient pas dans
l’énoncé de (ii). Nous engageons le lecteur à vérifier que (ii) est en fait une
simple application du théorème de Fubini, absolument analogue au calcul
qui est utilisé pour démontrer (ii) à l’annexe D. Ce que nous dit ce lemme,
c’est qu’en plus de (ii), l’espérance conditionnelle, lorsque et sont indépendantes, s’obtient simplement en fixant .
Nous engageons le lecteur à étudier l’annexe D où les notions d’espérances
conditionnelles sont développées. Dans une première lecture, il peut se contenter des sections D.1, D.2, D.3.1, D.3.3 et D.4. Les résultats qui y sont donnés
devraient lui donner une vision saine et claire de la notion d’espérance conditionnelle.
12.11 Covariance et Matrice de covariance
12.11.1 Covariance
< Considérons un vecteur aléatoire
, c’est à dire tel que chaque
composante est de carré intégrable. Nous avons (inégalité de Cauchy-Schwartz) :
(12.19)
qui s’écrit ici :
Ceci montre que < Remarques :
1.
(( (12.20)
.
, la covariance entre deux composantes
est défine par :
6
3
2. Un calcul simple montre que :
<
Définition 61 Soit
et du vecteur aléatoire
3
(12.21)
(12.22)
.
140
3
3. Si
. On dit alors que
et sont indépendantes alors
et sont non corrélées. La réciproque est en général fausse, on peut
trouver deux v.a. non corrélées et dépendantes (voir exercice en fin de ce
chapitre).
et
4. Le coefficient de corrélation entre
est définie par :
96 6
=6 =6
9 6 6 96 6
5. On montre que
6.
(12.23)
.
et
si et seulement si
sont proportionnelles.
12.11.2 Matrice de covariance
<
Définition 62 Soit
toire est défine par :
<
6 6 , la matrice de covariance du vecteur aléa-
Remarques :
1. 2. 6
(12.24)
6 ).
6
< , on a : < 6 < est une matrice symétrique ( est une matrice positive (
3. En notation matricielle, si
6 <
).
est un vecteur colonne, on peut écrire :
3
<
<
< 3
<
(12.25)
12.12 Droite et courbe de régression
un couple aléatoire. Lorsque l’on représente les réalisations des
Soit
et dans le plan , on obtient un nuage de points
variables aléatoires
(voir l’exemple de la figure (12.1)). Si les v.a. sont reliées par une fonction déter , on observe sur le plan le graphe de la courbe . Si
ministe
cette relation n’est pas déterministe, on peut s’intéresser à une fonction de qui
approcherait au mieux, selon un certain critère, la variable .
141
nuage de points
4
3
2
axes des y
1
0
-1
-2
-3
-4
-3
=6 78 -2
-1
0
1
axes des x
2
3
4
9 ;:
F IG . 12.1 – Nuage de points représentant 1000 réalisations d’un couple gaussien
corrélées (
et
)
12.12.1 Droite de régression
Définition
63 On appelle droite de régression de
où et minimisent la quantité
3
3
, la droite
d’équation :
.
sur On parle alors d’estimation linéaire de en fonction de au sens des "moindres
carrés". L’équation de la droite de régression de sur est :
3
3
6
(12.26)
12.12.2 Courbe de régression
3 sur , la. fonction d’équa-
Définition 64 On appelle courbe de régression de
où minimise la quantité tion :
L’équation de la courbe de régression de
sur
142
est :
(12.27)
12.13 Exercice corrigé
un couple de variable aléatoire dont la densité de probabilité est
Soit
donnée par :
6 8
3
3
$#
si
sinon
#
1. Calculer la constante .
.
2. Calculer la distribution marginale de
3.
.
Calculer la covariance de
. Quelle est la densité
4. On éffectue une rotation d’angle du couple
de probabilité du couple transformé.
5. Donner la courbe de régression de
de régression.
par rapport à
et en déduire la droite
Elément de correction de l’exercice :
doit être tel que :
1. La constante
où
5 # 6 8 #
6 8 . On a :
3
2. Soit
3 tel que
# #
6
3
#
3 D’où :
3
( fixé),
alors peut prendre les valeurs suivantes :
. La densité de probabilité marginale est alors :
143
6 8
soit,
6
3. On a :
or,
alors :
#
6 8 si
sinon
3
et
3
6
et sont non corrélées. Ceci est un exemple de couple de v.a. dépendantes et non corrélées.
4. Soit la matrice de rotation :
Soit
3
D’après la relation (12.10), on a :
6
soit :
6 8
8 le couple transformé. On a :
Soit :
avec ici
3
, d’où :
3
3
On a la même loi que celle du couple
est invariante par rotation).
144
(3
$#
si
sinon
#
(normale puisque
6 8 5. Courbe de régression
6
, avec :
8 6 avec :
68 6 8 2 3 3 3 6
6 qui sera confondue
la courbe de régression est : 6
dans ce cas avec la droite de régression.
12.14 Problème corrigé : somme de variables aléatoires admettant une densité conjointe
Ce problème et le suivant vont nous permettre d’utiliser les résultats précédents dans le but de calculer, par différents moyens, la loi de la somme de deux
variables aléatoires. Dans ce premier problème, on s’intéresse à des variables aléatoires qui ne sont pas forcément indépendantes mais nous supposons que le couple
qu’elles forment admet une densité de probabilité.
Considérons
.
un espace probabilisé
et deux variables aléatoires
On se propose de calculer la loi de
en suivant différentes méthodes de
admet
calcul. On supposera que le couple
une densité notée
qui est
donc la densité de probabilité du vecteur aléatoire
.
6 8
1. Première méthode :
(a) En justifiant son utilisation, employer la formule du changement de
pour calculer la densité du couple
variable avec
.
de
3 . La
Réponse
: L’application
telle que
dans
est bijective. On a
est donnée par :
matrice Jacobienne de
145
3
On a
du couple
6 6 8
. D’où, d’après l’équation (12.10), la densité
est donnée par :
6 6 8 6 8 3 (b) En déduire la densité de
marginale.
en appliquant la définition de la loi
Réponse : La densité de probabilité de
n’est autre que la
densité de probabilité marginale de la seconde composante du couple
, soit :
68 6 8 3 (12.28)
2. Deuxième méthode.
Soit une application mesurable
de par
image
63 8
(a) Montrer que si
et munissons
. Nous avons donc :
de la mesure
est intégrable,
3
Réponse : c’est une simple application du théorème de transfert.
(b) Montrer que la mesure image de
est la loi
définie par
par
.
Réponse : Il suffit d’appliquer le lemme 11 :
6 8 (c) Montrer que
146
(12.29)
Réponse : Etant donné que pour la fonction , nous avons
3
3
le résultat dérive du théorème de transfert et de l’existence de la densité
.
6 8
(d) Retrouver le fait que la densité de
est donnée par (12.28).
Réponse : le membre de droite dans 12.29 est égal à
6 8
6 8
6 8 3 par Fubini
la dernière équation étant obtenue en posant
et en utilisant
le fait que la mesure de Lebesgue est invariante par translation (on n’a
pas besoin ici d’utiliser la formule de changement de variable, même
si c’en est un).
On utilise de nouveau Fubini et on remplace
pour écrire
6 8
par
3 6 8
(variable muette)
ce qui permet de conclure.
3. Troisième méthode :
(a) On suppose que
8 %
1l
. Montrer que l’on a :
. Soit Réponse : Il suffit d’appliquer (12.17) avec
prenant en compte que la densité de est
8
147
8 et en
6 8 .
(b) Montrer que
6 8
Réponse : c’est l’application directe de (12.16) avec
(c) En déduire la formule (12.28).
.
Réponse
: On reporte l’expression de
1l en prenant en compte la définition de dans
celle
de
donnée par (12.15). Le résultat que l’on obtient étant valable pour tout
borélien , on en déduit la formule (12.28).
(d) Le cas de variables aléatoires indépendantes On suppose ici que les
variables aléatoires et sont indépendantes.
i. Montrer que la densité de
est la convolution de
(on utilisera les résultats précédents).
8
6
6 8
6
et de
Réponse : C’est trivial à partir de la formule (12.28) puisque
lorsque et sont indépendantes.
ii. Retrouver le résultat en utilisant les fonctions caractéristiques.
6 8
6 8 8
Réponse : Puisque
et
sont indépendantes, la fonction caractéristique
de
la
somme
est
le produit des fonctions caractéris . La fonction caractéristique
tiques :
étant la transformée de Foruier de la densité, la densité de
est donc la transformée de Foruier
inverse
du produit des deux
fonctions caractéristiques
et
, donc la convolution
des densités.
6
8
6
8
12.15 Problème corrigé : somme de variables aléatoires indépendantes n’admettant pas de densité conjointe
Dans ce problème, nous reprenons les notations du problème précédent mais
dans certaines questions, nous ne supposons pas que le couple et admet une
densité. Par contre, nous supposons que et sont indépendantes.
148
, montrer que
1. Soit
intégrable par rapport à la mesure image
(12.30)
3
Réponse : On applique le théorème de transfert en prenant en compte que
par est la
la mesure image de
mesure
pour obtenir
Du fait de l’indépendance de
et donc
et de
, on a
qui est la première égalité de (12.30). La seconde égalité dans (12.30) s’obtient en utilisant le théorème de Fubini.
2. Somme d’une variable aléatoire absolument continue et d’une variable
aléatoire quelconque. Supposons que est absolument continue par rap
port à la mesure de Lebesgue et notons
sa densité de probabilité.
8
Montrer que la somme
est absolument continue par rapport à la
mesure de Lebesgue et de densité
68 6 3 (12.31)
Réponse : La seconde égalité de (12.30) s’écrit alors
8
(12.32)
149
Il suffit alors de faire le changement de variable
et d’utiliser le
fait que la mesure de Lebesgue est invraiante par translation pour obtenir le
résultat.
Remarque : Ce résultat est quand même remarquable : même si
n’est
pas absolument continue par rapport à la mesure de Lebesgue, la somme
, elle, est absolument continue par rapport à la mesure de Lebesgue
du momemnt que et sont indépendantes.
3. Le cas de variables aléatoires absolument continues. Supposons que
et
sont absolument continues. Retrouver que la densité de
est
.
6
8
6
Réponse : il suffit d’écrire que 150
dans (12.31).
Chapitre 13
Vecteurs gaussiens
Les vecteurs gaussiens jouent un rôle très important dans beucoup de cas pratiques notamment en transmission numérique, reconnaissance de formes,. . . etc.
13.1 Définition
< 6 <
6 < un vecteur aléatoire. On dit que
Définition 65 Soit
est de la forme :
loi gaussienne si sa fonction caractéristique
< où
et une matrice
Remarques :
<
suit une
(13.1)
symétrique positive.
6 . < .
2. La loi gaussienne est notée : 1. Nous avons
< <
et 13.2 Quelques propriétés du vecteur gaussien
1.
<
est gaussien si et seulement si n’importe quelle combinaison linéaire de
ses composantes est gaussienne. En particulier, les composantes d’un vecteur gaussien sont des v.a. gaussiennes. La réciproque est fausse en général.
151
6
<
2. Dans le cas où
est gaussien, on a : est diagonale si et seulement si
les
sont indépendantes. En particulier, dans le cas d’un couple
gaussien, il y a équivalence entre l’indépendance et la non corrélation des
deux composantes.
<
3. Si ,
est absolument continue sur
probabilité donnée par :
6 < 4. Soit une matrice
<
< et
< 3 < 3 < < 3 < < <
et admet une densité de
(13.2)
, on a :
< <
<
(13.3)
13.3 Quelques figures
Les figures (13.1) à (13.8) montrent l’allure de la densité de probabilité d’un
couple gaussien pour différentes valeurs des paramètres de la matrice de covariance. Les contours, correspondant à des courbes de densité de probabilité
constante, sont tout simplement des ellipses qui deviennent des cercles dans le
cas où les deux composantes sont indépendantes (cas où le coefficient de corrélation est nul). L’axe principal de ces ellipses n’est autre que la droite de régression
qui représente également la courbe de régression dans le cas gaussien. Quand le
coefficient de corrélation
tend vers 1, les contours tendent à être confondus avec
.
la droite
152
Loi gausienne
0.03
0.025
0.02
0.015
0.01
0.005
0
4
3
2
2
0
1
0
-2
-1
-4
axe des y
-2
-3
axe des x
9 F IG . 13.1 – Loi gaussienne bidimensionnelle avec
< < , =6 les contours
3
2
axe des y
1
0
-1
-2
-3
-3
-2
-1
0
axe des x
1
2
3
F IG . 13.2 – Contours correspondant à la figure 13.1
153
,
78 et
Loi gausienne
0.06
0.05
0.04
0.03
0.02
0.01
0
4
3
2
2
0
1
0
-2
-1
-4
axe des y
-2
-3
axe des x
9 ;:
F IG . 13.3 – Loi gaussienne bidimensionnelle avec
< < , =6 les contours
3
2
axe des y
1
0
-1
-2
-3
-3
-2
-1
0
axe des x
1
2
3
F IG . 13.4 – Contours correspondant à la figure 13.3
154
,
78 et
Loi gausienne
0.014
0.012
0.01
0.008
0.006
0.004
0.002
0
4
3
2
2
0
1
0
-2
-1
-4
axe des y
-2
-3
axe des x
9 F IG . 13.5 – Loi gaussienne bidimensionnelle avec
< < , =6 , 78 les contours
3
2
axe des y
1
0
-1
-2
-3
-3
-2
-1
0
axe des x
1
2
3
F IG . 13.6 – Contours correspondant à la figure 13.5
155
et
Loi gausienne
0.03
0.025
0.02
0.015
0.01
0.005
0
4
3
2
2
0
1
0
-2
-1
-4
axe des y
-2
-3
axe des x
9 ;:
F IG . 13.7 – Loi gaussienne bidimensionnelle avec
< < , =6 , 78 les contours
3
2
axe des y
1
0
-1
-2
-3
-3
-2
-1
0
axe des x
1
2
3
F IG . 13.8 – Contours correspondant à la figure 13.7
156
et
13.4 Exercice corrigé
un vecteur aléatoire réel à deux dimensions, de loi gausSoit 3 , et le vecteur déduit de X par la transformation
sienne linéaire
où est la matrice donnée par :
3
(13.4)
1. Donner une interprétation géométrique de l’action de la matrice
vecteur X.
2. Supposons que
9 #
avec
couple
est de la forme :
9
(13.5)
, Donner l’expression de la densité de probabilité
.
3. Calculer la densité de probabilité conditionnelle
. Quelle est cette loi ?
4. En déduire l’espérance conditionnelle,
.
6
5. Ecrire la fonction caractéristique
toire X.
6 (où
66 7. Quelle est la loi du couple
8. Trouver les valeurs de
dantes.
3
de
6 sachant
(b) Calculer
lorsque
) du vecteur aléa-
.
.
telles que les composantes de
soient indépen-
9. On définit une nouvelle variable aléatoire de dimension 1,
:
(a) Calculer
du
, de sachant 6. Donner l’expression de la matrice de covariance de
sur le
9 . Expliquer le résultat obtenu lorsque et 9 .
et la variance . Discuter aussi le cas qui se produit
et 9
.
(c) Donner le principe du calcul de
157
.
% % 10. On suppose dans cette question que
. Montrer que :
9
(13.6)
Eléménts de corréctions de l’exercice :
1. L’action de la matrice sur le vecteur
des axes de coordonnées.
2. En utilisant la formule (13.2), on a :
6
6 6
3. On a :
66 5 9
3 9
correspond à une rotation d’angle
3
9 .
4. D’après l’expression precédente, on a :
9 5. En utilisant la formule (13.1), on trouve : ( )
6 6 6. Matrice de covariance de
est :
8 , résultat d’une transformation linéaire d’un vecteur gaussien, est égale .
ment gaussien et on a :
étant un couple gaussien, on a l’équivalence entre l’indépendance et
8.
la non corrélation des v.a. et . Pour que ces 2 v.a. soient indépendantes,
il suffit qu’elles soient non corrélées, soit : . On trouve alors
que :
7.
< 8
9
3
158
9. Remarquer que
3
6 6
6 6 peut s’écrire comme :
On en déduit que :
(a)
Dans le cas où
dans ce cas (b)
(c) Remarquer que :
d’où :
10. Dans le cas où
6 6
, normale puisque
=
6 6 6 3 + + 3 =
, on a :
3
et 9 , on a : , normale puisque dans
, on a :
Dans le cas où ce cas est une constante.
et 9
et
.
3 9
on a :
% et % 159
6 6 Un changement de variables en coordonnées polaires permet de trouver
que :
3 9
Ensuite le changement de variable (
d’achever le calcul.
160
3 9
) (soit
" ) permet
Chapitre 14
Variables aléatoires complexes
Les variables aléatoires complexes sont utilisées pour modéliser des phénomènes physiques, tels que les évanouissements subis par un signal lors de sa
propagation dans l’espace libre (typiquement lors d’une communication de type
radio-mobile ou radar). Dans ce chapitre, nous allons considérer les variables
aléatoires complexes. Nous allons étendre aux complexes les définitions précisées
dans les chapitres précédents.
<
< <
un espace probabilisable. On définit un vecteur aléaDéfinition 66 Soit
toute application de toire complexe et on note
de dans soit
dans
telle que l’application
un vecteur aléatoire réel de dimension .
<
<
14.1 Variable aléatoire complexe : paramètres
. Alors, si
Soit une variable aléatoire complexe
et
par :
existent, l’espérance mathématique de
Si le module de
, notée
ou
est donnée
(14.1)
est de carré intégrable, sa variance s’exprime comme suit :
3
(14.2)
Pour deux variables aléatoires dont le module au carré est intégrable, on définit la
covariance entre et par :
(14.3)
3
3
161
On introduit alors le coefficient de corrélation entre et défini par Les variables aléatoires et sont non corrélées linéairement si et
seulement si
( ).
9
9
14.2 Vecteur aléatoire complexe
< <
< Soit le vecteur complexe
à composantes. Si les vecteurs espé
rances de et existent, on définit le vecteur espérance de par :
<
<
La matrice covariance de
< 3
<
<
<
<
<
(14.4)
est définie par :
< < 3
< 3
<
< (14.5)
où est la matrice transposée conjuguée de . En introduisant la matrice d’intercovariance entre les vecteurs et , donnée par :
6 8 <
< 3
<
< < 3
< (14.6)
on obtient la relation suivante :
6 8 3 6 8 (14.7)
6 8
La matrice de covariance de < est une matrice hermitienne semi-définie positive.
14.3 Vecteur aléatoire complexe gaussien
Au vecteur aléatoire complexe à
< <
< << <
composantes
, on associe le
composantes
. La relation entre
et est
vecteur aléatoire réel à
bijective. L’étude des propriétés statistiques de
permettent de déduire celles de
.
<
<
Définition 67 Le vecteur aléatoire complexe
toire réel associé
est gaussien.
<
162
<
<
<
est dit gaussien si le vecteur aléa-
La densité de probabilité et la fonction caractéristique d’un vecteur aléatoire
complexe gaussien s’expriment comme suit :
< < " 3 < 3
En développant les calculs, on peut exprimer En effet, on montre que :
< < 3
6 6 8
6
à partir de 6 , 8
8
8
< (14.8)
et 6 8 .
(14.9)
Au contraire d’un vecteur réel gaussien complètement caractérisé par sa moyenne
et sa matrice de covariance, dans le cas complexe, il faut calculer une deuxième
matrice, notée , définie par :
< 3
< < 3
< 3
<
< (14.10)
Le vecteur aléatoire complexe gaussien est parfaitement caractérisé lorsque sa
matrice de covariance et le moment sont connus. En effet :
6 3 8
6 8 3 3 Par analogie avec le vecteur réel gaussien, nous allons déterminer la condition
sous laquelle la matrice de covariance suffit à caractériser le vecteur aléatoire
complexe gaussien. Rappelons l’expression de la fonction caractéristique associée
à :
(14.11)
L’exposant du second terme est une forme quadratique . Notre objectif est d’exprimer cette forme
quadratique uniquement en fonction de à partir d’une forme quadratique de la forme :
<
< <
< <
< <
< < <
<
< <
163
<
< < <
où
est un réel positif.
Nous pouvons montrer l’équivalence suivante :
< < < 6 3 8 6 8 6 8
<
En résumé, pour que la connaissance de suffise à caractériser , il faut que le
vecteur aléatoire complexe gaussien vérifie la condition suivante :
6 3 8 6 8
6 8
<
< 3
< < 3
< Un vecteur aléatoire complexe gaussien vérifiant cette condition est dit circulaire.
La densité de probabilité et la fonction caractéristique d’un tel vecteur deviennent :
< < 3 < 3
164
< < 3
< (14.12)
Chapitre 15
Convergence des variables aléatoires
Les principaux types de convergences sont la convergence en probabilité (ou
stochastique), la convergence en moyenne d’ordre , la convergence presque sûrement et la convergence en loi. Ces modes de convergences sont à l’origine des
loi faible et forte des grands nombres ainsi que le théorème de la limite centrale.
15.1 Convergence en probabilité
Définition 68 (Convergence en probabilité) Soit une suite de variables
converge stochastiquement (ou en probabilité) vers
aléatoires. La suite
la variable aléatoire
(
3 % ) si et seulement si :
3
%
(15.1)
15.2 Convergence en moyenne d’ordre et loi faible
des grands nombres
une suite de
Définition 69 (Convergence en moyenne d’ordre ) Soit
converge en moyenne d’ordre variables aléatoires. La suite
vers la variable aléatoire
(
3
) si et seulement si :
3
Remarques :
165
(15.2)
3
2. Si &
1. (
3
/ #
avec
puisque dans ce cas
, on dit simplement "convergence en moyenne".
3
, on parle souvent de "convergence en moyenne quadratique"
3. Losque
.
au lieu de convergence en moyenne d’ordre 2 qu’on note aussi Théorème 29 La convergence en moyenne d’ordre
probabilité. Soit :
3
implique la convergence en
3 (15.3)
une suite de vaProposition 25 (Loi faible des grands nombres) Soit
riables aléatoires indépendantes, de même loi et de variance finie, alors :
((
3 (15.4)
Noter que nous avons également dans ce cas la convergence en Probabilité.
15.3 Convergence presque sûre et loi forte des
grands nombres
15.3.1 Inégalité de Kolmogorov
L’inégalité de Kolmogorov est utilisée pour démontrer la loi forte des grands
nombres dans le cas de variables aléatoires indépendantes de variance finie mais
non forcément identiquement réparties.
#
Théorème 30 Soit une suite de variables
aléatoires indépendantes telle que
. Alors pour tout réel positif ,
3
Si de plus il existe un réel positif
3
tel que pour tout
166
+
3 , alors,
15.3.2 Convergence presque sûre
Définition 70 (Convergence presque sûre) Soit
un espace probabilisé.
On dit que la suite
converge presque sûrement vers la variable aléatoire
(
) si et seulement si :
et (15.5)
3
5
en tout point
Ceci n’est autre que
la convergence simple des fonctions de (sauf aux points
, ensemble qui est de mesure nulle).
Pour montrer la convergence presque sûre d’une suite, on est souvent amené à
utiliser le lemme de Borel-Cantelli, dérivé du théorème du même nom.
3 Lemme 12 (Lemme de Borel-Cantelli) Une condition suffisante de convergence
vers est que la série
presque sûre de la suite de variables aléatoires
converge. Soit :
de terme général 3
% 3
%
%
#
3
(15.6)
15.3.3 Loi forte des grands nombres de Kolmogorov
La Convergence presque sûre est la convergence qui intervient dans la loi forte
des grands nombres.
Nous allons d’abord donner un théorème d’existence de la limite de la somme
de variables aléatoires indépendantes de distribution quelconque.
une suite de
Théorème 31 (Théorème d’existence de Kolmogorov) Soit
variables aléatoires
indépendantes
de moyennes nulles telle que la série
converge. Alors converge presque sûrement vers une va riable aléatoire lorsque tend vers l’infini.
Ce théorème permet de démontrer le suivant.
une
6
Théorème 32 (Loi forte des grands nombres de Kolmogorov) Soit
suite de variables aléatoires indépendantes telle que la série
converge. Alors
3
presque sûrement lorsque
tend vers l’infini.
167
Dans le cas de variables en plus identiquement distribuées, nous pouvons
énoncer la proposition suivante.
une suite de vaProposition 26 (Loi forte des grands nombres) Soit
riables aléatoires indépendantes, de même loi et de moyenne finie, alors :
((
3
(15.7)
15.4 Convergence en Loi, théorème de la limite centrale et théorème de Lyapounov
C’est la convergence la plus faible parmi celles présentées ici.
une suite de variables aléaDéfinition 71 (Convergence en Loi) Soit
toires. La suite converge en loi vers la variable aléatoire ( ) si
et seulement si les fonctions de répartition convergent simplement en tout point de
continuité, soit :
6 , si 6
6
3
est continue en .
(15.8)
Remarques :
1. Les trois
conditions
suivantes
sont
:
équivalentes
, si
est continue en .
– – – (continue, borné)
2. Schéma mnémothechnique :
.
3
6
6
6
*/ #
6
6
3 3
Théorème 33 (Thèorème de la limite centrale) Soit
une suite de variables
aléatoires indépendantes, de même loi et de variance finie
,(
), alors :
"! # %$ # &
' # ) (+* -,.0/ # %2143030351 et donc ' # 6 7 .
où
168
(15.9)
$ & :
! 214303035 1 7 7 ) (
Ceci peut se traduire par
/
Le théorème de Lyapounov que nous allons à présent énoncer est la généralisation du théorème central limite pour des variables aléatoires indépendantes non
forcément identiquement réparties.
de variables
#
! " #%$ aléaet
Théorème 34 (Théorème de Lyapounov) Soit une suite
toires indépendantes de variances finies. On pose
. S’il existe un réel strictement positif tel que
# $ # &
&
#
#
/
,+
')()* , + - #%$ /$ . . & , !
# 0213 54769> 8 3 ;: 3=< converge en loi vers une variable aléatoire normale
alors
1
(gaussienne centrée de variance unité).
15.5 Exemple d’utilisation du théorème de la limite
centrale
Nous nous intéressons aux résultats d’un référendum au sein d’une large population, de taille . Chaque individu peut voter oui ou non (on néglige les abstentions). Nous cherchons à déterminer le pourcentage de oui, qu’on notera .
Nous disposons pour cela d’une sous-population de taille tirée au hasard. Si
désigne le nombre de oui,
suit la loi binomiale
.
?
7
#@ 7 #@ #
# #
! # BA DC @ / @ # qu’un individu pris au hasard
où @ désigne la proportion
de oui, ou la probabilité
#
1
0
3
0
3
3
1
vote oui. On a
, où les
représentent 1 pour oui et 0 pour
non et forment une suite de v.a. indépendantes
et de même loi (Bernouilli @ ).
7
#
5E . Nous cherchons ici à trouver la
Une estimation de @ peut
être donné par
7
taille de l’échantillon (en fixant un nombre
G 1 1 et une probabilité d’erreur
F ) tel qu’on puisse affirmer que @ HG 1 positif
avec une probabilité de se
tromper au plus égale à F . Soit :
! # 7 @ JILK / F
169
D’après le théorème de la limite centrale, on a :
avec
# 7@
7 @ / @ . D’où :
! G1 @ * -, 0/ G 1 !
1
1
1
On veut donc que :
7
! K / F
soit,
/ F %$ 7 K " #
/ E . Le nombre d’échantillon miniNotons que n’est pas connu mais que où :
male est donc :
F , 3,
, 3,
7 : / & " / F '$ #
/,
Application
numérique
:
)(
*
+,
,
, on trouve que le nombre
d’échantillon
est
. On a
*)dans
ce cas le pourcentage de oui est
à
près avec une probabilité de
/. (
.
,3
@ #E7
170
15.6 Exercice corrigé
Soit X une variable aléatoire qui suit la loi de Cauchy dont la densité de probabilité est donnée par :
/ / 1 / 8 (15.10)
une suite de variables aléatoires indépendantes et de même loi que
Soit
# une suite de variables aléatoires définie par :
celle de . On définit
# $ (15.11)
G
1. Calculer la fonction caractéristique de la variable aléatoire 1 .
G
2. Montrer que 1 converge en loi vers .
G
,
3. Montrer que 1 converge en probabilité (ou stochastiquement) vers .
G
,
4. Montrer que 1 converge presque-sûrement vers (Utiliser le lemme de
Borel-Cantelli).
Eléments de correction de l’exercice :
8 /
/ 1 1. Calculons tout d’abord la fonction caractéristique de la v.a.
8
E / 1 6 , on a :
En utilisant le théorème
des Résidus par intégration de la fonction complexe
sur le demi cercle supérieure de centre l’origine des
axes et de rayon , on trouve que : (
)
Soit maintenant G1
8 , on a :
1
1
0 1 4 8
1
0 1 4 1 8
$ 18
171
$ $ 8 1
8 "$
" " $$
8
. . 1
8
')( * 8 2. D’après la question précédente, on a :
1
G 1 ) ( ce qui implique que
. Remarquer que la loi faible (ou forte) des
les
étant indépendantes, on a :
1
grands nombres ne s’appliquent pas ici puisque les moments d’ordre supérieur ou égal à 1 n’existent pas.
G 1 ) ( ,
, il faut montrer que :
# , ,
,
!
)
'
)
(
*
7 G C On a en effet : (on utilise le fait que 1 ! G 1 , ! G 1 7 7 )( ,
G 1 ) ( ,
$ de! Borel-Cantelli.
4. Pour montrer que
, on peut utiliser le lemme
G 1 , "
Pour cela, il suffit de montrer que la série entière
converge. On a :
! G 1 " 7 $
terme général d’une série entière convergente.
3. Pour montrer que
172
Chapitre 16
Génération de variables aléatoires
Dans ce chapitre, on se propose d’indiquer des méthodes pour générer des variables aléatoires suivant une loi de probabilité donnée. En effet, pour valider un
système (de communication par exemple), il est nécessaire de le simuler dans des
conditions de fonctionnement réalistes. La modélisation des phénomènes aléatoires intervenant lors de son utilisation (bruit thermique, bruit impulsif...) est par
conséquent nécessaire. La plupart des langages informatiques proposent dans leur
.
bibliothèque un générateur de variables pseudo distribués uniformément sur
Certains logiciels, tels que Matlab, mettent en plus la loi normale à disposition de
son utilisateur. A partir de la loi uniforme, il est possible, à l’aide de méthodes
précisées dans ce chapitre, de simuler un grand nombre de lois. Nous allons par
conséquent aborder tout d’abord la génération de cette loi de base.
$ , 0/ &
16.1 Génération de la distribution uniforme sur
La plupart des algorithmes de génération de nombres choisis au hasard utilisent la procédure déterministe suivante. A partir
d’un état , ils générent un
nombre
et un nouvel état qui servira pour générer
et ainsi de suite. L’algorithme étant déterministe, le nombre d’états est nécessairement fini et la suite de nombre engendrée périodique. Plus la période est
longue, plus le caractère aléatoire de la suite sera grand. Parmi les méthodes utilisées, on peut citer la méthode de Lehmer (1951) et la méthode de registres à
décalage rebouclés. Nous allons détailler la première dont le principal avantage
est la simplicité de mise en oeuvre.
)
) 173
16.1.1 Méthode de congruences multiplicatives de Lehmer
/
*
Soient , et des entiers. est l’état initial et
est la période du
générateur. L’équation d’état est la suivante : . A partir des
états , on génère la suite pseudo-aléatoire
à valeurs dans
.
1
:
$ , 0/ $
16.2 Génération de variables aléatoires de loi de
probabilité quelconque
Etant donnée une ou plusieurs suites de variables aléatoires distribuées suivant une loi uniforme, il est possible de générer des suites de variables aléatoires
distribuées selon une autre loi. Nous allons indiquer quelques méthodes.
16.2.1 Génération par inversion de la loi de répartition
$, / &
8
Soit
une variable aléatoire uniformément répartie sur
. On souhaite
générer une variable aléatoire dont la fonction de répartition est notée
.
Cas où est continue
est une variable aléatoire de fonction de
répartition
.
Cas où est une variable aléatoire discrète On suppose que
est à valeurs
dans un ensemble discret ou dénombrable dont les éléments sont notés
et
tels que
. Dans ce cas, la fonction de répartition de
vaut
. On définit l’application réciproque, notée
par :
. Alors la variable aléatoire
admet
pour fonction de répartition.
8
!' # # 8 " . 3 8 8
8 # @ #
@
#
8 8 8
16.2.2 Génération par changement de variables
3 3 Soient
,
, ...,
n variables aléatoires indépendantes,
mais pas forcé
ment identiquement distribuées. L’utilisation d’une fonction définie sur un sous
ensemble de
à
valeurs
dans
permet l’obtention d’une nouvelle variable aléa
toire .
Par exemple, pour obtenir deux variables aléatoires gaussiennes indépendantes,
et
, on génère deux variables aléatoires indépendantes,
et
uniformément réparties dans
. On pourra vérifier que le changement de variables ci-dessous permet l’obtention des deux variables
et
aux propriétés
$ , 0 / &
174
énoncées plus haut.
' 5 ' ( 16.2.3 Génération par convergence en loi
En choisissant judicieusement les paramètres d’une suite de variables aléatoires, on peut générer une variable aléatoire, limite de cette suite aux propriétés
voulues.
Soient
variables aléatoires normales (centrées, de variances identiques).
Alors la variable aléatoire
suit une loi du chi- à degrés de liberté.
Par exemple, pour obtenir une variable aléatoire gaussienne, il suffit de disposer d’un nombre suffisant de variables aléatoires indépendantes et identiquement
distribuées. L’application directe du théorème central limite nous assure du carac.
tère asymptotiquement gaussien de la variable
?
$
" 7
$
" $ & 16.2.4 Autres méthodes
Citons sans les détailler les méthodes d’acceptation-rejet, de Monte Carlo...
175
Bibliographie
[1] A BRAMOWITZ M., S TEGUN I. Handbook of Mathematical Functions. Dover Publications, Inc., New York, 1972, ninth printing.
[2] A NDERSON T. W. An introduction to Multivariate Statistical Analysis. John
Wiley & Sons, New York, 1958.
[3] BASS J. Eléménts de calcul de probabilités. Masson, Paris, 19xx.
[4] B OCLÉ J. Cours de probabilités. Ecole Nationale Supérieure des télécommunications de Bretagne, Brest, 1985.
[5] C HONAVEL T. Notes de cours de Mesure et Intégration. Polycopié E.N.S.T
de Bretagne., 2002.
[6] D ELMAS J.P. Probabilités et télécommunications, Exercice et problèmes
commentés. Masson, Paris, 1987.
[7] D ELMAS J.P. Introduction aux probabilités. Collection pédagogique de
télécommunications. Ellipses, Paris, 1993.
[8] F ELLER W. An Introduction to Probability Theory and Its Applications.
John Wiley & Sons, Inc., New York, 1971.
[9] F OUQUE J.P. Probabilités et statistiques. Ecole Nationale Supérieure des
télécommunications, Paris, 1990.
[10] G IRAULT M. calcul des probabilités en vue des applications. Dunod., 1964.
[11] G UIKHMAN I., S KOROKHOD A. Introduction à la théorie des processus
aléatoires. Editions MIR, Moscou, 1980.
[12] H ALMOS P. R. Measure Theory. Springer-Verlag, New York, Heidelberg,
Berlin, 1974.
[13] H ILLION A. Probabilités, résumé de cours. Ecole Nationale Supérieure des
télécommunications de Bretagne, Brest, 1992.
[14] H ILLION A. Mesure et intégration, Notes de cours. Ecole Nationale Supérieure des télécommunications de Bretagne, Brest, 1998.
176
[15] K ENDALL M. AND S TUART A. The Advanced Theory of Statistics (T1, T2).
Griffin, London, 1979.
[16] L EBEDEV N. N. Special functions and their applications. Prentice Hall,
Inc., 1965.
[17] M UIRHEAD R. J. Aspects of Multivariate Statistical Theory. John Wiley &
Sons, New York, 1982.
[18] PAPOULIS A. Probability, random variables and stochastic processes. Mc
Graw Hill editions, New York, 1991.
[19] P ICINBONO B. Signaux aléatoires : Probabilités et variables aléatoires
avec problèmes résolus. Dunod, Paris, 1993.
[20] R AO M. M. Conditional Mesures and Applications. Marcel Dekker, Inc.,
New York, 1993.
[21] R EED M., S IMON B. Functional analysis. Academic Press, Inc., San Diego,
1980.
:
[22] RUDIN W. Real and complex analysis. McGraw-Hill, Inc., USA, 1966.
[23] S AOUDI S. Probabilités : Formation Promotionnelle du
préparatoire. Polycopié E.N.S.T de Bretagne., 2002.
année du cycle
[24] S KOROKHOD A. Lectures on the Theory of Stochastic Processes. VSP,
Utrecht, The Netherlands, 1996.
177
Annexe A
Mesurabilité dans
L’objectif de cette annexe est de présenter la tribu usuelle de et le critère
de mesurabilité associé à cette tribu. Nous allons procéder à l’aide d’exercices
successifs reposant sur des notions classiques de topologie que nous rappelons et
sur la définition de la tribu engendrée par une classe d’ensembles (cf. définition
2).
Définition 72 Soit
un ensemble.
(a) Une collection de parties de
trois propriétés suivantes :
(i) et
(iii) Si (ii) Si
,
/ 303 3 7
.
, alors est appelée topologie de
$ si elle vérifie les
.
est une collection arbitraire d’éléments de
.
ou non), alors (finie, dénombrable
(b) Is est une topologie de , alors
est appelé espace topologique et
les éléments de sont les ensemble ouverts (ou ouverts) de pour la topologie
considérée. Les ensembles fermés de sont alors les ensembles dont les complémentaires dans sont ouverts pour la topologie considérée.
( et
sont deux espaces topologiques et (c) Si
une
fonction de
dans , on dit que est continue si l’image réciproque de tout
ouvert de est un ouvert de :
178
3
On rappelle que l’image réciproque par une application continue de tout ouvert
de l’espace d’arrivée et un ouvert de l’espace de départ ?
Exercice 26 (Topologie usuelle de ) Soit
Montrer que
de .
, & 1 $ 3
est une topologie de . Cette topologie est la topologie usuelle
Exercice 27 (Topologie trace) Soit
de . On pose :
un espace topologique et
une partie
3
(A.1)
Montrer que est une topologie. Cette topologie
s’appelle la topologie trace
.
de sur . Dans la suite, nous la noterons $ / ", $ n’est pas un ensemble ouvert de muni de sa
$ /, $ est un ouvert de $ /60/ & muni de sa topologie
Exercice 28 Montrer que
topologie usuelle mais que
trace.
Définition 73 Soient
et deux espaces topologiques. Une application est un homeomorphisme si est une application bijective,
continue et si sa réciproque est aussi continue.
( ( ( & /0/ $
Exercice 29 Soit l’application définie par
. .1 / 3
1. Montrer que est un homeomorphisme
de
muni de sa topologie usuelle
/
0
/
&
$
26) dans
muni de la topologie trace de /0/ $ exercice
& (cf.
.
2. Montrer que
' ()* /6 ')( * /
179
Exercice 30 Soit
définie par
définie comme à l’exercice précédent. Soit
$ / / & Soit Montrer que
/ /
si
si
si
la topologie trace de la topologie usuelle est une topologie
sur et que est un homéomorphisme entre
/
0
/
$
&
topologie et muni de la topologie trace .
( $ /0/ &
sur
$ /0/ & .
muni de cette
Cet exercice justifie la définition suivante.
Définition 74 (Topologie usuelle de ) La topologie usuelle de
comme la collection
où l’intervalle
$
/0 /
&
$ / / &
( $ /60/ &
/ / est définie
est la topologie trace de la topologie usuelle de
et où est définie par
si
si
si
sur
La tribu des boréliens de est la tribu engendrée par la collection des ouverts
. De manière analogue,
de au sens de la topologie usuelle de :
nous poserons la définition suivante.
Définition 75 (Tribu des boréliens de ) La tribu des boréliens de est la tribu
engendrée par les ensembles ouverts de la topologie usuelle de . La tribu des
boréliens de sera notée
et nous avons donc :
4 3
En résolvant l’exercice suivant, le lecteur va pouvoir établir, dans le cas de ,
l’analogue de la proposition ??.
180
$
Exercice 31 Soient les collections suivantes d’ensembles :
&
$ $
$ & & & 1. Montrer que et sont des sous-ensembles de et de sont des fermés de .
* 2. Montrer que
pour .
/ .
et que les éléments de
3. Nous cherchons maintenant à montrer la réciproque de la question précé
dente, c’est-à-dire que
.
(a) Montrer que tout ensemble ouvert de (au sens de la topologie usuelle
de est l’union dénombrable d’intervalles ouverts de (indication :
utiliser le fait que tout réel peut être approchée par une suite de rationnels et que est dénombrable).
/ * , & $ et que
(c) Montrer que tout pour tout ouvert de pour la topologie usuelle de
, est un ouvert de , au sens de la topologie usuelle de mais
(b) Montrer
que
pour tout
.
que la réciproque est fausse.
(d) Déduire
des
questions
précédentes
que
* . Indication : on partira d’un ouvert
.
le fait que / .
/
de
Nous avons donc
démontré la proposition 4 du cours, à savoir que
pour .
181
pour et on utilisera
Annexe B
La mesure et l’intégrale de
Lebesgue-Stieltjes
Cette annexe constitue un complément des chapitres 1 et 5. Il n’est donc pas
nécessaire de se concentrer sur cette annexe dans une première lecture.
Cependant, une lecture ultérieure de cette partie peut se révéler utile pour les
raisons suivantes.
1. Nous présentons ci-dessous la construction de la mesure de Lebesgue
Stieltjes qui concerne exclusivement . La mesure de Lebesgue est un
cas particulier de la mesure de Lebesgue-Stieltjes. Il est donc intéressant
de savoir comment on construit cette mesure sur
et de voir que cette
construction n’est pas si évidente. C’est pour cela qu’au chapitre 1, nous
nous sommes contentés d’admettre l’existence de cette mesure.
2. On rencontre souvent l’intégrale de Lebesgue-Stieltjes dans la littérature,
que ce soit en mathématiques (naturellement) ou même en traitement du
signal (notamment dans la littérature américaine telle IEEE). Il est donc bon
de savoir ce qu’est cette intégrale pour pouvoir déchiffrer certains articles
ou ouvrages.
L’intégrale de Lebesgue-Stieltjes, précisons-le dès maintenant, n’est pas une
notion d’intégrale différente de celle présentée au chapitre 5. L’intégrale de
Lebesgue-Stieltjes n’est qu’un cas particulier de la construction abstraite du
chapitre 5. Elle correspond au cas où l’ensemble sur lequel on souhaite
intégrer est le corps des réels lui-même et où la mesure sur est ladite mesure de Lebesgue-Stieltjes (et en particulier, la mesure de Lebesgue). C’est
182
pourquoi l’intégrale de Lebesgue-Stieltjes est souvent utilisée en théorie
des probabilités car c’est elle qu’on utilise pour définir et calculer les fonctions de répartition. Nous allons d’ailleurs le voir, la mesure et l’intégrale
de Lebesgue-Stieltjes sont fortement liées à la notion de fonction de répartition.
3. Certains des résultats que nous présentons ci-dessous nous seront très utiles
en théorie des processus aléatoires.
4. La construction de Caratheodory se retrouve aussi en théorie des fractales
et en morphologie mathématique. En effet, la mesure de Haussdorff se présente en utilisant la démarche de Caratheodory.
B.1 Problématique
La notion de mesure sur correspond évidemment à la notion intuitive de
longueur d’un intervalle. Si
est un intervalle,
la "mesure" naturelle de cet
intervalle, c’est-à-dire sa "longueur", est
. Nous avons considéré un intervalle ouvert à gauche pourdes
Cependant, la
raisons
de
cohérence avec la suite.
longueur
,
,
reste intuitivement
. Posons donc
des
intervalles
. Est-ce que est alors une mesure ? Pour que ce soit une mesure
et donc pouvoir intégrer par rapport à cette mesure, il nous faut définir sur une
tribu et montrer que est -additive. Or ,l’ensemble des intervalles fermés, ouverts, semi-ouverts à droite ou à gauche, n’est pas une tribu. On est donc amené à
considérer la tribu engendré par ces intervalles et nous savons que c’est la tribu des
boréliens de , c’est-à-dire la tribu engendré par les ouverts de (qui ne se réduit
pas l’ensemble des intervalles ouverts de . Mais il reste toujours le problème de
la -additivité de .
& &
& & & & $ $ & $
En fait, nous n’allons pas résoudre directement ce problème mais traiter un
problème plus général. Le problème vraiment intéressant est en fait le suivant.
Nous allons chercher à construire une extension de la notion intuitive de longueur
d’un intervalle de manière à couvrir la notion de fonction de répartition (telle
qu’on la rencontre en probabilités) et aboutir à la mesure de Lebesgue comme cas
particulier.
Expliquons pourquoi ce problème est celui qui nous intéresse en utilisant des
arguments probabilistes.
- ( 8
- "! 8
Considérons un espace probabilisé
et une variable aléatoire réelle
. Soit
la fonction de répartition de
:
183
. Cette application
est continue à droite et croissante. Nous savons
! alors que
est une mesure définie
sur
les
boréliens
de
(en
tant que
!
!
'
!
&
&
&
&
mesure
) et que
image
de par
termes, une variable aléa 8 8 (cf. proposition 23). En d’autres
toire réelle nous
mesure
sur telle que la longueur de tout
& permet de définir une
&
intervalle
est de la forme où est continue à droite, croissante,
/ et , . Il est alors
intéressant d’étudier la réciproque : si nous
( , continue à droite croissante et telle que
nous
donnons
une application
/
,
que la "longueur" définie pour tout intervalle
& & par & et & est-ce
s’étend en une mesure sur tous les boréliens
de
/
? Si
la
réponse
est
oui
(et
ce
sera
bien
le
cas),
les
conditions
et
, sont-elles vraiment nécessaires ? Si ces conditions ne sont pas nécessaires
( (et elles ne le seront pas), alors nous pouvons partir d’une application croissante et continue à droite pour pouvoir construire une mesure sur tous les
boréliens de et intégrer par rapport à cette mesure. En particulier, il nous suffira de prendre égale à l’identité pour savoir définir la mesure de Lebesgue ,
c’est-à-dire la mesure qui assure
que la longueur de tout intervalle (ouvert, fermé,
est
.
semi-ouvert) de bornes et
K Pour résoudre ce problème fondamental, ce qui précède nous indique comment on va procéder et mettre en évidence la difficulté majeure.
Nous allons partir d’une application
croissante
et continue à
droite. Nous allons ensuite définir
sur
l’application
définie par
. La tribu des boréliens de
est la tribu engendrée par :
étendre à
. Nous allons donc devoir
tout
et montrer que est effectivement une mesure sur
.
On aboutit alors au théorème d’extension suivant.
( $, &
& & ( & & B.2 Un théorème fondamental d’extension
(
Théorème 35 (Théorème d’extension ou de prolongement) Soit
une application continue à droite et croissante. (i) Il existe une uniquemesure
telle que, pour tout
tels que
,
.
(ii) (ii) Pour tout borélien ,
& & $, &
( ( - 184
& &
(B.1)
Nous n’allons pas démontrer in extenso ce théorème car les détails techniques
dépassent l’objectif du cours. Par contre, nous allons donner les grandes étapes qui
en permettent la démonstration à l’aide de la construction dite de Caratheodory.
Le lecteur intéressé pourra aussi se référer à [12, Chapter 3].
B.3 La construction de Caratheodory
Démontrer le théorème 35 est difficile car le problème traité est un problème
d’extension non trivial : nous partons d’une application qui est définie très simplement sur un ensemble élémentaire bien connu et nous devons étendre à un
ensemble beaucoup plus compliqué
. Nous savons que
est engendré
par lui-même, mais nous ne disposons d’aucun moyen de construire
par
union, intersection, différence, ...d’ensembles. Nous pourrions dire que nous ne
1
savons pas "calculer" les éléments de
.
Le théorème 35 est la conséquence de la construction dîte de Caratheodory.
Cette construction est utilisée aussi en théorie des fractales pour définir la mesure
dîte de Haussdorf.
Nous allons présenter cette construction en énonçant les résultats principaux
sans démonstrations car celles-ci, techniques, dépassent le cadre de ce cours. Puis,
nous verrons comment on applique cette construction pour démontrer le théorème
d’extension ou de prolongement (théorème 35).
B.3.1 Les mesures extérieures et le théorème d’extension de
Caratheodory
Il est commode, d’un point de vue terminologique, d’adopter la définition suivante d’une mesure.
Définition 76 Soit
ensembles de :
mesure positive sur
- un ensemble quelconque et
une collection de sousoù
est l’ensemble des
parties de . On appelle
toute application telle que
( $ ,. &
1
C’est cette complexité même qui donne à la tribu toute sa souplesse et permet d’avoir tant
d’applications mesurables. Il n’est en effet pas commode de construire des applications non mesurables car les ensembles mesurables forment une énorme classe et sont divers et variés. N’oublions
pas en effet qu’un ouvert, un fermé, un compact, sont des ensembles mesurables. Même un singleton de est un ensemble mesurable !
185
,
, (ii) Si " (i)
pour tout
7 K /
et
, alors La propriété (ii) est, comme nous l’avons déjà signalé dans le corps de ce
cours, la propriété de -additivité ou d’additivité dénombrable.
Evidemment, lorsque est une tribu, on retrouve la définition 8 puisque, dans
ce cas, l’union d’éléments de est un élément de .
Nous introduisons maintenant la notion de mesure extérieure.
un ensemble
On appelle mesure extérieure
, quelconque.
$
&
(
telle
que
, - Définition 77 Soit
toute application
(i)
(ii)
(iii)
"
$
Evidemment, ce qui fait la grande différence entre une mesure positive et
une mesure extérieure, c’est la propriété (iii) qui est moins restrictive que la additivité requise pour une mesure.
L’intérêt des mesures extérieures tient à la propriété remarquable et surprenante que décrit le théorème suivant.
Théorème 36 Soit
Soit
( $ , & une mesure extérieure.
1 3
un ensemble et
(i) La collection d’ensembles
est une tribu, appelée tribu associée à la
mesure extérieure
. Les éléments de
sont appelés les ensembles
-mesurables.
(ii) La restriction de
à la tribu
est une mesure sur la tribu
.
6 <
Le second théorème que nous allons énoncer repose sur la notion d’anneau.
Définition 78 Un anneau
ensembles de telle que :
sur un ensemble
186
est une collection de sous-
(i) (ii)
(iii)
On voit donc qu’une tribu est un anneau qui contient et qui est stable par
union dénombrable et pas seulement finie. Les anneaux sont plus manipulables
que les tribus car ils ont une structure moins compliquée. Il se trouve alors que
nous savons construire une mesure extérieure à partir d’une mesure sur un anneau
grâce au théorème d’extension de Caratheodory que nous allons présenter. Avant
d’énoncer ce théorème, nous nous donnons une définition commode pour la suite
Définition 79 Soit une collection de sous-ensembles d’un ensemble . Pour
tout
, on appelle -couverture de , toute suite
d’éléments de telle que
. L’ensemble des -couvertures de sera noté
:
7 K / et
3
Nous donnons maintenant le théorème d’extension de Caratheodory. Il nous
apprend comment étendre une mesure définie sur un anneau en une mesure sur la
tribu engendrée par cet anneau.
( $, &
(
un anneau sur un ensemble
, posons :
Théorème 37 (Extension
de Caratheodory) Soit
et une mesure sur . Pour tout
-
( $ , & est une .mesure extérieure sur avec la convention
(i) L’application
(ii) La restriction de
(iii)
si
à
est égale à
3
(B.2)
.
:
3
est une mesure puisque à est une mesure (cf. théorème 36 (ii)).
à
est un sous-ensemble de la tribu
associée à la mesure extérieure
ce qui implique que la tribu
engendrée par est un sous-ensemble
de la tribu
:
(iv) La restriction de
que la restriction de
187
et
B.3.2 Construction d’une mesure sur un anneau par extension
d’une mesure sur un semi-anneau
& & Le théorème d’extension de Caratheodory requiert
un
anneau. Comme
le lec
teur le vérifiera aisément, l’ensemble n’est
hélas pas un anneau. Aussi, avant d’utiliser le théorème de Caratheodory, quelques
résultats supplémentaires sont nécessaires.
& & est ce qu’on appelle un
En fait, l’ensemble semi-anneau comme le lecteur le vérifiera très facilement.
Définition 80 Un semi-anneau sur un ensemble
est un sous-ensemble l’ensemble des parties
tel que :
(i) alors (ii) Si
, il existe un entier
,
(iii) Si
et des éléments
tel que
7 K /
$ 3
de
/ 7
Nous donnons alors ci-dessous deux propositions fort utiles pour la suite. La
première de ces propositions (proposition 27) nous dit, entre autres, que les unions
finies d’éléments disjoints d’un semi-anneau forment un anneau
. La seconde de ces propositions (proposition 28) nous apprend ensuite qu’une mesure
sur le semi-anneau se prolonge de manière unique en une mesure sur l’anneau
.
Proposition 27 Soit un semi-anneau sur un ensemble
$ 7 K / quelconque. Soit
3
est un anneau. (ii) $ 7 K /6 (il n’est pas nécessaire que
les éléments
de soient disjoints dans l’union).
(iii) est le plus petit anneau contenant , id est est égal
à l’intersection de tous les anneaux contenant (il en existe puisque est trivia(i)
lement un anneau).
188
Nous dirons que
est l’anneau engendré par .
( $ ,. & $ , &
(
- $ Proposition 28 Soit un semi-anneau sur un ensemble
quelconque,
l’anneau engendré par et une mesure
sur .
(i) Il existe une unique mesure dont la restriction à est égale à .
par
(ii) Cette mesure est définie pour tout
/ 30303 7 $
où , , est une quelconque suite finie d’éléments disjoints
de telle que
. En d’autres termes,
ne dépend pas de la
décomposition choisie pour en éléments disjoints de .
considéré dans ces propositions est alors d’autant plus intéres engendrée par cet anneau est précisément la tribu 3
(B.3)
En effet, l’inclusion
entraîne l’inclusion et donc
puisque
l’inclusion la tribu engendrée par est la plus petite
tribu contenant . Réciproquement, puisque les
éléments de sont des unions
disjointes
de , les éléments
de sont donc
des éléments de
. On d’éléments
aussi
est
a donc l’inclusion
et
comme
la plus petite
tribu contenant , nous avons .
L’anneau sant que la tribu
engendré par :
Nous pouvons maintenant conjuguer les résultats précédents pour énoncer un
résultat d’extension pour les semi-anneaux analogue à celui de Caratheodory.
( $, &
Théorème 38 (Extension de Caratheodory pour les semi-anneaux)
Soit un
semi-anneau sur un ensemble quelconque et une mesure positive sur .
Pour tout
, posons
avec la convention
( si
189
.
(B.4)
( $ ,. &
(i) L’application (ii) La restriction de
est une mesure positive.
à est égale à :
( $, &
3
P REUVE : D’après la proposition
28, nous étendons de manière unique
mesure sur et nous avons .
mesure sur ( $ , est& enuneutilisant
(B.2).
Comme
, nous construisons la mesure extérieure
Comme on vérifie aisément que pour tout
-
en une
6 <
-
,
(B.5)
est la restriction de à , nous déduisons de (B.3) et du
Puisque
théorème d’extension de Caratheodory (37) (iv), que est
une
mesure
sur .
et la restricD’après le point (ii) du theorème 37, nous avons aussi la restriction de
à
est égale à l’application
définie sur
par (B.4).
tion de
à est donc .
Nous terminons en donnant une résultat d’unicité pour le théorème précédent
lorsque la mesure sur est -finie , c’est-à-dire lorsqu’il
existe une suite dé
nombrable
d’éléments de tels que
pour tout entier
et . Dans ce cas, on a :
7 K /
Proposition
29 Soit un semi-anneau sur un ensemble quelconque . Si
est une mesure -finie sur alors l’extension de Caratheodory dé
crite par le théorème 38 est la seule extension possible de à . Cette extension est elle aussi -finie.
( $, &
Nous ne donnons pas la démonstration de ce résultat qui repose sur des notions
que nous n’avons pas abordées jusqu’ici et qui ne sont pas utiles pour la suite.
B.3.3 Application à la preuve du théorème d’extension
Nous expliquons maintenant comment on démontre le théorème 35 à partir
des résultats précédents.
190
& &
Nous avons déja vu que anneau.
est un semi-
( $, &
On montre ensuite
(et ce n’est pas si simple) que l’application définie par
sous les conditions pour
données dans
l’énoncé du théorème 35 est -additive (c’est donc une mesure sur ). De plus,
cette mesure est trivialement -finie : il suffit de considérer les intervalles de la
forme
dont les mesures sont finies et qui recouvrent .
& & & 7 7 &
Nous nous retrouvons donc dans les conditions requises par le théorème 29
et comme , on peut alors en déduire le théorème de prolongement
(théorème 35).
B.4 La tribu et la mesure de Lebesgue-Stieltjes
(
Soit une application continue à droite et croissante. Le théorème
de prolongement nous assure donc l’existence d’une mesure unique, que nous
noterons
désormais
, définie sur la tribu
et telle que pour
des boréliens
tout
,
.
& & Rien ne nous dit que cette mesure est complète. Nous pouvons alors appliquer
les résultats du chapitre 6 pour construire alors une mesure complète
à partir
de
sur la tribu
-complétée de
.
On pose alors la définition suivante.
(
, une application continue à droite et croisDéfinition 81 Soit
sante. Soit
l’unique
mesure définie sur la tribu des boréliens
telle que
pour tout couple de réels
tels que
.
(i) La tribu de Lebesgue-Stieltjes est la tribu
-complétée de la tribu des
boréliens
.
(ii) La mesure de Lebesgue-Stieltjes est la mesure complétée de
, c’est-àdire la mesure complète qui est l’unique extension possible de la mesure
à la tribu de Lebesgue-Stieltjes.
& & Par abus de langage, la mesure
est aussi appelée mesure de Lebesgue-Stieltjes.
Remarque : Pour compenser l’abus de langage mentionné ci-dessus, nous continuerons à utiliser la notation
pour parler de la mesure de Lebesgue-Stieltjes
191
non complète et la notation
complète bien sûr).
pour signifier la mesure de Lebesgue-Stieltjes (la
En fait, nous pouvons caractériser la tribu et la mesure de Lebesgue-Stieltjes
associée à une application
croissante et continue à droite, grâce au
théorème suivant que nous ne démontrerons pas.
(
Théorème 39 Soit un ensemble quelconque et un anneau sur cet ensemble.
Soit une mesure -finie sur ,
la mesure extérieure définie par (B.2) et
associée à , , la restriction de la mesure extérieure
à la tribu
.
Alors la mesure
est la mesure complétée de la mesure
de est la tribu
.
et la tribu -complétée
Si on applique ce résultat à une mesure de Lebesgue-Stieltjes
:
en compte (B.5) avec , nous voyons que pour tout
( - et en prenant
& & 3
La tribu de Lebesgue-Stieltjes est alors la collection
(B.6)
1
3
(B.7)
A titre d’exercice, le lecteur pourra maintenant vérifier les propriétés suivantes, qui sont les analogues de celles données par la proposition 23 de la section
??. La démonstration des résultats suivants est d’ailleurs pratiquement identique
à celle conduisant aux propriétés énoncés dans la proposition 23.
La différence
est que les résultats suivants ne demandent pas à ce que
et que
.
/
,
Proposition 30 Soit
la mesure de Lebesgue-Stieltjes 2 sur associée à une
application
croissante et continue à droite. On désigne par
la limite à gauche (cette limite existe toujours puisque est croissante) de au
point .
( 2
Nous nous contentons de la mesure non complète
de la mesure
de Lebesgue-Stieltjes,
mais
on peut très bien énoncer les mêmes résultats avec
puisque
est la restriction de
à la
tribu des boréliens et que nous ne considérons que des intervalles (donc des boréliens) dans cette
proposition.
192
, & & & & , & $ , $ $ , , ,
Remarque : Noter que pour , et , le résultat est valable
si
$ même
&
ce qui n’est pas le cas pour où implique
alors que le membre de droite vaut qui n’a pas lieu d’être nul, sauf
si est continue
à gauche au point . Dans
le. cas de la mesure de Lebesgue, la
propriété est alors valable même si (i) Pour tout
,
(ii) Pour tels que
(iii) Pour tels que
(iv) Pour tels que
(v) Pour
tels que
Une mesure de Lebesgue-Stieltjes induit une structure d’espace mesuré sur .
sera noté
L’espace mesuré obtenu en utilisant la mesure de Lebesgue-Stieltjes
.
B.5 L’intégrale de lebesgue-Stieltjes
Maintenant que nous disposons de la mesure de Lebesgue-Stieltjes, nous pouvons appliquer la théorie générale de l’intégration et considérer les applications
qui sont intégrables par rapport à cette mesure. Il n’y a pas de résultats
spécifiques à donner ici pour ces fonctions et cette mesure. Nous nous contenterons de préciser seulement les notations en nous limitant à la version incomplète
d’une mesure de lebesgue-Stieltjes associée à une application croissante et
continue à droite. Nous pouvons nous le permettre en vertu du théorème 16.
(
( une mesure de Lebesgue-Stieltjes. L’intégrale d’une application posiSoit
tive mesurable ou d’une application intégrable sera
préférentiellement notée
3
de maniçère à mettre en évidence le rôle jouée par dans la définition même de
la mesure considérée. Dans la littérature, on peut aussi rencontrer ou .
L’ensemble des applications intégrables sera
alors notée
conformément à la notation employée pour désigner
l’espace mesuré sur lequel on travaille.
( 193
B.6 Le cas de la mesure de Lebesgue
(
Un cas trivial d’application
continue à droite et croissante est
l’identité sur . Nous posons alors la définition suivante, qui n’est qu’un cas particulier de celle définissant la tribu et la mesure de Lebesgue-Stieltjes.
l’unique
mesure
définie
sur
la
tribu
des
boréliens
telle
Définition
82
Soit
que
pour tout couple de réels
tels que
.
(i) La tribu de Lebesgue est la tribu -complétée de la tribu des boréliens
.
(ii) La mesure de Lebesgue est la mesure complétée de , c’est-à-dire la mesure complète
qui est l’unique extension possible de la mesure à la
tribu de Lebesgue.
& & Par abus de langage, la mesure
est aussi appelée mesure de Lebesgue.
Comme en ce qui concerne la mesure de Lebesgue-Stieltjes, on conservera les
notations et de manière à compenser l’abus de langage.
L’égalité (B.6) s’applique directement et l’on a :
( - & & 3
(B.8)
En fait, on peut très bien remplacer dans l’expression précédente les intervalles
ouverts à gauche et fermés à droite par des intervalles fermés et écrire
( - $ & 3
(B.9)
$ & par $ $ ou par & $ . L’égalité B.9
On pourrait même remplacer est souvent utilisée comme définition dans la littérature, notamment celle consacrée aux fractales et à la géométrie intégrale, pour la mesure de Lebesgue.
Si on applique maintenant (B.10), nous voyons que la tribu de Lebesgue est
alors la collection
194
1
3
(B.10)
Si l’on veut rester cohérent avec les notations utilisées classiquement pour
désigner l’intégrale par rapport à une mesure, l’intégrale (si elle existe) d’une
fonction réelle par rapport à la mesure de Lebesgue devrait donc être notée
Avec cette notation, si 1l
1l
et si
3
$ &
, on a :
1l
1l
puisque la mesure de Lebesgue d’un singleton est nulle.
Comme précisé au chapitre 8, les intégrales de Lebesgue et de Riemann coïncident lorsque est Riemann-intégrable ou d’intégrale généralisée absolument
convergente. Il est alors d’usage, lorsque
et qu’on l’in est Lebesgue-intégrable
tègre sur un intervalle fini ou non
(
) d’utiliser la notation
usuelle
bien
que celle-ci représente traditionnellement l’intégrale de
Riemann de sur
$ & $ &
B.7 Complément
Nous allons montrer maintenant un résultat qui nous servira pour présenter
la notion d’intégrale stochastique. Ce résultat est une conséquence même de la
construction de Caratheodory.
, , il existe 30303 Théorème 40 Soit un semi-anneau sur un ensemble et une mesure sur .
Soit l’extension de Caratheodory de cette mesure à la tribu .
# %
#
$
Pour tout
tel que
.
et tout
tel que
,
P REUVE : Avec les mêmes notations que celles du théorème 38, nous savons que
est donnée par (B.4). Aussi, pour tout
, il existe une une séquence
d’éléments de tels que
-
195
1 3
(B.11)
$ 7 K /
D’autre part, éEtant donné que est une mesure dont la restriction = est
, les valeurs ,
croissent vers . Aussi, existe-t-il un
entier
tel que
7 K /
$ 1 3
, nous avons aussi l’inclusion Etant donné que$ et donc
l’inégalité
$ $
$
en prenant en compte le fait que la restriction
de
$
$ De
manière analogue,
nous avons
. Comme
Comme
#%$
#
#%$
(B.13)
# 1
(B.14)
#%$ #
il suffit de sommer (B.13) et (B.14) pour obtenir le résultat voulu.
196
et donc l’inclusion
est finie, il vient
$
est .
$
" 3
à $ "
(B.12)
Annexe C
Compléments sur la comparaison
des intégrales de Riemann et de
Lebesgue
Dans cette annexe, nous complétons les résultats de la section 8.2 du chapitre
8. En effet, dans ladite section, on considère une application Riemann-intégrable
que l’on suppose mesurable. Certes, pour une application en escalier, une application continue ou continue par morceaux, cette hypothèse est valide et s’applique à
une très large classe d’applications que l’on rencontre dans la pratique. Cependant,
on peut être plus général. On peut considérer une application Riemann-intégrable,
montrer sa mesurabilité par rapport à la tribu de Lebesgue (et non pas par rapport
à la tribu des boréliens) et montrer que son intégrale de Riemann est égale à son
intégrale de lebesgue par rapport à la mesure de lebesgue complète. Ces résultats s’obtiennent en améliorant les démonstrations des propositions 20 et 21 qui
deviennent alors des cas particuliers des théorèmes que nous allons énoncer.
Remarque sur les notations : A la fin du chapitre 8, nous précisons qu’il n’y a pas
lieu d’utiliser deux notations différentes pour les intégrales de Lebesgue et de Riemann. Cependant, dans cette annexe, étant donné que notre objectif est de montrer
l’égalité entre l’intégrale de Lebesgue et l’intégrale de Riemann pour les fonctions réelles Riemann-intrégrables, nous conservons deux notations différentes.
Ainsi représentera l’intégrale de Riemann de alors que 1l ,
conformément aux notations utilisées dès le début de ce cours, désignera l’intégrale de Lebesgue par rapport à la mesure de Lebesgue (complète) .
De façon précise, on a le premier résultat suivant.
197
$ &
Théorème 41 Soit une application Riemann intégrable sur .
(a) Elle est mesurable par rapport à la tribu de Lebesgue
.
(b) Son intégrale de Riemann
est égale à l’intégrale de Lebesgue
de 1l
par rapport à la mesure complétée de Lebesgue :
1l
3
P REUVE : Commençons par une remarque très simple et très utile. Nous avons
déjà faite cette remarque à la section 8.2.
Une fonction en escalier est clairement une fonction simple,
au
sens donnée
dans la théorie de Lebesgue. Une fonction en escalier est donc
-mesurable. Il est tout aussi évident qu’elle est intégrable par rapport
à la mesure de Lebesgue et que son intégrale de Lebesgue par rapport à est
égale à son intégrale de Riemann :
$ & (
1l $ &
3
$ & (
Soit maintenant
une application Riemann-intégrable définie sur un inter
valle borné
et à valeurs dans . Nous connaissons l’existence d’une suite
croissante de fonctions en escaliers et d’une suite décroissante de fonctions
en escaliers telles que et tende vers
avec
.
7 ,
Preuve de (a). On a alors
')( * ' ()*
La suite
et
' ()*
5
')( * étant croissante et la suite
existent et vérifient
3
(C.1)
étant décroissante, les limites
.
7
Comme nous l’avons déjà remarqué, l’intégrale de Lebesgue d’une fonction
en escalier coïncide avec son intégrale de Riemann. On a donc, pour tout ,
1l 198
1l
3
(C.2)
Comme
.
. . .
')()* 1l . .
. .
, et sont donc inférieures ou égales
à
. L’application est trivialement mesurable et intégrable
au sens de Lebesgue. Le théorème de la convergence dominée de Lebesgue nous
permet donc d’obtenir
1l ')( * 1l
1l
3
(C.3)
En combinant (C.1), (C.2) et (C.3), on obtient alors que
1l 1l
3
5
(C.4)
L’application positive
est donc d’intégrale nulle. On applique alors le
théorème 13 pour en déduire que
-presque partout. Etant donné que
, nous déduisons de la proposition 15 (b), que est mesurable
par rapport à
la tribu de Lebesgue
, id est la tribu complétée de
, ce qui prouve (a).
, -presque partout 1 . Comme
Preuve de (b). Nous voyons aussi que 1l
est intégrable par rapport à la mesure de Lebesgue sur
, on déduit de la
proposition 16 (b) que 1l
admet une intégrale par rapport à la mesure
de
Lebesgue et que , ce qui prouve (b).
Remarque : Noter que dans la démonstration, la croissance de nous sert à jus
tifier de l’existence de sa limite mais que nous ne pouvons pas
utiliser la convergence
monotone pour conclure. En effet, nous ne savons pas si
les applications sont positives.
$ & (
$, $(
une application mesurable
et intégrable au
Théorème 42 Soit sens de Riemann sur tout intervalle fermé borné
,
.
(a) est mesurable par rapport à la tribu de Lebesgue.
(b) intégrable
au sens de Lebesgue
par rapport
à la mesure de Lebesgue
sur
si et seulement si . (c) Si est intégrable au sens de Lebesgue sur
$, $
$, & . .
. . 1l $, $
$, $
.
.
(C.5)
1
On pourrait tout aussi bien dire que 1l , -presque partout puisque les ensembles
-négligeables sont aussi les ensembles -négligeables (cf. théorème 16 (b)).
199
et
1l 3
(C.6)
P REUVE : Nous ne démontrerons que l’assertion (a). Pour démontrer (b) et (c),
il suffit de reproduire la preuve de la proposition 21 en remplaçant la mesure de
Lebesgue (non complète) par la mesure de Lebesgue complète .
$, 7 &
Comme chaque application 1l est Riemann-intégrable sur
, le théo
rème 41 nous dit que 1l
est mesurable par rapport à la tribu de Lebesgue.
Puisque , les théorèmes généraux sur les séquences d’applications
1l
mesurables (cf. 4.5, proposition 11) permettent de conclure quant à la mesurabilité
de par rapport à la tribu de Lebesgue.
' ()*
200
Annexe D
Probabilités conditionnelles
La théorie relative aux probabilités conditionnelles est une des parties les plus
difficiles de la théorie des probabilités, une des moins bien perçues par les étudiants et de fait une des plus mal utilisées. Il faut reconnaître qu’un traitement
complet des probabilités conditionnelles est long et requiert beaucoup de résultats intermédiaires. On peut y consacrer un livre entier comme l’a fait Rao ([20]).
Un tel livre se justifie sur le plan théorique mais aussi sur le plan pratique : les
probabilités conditionnelles sous-tendent, par exemple, la théorie des martingales
qui joue un rôle important dans la théorie des jeux, mais aussi en économie et en
finance.
Nous allons donc présenter les éléments théoriques principaux concernant les
probabilités conditionnelles associées à des variables aléatoires réelles. Nous laissons le soin au lecteur de vérifier que tous les résultats donnés ci-après restent
valables pour des variables aléatoires complexes. Avant de rentrer dans le vif du
sujet, il faut dire dès à présent à quoi servent les probabilités et lois conditionnelles.
Lorsqu’on réalise une expérience, il peut arriver que l’on souhaite étudier le
résultat de cette expérience lorsque les conditions expérimentales sont modifiées.
On peut souhaiter aussi étudier le résultat d’une expérience sous certaines hypothèses ou conditionnellement au résultat d’une autre expérience.
Supposons qu’une chaine de grande distribution souhaite faire des promotions
sur certains produits au moment de Noël. Si l’on sait que les consommateurs achetant le produit dans cette période sont tentés d’acheter aussi le produit dans
la même préiode, il sera certainement rentable pour la chaine de distribution de
proposer des promotions sur les produits et au même moment. Il va donc
201
falloir identifier de tels couples de produits. Pour ce faire, il va falloir quantifier
la loi de probabilité qu’un client achète le produit s’il a acheté le produit ,
c’est-à-dire conditionnellement à l’achat du produit , ou encore sachant qu’il a
acheté .
Pour modéliser le problème sous forme probabiliste, on considère l’ensemble
de tous les clients du magasin.
On munit de la tribu de ses sous-ensembles.
Puis on considère le couple de variables aléatoires définies comme suit.
Pour un client donné,
est le nombre de produits que le client achète
pendant la période de Noël et
est le nombre de produits achetés par ce
même client durant la même période. Les valeurs
et
sont le résultat
d’une simple expérience de comptage.
>
>
>
Si maintenant, on veut déterminer la probabilité qu’un client achète le produit
s’il achète le produit ou, en d’autres termes, la probabilité que l’achat du
produit soit conditionné à celui du produit , on s’intéresse à une autre expérience dont les conditions sont légèrement différentes de la précédente. Ce n’est
plus qui va nous intéresser, mais simplement une partie de . Ce n’est plus
qu’on étudie mais
lorsque parcourt l’ensemble des clients qui ont
acheté le produit . Le problème est donc d’étudier la restriction de la variable
à un sous-ensemble mesurable de qui représente l’événement "le client a
acheté le produit ".
>
( >
>
Tant qu’on en restreint une variable aléatoire à un sous-ensemble mesurable
de , donc à un événement de mesure non nulle (donc non négligeable), tout va
bien : le problème rest aisé à traiter. C’est ce que nous allons voir à la section D.2.
La situation devient beaucoup plus délicate lorsque l’événement qui conditionne la variable aléatoire a une mesure de probabilité nulle. Donnons un
exemple. Supposons que nous disposions d’une base de données où chaque élément de la base de données est associé à un être humain identifié par son nom et
contient le poids et la taille de cette personne. Supposons que l’on cherche à étudier la loi de probabilité du poids d’un individu conditionnellement à sa taille, id
est sachant sa taille. On cherche à répondre à des questions * du type : quelle est la
.
.
probabilité de peser kilos sachant que l’on mesure *
cm. Le problème est
.
alors que la probabilité qu’une personne mesure
cm est nulle car la taille
est exacte d’une personne est une grandeur continue. Le conditionnement ne sera
donc pas aussi facile que dans l’exemple précédent et il faudra prendre quelques
précautions. Il y aura alors un intermédiaire de calcul qui sera le conditionnement
par rapport à une tribu.
/ , 3/ / , 3/ ,
202
L’organisation de cette annexe est donc la suivante. Dans la section suivante,
nous nous intéressons au cas simple du conditionnement par rapport à un événement de mesure non nulle. Ensuite, à la section D.3, nous présenterons le conditionnement par rapport à une tribu. Cette sous-section nous permettra de traiter le
conditionnement par rapport à une variable aléatoire à la section D.4.
D.1 Un résultat préliminaire
Le lemme suivant sera très utile dans la suite, notamment l’assertion (b-ii)
qu’il énonce.
- " ! un espace probabilisé.
( une variable aléatoire positive ou intégrable.
(a) Soit , / > ! K , , alors K , presque partout.
(a-i) Si pour tout
, / > ! , , alors , presque partout.
(a-ii) Si pour tout
( deux variables alatoires positives ou inté(b) Soient
Lemme 13 Soit
grables.
(b-i) Si pour tout
partout.
(b-ii) Si pour tout
partout.
,
,
/> ! K
/> !
/>
/>
!
K
! , alors , alors
presque
presque
P REUVE :
Les assertions (b-i) et (b-ii) sont des conséquences immédiates de (a-i) et de
(a-ii). Nous prouvons donc simplement
ces deux dernières.
!
Preuve
On peut écrire 1l de (a-ii).
Par hypothèse, 1 8 , .nous
. obtenons que 7 . Chaque est mesurable
/ !
! . on en déduit
, /
!
, 1 , et donc1 que
est aussi de probabilité
Preuve de (a-i). Soit
et par hypothèse,
donc que
nulle.
lorsque
. Or, !
. !
203
avec 1l et 8
! , . Aussi, puisque
. . .
,
et le résultat dérive du théorème 13.
D.2 Conditionnement par rapport à un événement
D.2.1 Définitions
(
"
Considérons une variable aléatoire
. Cette variable
aléatoire est censée modéliser une expérience aléatoire : la nature, suite à des
méandres qui nous échappent
complètement, tire un dans ; le résultat de l’ex
périence est alors
. Si maintenant, les conditions de l’expérience sont modifiées de telle sorte que l’on sait
les choisis dans un sous-ensemble de , nous
conditionnons le résultat
à . Aussi, si je veux calculer, sous
ces nouvelles
conditions expérimentales, la probabilité que les réalisations
soient dans un
ensemble mesurable de , je vais devoir étudier le comportement de lorsque
le domaine de définition de se trouve réduit à . En d’autres termes, conditionner
par rapport à va consister à étudier la restriction de , ni plus ni
moins.
Il n’y donc aucune difficulté à définir , mais
si on veut parler
de la probabilité que prennent des valeurs dans
, il va évidemment
falloir munir d’une tribu adéquate rendant mesurable puis définir sur cette
tribu une mesure de probabilité.
Puisque nous voulons munir d’une tribu rendant mesurable, nous de vons choisir
une tribu
sur
qui contienne tous les ensembles
où
. Or, signifie que nous avons à la fois et
.
Aussi,
est mesu . Comme rable,
est un élément de dès que est mesurable. Aussi, si
,
appartiendra à la tribu trace de sur , notée , et définie par :
3
Il n’y donc pas grand-chose à faire pour rendre mesurable dès que
mesurable : il suffit de munir de la tribu trace .
est
est un espace mesurable qui
Maintenant que
permet de définir la
en espace provariable aléatoire , il nous faut désormais transformer
babilisé en unissant cet espace d’une mesure de probabilité adéquate. Il serait
tentant
de considérer
la restriction de
à . Le seul problème est que
qui n’est pas forcément égale à . Si
est non nul, la solu
tion est simple : on va normaliser la restriction de à en divisant par
.
204
Nous sommes donc obligés de supposer
si nous voulons obtenir
des résultats intéressants. Sous cette condition, nous avons donc un nouvel espace
$
. En d’autres termes plus explicites,
probabilisé "
où
est définie pour tout
par :
6 < Etant donné que nous venons de définir un nouvel espace probabilisé
$
, nous pouvons considérer les applications mesurables par rapport
"
à qui admettent une intégrale par rapport à la mesure de probabilité . Nous
définissons
alors une nouvelle
notion d’espérance qui sera notée
et qui, pour
tout , est définie par :
Si est positive, on a donc
-
(D.1)
soit positive et calcuEn particulier, supposons que
. Nous utilisons l’équation précédente pour écrire
lons
- - - 6 < 6 < Nous obtenons donc, in fine,
1l 205
(D.2)
existe si et seulement si
Nous déduisons de ce résultat que
existe et les deux intégrales sont alors liées par la relation (D.2)
1l sachant comme étant la loi
donc définir la loi suivie par
On pourrait
et s’arrêter là. On va aller un peu plus loin car il est gênant d’avoir à
utiliser la mesure , définie sur la tribu trace de sur . On préfèrait manipuler
uniquement des mesures de probabilité définies sur et ne pas avoir à traîner
l’espérance
. On va donc améliorer la présentation dans ce sens.
, de sorte que nous pouvons associer à tout
Si on, laprend
valeur . Nous définissons ainsi une fonction
> < d’ensemble
.
.
6
définie
par 6 < . Le lecteur
.
vérifiera aisément que est une mesure.
. Il est très simple
Soit alors une variable
aléatoire réelle
.
de vérifier que . D’où la définition suivante.
un espace probabilisé et de mesure non
Définition 83 Soit nulle : .
(a) On appelle mesure de
probabilité conditionnelle par rapport à , la mesure
. définie par
.
. La valeur . est alors appelée probabilité condipour tout
tionnelle de l’événement par rapport à ou sachant .
une variable aléatoire réelle.
(b) Soit par rapport à l’événement (ou loi de
(i) La loi conditionnelle
de
conditionnellement
à
,
ou
encore, loi de sachant ) est la loi
, qui est la mesure image de
par . On posera,
pour tout
,
.
. . (D.3)
. . et le membre de gauche se lira "probabilité conditionnelle que ap
partienne à par rapport à (l’événement) ou "probabilité que
appratienne à conditionnellement à ".
206
(ii) Si
1l existe, on appelle espérance conditionnelle de par rapport à (ou espérance de
conditionnellement à ), la grandeur
définie par :
.
.
1l (D.4)
(iii) Si est une variable réelle et si
est tel
que
, l’espérance conditionnelle de
par rapport
à l’événement est notée
au lieu de
. On dit encore que
est l’espérance conditionnelle de
sachant .
.
.
.
Remarque : Le point (iii) de la définition précédente sera généralisé à la section
D.4. En effet, dans la définition ci-dessus, nous devons supposer que . Dans D.4, nous étendrons la définition de
au cas
.
.
Il est facile de montrer le lemme suivant qui généralise (D.2).
Lemme
14 Soit
un espace probabilisé,
une variable aléatoire réelle.
. , de mesure non nulle et
ou existe pour que
. 1l . et que
Remarque. Le lecteur vérifiera aisément que . . au lieu pour alléger les
De fait, on écrira souvent notations.
Rappelons que
1l
pour tout et que
1l> pour tout Il suffit qu’une des intégrales
les deux autres existent aussi et l’on a
1l
207
. .
. > . En vertu de la remarque précédente, nous pouvons donc écrire immédiatement que
1l
et que 1l
. Ces relations
sont
elles alors encore valables lorsqu’on remplace par
tel que
,
ce qui assurerait une cohérence des notations et des résultats. La réponse est oui,
comme le montre le lemme suivant.
un espace probabilisé et tel que .
Alors
. 1l
. pour tout et
. 1l> . pour tout Lemme
15 Soit
> .
Il suffit ensuite de choisir
(D.5).
(D.6)
6 < 1l> 14 l > 6 < 1l 8 6 < 6 < . et dans (D.6) pour obtenir
1l , P REUVE : On commence par montrer (D.6)
en écrivant que pour
et
(D.5)
. est absolument continue par
.
1l est absolument continue par rapport à et que
Exercice 32 Avec les notations précédemment introduites
(i) Montrer que la mesure de probabilité
rapport à la mesure et que
.
. (ii) Montrer que si est absolument continue par rapport à la mesure de Lebesgue sur
,
est aussi absolument continue par rapport à la mesure de
Lebesgue sur .
208
Sur la base de ce qui précède, on peut donner des règles de calculs (cf. lemme
16). Ces règles de calcul seront améliorées plus loin.
On commence par la remarque suivante qui est une simple conséquence des
définitions et qui utilise une notation simplifiée utilisée largement dans la pratique.
8 .
Posons
désignera la loi conditionnelle de par rapport à et
8
. .
8 Remarque : On
utilisée, pour dési rappelle que 8 est une autre notation, souvent
gner la loi de . On remarquera que, trivialement, 8
8 . Dans la suite, nous
utiliserons la notation 8 pour rester cohérent avec celle utilisée pour désigner la
loi conditionnelle de par rapport à .
Par définition même de la loi conditionnelle de par rapport à , on a pour
,
tout
8 (D.7)
résultat qui induit le lemme suivant.
un espace
Lemme 16 Soit probabilisé et l’espace mesurable
. Soit et tel que .
(i) 8
8 8 (ii) Si
. . (D.8)
En d’autres termes,
pour tout
,
P REUVE : Pour démontrer (i), il suffit d’appliquer (D.7) deux fois : une fois avec
une autre fois avec . Pour démontrer (ii), on utilisera le lemme 14 deux fois
aussi : une fois avec et une fois avec le complémentaire de .
. Retrouver la relation classique
. . 1l> .
en utilisant le résultat précédent : ne pas oublier que Exercice 33 Soit
tel que
Nous terminons par un lemme qui sera amélioré plus loin.
209
8 Lemme 17 Soit
tel que
et un couple
de va
riables aléatoires admettant une densité de probabilité ,
.
, noté usuellement
admet aussi une densité de probabilité,
Alors
notée ,
, et
8
8
8
8
8 et
8 P REUVE : Par définition, pour tout
8 8
E 8 ,
8 . 6 < 6 < > 8 > 8 5 8
par Fubini
D’où le premier résultat. La seconde égalité est une simple application de la première, appliquée une fois à et une autre fois à .
D.3 Conditionnement par rapport à une tribu
Cette section est importante car elle va permettre, à la section D.4, d’étendre
les résultats précédents en définissant le conditionnement par rapport à une variable aléatoire.
D.3.1 Définitions
Nous suivons ici les présentations de [24], [11] et [20].
K
Soit
un espace probabilisé et
aléatoire positive presque partout :
-p.p.
Soit une tribu de
telle que une variable
. On parle alors d’une sous-tribu de .
210
8
Considérons l’applications
8
Il est facile de voir que
espace probabilisé.
Pour tout
8
8
(D.9)
8
est un
est donnée par :
-
-
par
, la mesure
8
définie, pour tout 1l est une mesure de sorte que 1l
8
Aussi, pour tout
tel que
,
aussi. On en déduit
. Pour appliquer le théorème de Radon-Nikodym, il faudrait
donc que
que
soit -finie,
ce que nous ne savons pas. On pourrait penser que
est
bornée, mais
qui n’est pas forcément finie si on ne rajoute
pas une condition supplrémentaire sur . On va donc supposer non seulement
positive mais aussi intégrable de sorte que
. La mesure
est alors
bornée et le théorème
s’applique. Il existe donc une
de Radon-Nikodym
. Comme il est évident
application
telle
que,
que
, nous avons, pour tout
,
. Aussi, 1l
1l
, ce qu’on peut encore écrire
8
8
8
8
8
8
8 8
1l 1l 8
8
(D.10)
L’ensemble des variables aléatoires intégrables qui vérifient l’équation précédente
est une classe d’équivalence
par rapport à la relation d’équivalence "presque sû
rement". L’ensemble des variables aléatoires intégrables qui vérifient (D.10) est
donc
un élément de . Cette classe d’équivalence est souvent notée
et on l’appelle espérance conditionnelle de par rapport ou conditionnée par . Il est d’usage d’écrire l’équation (D.10) sous la forme
.
1l 1l Cette équation signifie donc que pour tout élément
est vérifiée.
de (D.11)
, l’équation (D.10)
Le raisonnement précédent a été conduit dans le cas où
est intégrable
et positive. Supposons maintenant que
est toujours intégrable mais de signe
211
8
et
quelconque. On peut alors écrire
avec
1l
1l
. Les variables aléatoires
et
sont toutes deux intégrables
et positives. Elles admettent donc, toutes les deux, des espérances conditionnelles
par rapport à . On posera donc :
8
(D.12)
celle
Cette somme est théoriquement celle des classes d’équivalences, c’est-à-dire
portant sur les éléments de . L’espérance conditionnelle
est
vérifiera
encore définie de manière unique dans et le lecteur
aisément
que l’équation (D.10) reste vraie pour tout élément de
de sorte qu’on
écrira encore (D.11).
Ce qui précède justifie la définition suivante qui synthétise ce qui vient d’être
dit.
Définition 84
Soit
un espace
probabilisé, une sous-tribu de sur
et
. L’espérance
conditionnelle
de par rapport à la tribu est l’unique élément
de tel que pour tout
et tout
, 1l
,
1l . Par convention, on écrira, pour tout
1l 1l (D.13)
D.3.2 Propriétés de l’espérance conditionnelle
Nous énumérons maintenant quelques propriétés des espérances mathématiques conditionnelles qui dérivent de leur définition.
Proposition 31 Soit
un espace probabilisé et une sous-tribu de .
On convient que les espérances conditionnelles écrites ci-dessous sont définies.
(i)
$
p.s.
.
(iii) Si est -mesurable, .
(iv) Si est -mesurable, alors et prennent des valeurs
de même signe
ou possèdent
(v) Si
une espérance
mathématique finie, alors
(vi) Si et
, .
"
(ii) Si est -mesurable,
212
p.s alors (vii) Si . .
.
.
(viii)
p.s.
, une sous-tribu de (ix) Soit
P REUVE :
.
1l
1l
1l 1l
1l 1l où
1l 1l 1l
. L’espérance
1l Or, par définition de l’espérance conditionnelle de
par montrer
(ii) On commence
le résultat pour conditionnelle
1l
est telle que
$
"
.
(i) Il suffit d’appliquer (D.11) avec
, on a :
D’où le résultat pour 1l . Comme une variable aléatoire positive est limite
d’une suite croissante de fonctions simples, on en déduit que le résultat est encore
vrai pour positive. Pour une variable aléatoire de signe quelconque, on écrit,
comme d’habitude, que , ce qui permet d’assurer que le résultat est
encore vrai pour une variable aléatoire réelle de signe quelconque.
(iii) Il suffit d’appliquer (i) et (ii).
(iv) Il suffit d’appliquer le résultat précédent à 1l .
1l
"
:
1l 1l 1l 1l 1l
(v) Par définition de l’espérance conditionnelle, on a pour tout
%$
1l
D’où le résultat.
, alors,
de l’espérance conditionnelle,
. D’après (i) du lemme 13,
1l K par pourdéfinition
tout K p.s.
(vi) Immédiat.
K
(vii) Si 1l
cela implique que
213
.
que Si nous considérons maintenant et , on écrit
. Comme
On
(iv)
pour obtenir
applique
K ensuite
p.s., K . D’où le résultat.
.
.
. Aussi,
On a
. en
(viii)
vertu de (vi) et de (v), et
.
sont inférieurs ou égaux à
. D’où le résultat.
1l puis
(ix) Pour un élément
donné de , nous allons calculer $
" 1l et montrer que ces deux termes sont égaux, ce qui suffira
en vertu du lemme 13.
Par application directe de la définition de l’espérance conditionnelle, on a tout
d’abord,
1l 1l
D’autre part, toujours par application directe de la définition de l’espérance condi tionnelle,
'$
" %$ 1l 1l
"
Comme
, est aussi un élément de . Par définition encore de l’espérance conditionnelle, le membre de droite de l’égalité précédente est donc égal à
1l . D’où le résultat.
D.3.3 L’espérance contitionnelle par rapport à une tribu est
une projection orthogonale
La propriété (iii) a en fait une conséquence remarquable qui est très exploitée
en statistique et en estimation. Le résultat donnée ci-dessous est peut être le plus
important de cette section dédiée aux probabilités conditionnelles par rapport à
une tribu.
. . Supposons que
soit un
élément
de
, c’est-à-dire
une application
mesurable
telle
que
.
On
sait alors que
est
aussi élément de
de sorte que son espérance conditionnelle
par rapport à une sous-tribu de existe.
En vertu de la relation (iii) et étant donné qu’on vérifie immédiatement que
l’espérance conditionnelle du conjugué est le conjugué de l’espérance conditionnelle, nous avons
214
pour tout mesurable par rapport à .
Désignons alors par l’ensemble de toutes les applications à valeurs dans
qui sont mesurables par rapport à . L’égalité précédente signifie encore que pour
tout ,
(D.14)
.
. . Or, l’ensemble
est un espace de Hilbert dont le produit scalaire
définie
par
est
. La
associé à la norme
relation (D.14) traduit donc l’orthogonalité de
avec . Puisque
est un espace vecoriel fermé pour la norme
, nous pouvons
le théo appliquer
rème de projection et déduire de cette orthogonalité que
est la projection
ortgogonale de sur , c’est-à-dire l’application -mesurable qui "ressemble le
)à
plus" (au sens de la norme
. On comprend désormais toute l’importance
de la probabilité conditionnelle dès que l’on veut estimer une variable aléatoire.
Ce résultat mérite un théorème.
un espace probabilisé, une sous-tribu de sur par rapport à la tribu
Soit
conditionnelle
de
. L’espérance
vectoriel fermé constitué de
est la projection orthogonale de sur l’espace
toutes les applications qui sont -mesurables. On a
donc
. . ( . . Exercice 34 Montrer que est effectivement un espace vectoriel fermé par rap
port à la norme .
Théorème 43 Soit
et l’espace mesurable.
D.3.4 Théorèmes de convergence
Les espérances conditionnelles, bien qu’étant des variables aléatoires et non
des intégrales comme le sont les espérances, permettent d’énoncer des théorèmes
de convergence analogues à ceux déjà rencontrés (convergence monotone, Fatou,
convergence dominée).
Théorème 44 Soit
un espace probabilisé, 215
une sous-tribu de .
Convergence monotone. Si
est une séquence croissante de variables aléatoires positives (ou même généralisées), alors
')( * ' ()* Lemme de Fatou.
K K ' ()* ( ' ()* ( (ii) Si
est une
séquence de variables
aléatoires
réelles pour la
quelle il existe
intégrable tel que
pour tout entier K ,
alors
'
)
(
*
'
)
(
*
(p.s.)
K
(i) Si
est une séquence de variables aléatoires réelles pour la pour tout entier
quelle il existe intégrable tel que ,
alors
(p.s.)
. . Convergence dominée. Si
toires réelles telles que (p.s.), alors
')( * est une séquence de
variables aléa
(p.s.) avec et si (p.s.)
Nous engageons le lecteur à faire les démonstrations de ces résultats. Ces démonstrations sont analogues à celles qui ont permis d’énoncer les résultats classiques de la théorie de la mesure comme pourra le constater le lecteur s’il se
reporte à [20] pour vérifier ses raisonnements.
Il existe même une version des inégalités de Hölder, de Minkowsky et de Jensen que nous énonçons maintenant.
Théorème 45 Soit
une sous-tribu de .
Inégalité de Hölder :
et
. . . Inégalité de Minkowsky : pour @ K ,
. . 4 . .
216
4
. 4 avec
. . 4
(p.s.)
. . 4
(p.s.)
. Soit
Inégalité de Jensen : si est une fonction continue et convexe telle
que
ou
est intégrable, alors
K
"
%$
.
.
Remarque : Soit la fonction
convexe et
application
est. bien
. Cette
.
.
.
. . on a donc, en vertu de l’inégalité
En prenant
. de . Jensen,
. . ..Aussi,
l’espérance,
on
obtient
pour
est
@K et
, . L’opérateur
donc une contraction de
.
D.4 Conditionnement par rapport à une variable
aléatoire
Soit
un espace probabilisé et
variables aléatoires réelles.
deux
Il peut être utile de définir l’espérance conditionnelle de
par rapport à la
valeur prise par . Pour ce faire, on introduit la notion de tribu engendrée par à
l’aide de la définition suivante.
Définition 85 Soit
un espace probabilisé et une application mesurable. On appelle
tribu engendrée par la collection d’en
sembles
Exercice 35 Vérifier que la collection
est bien une tribu.
Disposant d’une tribu qui décrit la manière dont pouvons alors poser la définition suivante.
prend ses valeurs, nous
un espace probabilisé et
Définition
86 Soit
deux variables
aléatoires
réelles.
L’espérance
conditionnelle
de par
rapport à , notée
, est l’espérance conditionnelle de par rapport à la
tribu
engendrée par :
217
Exercice 36 Avec les notations de la définition précédente, démontrer que pour
tout
,
(D.15)
4><
6
4>< 6
C’est une simple application des définitions.
Nous allons maintenant utiliser le résultat suivant.
un espace
probabilisé et l’espace mesurable
Théorème
46 Soit
. Si
sont deux applications mesurables
telle que
est mesurable par rapport à la tribu
engendrée par , alors, il
existe une application -mesurable telle que
.
')( *
1 1 4 %?
"
P REUVE : Commençons par le cas où est positive réelle.
On sait alors que nous
1l
pouvons écrire que
où
. Etant donné
est -mesurable, alors, pour chaque paire d’entiers
, l’ensemble
que
est
égal
à
un
élément
de
de
la
forme
où
. On a donc 1l 1l de sorte que
"
avec
1l
1 1 4 > 6 < et > 6 <
' ()*
(D.16)
' ()*
Il est évident que chaque
est mesurable et il serait alors tentant de poser
pour conclure. Nous ne pouvons pas procéder ainsi directement. En effet,
nous ne savons pas si la suite
est convergente
en tout
point
de . Qu’à cela
ne tienne. Soit
, l’ensemble des
points
pour lesquels la suite
est convergente.
Nous savons que cet
ensemble est mesurable. On définit alors
par 1l . Les applications
tout
sont alors mesurables
et
pour
,
existe.
En effet, si
, la
limite de la suite
existe et
. Si
, on a
trivialement
. L’application
est
donc
définie
partout
sur et est mesurable. Il nous reste à vérifier que
.
Soit
Si
' ()*
')( *
' ()*
' ()* ( ' ()*
' ()*
' ()* , l’égalité (D.16)
nous montre clairement que ' ()*
' ()*
ce qui prouve que
.
E
. Aussi,
est réelle mais de signe quelconque, on procède
selon le scénario clas
sique. On écrit
.
On
sait
alors
que
et
que
.
de sorte que si
, on a
218
Remarque : Avec les notations du théorème précédent, il faut noter que l’appli
cation n’est pas forcément unique. Prenons par exemple 1l où
et supposons
que
est
-mesurable.
Nous savons donc qu’il existe
tel que
1l . Pour
,
et
pour
,
.
où
On a donc
1l
1l . Soit alors
1l
1l
est
arbitraire.
Pour
, et pour
,
1l . On a donc, 1l
1l
.
F F
Le théorème précédent nous permet maintenant d’énoncer le très important
résultat suivant.
Théorème 47 Soit deux applications mesurables
.
Il existe une application
unique
au
sens
de
la
relation
d’équivalence
"presque
partout" qui est
-mesurable et telle que
(D.17)
8
et quel que soit
,
1l>
8
> 8
L’espérance conditionnelle
(D.18)
par rapport à est, par définition,
-mesurable.
En
vertu
du
théorème
46, il existe
application
une
.
,
-mesurable, telle que
Il est évident que 1l 1l
. Comme appartient à la tribu
engendrée par , nous avons
1l 1
l
(définition de l’espérance conditionnelle)
1l (par définition de )
$
"
1l
1l
(théorème de transfert)
P REUVE :
une application
8
>
>
>
4 6> <
8
8
8
>
>
>
8
8
d’où l’existence.
Il reste à prouver l’unicité. Celle-ci est une conséquence immédiate du lemme
vérifie(D.18), alors elle est égale preque
13 : si une application autre que
partout à .
8
8
219
Note : noter que le théorème précédent est un résultat d’unicité bien que basé sur
le théorème 46, qui lui, n’est pas un résultat d’unicité.
Remarque très importantes. Ce théorème nous dit trois choses.
Tout d’abord, qu’il nous
suffit de connaître pour connaître en fait l’espé
rance conditionnelle
.
Il nous dit ensuite qu’un moyen de calculer (et donc de connaître
)
est de résoudre l’équation (D.18).
par
Il nous dit enfin que l’espérance de est simplement l’intégrale de
rapport à la loi :
8
8
Nous allons maintenant établir la relation entre
conditionnelle de par rapport à l’événement ensemble mesurable est non nulle.
8
P REUVE : Soit
8
. On a 8
1l
, la fonction telle
8
. Par définition de
8
grâce à l’éga-
, et l’espérance
lorsque la mesure de cet
.
(D.19)
8
Lemme 18 Soit
un espace probabilisé,
deux applications
mesurables
et
.
que
est tel que
, alors
Si
8
, on peut accéder à l’espérance de
8
Ainsi, lorsque on connaît
lité précédente.
8
8
, nous avons :
D’après la définition de l’espérance conditionnelle par rapport à l’événement
, nous avons aussi
1l 1l
Comme
$
.
, on en déduit le résultat.
220
8
8 . 8
. 8 . 1l> . Ce résultat justifie la définition suivante que généralise la définition 83 (b-iii).
Définition 87 Soit deux
applications
mesurables
et
.
soit la fonction , telle que
(i) La valeur de
au point de est appelée espérance de conditionnel
lement à ou espérance (conditonnelle) de
sachant . est
notée
et est définie comme la valeur de
au point de :
(ii) Pour tout
, on définit la probabilité que
sachant ou
conditionnellement à par
8
(D.20)
Commentaires : La définition (i) n’est qu’une conséquence
du lemme
18 et étend donc la définition 83 (b-iii) au cas
. L’égalité
(D.20) permet de définir même lorsque
. Elle
est évidemment compatible avec (D.6).
On peut donc re-écrire (D.18) et (D.19) sous
les formes usuellement rencon trées dans la littérature. On a , pour tout
,
.
1l>
qui est la ré-écriture de (D.18) et
> .
.
(D.21)
qui correspond à (D.19) et qui est la conséquence la première égalité avec
Nous laissons le soin au lecteur de vérifier que
> . (D.22)
221
.
(D.23)
Nous énonçons maintenant un résultat fort important dans la pratique.
un espace probabilisé,
Proposition
32 Soit
deux
variables
aléatoires
réelles
indépendantes
et
une application mesurable.
. .
.
(ii) P
:
(ii)
est
une
conséquence
immédiate
de
(i)
et
du
fait
que
. . Nous nous contentons de montrer (i).
, nous avons, grâce au théorème de transfert,
Soit
Aussi,
en prenant en compte successivement
le théorème de Fubini, le fait que
puisque et sont indépendantes, le théorème
de transfert et la définition même de
, nous avons :
> > < > 6 4 > < 1l> 6 (i)
REUVE
D’où le résultat en vertu de (D.21) et du lemme 13.
Le résultat que nous venons de démontrer est énoncé dans le corps principal
de ce document, précisemment à la section 12.10. Nous engageons le lecteur à
revenir sur les commentaires donnée dans ladite section sur ce résultat.
Nous allons maintenant comment les égalités (D.21), (D.22) et (D.23) se déclinent dans deux cas très importants dans
la pratique : celui où est une variable
aléatoire discrète et celui où le couple
admet une densité. Nous nous placerons dans le cas réel.
D.4.1 Conditionnement par rapport à une variable aléatoire
discrète
Nous reprenons les notations de la section précédente et supposons que discrète et de la forme :
1l
-
222
1
est
forment une
. Nous
K
& 1
les étant tous distincts de sorte que les ensembles partition de . Nous supposons que pour tout
,
savons déjà (cf. (10.21), section
10.6) que :
On a alors
1l
> .
D’autre part, 1l
>
"
1l>
-
1l
.
$
1 , de sorte que
- > $ 1l 1 1l
1l> 1l >
-
Nous engageons le lecteur à justifier rigoureusement cette dernière égalité.
Nous avons donc
8
avec, puisque pour tout
- .
(D.24)
,
,
$
. 1l 1 K
1l 1 (D.25)
Nous
maintenant donner une expression de l’espérance condition pouvons
nelle
:
1l
On notera que
"
1
une variable aléatoire
, à est donc
par. rapport
.
L’espérance conditionnelle de
discrète qui prend les valeurs
$
- .
.
On pose maintenant la définition suivante.
223
$
$
8
$
8
Définition 88 Avec les notations précédentes, la loi conditionnelle de
que l’on notera
est la loi
.
On posera
et, par définition, on a pour tout
8
8 . .
$
8
1
1
. . 1
sachant
,
Pour les calculs, il faut alors retenir les résultats suivants qui étendent ceux du
lemme 16.
- .
(i)
(ii)
8 . 8 où Lemme 19 Avec les notations utilisées jusqu’ici, pour
,
$ 1
.
.
Nous laissons la preuve
lecteur. Pour le premier résultat, il faut utiliser
au
la relation
. On peut aussi utiliser le fait que
. Pour (ii), c’est un simple calcul basé sur les
1l
définitions.
Ce résultat généralise donc l’égalité (D.8). D’ailleurs, à titre d’exercice, nous
engageons le lecteur à retrouver les résultats du lemme 16 à partir de ceux qui
précèdent.
D.4.2 Application aux variables aléatoires absolument continues
Nous gardons les notations des sections précédentes, mais nous supposons
que les variables aléatoires et sont réelles et que le couple
admet une
densité par rapport à la mesure de Lebesgue sur . Nous savons alors que
et sont absolument continues par rapport à la mesure de Lebesgue de densités
respectives et telles que :
8
8
8 .
Nous allons calculer 8 8 5 en résolvant (D.21) pour tout .
224
Soit donc
1l>
Etant donné que 1l
, nous avons, grâce aux théorèmes de transfert et de Fubini,
>
1l
>
admet la densité .
1l
>
8
.
, nous avons aussi
1l
Aussi, résoudre (D.21) équivaut à résoudre
8
1l
>
>
.
(D.26)
ce qui, en vertu du lemme 13 nous conduit à la relation fondamentale
.
Si nous posons
.
F 6 < 8
8
5
(D.27)
(D.28)
.
où F est arbitraire,
on vérifie
que vérifie alors bien (D.26).
En effet,
soit en prenant en compte que si
alors
8 presque partout sur et, nous
avons :
1l> 8 1l> 8 1l> 8 5 1l> 8 1l> . (par notre choix de . )
1l> . 1l> . 1l> . 225
. , nous voyons que, pour tel que
6 < 8 joue le rôle de densité pour calculer
. 8 . par
.
Définissons alors la fonction 8 De l’expression même de
, la fonction
.
8
.
6 < <
6
pour fixer les idées, mais
où est arbitraire. Dans la suite, nous choisirons
ce qui suit reste valide pour toute autre valeur.
que , nous avons clairement 8 5 de sorte
Pour tel
(D.29)
.
que est une densité de probabilité. Il existe donc une variable aléatoire
qui admet cette densité. D’où la définition suivante.
8
.
un espace probabilisé, et
Définition
89 Soit
deux variables aléatoires réelles.
(i) La fonction définie par (D.29) où est la densité de est appelée
densité de probabilité conditionnelle de sachant .
(ii) Pour
tel que , la loi conditionnelle de sachant est
la loi de densité .
8
.
8
Nous pouvons alors démontrer un théorème de transfert.
Théorème
48 Soit
un espace probabilisé et
deux variables aléatoires
telles
que
le
couple
admette
une den sité de probabilité. Soit une application mesurable.
Sous réserve que les intégrales existent, on a, pour tout
tel que :
P REUVE : Soit
> .
. Par définition de
. 8
226
.
.
, on a :
1l
>
En utilisant le théorème de transfert et celui de Fubini, il vient :
1l
>
>
>
> On a donc, pour tout
> .
,
8
8
.
8
5 .
8
> .
d’où le résultat.
.
Il est alors aisé de démontrer le résultat suivant qui met en avant
la cohérence
des résultats précédents, puisque la densité conditionnelle nous permet
de retrouver la probabilité conditionnelle de sachant .
8
Proposition 33 Avec les notations du théorème 48,
. > 8
.
.
. 1l>
: Par définition, >
pour tout
tel que P REUVE
d’appliquer le théorème 48 avec
. .
8
8
8
. Il suffit alors
1l pour obtenir le résultat.
.
Exercice 37 Avec les notations utilisées jusqu’ici,
1. Montrer que pour presque tout
, 2. Montrer que pour tout
,
utiliser la formule de changement de variable.
3. En déduire que pour presque tout
,
227
8 8
. 8 8
8 .
. On pourra
8 Nous terminons ce paragraphe en présentant un moyen souvent utilisé pour
introduire la densité de probabilité conditionnelle.
, Supposons que pour tout
En vertu de la section D.2, la densité de
8 sachant 8 .
est non nul. est
Il suffit alors d’appliquer la règle
de l’Hôpital pour retrouver l’expression de
la densité conditionnelle
comme limite, lorsque tend vers de
.
8 8
D.4.3 Courbe de régression
et
. Soit
un espace probabilisé et deux variables aléatoires réelles
. La courbe de régression, si elle existe, est une fonction telle que minimise la distance quadratique
.
.
On a alors le résultat suivant dont l’importance est majeure en estimation statistique.
. . Théorème 49 Soit
un
espace
probabilisé et deux variables aléatoires
réelles et telles que
. La courbe de régression existe, est unique
et est égale à l’espérance de conditionnelle à
:
.
8
. . Pour toute
application
mesurable
,
est mesurable par rapport à la tribu engen
drée par . Réciproquement, toute variable aléatoire
qui est
mesurable s’écrit sous la forme
en vertu du théorème 46.
Aussi, chercher
une
courbe
de
régression
de
sur
,
c’est
chercher une applica
tion qui est
-mesurable et qui minimise
lorsque parcourt l’espace des applications qui sont
-mesurables.
P REUVE
:
8
8
8
. . Etant donné
que
, c’est-à-dire, lemme 18 et de la définition 87.
8
, le théorème
43 nous dit que la solution est
. D’où le résultta par application du
228
Index
-algèbre, 4
-additivité, 9
-algèbre, 5
écart-type, 93
épreuve, 1
événement élémentaire, 4
événement ĺémentaire, 6
événement certain, 4
événement impossible, 4
événements indépendants, 20
événements mutuellement disjoints,
9
convergence en moyenne quadratique, 165
convergence en probabilité, 164
convergence presque sûre, 166
coordonnée, 74
courbe de régression, 141
couverture, 186
covariance, 139
dérivée de Radon-Nikodym, 113
densité d’une mesure, 113
densité de probabilité, 103, 104, 113
densité de probabilité conditionnelle,
225
droite de régression, 141
anneau, 185
anneau engendré, 188
application intégrable au sens de Riemann, 83
application localement intégrable, 85
application mesurable, 25
application Riemann-intégrable, 197
ensemble fermé, 177
ensemble négligeable, 64
ensemble ouvert, 177
espérance conditionnelle, 138
espérance conditionnelle par rapport
à un événememnt, 206
espérance conditionnelle par rapport à une variable aléatoire
réelle, 216
espérance conditionnelle sachant la
valeur prise par une variable
aléatoire, 220
espérance mathématique, 91
espace mesurable, 5
espace probabilisé, 12
calcul combinatoire, 15
changement de variable, 134
Changement de variables, 135
coefficient de corrélation, 140
complétée d’une tribu, 66
convergence des v.a., 164
convergence en Loi, 167
convergence en moyenne d’ordre ,
164
F
229
espace probabilisable, 5
loi de Cauchy, 126
loi de Poisson, 116
loi de Rayleigh, 124
loi de Rice, 124
Loi de Student, 127
loi du , 121
loi du chi- non centrée, 123
loi Exponentielle, 120
loi faible des grands nombres, 165
loi forte des grands nombres, 167
loi géométrique, 115
loi Gamma, 125
loi gaussienne, 118
loi image, 96
loi image d’un vecteur aléatoire, 130
loi Log Normale, 120
loi normale, 118
loi uniforme, 118
fonction étagée, 35
fonction borélienne, 26
fonction caractéristique, 94
fonction de répartition, 99
fonction génératrice, 95
fonction simple, 35
formule de Bayes, 20
homeomorphisme, 178
Inégalité de Bienaymé-Tchebychev,
94
Inégalité de Jensen, 92
inégalité de Markov, 93
intégrale de Riemann, 84
intégrale généralisée, 85
intégrale généralisée absolument
convergente, 85
matrice de covariance, 140
mesure -finie, 76, 112, 189
mesure absolument continue, 112
Mesure bornée, 10
mesure complétée, 67, 68
mesure complète, 65
Mesure de comptage, 10
Mesure de Dirac, 10
mesure de Lebesgue, 193
mesure de Lebesgue-Stieltjes, 190
mesure de probabilité conditionnelle,
205
mesure extérieure, 185
mesure image, 96
mesure image par un vecteur aléatoire, 130
mesure positive, 9, 184
mesure produit, 77
moments d’ordre supérieur, 92
lemme de Borel-Cantelli, 166
limite inférieure, 32
limite supérieure, 31
loi Beta, 126
loi binomiale, 116
loi conditionnelle, 137
loi conditionnelle à un événement,
205
loi conditionnelle associée à la densité d’un coupe de variables
aléatoires, 225
loi conditionnelle sachant la valeur
prise par une variable aléatoire discrète, 223
loi conjointe, 132
loi d’un vecteur aléatoire, 130
loi d’une variable aléatoire, 96
loi de Bernouilli, 115
230
observable, 1
tribu produit, 73
tribu trace, 6
tribus indépendants, 22
partie négative, 52
partie positive, 52
partition, 20
possible, 1
presque partout, 65
presque sûrement, 65
probabilité, 12
probabilité conditionnelle, 19
probabilité conditionnelle d’un événement, 205
produit cartésien, 73
v.a. indépendantes, 136
variable aléatoire, 25
variable aléatoire absolument continue, 104, 113
variable aléatoire complexe, 33, 160
variable aléatoire complexe intégrable, 62
variable aléatoire discrète, 106
variable aléatoire généralisée, 25
variable aléatoire intégrable, 52
variance, 93
vecteur aléatoire, 129
vecteur complexe gaussien circulaire, 163
vecteur gaussien, 150
règle de Bayes, 19
rectangle ou pavé mesurable, 73
semi-norme, 69
système complet de constituants, 6
Théorème de Borel-Cantelli, 22
Théorème de la convergence
dominée-II, 71
théorème de transfert, 97, 131
thèorème de la limite centrale, 167
topologie, 177
topologie trace, 178
topologie usuelle de , 179
topologie usuelle de , 178
tribu, 4, 5
tribu associée à une mesure extérieure, 185
tribu complétée, 66
tribu de Lebesgue, 11, 69, 193
tribu de Lebesgue-Stieltjes, 190
tribu des boréliens, 6
Tribu engendrée, 5
tribu engendrée par une application
mesurable, 216
231
Téléchargement