Cours de Probabilités par Dominique PASTOR Département Signal et Communications Technopôle Brest-Iroise, CS 83818, 29238 Brest Cedex e-mail : [email protected] Tél : 02 98 00 14 87 Fax : 02 98 00 10 98 Septembre 2003 Objectifs pédagogiques Les probabilités interviennent dans tous les domaines de l’ingénierie. En télcommunications, on est amené à traiter des données qui par nature sont aléatoires. Il va falloir par exemple calculer la probabilité d’erreur d’une transmission lorsqu’on transmet des séquences de valeurs binaires et . Ainsi, un cours de probabilité est incontournable dans toute école d’ingénieur et en particulier, ici, à l’ENST Bretagne. Les objectifs pédagogiques du cours supporté par ce polycopié sont alors les suivants en terme de "être capable de" et "être sensibilisé à". Pour chaque objectif listé ci-dessous, nous pointons vers le chapitre où l’étudiant trouvera les informations nécessaires permettant de remplir l’objectif pédagogique. i Objectif : être capable de Donner la définition d’un espace probabilisé Effectuer des calculs combinatoires de probabilités Calculer des probabilités conditionnelles élémentaires Donner la définition de l’indépendance entre événements Calculer des lois conditionnelles Donner la définition correcte d’une variable aléatoire réelle ou généralisée Donner les théorèmes de convergence monotone et de convergence dominée Donner la définition de l’espérance d’une variable aléatoire Donner la définition des moments d’ordre supérieur Donner la définition de la fonction caractéristique Donner la définition de la fonction de répartition et d’une densité de probabilité Donner la définition des variables aléatoires absolument continues et celle des variables discrètes Savoir calculer les fonctions de répartitions et les densités de probabilités des variables aléatoires absolument continues Donner la définition d’un vecteur aléatoire Donner la définition de l’espérance d’un vecteur aléatoire Donner la définition de la fonction de répartition d’un vecteur aléatoire Donner la définition des lois conjointes Manipuler les densités de probabilité conditionnelles Utiliser le théorème de changement de variable et le théorème de transfert pour les calculs usuels (notamment, différentes méthodes de calcul de la densité d’une somme de variables aléatoires) Savoir définir et manipuler les matrices de covariance Donner la définition des vecteurs aléatoires gaussiens et leurs propriétés élémentaires Donner l’inégalité de Bienaymé-Chebyshev (version probabiliste) Connaître et d’utiliser le théorème de la limite centrale TAB . 1 – Objectifs "être capable de". ii Voir Chapitre 1 Chapitre 2 Chapitre 3 Chapitre 3 Chapitre 12 Chapitre 4 Chapitre 5 Chapitre 9 Chapitre 9 Chapitre 9 Chapitre 10 Chapitre 10 Chapitre 10 Chapitre 12 Chapitre 12 Chapitre 12 Chapitre 12 Chapitre 12 Chapitre 12 Chapitre 12 Chapitre 13 Chapitres 9 et 15 Chapitre 15 Objectif : être sensibilisé à Aux principales lois utilisées dans la pratique et les phénomènes qu’elles modélisent A la théorie de la mesure et de l’intégration Aux notions de "presque partout" et de "presque sûrement" Aux extensions des théorèmes de convergence de la théorie de Lebesgue Au théorème de Fubini et son application Aux relations entre intégrales de Lebesgue et de Riemann Au théorème de Radon-Nikodym A la théorie des variables aléatoires conditionnelles (par rapport à un événement, une tribu, une variable aléatoire) A la théorie des variables aléatoires complexes Aux différents modes de convergence des variables aléatoires Aux méthodes de génération des variables aléatoires TAB . 2 – Objectifs "être sensibilisé à". iii Voir Chapitre 11 Chapitre 5 Chapitre 6 Chapitres 5 et 6 Chapitre 7 Chapitre 8 et Annexe C Chapitre 10 Chapitre 10 et Annexe D Chapitre 14 Chapitre 15 Chapitre 16 Guide de lecture de la bibliographie Vous trouverez en fin de ce polycopié une bibliographie complète du cours de probabilité. Nous donnons ici un guide de lecture de cette bibliographie. [10] est un livre ancien qui présente les probabilités selon le point de vue des statisticiens. Les outils mathématiques utilisés y sont essentiellement l’algèbre et l’analyse élémentaire. Cette référence n’utilise pas la théorie de la mesure. Etant court et très concis, il permet au lecteur de retrouver très rapidement les résultats classiques de la théorie. C’est donc un excellent aide-mémoire qui permet aussi d’éclairer certains aspects de la théorie sous un angle pratique et applicatif. Son défaut : l’ouvrage étant ancien, il est parfois difficile à trouver. La présentation des probabilités dans [3] est, dans une certaine mesure, une extension de celle de [10] où on retrouve l’axiomatique de Kolmogorov basée sur la théorie de la mesure. Cet ouvrage est court et permet aussi au lecteur de retrouver très facilement les résultats classiques de la théorie. Cet ouvrage donne aussi un éclairage statistique de la théorie des probabilités et de nombreux exemples. A la différence de [10], on le trouve beaucoup plus facilement dans les bibliothèques. Les ouvrages [18, 19, 6, 7] s’adressent aux étudiants ayant besoin d’un cours plus approfondi pour le reste de leur formation à l’école. Ce sont aussi des références classiques pour les ingénieurs en traitement du signal et télécommunications. Dans les références [6, 7, 19], on peut trouver, en plus des démonstrations théoriques des résultats fondamentaux, des exercices et problèmes résolus ou commentés. [8] (Tomes 1 et 2) est une référence incontournable en théorie des probabilités. Ouvrage mathématique, il expose la théorie dans toute sa complexité. On y trouve des extensions des théorèmes des grands nombres. Il est adapté aux travaux de recherche. [11] et [24] sont les ouvrages préférés de l’auteur de ce polycopié. Ils représentent l’école russe dans toute sa subtilité. Ce sont des ouvrages mathématiques. Ils sont parfois difficiles car utilisent des éléments de théorie de la mesure peu connus des ingénieurs. Le polycopié que nous vous fournissons, souvent influencé par ces références, devrait vous donner les clefs suffisantes pour exploiter ces ouvrages. Ceci dit, ces oeuvres s’adressent principalement aux chercheurs, voire aux ingénieurs de recherche. [20] est un ouvrage remarquable, mais très spécialisé, sur les mesures conditionnelles. On y voit que la théorie des probabilités conditionnelles est un domaine iv très complexe que nous nous contentons d’effleurer. Cet ouvrage s’adresse avant tout à des mathématiciens. Après avoir lu l’annexe D, le lecteur ne devrait cependant n’avoir aucune difficulté à lire les quatre premiers chapitres de ce livre. [21, 12, 22] sont des ouvrages de référence en théorie de la mesure. La présentation donnée dans ce cours concernant la théorie de la mesure est très influencée par ces ouvrages. La présentation de l’intégrale de Lebesgue que nous donnons au chapitre 5 et que nous précisons à l’annexe ?? est fortement influencée par [21] et [22]. La présentation de l’intégrale de Lebesgue-Stieltjes à l’annexe B est issue de [12]. Le premier chapitre de [22] devrait au moins être lu une fois par tout étudiant. [16] et [1] sont des ouvrages incontournables tant en analyse, en algorithmie qu’en probabilités. Ils contiennent énormément de résultats utiles en calcul et notamment des descriptions détaillées des fonctions spéciales qu’il arrive de rencontrer au détour de problèmes qui ne sont pas seulement académiques. Qui dit probabilités dit aussi statistiques. Vous trouverez trois références essentielles dans le domaine ([17, 2, 15]). [17] est une extension de [2]. Dans ces ouvrages, on trouvera énormément de résultats et de lois dérivant des lois Gaussiennes multidimensionnelles. [15] est une des ouvrages les plus connus dans le domaine. Il pourra notamment servir ceux qui seront confrontés à des problèmes d’estimation statistique (maximum de vraisemblance, moindres carrés, etc.). Les références [14, 5] se rapportent à la théorie de la mesure. Ce sont des polycopiés ENSTB très synthétiques qui présentent les résultats principaux de la théorie. Nous recommendons aussi la lecture de [9, 4, 13, 23, 5] qui sont des polycopiés de l’ENSTB. En particulier, [5] et [23] sont d’excellents documents de synthèses qui mettent en évidence les principaux résultats de la théorie des probabilités. Dans [4], on trouvera aussi un exposé très complet des différents types de convergence. v Remerciements Je remercie Samir Saoudi et Thierry Chonavel, professeurs à l’ENST de Bretagne pour m’avoir fourni leurs polycopiés ([23], [5]) et leurs planches de présentation. Leur travail m’a fortement guidé et inspiré dans la rédaction du présent document et des notes de cours. Je remercie aussi Karine Amis, Maître de Conférences à l’ENST de Bretagne, pour sa contribution à l’élaboration, l’organisation du cours et ses ajouts et commentaires sur différents chapitres de ce polycopié. Enfin, je remercie mon ami et professeur Roger Gay qui a bien voulu prendre sur son temps pour relire et corriger certains passages de ce document et qui m’a fait connaître et apprécier bon nombre des références que je recommande à mon tour. vi Table des matières 1 Espace probabilisable et Espace probabilisé 1.1 Idées fondamentales sur les espaces de probabilité 1.2 Espace probabilisable ou mesurable . . . . . . . 1.3 Tribu des boréliens de . . . . . . . . . . . . . 1.4 Tribu des boréliens de . . . . . . . . . . . . . 1.5 La tribu des boréliens de la droite réelle étendue . 1.6 Mesure positive . . . . . . . . . . . . . . . . . . 1.7 La mesure de Lebesgue . . . . . . . . . . . . . . 1.8 Définition d’une probabilité . . . . . . . . . . . . 1.9 Espace produit . . . . . . . . . . . . . . . . . . 1.10 Exercice corrigé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 . . . . . . . 1 . . . . . . . 5 . . . . . . . 6 . . . . . . . 8 . . . . . . . 8 . . . . . . . 9 . . . . . . . 10 . . . . . . . 12 . . . . . . . 13 . . . . . . . 13 2 Calcul combinatoire des probabilités 2.1 Généralités . . . . . . . . . . . 2.2 Rappels d’analyse combinatoire 2.3 Exemple . . . . . . . . . . . . . 2.4 Exercice corrigé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 15 15 16 16 3 Probabilités conditionnelles et indépendance 3.1 Probabilités conditionnelles . . . . . . . . . . . 3.1.1 Définition . . . . . . . . . . . . . . . . 3.1.2 Formule de Bayes . . . . . . . . . . . 3.2 Evénéments indépendants . . . . . . . . . . . . 3.2.1 Indépendance de deux événements . . . 3.2.2 Indépendance d’une suite d’événements 3.2.3 Théorème de Borel-Cantelli . . . . . . 3.3 Indépendance de tribus . . . . . . . . . . . . . 3.4 Exercice corrigé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 19 19 20 20 20 21 22 22 22 vii . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Variables aléatoires (réelles et généralisées) 4.1 Applications mesurables . . . . . . . . . . . . . . . 4.2 Variables aléatoires réelles et généralisées . . . . . . 4.3 Critères de mesurabilité . . . . . . . . . . . . . . . . 4.4 Propriétés élémentaires des applications mesurables riables aléatoires réelles . . . . . . . . . . . . . . . . 4.5 Limites de variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . et des . . . . . . . . . . . . . . . . . va. . . . . . 25 26 26 28 30 31 5 Intégration des variables aléatoires réelles et généralisées (intégrale de Lebesgue) 5.1 La construction usuelle de l’intégrale des variables aléatoires réelles gńéralisées positives . . . . . . . . . . . . . . . . . . . . . 5.2 Une construction algorithmique de l’intégrale des variables aléatoires réelles gńéralisées positives . . . . . . . . . . . . . . . . . 5.2.1 Intégration des applications à valeurs sur la demi droite réelle étendue . . . . . . . . . . . . . . . . . . . . . . . . 5.2.2 Le théorème de la convergence monotone . . . . . . . . . 5.2.3 Où l’on retrouve la définition classique de l’intégrale des fonctions à valeurs réelles positives . . . . . . . . . . . . 5.2.4 Quelques propriétés utiles de l’intégrale des variables aléatoires positives . . . . . . . . . . . . . . . . . . . . . 5.2.5 Intégrale des variables aléatoires généralisées de signe quelconque . . . . . . . . . . . . . . . . . . . . . . . . . 5.3 Théorèmes de convergence . . . . . . . . . . . . . . . . . . . . . 5.4 Inégalité de Bienaymé-Chebyshev . . . . . . . . . . . . . . . . . 5.5 Intégration sur une partie mesurable . . . . . . . . . . . . . . . . 50 56 58 60 6 Ensembles négligeables et compléments sur l’intégration 6.1 Ensembles négligeables et mesure complète . . . . . . . . . 6.2 Le "presque partout" et le "presque sûrement" . . . . . . . . 6.3 Complétée d’une tribu . . . . . . . . . . . . . . . . . . . . 6.4 Mesure complétée . . . . . . . . . . . . . . . . . . . . . . 6.5 Le cas de la mesure de Lebesgue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.6 L’ espace 6.7 La version définitive du théorème de la convergence dominée . . . . . . . 63 64 65 66 67 69 69 71 7 Intégration sur les espaces produits 7.1 Tribu produit : définition et premières propriétés . . . . . . . . . . 73 73 viii . . . . . . . . . . . . . . 34 35 37 43 44 47 49 7.2 7.3 7.4 7.5 Mesurabilité des applications définies sur un produit cartésien . . Mesure produit ou produit tensoriel de mesures . . . . . . . . . . Le théorème de Tonelli-Fubini . . . . . . . . . . . . . . . . . . . La mesure de Lebesgue sur et application aux calculs des probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 76 77 79 8 Lebesgue et Riemann : éléments de synthèse 8.1 Apport de la théorie de Lebesgue en théorie des probabilités 8.2 Comparaison des intégrales de Riemann et de Lebesgue . . . 8.3 Dérivation . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.4 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 82 82 88 88 9 Fonctions et paramètres d’une variable aléatoire 9.1 Espérance mathématique . . . . . . . . . . . . . . . . . 9.2 Moments d’ordre supérieur . . . . . . . . . . . . . . . . 9.3 Variance . . . . . . . . . . . . . . . . . . . . . . . . . . 9.4 Inégalité de Markov et de Bienaymé-Tchebychev . . . . 9.4.1 Expression générale de l’inégalité de Tchebychev 9.4.2 Inégalité de Markov . . . . . . . . . . . . . . . 9.4.3 Inégalité de Bienaymé-Tchebychev . . . . . . . 9.5 Fonction caractéristique . . . . . . . . . . . . . . . . . . 9.6 Fonction génératrice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 92 93 94 94 94 94 95 95 96 . . . . . . . . . . . . . . . . . . 10 Loi d’une variable aléatoire réelle 10.1 Mesure ou loi image et théorème de transfert . . . . . . . . . . . 10.2 Application à une mesure de probabilité . . . . . . . . . . . . . . 10.3 Fonction de répartition d’une variable aléatoire réelle . . . . . . . 10.4 Les densités de probabilité . . . . . . . . . . . . . . . . . . . . . 10.5 Variables aléatoires absolument continues . . . . . . . . . . . . . 10.6 Variables aléatoires discrètes . . . . . . . . . . . . . . . . . . . . 10.7 Exercices corrigés . . . . . . . . . . . . . . . . . . . . . . . . . . 10.7.1 Exercice corrigé 1 . . . . . . . . . . . . . . . . . . . . . 10.7.2 Exercice corrigé 2 : variable aléatoire discrète de Poisson . 10.7.3 Exercice corrigé 3 : le cas de la loi absolument continue dite exponentielle . . . . . . . . . . . . . . . . . . . . . . 10.7.4 Mesure absolument continue par rapport à une autre . . . 10.7.5 Le théorème de Radon-Nikodym . . . . . . . . . . . . . . ix 97 97 100 100 104 105 107 109 109 110 111 112 113 10.7.6 Application aux probabilités : variables aléatoires absolument continues . . . . . . . . . . . . . . . . . . . . . . . 114 11 Exemples de lois 11.1 La loi de Bernouilli . . . . . . . . . . . . . . . . . . 11.2 La loi géométrique . . . . . . . . . . . . . . . . . . 11.3 La loi binomiale . . . . . . . . . . . . . . . . . . . . 11.4 La loi de Poisson . . . . . . . . . . . . . . . . . . . 11.5 La loi uniforme . . . . . . . . . . . . . . . . . . . . 11.6 La loi normale (ou loi de Gauss) . . . . . . . . . . . 11.7 La loi Log Normale . . . . . . . . . . . . . . . . . . 11.8 La loi Exponentielle . . . . . . . . . . . . . . . . . . 11.9 La loi du . . . . . . . . . . . . . . . . . . . . . . 11.10La loi du non centrée de paramètre de décentrage 11.11La loi de Rayleigh . . . . . . . . . . . . . . . . . . . 11.12La loi de Rice . . . . . . . . . . . . . . . . . . . . . 11.13La loi Gamma . . . . . . . . . . . . . . . . . . . . . 11.14La loi de Cauchy . . . . . . . . . . . . . . . . . . . 11.15La loi Beta . . . . . . . . . . . . . . . . . . . . . . . 11.16Loi de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 116 116 117 117 119 119 121 121 122 124 125 125 126 127 127 128 12 Vecteurs aléatoires 130 12.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 12.2 Intégration des vecteurs aléatoires . . . . . . . . . . . . . . . . . 130 12.3 Mesure image et théorème de transfert . . . . . . . . . . . . . . . 131 12.4 Loi de probabilité et espérance mathématique d’un vecteur aléatoire132 12.5 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . 133 12.6 Loi conjointe . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 12.7 Formule du changement de variables . . . . . . . . . . . . . . . . 135 12.7.1 Cas bijectif . . . . . . . . . . . . . . . . . . . . . . . . . 136 12.7.2 Cas général . . . . . . . . . . . . . . . . . . . . . . . . . 136 12.8 Fonction caractéristique . . . . . . . . . . . . . . . . . . . . . . . 136 12.9 Variables aléatoires indépendantes . . . . . . . . . . . . . . . . . 137 12.10Lois conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . 138 12.11Covariance et Matrice de covariance . . . . . . . . . . . . . . . . 140 12.11.1 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . 140 12.11.2 Matrice de covariance . . . . . . . . . . . . . . . . . . . 141 12.12Droite et courbe de régression . . . . . . . . . . . . . . . . . . . 141 x 12.12.1 Droite de régression . . . . . . . . . . . 12.12.2 Courbe de régression . . . . . . . . . . . 12.13Exercice corrigé . . . . . . . . . . . . . . . . . . 12.14Problème corrigé : somme de variables aléatoires densité conjointe . . . . . . . . . . . . . . . . . 12.15Problème corrigé : somme de variables aléatoires n’admettant pas de densité conjointe . . . . . . . 13 Vecteurs gaussiens 13.1 Définition . . . . . . . . . . . . . . . . 13.2 Quelques propriétés du vecteur gaussien 13.3 Quelques figures . . . . . . . . . . . . 13.4 Exercice corrigé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . admettant une . . . . . . . . . indépendantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 142 143 145 148 151 151 151 152 157 14 Variables aléatoires complexes 161 14.1 Variable aléatoire complexe : paramètres . . . . . . . . . . . . . . 161 14.2 Vecteur aléatoire complexe . . . . . . . . . . . . . . . . . . . . . 162 14.3 Vecteur aléatoire complexe gaussien . . . . . . . . . . . . . . . . 162 15 Convergence des variables aléatoires 165 15.1 Convergence en probabilité . . . . . . . . . . . . . . . . . . . . . 165 15.2 Convergence en moyenne d’ordre et loi faible des grands nombres165 15.3 Convergence presque sûre et loi forte des grands nombres . . . . . 166 15.3.1 Inégalité de Kolmogorov . . . . . . . . . . . . . . . . . . 166 15.3.2 Convergence presque sûre . . . . . . . . . . . . . . . . . 167 15.3.3 Loi forte des grands nombres de Kolmogorov . . . . . . . 167 15.4 Convergence en Loi, théorème de la limite centrale et théorème de Lyapounov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 15.5 Exemple d’utilisation du théorème de la limite centrale . . . . . . 169 15.6 Exercice corrigé . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 16 Génération de variables aléatoires . . . . . . . . . . 16.1 Génération de la distribution uniforme sur 16.1.1 Méthode de congruences multiplicatives de Lehmer . . . . 16.2 Génération de variables aléatoires de loi de probabilité quelconque 16.2.1 Génération par inversion de la loi de répartition . . . . . . 16.2.2 Génération par changement de variables . . . . . . . . . . 16.2.3 Génération par convergence en loi . . . . . . . . . . . . . xi 173 173 174 174 174 174 175 16.2.4 Autres méthodes . . . . . . . . . . . . . . . . . . . . . . 175 Bibliographie 175 A Mesurabilité dans 178 B La mesure et l’intégrale de Lebesgue-Stieltjes B.1 Problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.2 Un théorème fondamental d’extension . . . . . . . . . . . . . . . B.3 La construction de Caratheodory . . . . . . . . . . . . . . . . . . B.3.1 Les mesures extérieures et le théorème d’extension de Caratheodory . . . . . . . . . . . . . . . . . . . . . . . . . B.3.2 Construction d’une mesure sur un anneau par extension d’une mesure sur un semi-anneau . . . . . . . . . . . . . B.3.3 Application à la preuve du théorème d’extension . . . . . B.4 La tribu et la mesure de Lebesgue-Stieltjes . . . . . . . . . . . . . B.5 L’intégrale de lebesgue-Stieltjes . . . . . . . . . . . . . . . . . . B.6 Le cas de la mesure de Lebesgue . . . . . . . . . . . . . . . . . . B.7 Complément . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 183 184 185 185 188 190 191 193 194 195 C Compléments sur la comparaison des intégrales de Riemann et de Lebesgue 197 D Probabilités conditionnelles D.1 Un résultat préliminaire . . . . . . . . . . . . . . . . . . . . . . . D.2 Conditionnement par rapport à un événement . . . . . . . . . . . D.2.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . D.3 Conditionnement par rapport à une tribu . . . . . . . . . . . . . . D.3.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . D.3.2 Propriétés de l’espérance conditionnelle . . . . . . . . . . D.3.3 L’espérance contitionnelle par rapport à une tribu est une projection orthogonale . . . . . . . . . . . . . . . . . . . D.3.4 Théorèmes de convergence . . . . . . . . . . . . . . . . . D.4 Conditionnement par rapport à une variable aléatoire . . . . . . . D.4.1 Conditionnement par rapport à une variable aléatoire discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . . . D.4.2 Application aux variables aléatoires absolument continues D.4.3 Courbe de régression . . . . . . . . . . . . . . . . . . . . xii 201 203 204 204 210 210 212 214 215 217 222 224 228 Table des figures 5.1 5.2 5.3 5.4 Intégration de Lebesgue-1 Intégration de Lebesgue-2 Intégration de Lebesgue-3 Intégration de Lebesgue-4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 39 41 42 . . . . . . . . . 117 . . . . . . 118 . . . . . . . . . 118 . . .. .. .. .. .. .. .. 120 120 et (trait . . . . . . . . . 121 " ! . . . . . . . . . 122 $# # . . . . . . . . . 123 . . . . . . . . . 123 &% . . . . . . . . . 124 '( . . . . . . . . . 126 ) * ,+ 0/ 1 et + / ((- . 127 et . . . . . . . . . . 128 43 5 . . . . . . . . . 129 . Distribution de la loi géométrique avec Distribution de la loi Binomiale avec . .et. . Distribution de la loi de Poisson . . . . . Distribution de la loi Uniforme Distribution de la loi Normale : et Distribution de la loi Log Normale : , continue) ou . . . . . . . . . . . . . . . . . . . .. 11.7 Distribution de la loi Exponentielle 11.8 Distribution de la loi du Chi- : . . . . 11.9 Distribution de la loi du Chi- : . . . . . . 11.10Distribution de la loi du Chi- : . . . . . . .. 11.11Distribution de la loi Rayleigh : 11.12Distribution de la loi Gamma : avec avec 11.13Distribution de la loi de Cauchy : ou . . . . . . . . . . . . . . . . . . . . . . . . et 11.14Distribution de la loi Beta : 11.1 11.2 11.3 11.4 11.5 11.6 . . . . 2 76 78 9 ;: 12.1 Nuage de points représentant 1000 réalisations d’un couple gauset ) . . . . . . . . . . . . . . 142 sien corrélées ( 9 < < =6 >8 13.1 Loi gaussienne bidimensionnelle avec , , et . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 13.2 Contours correspondant à la figure 13.1 . . . . . . . . . . . . . . 153 xiii 9 ;: 13.3 Loi gaussienne bidimensionnelle avec . . . . . . . . . . . . . . . . . 13.4 Contours correspondant à la figure 13.3 13.5 Loi gaussienne bidimensionnelle avec . . . . . . . . . . . . . . . . . . 13.6 Contours correspondant à la figure 13.5 13.7 Loi gaussienne bidimensionnelle avec . . . . . . . . . . . . . . . . . 13.8 Contours correspondant à la figure 13.7 9 9 ;: xiv < < , =6 . . . . . . , . . . . . . , . . . . . . . . . . . . , . . . . , . . . . , . . . . >8 . . . . . . < < =6 >8 . . . . . . . . . . . . < < =6 >8 . . . . . . . . . . . . et . . . . . . et . . . . . . et . . . . . . 154 154 155 155 156 156 Liste des tableaux 1 2 Objectifs "être capable de". . . . . . . . . . . . . . . . . . . . . . Objectifs "être sensibilisé à". . . . . . . . . . . . . . . . . . . . . ii iii 12.1 Exemple de loi dont les lois marginales ne permettent pas de retrouver la loi conjointe . . . . . . . . . . . . . . . . . . . . . . . 134 xv Chapitre 1 Espace probabilisable et Espace probabilisé 1.1 Idées fondamentales sur les espaces de probabilité Le but de ce paragraphe est d’introduire le concept d’espace probabilisable. En théorie générale de la mesure et de l’intégration, on parle d’espece mesurable, mais les deux notions sont totalement identiques, comme nous le verrons. Une expérience de physique est toujours assujettie à des conditions expérimentales. Ces conditions expérimentales limitent les expériences que l’on peut réaliser. Pour un jeu de conditions expérimentales données, on parlera donc d’expérience possible ou, de manière abrégée, de possible, par contraste avec toutes les expériences qui sont impossibles relativement à ces mêmes conditions. Prenons un exemple classique qui servira de fil conducteur dans la suite. Supposons que nous disposions d’un dé à six faces. Lancer ce dé et noter le chiffre sur la face supérieure de ce dé est évidemment une expérience possible relativement aux conditions expérimentales que nous nous sommes données. Une expérience qui n’est pas possible sous cette condition expérimentale serait celle consistant à jeter deux dés à faces en même temps puisque nous ne disposons que d’un seul dé. Soit maintenant une expérience possible. Une réalisation de cette expérience est appelée une épreuve. Le résultat de cette épreuve est aléatoire. Le but d’une épreuve est d’observer la réalisation (ou la non-réalisation) d’un événement donné. Un événement peut être observable lors de la réalisation d’une expérience 1 possible ; d’autres événements ne seront pas observables. Ainsi, si nous considérons de nouveau notre expérience consistant à jeter un dé à faces et à noter le chiffre qui apparaît sur la face supérieure, les événements le numéro sortant est le , le numéro sortant est le , , le numéro sortant est le , '( sont trivialement des événements observables (ou observables, en abrégé). Par contre, l’événement le numéro sortant est le n’est pas un obervable. , nous voyons que chaque événement obSi nous posons servable que nous venons de citer correspond, de manière unique, à un singleton . Mais les événements observables pour cette expérience ne se limitent pas à ceux que nous venons de citer. Un événement observable est par exemple Le numéro sortant n’est pas le , qui correspond à la négation logique de l’événement de , c’estLe numéro sortant est le , soit encore au sous-ensemble à-dire le complémentaire de dans . Un autre événement que l’on peut considérer est Le numéro sortant est pair. de , c’est-à-dire, Cet événement corrrespond au sous-ensemble trivialement, à l’union des trois singletons , , ou, de manière équivalente, au "OU" logique ( ) , 2 2 Le numéro sortant est le Le numéro sortant est le Le numéro sortant est le . 2 2 Un autre événement observable est Le numéro sortant est un multiple de autre de . Là encore, cet événeque , qui correspond au sous-ensemble ment correspond au "OU" logique Le numéro sortant est le 2 Le numéro sortant est le Nous pouvons alors considérer l’événement Le numéro sortant est pair et multiple de , ce qui correspond au singleton , mais aussi au "ET" logique ( ) 2 Le numéro sortant est pair 2 Le numéro sortant est un multiple de autre que 2 . Cet événement correspond aussi à l’intersection Ces quelques exemples nous conduisent à munir l’ensemble des événements observables d’une structure logique qui obéit à des conditions de stabilité par rapport aux opérations logiques fondamentales , et la négation. En théorie des probabilités, on préfère l’interprétation ensembliste des événements telle que nous l’avons proposé sur notre exemple de base. Chaque événement observable à l’is sue d’un possible sera identifié à une partie d’un ensemble . Soit alors l’ensemble de ces observables. Cet ensemble sera alors identifié à un ensemble d’ensembles puisque chaque observable est lui-même une partie de . On préfèrera parler de la collection des observables. Conformément aux remarques précédentes, l’axiomatique de la théorie des probabilités consiste à munir cette collection de conditions de stabilité par rapport aux opérations fondamentales sur les ensembles que sont l’union ( ), l’intersection ( ) et le complémentaire. Ainsi, si est un événement observable, nous ferons l’hypothèse que est aussi un événement observable. Si et sont deux événements observables, et seront eux-aussi des événements observables. Si dénote la collection des événements observables, une axiomatique permettant de rendre compte des remarques précédentes consiste donc à supposer que est stable par complémentarité, union et intersection finie. Les jeux de hasard tels que celui de pile ou face, les jeux de dés, de cartes ou la loterie fournissent des exemples d’expériences aléatoires pour lesquelles est fini. Il nous faudra cependant aller un peu plus loin car l’expérience qui consiste à observer le nombre d’appels passant par un central téléphonique par jour, fourni un ensemble infini dénombrable ( ). , l’événement observable "le nombre d’appels est " sera Pour tout identifié au singleton . L’événement "le centre de réception a recu plus d’un appel" se doit d’être observable car c’est le moins que l’on puisse attendre de l’application de la théorie à l’exemple utilisé. Cet événement sera identifié à l’en semble qui est une union dénombrable, certes, mais infinie, de singletons . Nous sommes donc obligés d’introduire une condition de stabilité par rapport , est une séquence d’événements aux unions dénombrables. Si , observables, nous ferons donc l’hypothèse que est aussi un événement observable. Autrement dit, en reprenant les notations précédemment introduites, on demandera à d’être stable par union dénombrable (et donc par intersection dénombrable). Rajoutons à ceci que l’ensemble sera considéré comme un cas trivial d’observable et nous obtenons une définition axiomatique des observables associés à une expérience possible. C’est une collection de sous-ensembles de qui + + + + + (' 3 contient et qui est stable par complémentarité et union dénombrable. Nous venons de définir la notion de tribu (ou -algèbre dans la littérature anglo-saxonne) qui est si fondamentale en théorie des probabilités mais aussi en théorie de la mesure. Nous voyons donc émerger une structure mathématique commode pour dé crire les événements observables à partir d’un ensemble . Il faut cependant gar der à l’esprit que toutes les parties de ne sont pas nécessairement observables, même si l’ensemble des parties de est effectivement une tribu. Parce que l’en semble des parties de est une tribu, on appellera événement tout sous-ensemble de . Mais certains de ces événements, répétons-le, seront observables pour une expérience possible (ils seront membres d’une tribu adaptée à l’expérience que l’on réalise), d’autres non. Par exemple, pour notre passionnant jeu de dé, nous pourrions très bien choisir pour décrire l’expérience en limitant . L’événeles observables à l’ensemble des parties du sous-ensemble ne serait pas observable. Evidemment, choisir cet ensemble pour ment décrire notre jeu de dé n’est pas bien malin. Par contre, supposons que nous dis posions aussi d’un dé à 12 faces. Cet espace nous permet donc de décrire tout aussi bien le jeu de dé à faces (en se limitant à la tribu des observables adéquate) que le jeu de dé à faces (en prenant comme tribu des événements l’ensemble des parties de ). Cet exemple trivial montre aussi, et ceci est particulièrement significatif, que le choix de la tribu est conditionné par l’expérience possible. Cette notion recevra un traitement mathématique particulier dans la suite. Pour finir avec cette introduction des idées fondamentales en théorie des probabilités, mentionnons deux conventions de langage et deux éléments supplémentaires de terminologie. Même si certains événements sont observables et d’autres non, l’usage veut qu’on omette le qualificatif d’observable pour les éléments de la tribu des observables. Ceci est un abus de langage fort acceptable car ce sont ces événements qui nous intéressent et non les événements non observables. Lorsque est fini ou dénombrable, les singletons , , sont généralement des événements observables (mais ce n’est pas forcément vrai, nous l’avons vu). D’où l’usage d’appeler événement élémentaire (ou éventualité) tout élément de . L’ensemble est appelé l’événement certain tandis que l’ensemble vide est l’événement impossible . (( (' 4 1.2 Espace probabilisable ou mesurable De manière générale, on part d’un ensemble arbitraire dont les éléments sont appelés les événements élémentaires. Par toutes les opérations introduites d’événements (observables). précédemment, nous construisons une famille Cette famille est appelée une tribu , ou -algèbre. Définition 1 Soit un ensemble, un ensemble de parties de . On dit que est une tribu de si elle contient et si elle est stable pour les opérations de complémentation et de réunion dénombrable, soit : 1. 2. 3. Le couple définit un espace probabilisable (ou mesurable). On peut véri fier que la tribu des événements est aussi stable pour l’opération d’intersection dénombrable. Exemples de tribus : La collection est la plus petite tribu possible. des parties de est aussi La collection une tribu et c’est même la plus grosse possible. De fait, pour tout sous-ensemble de , il existe au moins une . Comme il est facile de tribu qui contient ce sous-ensemble, en l’occurrence vérifier que l’intersection d’une famille quelconque de tribus est aussi une tribu, la définition suivante a donc un sens. Définition 2 On appelle tribu engendrée par une classe de parties de la plus petite tribu contenant , c’est-à-dire l’intersection de toutes les tribus contenant . La tribu engendrée par est notée . Il est à noter que l’on peut très bien avoir pour deux collections différentes de sous-ensembles de . Par exemple, si et et . En effet, la tribu engendrée par est où , . Définition 3 Soit un espace probabilisable, dénombrable. On dit que la famille est un système complet de constituants pour si et seulement si : a) b) "! 5 En particulier, . Définition 4 Un événement . ou est élémentaire si et seulement si Théorème 1 Soit un espace probabilisable, tel que soit dénombrable. Alors admet un système complet de constituants formé d’événements élémentaires. Nous aurons l’occasion de rencontrer aussi la tribu trace d’une tribu. Cette tribu trace est définie comme suit. Soit un espace probabilisable et soit mesurable. Posons que le sous-ensemble . Noter qu’on ne requiert pas (1.1) Cette collection d’ensembles est une tribu sur . Nous laissons au lecteur le soin de le montrer. Ce n’est vraiment pas difficile. Notons seulement que la stabilité et non dans . On par complémentarité concerne la complémentarité dans pose alors la définition suivante. Définition 5 Soit un espace probabilisable et . On appelle tribu trace de sur , la collection d’ensembles définie par (1.1). 1.3 Tribu des boréliens de La tribu borélienne (ou de Borel ou des boréliens) d’un espace topologique est la tribu engendrée par l’ensemble des ouverts de cet espace. Dans ce cours, nous pour aurons particulièrement besoin de la tribu borélienne de et de celle traiter nombre de cas où l’espace est non dénombrable. Expliquons ceci par un exemple particulier. Considérons le jeu de fléchette avec une cible circulaire. Si l’on admet que le point d’impact est localisé de manière aléatoire, nous pouvons considérer que les événements élémentaires sont représentsés par des points mathématiques situés à l’intérieur d’un cercle de rayon . Les événements possibles sont également des ensembles de points à l’intérieur du cercle. Soit un domaine quelconque l’ensemble des points de la cible appartenant à . On suppose et soit 6 que le point est uniformément distribué, ce qui signifie que la probabilité de l’événement est : où est la surface du domaine . Ceci prouve que tout événement élémentaire a une probabilité nulle puisque la surface associée à un point est nulle. Ainsi, tout événement élémentaire est un événement de probabilité nulle, ce qui n’etait pas le cas pour le jeu de dés où l’ensemble était un ensemble fini. Ainsi dans le cas continu, le calcul de la probabilité d’un événement arbitraire nécessite des méthodes mathématiques plus avancées qui vont reposer sur la notion de boréliens de . Définition 6 La tribu borélienne de est la tribu engendrée par la famille des . Un élément de cette tribu sera appelée ouverts de . Cette tribu sera notée un borélien ou une partie borélienne de . Les propositions suivantes résument les propriétes essentielles de cette tribu. Proposition 1 Tout intervalle (ouvert, fermé ou semi-ouvert) de est un élément . Il en va de même pour toute réunion finie ou dénombrable d’intervalles. de 3 5 La démonstration repose sur le fait que tout intervalle fermé peut s’écrire sous la forme , que tout intervalle est égal à et que tout intervalle . est la réunion dénombrable 5 5 3 5 Proposition 2 La tribu des boréliens de cune des familles suivantes : (i) (ii) (iii) (iv) (v) (vi) (vii) (viii) 3 43 43 3 On a donc est aussi la tribu engendrée par cha- , La tribu des boréliens n’est pas dńombrable. Elle a en fait la puissance du . continu : il existe une bijection entre et 7 1.4 Tribu des boréliens de La tribu des boréliens de se définit de manière analogue à celle de . , est la tribu engendrée par . Définition 7 La tribu borélienne de , notée la famille des rectangles ouverts ou pavés ouverts 3 n’est pas la Nous le verrons un peu plus loin : la tribu borélienne de puissance cartésienne de la tribu des boréliens de . Proposition 3 On démontre que la tribu classe des rectangles de la forme est la tribu engendrée par la où les sont réels. 1.5 La tribu des boréliens de la droite réelle étendue Les détails des résultats donnés ci-dessous sont donnés à l’annexe A. La topologie usuelle de est % 3 et comme nous l’avons dit plus haut, la tribu des boréliens de par les ouverts de cette topologie usuelle. est celle engendrée Pour définir une tribu commode sur , on procède de manière analogue. On commence par se donner une topologie, dite usuelle, sur , puis on appelle tribu de , la tribu engendrée par les ouverts de au sens de cette topologie usuelle. Les détails de cette construction sont donnés à l’annexe A. Le résultat le plus important est la propostion suivante. Proposition 4 La tribu des boréliens de quelconque des collections suivantes : 3 . . . . On a donc 3 , notée est engendrée par l’une . Exercice 1 Montrer que la tribu trace de . boréliens 8 sur est exactement la tribu des 1.6 Mesure positive un espace probabilisable. Une application Définition 8 Soit une mesure positive si pour toute suite dénombrable d’événements est mutuellement disjoints (ou incompatibles, ), on a : Cette propriété est la propriété dîte de -additivité . Le triplet espace mesuré. (1.2) est appelé De cette définition, nous pouvons déduire les quelques propriétés suivantes : 1. 2. Soit une suite d’événements de . Alors : Si les événements vient une égalité : 3. 4. sont de plus mutuellement disjoints, l’inégalité de- soit une suite croissante d’événements (au sens de l’inclusion) et est croissante et converge vers soit . Alors la suite quand . # . soit une suite décroissante d’événements telle que Soit est décroissante et converge vers quand 3 . Alors la. suite 5. Exemples de mesures : – La mesure nulle est celle qui vaut pour tout événement. – La mesure infinie est celle qui vaut pour tout événement qui n’est pas vide et zéro pour l’ensemble vide. 9 – La mesure de Dirac en un point de est notée et vaut si sinon (1.3) pour . – La mesure de comptage est celle qui associe à un événement son cardinal. # Définition 9 Soit . un espace mesuré. La mesure est dite bornée si Une conséquence immédiate de cette définition est que, dans ce cas, la mesure de tout événement de la tribu est finie. 1.7 La mesure de Lebesgue Nous définissons maintenant la mesure qui est la plus importante en analyse et en probabilités. C’est la mesure de la longueur dans le cas Lebesgue qui mesure de , la surface dans le cas de , le volume dans et qui se définit dans tout , . Commençons par muni de sa tribu des boréliens intervalles est usuelle : 3 que égale , , . ou La longueur des (1.4) On peut montrer, et ce n’est pas si simple qu’il n’y paraît, que dès que les sont des intervalles deux à deux disjoints dont l’union est encore un intervalle. Ceci ressemble à la propriété de -additivité mais il faut encore travailler car l’ensemble des boréliens de ne se limite pas à l’ensemble des intervalles ouverts, fermés ou semi-ouverts. Avec beaucoup de sueur, on arrive à montrer le théorème suivant. Théorème 2 Il existe une et une seule mesure positive sur qui vérifie (1.4). La mesure de Lebesgue est définie comme étant cette unique mesure positive. Ce résultat est un des plus difficiles à montrer. Nous omettrons donc sa démonstration mais le lecteur intéressé peut se reporter à l’annexe B qui présente 10 une synthèse de la la construction de la mesure de Lebesgue-Stieltjes. Le théorème précédent est un cas particulier de cette construction. La difficulté majeure est l’existence de la mesure . C’est le théorème de prolongement dont une version plus générale est donnée par le théorème 35 : on connaît sur la classe des intervalles ouverts à gauche et fermés à droite ; cette classe engendre bien la tribu des boréliens et la partie difficile est de montrer que . Il est plus facile de montrer l’unicité. peut être prolongée à toute la tribu En fait, la tribu des boréliens n’est pas la plus grande tribu sur laquelle on peut définir la mesure de Lebesgue et cela apparaît dans la démonstration même du résultat. Le prolongement qui assure l’existence de la mesure de Lebesgue se plus grande que . Cette tribu est ce qu’on appelle fait sur une tribu . Nous reviendrons sur ce point un peu plus tard. Ce qu’il la "complétée" de faut retenir pour l’instant est : est ce qu’on appelle la tribu de Lebesgue sur ; (a) Ladite tribu (b) Même si, par abus de langage, la tribu de Lebesgue est souvent confondue avec la tribu des boréliens pour des raisons que nous expliciterons au chapitre 6, la tribu des boréliens est strictement incluse dans la tribu de Lebesgue. Voici quelques propriétés simples de la mesure de Lebesgue : – La mesure de Lebesgue est invariante par translation et c’est d’ailleurs la seule mesure sur qui vérifie cette propriété. – La mesure de Lebesgue des singletons est nulle. – Tout ensemble fini ou dénombrable est un borélien de mesure nulle. non vide. Cet intervalle est évidem– Considérons un intervalle . ment l’union infinie mais non dénombrable des singletons où Cependant, on ne pourra pas écrire . Ceci pour deux raisons. La première est que la mesure de chaque singleton est nulle de sorte que la seule valeur raisonnable que l’on pourrait donner à cette somme serait . La seconde raison est qu’on ne sait pas définir la somme d’une infinité non dénombrable de termes. Ceci explique pourquoi la définition d’une tribu se limite à des unions au plus dénombrables et pourquoi, par conséquent, la -additivité elle-aussi ne concerne que des réunions dénombrables. Définissons maintenant la mesure de lebesgue de assez direct. Le "volume" d’un rectangle 11 3 , . En fait, c’est est (1.5) et nous avons l’analogue du théorème 2 : Théorème 3 Il existe une et une seule mesure sur (1.5). cette unique mesure est la mesure de Lebesgue. qui vérifie 1.8 Définition d’une probabilité La notion de mesure introduite plus haut nous permet de définir la notion de probabilité. Définition 10 Soit un espace probabilisable. Une probabilité telle que mesure positive bornée sur est une Nous pouvons donner une autre définition de la probabilité utilisable en pratique. un espace probabilisable. On appelle probabilité toute dans telle que : Définition 11 Soit application de 1. 2. (relation de normalisation) Pour toute suite décroissante d’événements de , notée convergeant est décroissante et converge vers (relation de vers , la suite 3. Pour tout couple d’événements disjoints de , (relation d’additivité) 4. continuité) Exercice 2 Montrer que les définitions 10 et 11 sont effectivement équivalentes. Le triplet est un espace mesuré, certes, mais étant muni d’une mesure de probabilité, on préfère parler d’espace probabilisé. Une probabilité est entièrement définie par la donnée des valeurs prises par chaque événement d’un système de constituants. Pour construire une probabilité sur un espace probabilisable dénombrable, on peut utiliser le théorème ci-dessous. 12 Théorème 4 Soit un espace probabilisable où est dénombrable. On sup . pose que est un système complet de constituants tel que , est entièrement connue si on connaît a) Si est une probabilité sur les . b) Réciproquement, soit une suite de réels à valeurs dans telle vérique . Alors il existe une unique probabilité sur fiant . 1.9 Espace produit Remarquons qu’à une expérience aléatoire répétée plusieurs fois correspond un espace produit. Le cas du jeu Pile ou Face répété une infinité de fois donne comme élémentaire une suite ordonnée infinie de Piles et de Faces : événement et . (( 1.10 Exercice corrigé Soit l’expérience aléatoire consistant à lancer une pièce jusqu’à l’apparition qui modélise cette expérience. de pile. Donner l’espace de probabilité Réponse : (' (' est donc dénomL’événement ”Pile n’apparaît jamais” est à considérer. brable. La tribu peut être choisi comme . On obtient ainsi un espace probabilisable. La probabilité , peut être choisi, comme : (' . Pour l’événement élémentaire (( , onesta le -uplet . On peut vérifier que est une probabilité (la 3 ). On obtient ainsi un espace probabilisé. propriété de la additivité et où Compléments : Boréliens d’un espace topologique Le fait que et que puissent être munis de structures topologiques, dites usuelles, nous permet de rendre ces ensembles mesurables en considérant la tribu engendrée par les 13 éléments de ces topologies. De là, à construire un espace mesurable à partir de tout espace topologique, il n’y a qu’un pas. En fait, en théorie de l’intégration, on pose la définition générale suivante. un espace topologique. La tribu Définition 12 Soit espace topologique est la tribu engendrée par les éléments de des boréliens de cet : Exercice 3 Comment peut-on définir la tribu des boréliens de , de 14 où ? Chapitre 2 Calcul combinatoire des probabilités 2.1 Généralités Dans ce chapitre, nous considérons des ensembles d’événements élémentaires finis ou infinis dénombrables munis de la tribu constituée par toutes les parties . La donnée d’une probabilité sur est équivalente à la de : de nombres donnée d’une famille finie ou infinie dénombrable compris entre 0 et 1 telle que . Dans le cas d’un fini, un exemple est la probabilité uniforme pour lequel chaque événement élémentaire a la même probabilité. On a alors : et Nb de cas favorable Nb de cas possible (2.1) (2.2) Cette probabilité traduit mathématiquement l’expression "au hasard". 2.2 Rappels d’analyse combinatoire '( une population formée de individus distincts. Soit Un échantillon (( de taille extrait de cette population est une suite ordonnée de éléments de . Il faut distinguer deux manières de tirer un échantillon : 15 '( – tirage avec remise : la suite peut comporter plusieurs fois le même élément. On a et – tirage sans remise : ( on a : (2.3) ), 3 (' 3 3 (2.4) Un tirage dans ce cas est un arrangement. On peut définir aussi les sous-populations de taille p ( ) de . C’est un sous-ensemble de comportant éléments distincts pour lequel l’ordre n’intervient plus. Le nombre de tels sous-ensembles est égal au nombre d’échantillons de taille , sans remise, divisé par qui est le nombre de bijections (on dit aussi de permutations) d’un ensemble à éléments. On a alors : 5 3 est appelé aussi le nombre de combinaisons de (2.5) éléments parmi . 2.3 Exemple Considérons le jeu de Bridge (jeu à 52 cartes). La distribution des cartes étant faite au hasard. "La main" d’un joueur est une sous-population de 13 . Soit l’événement cartes. Le nombre de "main" possible est le joueur a exactement 3 As . On a : . 2.4 Exercice corrigé On lance successivement 3 dés distincts équilibrés. 1. Définir l’ensemble des événements élémentaires . 2. Quel est le nombre d’événements élémentaires (ou 16 )? . 3. Soit 4. Soit l’événement "obtenir le même résultat pour les trois dés". Calculer . l’événement "obtenir trois résultats différents". Calculer . l’événement "au moins deux dés donnent le même résultat". Calculer 5. Soit 6. Soit l’événement "deux dés parmi les trois donnent le même résultat, le troisième donnant un résultat différent". Calculer . Réponse : 1. L’ensemble 2. Il y a 3. est l’ensemble des triplets d’entiers définis par : événements élémentaires ayant la même probabilité 5 Pour obtenir l’événement , il faut obtenir un triplet de la forme . et six situations différentes sont possibles. En conséquence, nous avons : 5 5 2 4. L’événement obtenu lorsque les trois résultats sont différents. Ceci peut s’écrire sous la forme avec distincts. Choisissons tout d’abord : il y a six possibilités. Nous devons ensuite choisir tel que , il y a ainsi 5 choix différents possibles. De même, pour , qui doit être différent de et , n’a que 4 choix possibles. Nous obtenons par conséquent : 5. Remarquons que 3 5 5 : , et par suite : 3 3 5: 5: 6. Les événements prennent la forme ou ou , où correspondants . Le nombre d’événements distincts de la forme est évidemment . En conséquence, la probabilité de l’événement vaut : 2 : 5 17 5 On que et il est évident que tout événement . Les événements et vérifie appartient à la réunion , constituent une partition de . Si on prend comme tribu, l’ensemble l’ensemble des parties de , on définit ainsi, , un espace probabilisable (dit aussi mesurable). Muni de la probabilité uniforme (équiprobabilité entre les . événements élémentaires), on obtient un espace probabilisé 18 Chapitre 3 Probabilités conditionnelles et indépendance 3.1 Probabilités conditionnelles 3.1.1 Définition un événement de Définition 13 Etant donné un espace probabilisé de probabilité non nulle. La probabilité de l’événement etconditionnelllement à l’événement , notée , est définie par : 5 5 (3.1) Remarques : se lit aussi "probabilité de sachant ". 1. 2. Notez que l’on utilise également cette notion sous la forme : 5 que l’on généralise à : (( 5 5 5 '( 5 (( 3. Nous pouvons aussi déduire ce que l’on appelle la règle de Bayes, écrite sous la forme : 5 19 5 Proposition 5 L’application : 3 3 ). est une probabilité (sur 3.1.2 Formule de Bayes Soit une partition finie ou infinie de Une telle partition est caractérisée par : Nous en déduisons la formule de Bayes : 5 telle que pour tout , et On a alors pour tout événement arbitraire : 5 5 % . (3.2) 5 (3.3) (3.4) C’est une conséquence directe de la règle de Bayes. 3.2 Evénéments indépendants 3.2.1 Indépendance de deux événements Définition 14 Soit un espace probabilisé et A et B deux événements. On dit que A et B sont stochastiquement indépendants si et seulement si : Remarques : (3.5) 1. Lorsque sont stochastiquement indépendants si et seule , A et B, ce ment si qui signifie que la probabilité de n’est pas modifiée par la réalisation de . 5 20 2. La notion d’indépendance dépend de la probabilité . Deux événements peuvent être indépendants pour une probabilité et pas pour une autre probabilité . 3. Un événement de probabilité nulle est indépendant de n’importe quel événement de probabilité non nulle. 4. Si et sont indépendants alors et ou ( et )). 5. Si et et sont indépendants alors : sont indépendants (idem pour 3 (3.6) Exemple : Dans le cas du lancer d’un dé, considérons les deux événements . Pour la probabilité uniforme, et sont indépendants puisque : et 2 2 3.2.2 Indépendance d’une suite d’événements Définition 15 Soit une suite (finie ou infinie) d’événements d’un espace pro . On dit que la suite est indépendante si et seulement si babilisé extraite de la suite , on a : pour toute suite finie '( (3.7) Remarques : 1. Cette définition est équivalente à : pour tout indices . 2. La suite % 5 (( (( deux à deux distincts tels que est indépendante implique que la suite ou ) est indépendante. 21 (où désigne 3.2.3 Théorème de Borel-Cantelli Soit une suite d’événements. L’événement “un nombre infini d’évé . Dans le nements a lieu” est appelé limite supérieure de la suite et est noté même esprit, l’événement “seul un nombre fini d’événements a lieu” est appelé . limite inférieure de la suite et est noté On peut écrire : Ces deux événements étant introduits, nous pouvons énoncer le théorème de Borel-Cantelli. Ce théorème est utilisé pour démontrer la convergence presque sûre d’une suite d’événements (cf. section ??). Théorème 5 (Théorème de Borel-Cantelli) 1. Si une suite d’événements . est telle que 2. Si une suite d’événements indépendants , alors . # est telle que , alors 3.3 Indépendance de tribus Pour terminer ce chapitre, nous noterons que l’indépendance s’étend aux tribus : Définition 16 Soit un espace probabilisé. Une suite de sous tribu de est dite indépendante si et seulement si pour toute suite d’événements , , est indépendante. telle que 3.4 Exercice corrigé Dans une population, des individus sont contaminés par un virus. On dispose d’un test de dépistage qui présente les propriétés suivantes : Parmi les indivi dus contaminés, le test est positif à ; Parmi les individus non contaminés, le test est tout de même positif à (il y a donc des risques de mauvais diagnostic). 2 :: 22 1. Quelle est la probabilité, que le test appliqué à un individu pris au hasard soit positif ? 2. Sachant, pour un individu donné, le test est positif, quelle est la probabilité que cet individu soit contaminé ? 3. Calculer les probabilités intéressantes pour ce problème et en déduire les remarques de bon sens que cela vous inspire. Eléménts de correction de l’exercice : Définissons les événements dans notre population . "le test est positif", "l’individu est contaminé", Les données de l’énoncé s’interprétent en disant que : , , . :: 5 5 2 5 5 : 1. On a . Le fait qu’il y ait beaucoup de gens bien portant fragilise la fiabilité du test. 2. 5 5 Un tiers ( ) des personnes qui ont fait virer le test ne sont pas contaminés. Il est difficile de faire un test fiable quand la maladie est rare. 3. On peut s’amuser à calculer d’autres probabilités non demandées par l’énoncé. 5 5 :: : 23 Il est aussi interessant de se poser la question des malades non dépistés par le test. 5 5 Peu de personnes contaminées ne seront pas dépistées par le test. Faire les tests dans les populations exposées au virus est une bonne stratégie de politique de santé publique. 24 Chapitre 4 Variables aléatoires (réelles et généralisées) Dans de nombreuses expériences physiques ou dans des problèmes de traitement du signal il est nécessaire d’associer une valeur numérique aux résultats d’une épreuve expérimentale. Dans le cas du lancer d’une pièce on pourra à l’événement élémentaire Pile et à par exemple décider d’associer Face. Nous devons donc savoir comment associer une valeur numérique à chaque élément de l’ensemble et introduire des applications prenant des valeurs réelles. Les notions d’application mesurable, de variable aléatoire et de variable aléatoire généralisée permettent de poursuivre dans cette voie de façon satisfaisante. 3 Avant de continuer, donnons quelques précisions d’ordre terminologique. Par fonction , nous entendons une correspondance entre et pour laquelle tout élément de a au plus une image dans . Par application, nous entendons une fonction pour laquelle tout élément de a une image et une seule dans . Cette terminologie n’est pas exactement celle utilisée dans la littérature anglosaxonne. Les termes "function" et "application" se rencontrent dans cette littérature avec le sens que nous venons de donner. En général, cependant, le terme "map" ou "mapping" est utilisé dans le sens d’application. Le terme de "function" est alors souvent employé pour désigner une application à valeurs dans , , voire . Attention donc lors de la lecture d’articles et d’ouvrages. 25 4.1 Applications mesurables et deux espaces probabilisables. Soit Définition 17 Soient une application de dans , est une application mesurable de dans si l’image réciproque de tout sous-ensemble mesurable de (id est, tout élément de ) est un sous-ensemble mesurable de (id est, un élément de ). On rappelle que si est un sous-ensemble de (non nécessairement mesurable, est l’ensemble des éléments de dont notons le), l’image réciproque l’image par appartient à : Ne pas confondre cette notation avec celle utilisée pour désigner la fonction réciproque ou fonction inverse de lorsque cette fonction est bijective. appartient à pour tout Si est mesurable, pour signifier que parfois rapport aux tribus mises en jeu. Lorsque respectives dans et on écrit est mesurable par et avec avec leurs tribus boréliennes respectives, une fonction mesurable de etest appelée fonction borélienne. Exemples : Avec les notations introduites précédemment : 1. Si de toutes ses parties, toute application de est muni de la tribu dans est mesurable. 2. Toute fonction constante de dans est mesurable. 4.2 Variables aléatoires réelles et généralisées La terminologie que nous utilisons est celle proposée dans [11], qui est une référence que nous utiliserons pour la présentation des processus aléatoires. Définition 18 Soit un espace probabilisable. (i) On appelle variable aléatoire réelle toute application mesurable de où désigne la tribu des boréliens de . dans 26 (ii) On appelle variable aléatoire généralisée toute application mesurable de dans où désigne la tribu des boréliens de la droite étendue . Remarques : 1. Dans la pratique, les variables aléatoires sont en général suffisantes pour traiter les problèmes usuels. Nous introduisons les variables aléatoires généralisées car celles-ci interviennent dans certains cas qui ne sont pas pathologiques mais qui jouent un rôle significatif. 2. La définition d’une variable aléatoire, qu’elle soit réelle ou généralisée, ne demande pas à ce que l’ensemble soit probabilisé ou non. Il faut quand même que cet ensemble soit muni d’une tribu. pour désigner les 3. En général, on utilise les lettres majuscules variables aléatoires réelles ou généralisées. 4. Si réciproque de par une variable aléatoire , l’image est souvent au lieu de . notée (( Il en va de même si et est une variable aléatoire généralisée. est un espace 5. A titre d’exercice, le lecteur pourra montrer que si probabilisable, alors les trois propositions suivantes sont équivalentes : (i) 1l est une variable aléatoire ) (ii) est un ensemble mesurable ( (iii) 1l est une variable aléatoire généralisée Ce résultat illustre la cohérence entre la notion de mesurabilité d’une fonction et celle d’un ensemble. Il est bon de garder à l’esprit les lemmes suivants, dont les démonstrations aisées sont laissées au lecteur. un espace probabilisable, et la tribu trace de Lemme 1 Soit sur , c’est-à-dire la collection . Soit ou et l’espace mesurable correspondant. une application mesurable. (a) Soit de à définie, pour (i) La restriction tout , est mesurable par rapport aux tribus et , par . 27 (ii) L’application 1l aux tribus et . (b) Soit , désignons par Alors est mesurable par rapport une application mesurable. Pour tout l’extension de définie par si si est mesurable par rapport aux tribus et . Lemme 2 Soit un espace probabilisable, et pace mesurable correspondant. Soit est incluse dans : . l’image ou et l’es une application dont la tribu trace de sur , l’application En désignant par est mesurable et si et seulepar rapport aux tribus est mesurable par rapport aux ment si l’application tribus et . En gardant les notations de ce lemme, celui-ci signifie en particulier que la entraîne celle de lorsqu’on est mesurabilité de considérée comme une application à valeurs dans qui contient . Aussi, une variable aléatoire réelle est un cas particulier de variable aléatoire généralisée. Une variable aléatoire réelle est aussi un cas particulier de variable aléatoire complexe. De même une variable aléatoire généralisée positive, c’est-à-dire une variable aléatoire comme une va peut être considérée et une variable riable aléatoire généralisée. aléatoire réelle positive est aussi un cas particulier de variable aléatoire et de variable aléatoire généralisée positive. 4.3 Critères de mesurabilité Le premier critère que nous énonçons ci-dessous est celui que l’on présente classiquement en théorie de la mesure et de l’intégration. Il n’est ni plus simple, ni plus compliqué que ses applications aux variables aléatoires réelles et généralisées. 28 où et sont deux espaces proProposition 6 Soit . Pour que babilisables. Soit une classe de parties de telle que appartienne à pour tout élément soit mesurable, il faut et il suffit que de . Nous proposons au lecteur de prouver ce résultat sous forme d’exercice selon les étapes suivantes. Exercice : 1. Montrer que la condition est nécessaire 2. Réciproquement, supposons que dans et considérons (b) Montrer que est une tribu de est inclus (a) Montrer que et en déduire que (c) Conclure Un critère fort utile dès que l’on considère des applications définies sur un espace vectoriel de dimension finie et à valeurs dans un autre espace vectoriel de dimension finie est le suivant. Proposition 7 Toute application continue de rélienne. dans où est bo- Nous passons maintenant au cas des variables aléatoires réelles grâce à la proposition suivante qui est une application directe des propositions 6 et ??. Proposition 8 Soit un espace probabilisable. Pour qu’une application soit une variable aléatoire, il faut et il suffit qu’elle vérifie l’une quelconque des conditions suivantes : (i) (ii) # est un élement de est un élement de pour tout pour tout 29 . . Exercice 4 Avec les notations introduites ci-dessus, montrer que pour que soit une variable aléatoire, il faut et il suffit que l’une quelconque des conditions suivantes soient réalisées : (iii) (iv) % est un élement de est un élement de pour tout pour tout . . Exercice 5 Enoncer un critère de mesurabilité basé sur les intervalles , , , . , Exercice 6 Soit . Montrer que est mesurable lorsque est muni de la tribu si et seulement si l’une quelconque des conditions (i-iv) de la proposition 8 et de l’exercice 4 est vérifiée. Exercice 7 Montrer que l’on peut remplacer " énoncés des exercices précédents. " par " " dans les 4.4 Propriétés élémentaires des applications mesurables et des variables aléatoires réelles Les propriétés suivantes sont celles des applications mesurables et sont donc valables pour les variables aléatoires puisque celles-ci sont les applicationes mesurables à valeurs dans muni de sa tribu des boréliens. et , espaces proProposition 9 Soient trois babilisables. Si est une application mesurable de dans dans , alors l’apet une application mesurable de dans plication composée est une application mesurable de . ) Proposition 10 Soient variables aléatoires réelles ( définies sur le même espace probabilisable et ( ) une fonction borélienne. L’application définie, pour chaque , par dans . mesurable de 30 (' (' est alors Nous engageons le lecteur à démontrer ce résultat à titre d’exercice. Pour cela, il devra utiliser les propositions 3, 8 et 9. Ce résultat permet de construire énormément d’applications mesurables et de variables aléatoires. Il est particulièrement utilisé lorsque la fonction ci-dessus sont des variables aléatoires, les applicaest continue. Ainsi, si tions suivantes (' (i) (ii) (iii) où les sont réels, où chaque est un entier relatif, non nul si (( et '( peut s’annuler, sont aussi des variables aléatoires réelles. Exercice 8 Soient et , ensembles considérer l’application deux variables aléatoires réelles. Montrer que les # et sont mesurables. (Indication : 3 ). Exercice 9 Le rapport de deux variables aléatoires étant nul par convention lorsque le numérateur et le dénominateur le sont simultanément, montrer qu’avece cette convention, le rapport de deux variables aléatoires réelles est une variable aléatoire généralisée. 68 Cet exercice nous donne un premier exemple de l’importance des variables aléatoires généralisées. 4.5 Limites de variables aléatoires une séquence à valeurs dans Soit . Posons (( pour + (( . Il est facile de voir ou que la séquence est décroissante. A ce titre, elle admet donc une limite dans qui peut donc être 3 . Posons / ( ( . La valeur / est appelée limite supérieure de la séquence et l’on écrit / ou encore / 31 La limite inférieure de la suite est définie de manière analogue. Si pour , la séquence on considère la suite est croissante et admet donc une limite dans . On pose donc . La valeur est appelée limite inférieure de la sé quence et l’on écrit (( + (( (( ou encore On peut remarquer que 3 43 On montrera à titre d’exercice que pour que la suite . et il suffit que (4.1) converge il faut Ce que nous venons de rappeler pour les séquences de valeurs réelles peut s’appliquer à des séquences d’applications à valeurs dans ou à valeurs dans . Nous pouvons, en particulier, appliquer ces notions aux variables aléatoires un espace réelles et aux variables aléatoires généralisées. En effet, soit une séquence de variables aléatoires réelles ou généprobabilisable et (resp. comme l’apralisées. Nous pouvons alors définir , associe la valeur plication définie sur et à valeurs dans qui, à tout ), c’est-à-dire la limite supérieure (resp. la (resp. . limite inférieure) de la suite et Nous sommes obligés de considérer les applications comme des applications à valeurs dans et non pas simplement dans pour la simple et bonne raison que les limites supérieures et inférieures d’une séquence de réels, même si elles existent toujours, ne sont pas nécessairement finies. Proposition 11 Soit néralisées. (i) Les applications (ii) Les applications néralisées. une séquence de variables aléatoires réelles ou gé- et et sont des variables aléatoires généralisées. 32 sont des variables aléatoires gé- (iii) Si la suite généralisée. converge simplement, sa limite est une variable aléatoire Cette proposition nous montre, une fois de plus, que les variables aléatoires généralisées ne sont pas curiosités pathologiques mais interviennent de manière naturelle dans la théorie. une suite de variables aléatoires réelles, montrer que Exercice 10 Soit converge est mesurable (utiliser le l’ensemble des où la suite résultat de l’exercice 8). En est-il de même si la séquence est une suite de variables aléatoires généralisées ? Compléments : variable aléatoire complexe et sont mesurables. D’où la définition et de dire que est mesurable si suivante. est une variable Définition 19 Soit un espace mesurable. On dit que aléatoire complexe si les parties réelles et imaginaires de sont des variables aléatoires Soit un espace mesurable et . Comment peut-on définir une notion de mesurabilité pour à partir de celle qui a été introduite précédemment ? C’est très où facile. Il suffit d’écrire sous la forme sont les parties réelles et imaginaires respectives de définies pour tout par : réelles. 33 Chapitre 5 Intégration des variables aléatoires réelles et généralisées (intégrale de Lebesgue) 3 # # une fonction intégrable au sens de Riemann où Soit . Il est connu que la quantité représente la moyenne de cette fonction . De manière analogue, l’intégrale d’une variable aléatoire va représenter la moyenne de cette variable aléatoire. On préfère alors parler d’espérance (mathématique) de la variable aléatoire concernée. Toute la difficulté va être de définir cette intégrale de variables aléatoires en se servant uniquement de la structure de tribu dont est muni l’espace probabilisé et des propriétés fondamentales de la probabilité (la -additivité en particulier). Dans toute la suite de ce chapitre, nous nous plaçons dans le cas général d’un muni d’une mesure , qui n’est pas espace probabilisable (ou mesurable) forcément une mesure de probabilité. Si nous présentons l’intégration dans ce cadre abstrait, c’est tout simplement parce que la construction de l’intégrale par rapport à la mesure de Lebesgue sur ou par rapport à une mesure de probabilité n’est absolument pas plus simple que la théorie générale. # La construction de l’intégrale se fait usuellement en trois étapes : 1. On définit l’intégrale des variables aléatoires à valeurs dans variables aléatoires généralisées positives ; , dites 2. On définit l’intégrale des variables aléatoires à valeurs dans en écrivant une telle variable aléatoire comme différence de deux variables aléatoires 34 généralisées positives ; 3. On définit l’intégrale d’une variable aléatoire complexe en intégrant la partie réelle et la partie imaginaire de cette application à valeurs complexes qui sont des variables aléatoires réelles, donc des cas particuliers de variables aléatoires généralisées. Dans la suite, nous nous intéressons principalement aux deux premières étapes, la troisième étant présenté sous forme de compléments au cours à la fin de ce chapitre. 5.1 La construction usuelle de l’intégrale des variables aléatoires réelles gńéralisées positives Il est d’usage de construire l’intégrale des fonctions réelles positives en deux sous-étapes. On commence par définir l’intégrale des variables aléatoires dites . L’insimples parce qu’elles ne prennent qu’un nombre fini de valeurs dans tégrale d’une variable aléatoire réelle positive sera alors le supremum des intégrales de toutes les variables aléatoires simples qui minorent . On part de la définition suivante : Définition 20 Soit espace probabilisé. Une variables aléatoire gé est un néralisée appelée fonction simple ou fonction étagée si elle ne prend qu’un nombre fini de valeurs dans . On notera l’ensemble de ces fonctions simples. Soit l’image de par . On peut donc écrire 1l (5.1) et 1l désigne la fonction où, par convention, , 1l indicatrice d’un ensemble quelconque : 1l si sinon. Cette écriture, dite canonique, est unique car les ensembles . De plus, chacun de ces ensembles est mesurable forment une partition finie de puisque est mesurable, de sorte que a un sens. Avec la convention , on définit l’intégrale des fonctions simples comme suit. 35 Définition 21 Soit un espace probabilisé. L’intégrale de toute fonction simple 1l par rapport à la mesure est la valeur réelle posi ou et définie par tive notée indifféremment (5.2) L’intégrale d’une fonction simple est donc une valeur de . Cette intégrale possède des propriétés qui seront étendues plus loin (cf. théorème 9). Lemme 3 Soit un espace mesuré, deux fonctions simples. (i) implique que . (ii) (iii) et . P REUVE : Les assertions (i) et (ii) sont immédiates. Nous nous contentons donc de démontrer (iii). 1l . Comme les enOn pose 1l et forment une partition finie de , on a sembles Aussi, 1l 1l calcul analogue, on aura 1l 1l 1l . Par un de sorte que 1l 1l . Nous en déduisons 1l 1l de sorte que 36 Le premier terme du membre de droite est égal alors à . Le second terme du membre de droite est égal à à-dire . D’où le résultat. c’est-à-dire , c’est , On passe alors à l’intégrale des fonctions mesurables à valeurs dans grâce au lemme suivant. Lemme 4 Toute variable aléatoire généralisée à valeurs dans simple d’une suite croissante de fonctions simples. La démonstration de ce lemme est très simple. Soit , il suffit de poser généralisée à valeurs dans +5 si si est limite une variable aléatoire # et + (( 3 (5.3) On pose alors la définition suivante : Définition 22 L’intégrale par rapport à sée est et définie parla valeur de de toute variable aléatoire générali ou , indifféremment notée et (5.4) 5.2 Une construction algorithmique de l’intégrale des variables aléatoires réelles gńéralisées positives La définition de l’intégrale d’une variable aléatoire généralisée positive comme le supremum des intégrales de toutes les fonctions simples minorant cette variable aléatoire ne constitue pas un moyen commode de calculer cette intégrale en pratique. La construction que nous présentons dans cette section est, elle, plus algorithmique car basée, dès le départ, sur une définition "numérique" de l’intégrale. Cette présentation est totalement équivalente à la précédente et se rencontre assez peu dans la littérature. Elle est rapidement esquissée dans [21, Chapter I, page 14]. 37 (( (( Comme le disent les auteurs, la définition que nous allons donner est " the best to keep in mind when thinking intuitively" et " for technical purposes (that is, proving theorem !) one makes a different definition (celle donnée au paragraphe précédent) which can be shown to agree with this definition (celle que nous donnons maintenant) after a lot of work.". Intégrer une fonction positive selon l’approche de Riemann consiste à approcher la fonction considérée par une suite de fonctions en escalier ou étagées. Cette façon d’opérer est intimement liée aux propriétés de l’ensemble de départ. L’intégrale ainsi obtenue représente la surface située sous le graphe de la fonction positive. ./-0" Considérons maintenant les figures 5.1 et 5.2. , & $ %'&()*+#" !#" F IG . 5.1 – Intégration de Lebesgue-1 38 - ./-0" & , - . &"!$# &(. !"# . %!$# !"# . &!$# F IG . 5.2 – Intégration de Lebesgue-2 Ici, on compte à l’envers par rapport à l’intégration de Riemann : on part de valeurs discrètes prises par la fonction et on mesure la "longueur" (dans le cas considéré ici de ) de l’ensemble des points où la fonction prend ces valeurs. On voit tout de suite que pour compter ainsi, on a besoin uniquement d’une "mesure" sur l’ensemble de départ et pas de propriétés trop spécifiques de cet ensemble de départ, qui est ici pour simplifier la présentation, mais qui pourrait être tout ensemble mesurable. On voit aussi qu’il va falloir que les applications que l’on va intégrer soient mesurables pour que les images inverses soient elles-mêmes 39 mesurables. En augmentant le pas de discrétisation comme proposé dans les figures 5.1 et 5.2, nous voyons aussi, que comme dans le cas de Riemann, nous approchons par approximations successives l’aire située sous le graphe de la fonction. La définition suivante, qui est celle adoptée dans [21, page 14], n’est que la transcription formelle des remarques intuitives qui précèdent. Définition 23 (Intégration des variables aléatoires à valeurs dans .) Soient un espace mesuré et une variable aléatoire. ou L’intégrale de par rapport à est la quantité notée indiféremment et définie par : # (5.5) Mais en fait, il existe une autre façon de faire le calcul. C’est celle présentée par les figures 5.3 et 5.4. Dans ces figures, l’aire située sous le graphe de la fonction est approchée à l’aide par empilement. Intuitivement, nous devrions donc avoir aussi (5.6) # $ Ce résultat peut effectivement se démontrer mais la démonstration n’est pas simple. Nous la donnerons pas ici car le chemin est relativement long et technique pour parvenir au résultat. Nous admettrons donc le résultat qui se retrouve d’ailleurs à partir de la définition "universelle" donnée au paragraphe précédent. En fait, pour arriver exactement au même point que là où nous en sommes avec l’approche classique, il nous faut (a) étendre la définition aux variables aléatoires réelles positives à valeurs dans (section suivante) (b) Montrer que la définition que nous venons de donner reste compatible de la définition 22. fait l’objet de la sous-section suivante. On y verra d’ailleurs une Le point à justification de la convention . Avant de traiter le point la section 5.2.3, nous aurons besoin d’un résultat intermédiaire, le théorème de la convergence monotone, qui se trouve être un des résultats les plus importants de la théorie. 40 . -0" & , & - $ %'&( " " F IG . 5.3 – Intégration de Lebesgue-3 Exercice 11 Soit un espace mesuré et variable aléatoire positive. On définit pour tout % et 1. Montrer que par 3 . 1l 41 une . -0" & , . $%'&( " . . - !# " !# !# F IG . 5.4 – Intégration de Lebesgue-4 3 2. Montrer que 3. En déduire que # 42 3 5.2.1 Intégration des applications à valeurs sur la demi droite réelle étendue Examinons maintenant comment nous pouvons intégrer une variable aléatoire généralisée positive . Nous allons procéder de manière à justifier . la convention courante Pour tout , "6 1l 1l"6 De fait, pour pouvoir espérer que l’intégrale de par rapport à la mesure soit une opération croissante et linéaire avec la ou les fonctions à intégrer, il faut choisir une définition de l’intégrale de telle que cette intégrale soit supérieure ou pour tout entier non nul . Or, l’intégrale égale à 1l 1l 1 de 1l est . "6 "6 "6 supérieure ou égale à Nous voulons donc que l’intégrale de pour tout soit 1l "6 . Si , nous définirons l’intégrale de comme étant en fait , l’enl’intégrale de 1l "6 . En d’autres termes, lorsque ne compte pas pour intégrer et, parce que sa mesure est semble est négligeable. nulle, nous dirons que l’ensemble Si , alors et nous n’avons d’autre choix que de considérer l’intégrale de par rapport à la mesure C’est pour cette raison que l’on introduit la convention par et que nous définissons l’intégrale de 1 "6 1l " % *" ! # " &#"% $ &" % . / 0 1" 2 #3 " ')(+* -, Il suffit en effet de remarquer que 1l de sorte que comme infinie. 1l . 43 (5.7) D’après (5.5), nous pouvons encore écrire # Pour finir, nous allons montrer que l’égalité (5.6) définit aussi l’intégrale de . En effet, nous avons # # "6 de sorte que 1l Nous avons donc, en prenant en compte (5.6) et (5.7) : 1l # # # "6 "6 1l Comme annoncé, l’égalité (5.6) permet de définir tout aussi bien l’intégrale des fonctions à valeurs réelles positives finies que celle des fonctions à valeurs réelles positives étendues. 5.2.2 Le théorème de la convergence monotone Nous allons dès à présent démontrer le très important théorème de convergence monotone qui préfigure les théorèmes de convergence énoncés ci-dessous (section 5.3). Avant d’énoncer ce théorème, nous présentons un lemme, dont la démonstration est laissée au lecteur. Ce lemme, somme toute trivial, joue en fait un rôle fondamental dans toute la partie théorique sous-jacente à la construction de l’intégrale présentée ci-dessus. Ce lemme préfigure le théorème de la convergence monotone, et donc les théorème de convergences de la section 5.3. Nous invitons le lecteur à y réfléchir quelques instants. 44 une séquence doublement indéxée, à valeurs Lemme 5 Soit (resp. ) sont croissantes dans et telle que les séquences avec (resp. ). On a alors où toutes les limites considérées existent dans . Théorème 6 (Convergence monotone) Soit espace mesuré et une séquence de variables aléatoires généraliséesunà valeurs dans telle que pour tout , (i) (ii) Alors, (( pour tout . est une variable aléatoire généralisée et (5.8) P REUVE : La mesurabilité de découle des résultats généraux sur la mesurabilité. Nous nous concentrons donc sur la démonstration de (5.8) 2 . En vertu de (5.6), avec # Grâce au lemme 5 , nous avons alors 2 # (5.9) La démonstration que nous présentons diffère de celles que l’on trouve classiquement dans la littérature (cd. [22] par exemple). En effet, nous basons cette démonstration sur (5.6). Cela nous permet de souligner un peu plus l’intérêt de cette définition. 45 En appliquant de nouveau le lemme 5 et en prenant en compte la définition que , il vient : nous nous sommes données de # # # # et # vers en tout La suite des ensembles est croissante avec en raison de la croissance de la séquence point . Nous obtenons donc l’égalité Reportée dans (5.9), cette égalité nous conduit à # (5.10) qui est le résultat annoncé. Dans la foulée, nous présentons une première version du lemme de Fatou, qui est une conséquence de la convergence monotone. Une version améliorée du lemme de Fatou sera donnée au paragraphe 5.3 espace mesuré. Pour toute suite Lemme 6 (Lemme de Fatou) Soit d’applications mesurables à valeurs un dans , La preuve est laissée au lecteur. Au cas où le lecteur rencontrerait des difficul tés, il peut se reporter à [22]. La démonstration repose sur le fait que est la limite de la suite croissante , suite qui satisfait les conditions du théorème de convergence monotone. '( , , # positives telles que Exercice 12 Soit un espace mesuré et , une suite de variables aléatoires généralisées et . (( 46 (( (i) Montrer que pour tout , existe dans et que l’applica est alors une variable aléatoire généralisée positive. tion (ii) Montrer que l’on a alors (iii) Pourquoi la condition # est-elle indispensable pour conclure ? 5.2.3 Où l’on retrouve la définition classique de l’intégrale des fonctions à valeurs réelles positives Dans cette section, nous nous proposons de retrouver l’égalité 5.4, non pas comme une définition, mais comme une conséquence de l’approche suivie dans cette section. Ainsi, nous aurons montré que les deux méthodes proposées pour calculer l’intégrale d’une variable aléatoire généralisée sont équivalentes. (( Nous commençons par considérer une simple admettant fonction réelles positives distinctes que l’on note . Nous écrirons donc 1l D’après l’égalité (5.6), nous calculons l’intégrale de tend vers l’infini, de Comme les ensembles mesurables de , nous pouvons encore écrire % en prenant la limite, lorsque % , + ' ( valeurs 47 % , forment une partition (5.11) En utilisant ce lemme dans l’égalité 5.11, on aboutit alors à % % % 3 4 (5.12) , nous déduisons par passage à la limite Etant donné que dans l’expression (5.12) que l’intégrale de est qui correspond à la définition 21. Si nous considérons maintenant deux variables aléatoires généralisées et et telles que à valeurs dans , l’ensemble est tri , de sorte que vialement inclus dans l’ensemble est une variable aléatoire généralisée . Aussi, si . et une fonction simple inférieure ou égale à , nous aurons Nous en déduisons que % % % % Pour démontrer l’inégalité inverse, il suffit de trouver une séquence de fonctions simples, toutes inférieures ou égales à , dont les intégrales convergent vers l’intégrale de . D’après le lemme 4, il existe une telle séquence croissante de fonctions simples qui converge simplement vers . D’après le théorème de la convergence monotone, la séquence des intégrales de ces fonctions simples converge vers l’intégrale de . Ainsi, l’égalité (5.4) est une conséquence de la construction que nous avons proposée. 48 5.2.4 Quelques propriétés utiles de l’intégrale des variables aléatoires positives Nous énonçons maintenant quelques résultats qui serviront dans la suite et qui constituent des propriétés fondamentales de l’intégrale des variables aléatoires positives. Nous commençons par la proposition suivante qui nous dit que l’intégrale des variables aléatoires positives possèdent des propriétés analogues à celles vérifiées par l’intégrale des fonctions simples (cf. lemme 3). Proposition 12 Soit un espace mesuré, deux variables aléatoires généralisées positives et (i) (ii) . . . P REUVE : Preuve de (i). D’après le lemme 4, il existe deux suites croissantes et de fonctions simples, la première convergeant vers et la seconde est donc croissante et converge vers convergeant vers . La suite . D’après le théorème de convergence monotone, on a donc mais aussi et . Or, nous . D’où (i). savons (cf. lemme 3) que Preuve de (ii). On sait (lemme 4) qu’il existe une suite de fonctions simples qui converge vers . D’après la convergence monotone, on a donc . Nous avons ensuite . Toujours par le . théorème de la convergence monotone, nous avons L’assertion (ii) dérive alors du lemme 3 qui nous dit que . Nous continuons par une simple application du résultat précédent et du théorème de convergence monotone. Théorème 7 Soit un espace mesuré et aléatoires généralisées positives 49 une séquence de variables . Soit , alors converge en croissant P REUVE : On pose . La séquence vers . On a donc d’après le théorème de convergence , d’où le monotone. D’après le théorème 12 (i), résultat. Le théorème précédent a une conséquence très utile. un espace mesuré et Théorème 8 Soient variable aléatoire généralisée positive. L’application par tout 1l une définie pour est une mesure et pour toute variable aléatoire généralisée positive , on a Nous laissons la démonstration de ce résultat au lecteur à titre d’exercice. On . écrit souvent la seconde assertion de ce résultat sous la forme 5.2.5 Intégrale des variables aléatoires généralisées de signe quelconque 3 Pour définir l’intégrale des variables aléatoires de signe quelconque, on utilise le fait qu’une application est toujours la différence de deux applications positives. Cette décomposition n’est évidemment pas unique. Mais nous allons voir que si est une variable aléatoire (id est, est mesurable), et sont elles-aussi des variables aléatoires. L’idée consiste à définir alors . l’intégrale de par rapport à une mesure par Mais pour que cette définition ait un sens, il ne faut pas que la différence que nous venons d’introduire soit . 3 50 13 Pour que la construction proposée soit réellement utilisable il nous faudra aussi traiter le problème suivant. Supposons que et sont deux autres variables et que aléatoires généralisées telles que et ont un sens, alors on peut raisonablement espérer que . Encore faudra-t-il le démontrer pour que la construction soit complète. 3 3 3 3 3 3 Dès le départ, nous avons intérêt à choisir et aussi "petites" que possible. En effet, si on augmente , il faut augmenter de la même quantité pour . On augmente alors les intégrales de et de préserver l’égalité et on prend donc le risque que ces intégrales deviennent infinies. 3 Soit alors Soit "6 1l une variable aléatoire généralisée. 3 et "6 1l Ces deux applications sont trivialement deux variables aléatoires généralisées positives et nous avons (5.13) 3 Supposons alors que et sont deux autres variables aléatoires générali . Pour tout , les deux termes sées positives telles que ne sont alors pas tous les deux infinis. et 3 & 3 # et sont, tous deux finis et donc . Si . Si , alors , alors on a nécessairement car si était fini, on ne pourrait pas . Enfin, si avoir , et est donc trivialement inférieur ou égal à . Nous avons donc . Si 3 1 Le même type de raisonnement montre que # . En définitive, le couple représente le choix "minimal" que nous pouvons faire pour décomposer une variable aléatoire généralisée en la différence de deux variables aléatoires généralisées positives. Remarques 3 – Il est très important de remarquer pour la suite que, non seulement , mais qu’aussi, . 51 – Dans de nombreux ouvrages d’analyse fonctionnelle et d’intégration (cf. et [22]), il est d’usage d’écrire et sous la forme . – et sont appelés respectivement la partie positive et la partie négative de . & 3 3 Conformément à ce qui a été dit au début de ce paragraphe, nous posons la définition suivante. Définition 24 Soit un espace mesuré et variable aléatoire généralisée. & une (i) On dit que admet par rapport à la mesure , ou que son une intégrale . Dans ce cas, l’intégrale intégrale existe, si de est la quantité 3 (5.14) (ii) On dit que est intégrable par rapport à ou que est -intégrable si l’intégrale de est finie. Ceci équivaut à dire que les intégrales de et de sont toutes les deux finies et donc, que l’intégrale de existe et est finie. (iii) L’ensemble des variables aléatoires généralisées intégrables sera noté . Remarques : – Cette terminologie usuelle est un peu déroutante car une variable aléatoire généralisée peut très bien ne pas être intégrable et avoir une intégrale (qui est alors ou ). On sera donc particulièrement prudent dans la manipulation de ce vocabulaire. – L’intégrale de la fonction nulle est nulle. C’est quand même la moindre des choses. 3 3 La définition que nous avons donnée de l’intégrale d’une fonction de signe quelconque repose sur la décomposition commode . On peut alors se poser la question suivante : si admet une intégrale et si l’on considère deux , a-t-on et telles que autres variables aléatoires généralisées ? Pour pouvoir espérer répondre à la question, encore 3 52 3 et il faudra dès le départ supposer que l’une au moins des deux intégrales est finie. Sous cette hypothèse supplémentaire, la réponse est oui. On a le résultat suivant. 3 est Lemme 7 Avec les notations précédemment introduites, si la différence de deux variables aléatoires généralisées positives et si les deux et ne sont pas toutes les deux infinies, alors admet intégrales une intégrale et 3 # P REUVE : Supposons que (la démonstration est analogue si l’on de sorte que suppose d’intégrale finie). Nous avons déja vu que . Nous en déduisons que admet une intégrale et cette intégrale est alors donnée par (5.14). # 3 3 , on a , même pour Etant donné que les tels que (nous laissons au lecteur le soin de le vérifier), nous déduisons de la proposition 12 que Comme 3 Il s’ensuit que 3 (5.15) , alors nous avons nécessairement 3 admet une intrégrale finie, il vient Si 3 # et puisque . # . On a donc 1 Si , alors, c’est l’intégrale de qui est infinie et l’intégrale de puisque qui est finie. D’après (5.15), l’intégrale de est supposée finie. On en déduit encore que . 3 53 Si est finie, nous déduisons de (5.15) que 3 3 de sorte que # , ce qui complète la preuve. Le théorème suivant est l’amélioration promise du lemme 3 et étend la proposition 12. Théorème 9 Soit un espace mesuré. 0/ (i) Pour toute paire de variables aléatoires généralisées , de réels / / et tout couple 3 (ii) L’application est une forme linéaire positive : cela signifie que cette application est linéaire et à valeurs dans et qu’elle est positive au sens où implique que . Le raisonnement est analogue pour démontrer que . (iii) Pour tout élément de , (iv) Si alors et si . et est une variable aléatoire telle que P REUVE : Preuve de (i). Soient et donc # deux éléments de . . On a Preuve de (ii). Nous savons que le résultat est vrai pour de la proposition 12. et , positives, en vertu quelconque et intégrables, nous écrivons 3 et et sont3 de .signe Si&maintenant Par suite, nous avons 54 L’assertion (ii) ayant été prouvée pour des variables aléatoires positives, nous avons Les intégrales intervenant dans cette égalité étant toutes finies, il suffit de transférer les termes à notre gré pour obtenir le résultat. , . Nous prouvons maintenant que pour tout Le résultat a déjà été prouvé pour 3 & et positives (cf. proposition 12). 3 & Si est de signe quelconque et intégrable, nous écrivons sorte que . De ce qui précède, nous avons donc ce qui montre que 3 43 & Pour 3 3 3 On en déduit que (5.16) en séparant les cas # (5.16) intégrable, nous écrivons encore . D’après (i), on a : 3 de 4 3 et de signe quelconque et de sorte que 3 par application de la proposition 12 et de et . Il nous faut maintenant prouver que si , . On sait que est la limite d’une suite croissante de fonctions simples positives. Par le théorème est la limite des intégrales de ces fonctions de convergence monotone, simples. Comme ces intégrales sont positives en vertu du lemme 3, le résultat est acquis. 3 de sorte qu’on obtient Preuve de (iii). On écrit simplement que en utilisant (ii). D’où le résultat. . D’où le résultat. Preuve de (iv). Si , alors 3 Remarques : L’espace n’est pas un espace vectoriel car l’addition sur cet ensemble n’en fait pas un groupe. Prenons par exemple les applications 1l et . On a bien 1l 1l mais on n’a pas . 55 5.3 Théorèmes de convergence Nous avons déjà rencontré un important théorème de convergence, c’est celui de la convergence monotone (théorème 6). Nous avons aussi vu le lemme de Fatou. Nous allons maintenant compléter ces résultats en commençant par une version plus générale du lemme de Fatou et nous continuons ansuite avec le très important théorème de la convergence dominée de Lebesgue. Cette version du théorème de convergence monotone sera améliorée au chapitre 6, section 6.7. Nous procédons en deux étapes à des fins purement pédagogiques. Avec le théorème de convergence monotone, le lemme de Fatou et la convergence dominée de Lebesgue sont essentiels et doivent être parfaitement connus. Théorème 10 (Lemme de Fatou) Soit un espace mesuré. Soit une séquence d’applications mesurables à valeurs dans et (i) Si (ii) Si pour tout entier pour tout entier P REUVE : , alors (5.17) , alors 3 (5.18) est poPreuve de (i) On pose . Chaque variable aléatoire . sitive. On serait tenté d’écrire directement que Mais nous n’avons pas le droit d’écrire cette égalité sans prendre quelques précautions. En effet, la linéarité de l’opérateur intégrale a été énoncé pour des éléments de (cf. théorème 9) ou pour une différence de variables aléatoires positives (cf. lemme 7). Lorsque nous écrivons , nous ne sommes dans aucun de ces cas. Pour aboutir, il nous faut écrire que . La variable aléatoire est positive, la variable . aléatoire est aussi positive et d’intégrale finie puisque Maintenant, nous sommes dans les hypothèses du lemme 7 et nous avons donc . 3 3 3 56 3 On a clairement , et en procédant comme ci dessus, on peut écrire que . La suite vérifie les conditions requises par la version préliminaire du lemme de Fatou (cf. lemme 6). On a donc D’où (i). 3 3 Preuve de (ii). En fait, (i) implique (ii). En effet, si nous supposons être sous les et hypothèses de (ii), posons . On vérifie aisément que , que est trivialement intégrable et borne inférieure ment les . On applique donc (5.17) à la suite des et on obtient alors (5.18) pour la suite en changeant de signe. 3 Remarque : La version préliminaire du lemme de Fatou (cf. lemme 6) est évidemment le cas particulier de (5.17) avec . Théorème 11 (Théorème de la convergence dominée-I) Soit une séquence d’applications mesurables un es- pace mesuré. Soit telle que existe pour tout . S’il existe une application intégrable alors (i) (ii) , , 2 '( telle que 57 (5.19) (iii) 3 P REUVE : Preuve de (i). La condition (5.19) entraîne que intégrable. D’où (i). est mesurable et Preuve de (ii). Nous commençons par prouver le résultat pour les variables aléatoires réelles ou généralisées ( ou ). Etant donné que suite de valeurs réelles lemme de Fatou (théorème 10) et que, trivialement pour toute , on a, en appliquant le (par (5.17)) (par (5.18)) ce qui équivaut à (ii) lorsque les variables aléatoires sées. 3 Preuve de (iii) Si on pose applique donc les résultats précédents à sont réelles ou générali- , on a et pour obtenir (iii) . On Exercice 13 Démontrer le théorème de la convergence dominée pour les variables aléatoires réelles ou généralisées en utilisant simplement la version préliminaire du lemme de Fatou (lemme 6) et les résultats de l’exercice 12. Indication : on posera , pour tout entier et on vérifiera que cette suite vérifie les hypothèses requises dans l’exercice 12. 3 + 5.4 Inégalité de Bienaymé-Chebyshev se démontre Cette etinégalité ne requiert pas que très simplement pour tout ensemble mesuré soit bornée. Cependant, cette inégalité joue un rôle particulièrement important en théorie des probabilités. En probabilité, il est en fait usuel de la décliner sous plusieurs formes que nous présenterons ultérieurement (cf. 9.4). 58 Lemme 8 Soit plication mesurable. (i) Pour tout (ii) Pour tout avec la convention (5.20) . (5.21) , l’inégalité (5.21) est vraie pour tout une ap- , (iii) Si , un espace mesuré et . P REUVE : Remarquons tout d’abord que le membre de droite dans (5.20) est tou jours définie dans est une variable aléatoire généralisée posi puisque tive. Preuve de (i). Si , le membre de gauche dans (5.20) vaut avec la convention (que nous avons justifiée par ailleurs) : et l’inégalité (5.20) est donc trivialement vérifiée. 6 . On pose 1l . Nous démontrons donc (5.20) pour L’application est mesurable et trivialement, de sorte que . Or, , d’où le résultat. Preuve de (ii). Lorsque égalité (5.20). # , l’inégalité (5.21) découle directement de l’in Preuve de (iii). Il suffit de montrer que (5.21) est vraie pour lorsque et donc (5.21) est trivialement vérifiée. . Si , Si , et le membre de gauche dans (5.21) est égal à la mesure de l’ensemble # . Dans le cas . La mesure de cet ensemble est alors nulle puisque , il y a donc égalité entre les deux membres de (5.21). 59 5.5 Intégration sur une partie mesurable un espace mesuré et Soit aléatoire généralisée. On est souvent amené à intégrer de . On pose alors la définition suivante. une variable sur une partie mesurable . Soit , on définit l’intégrale de mesuré et Définition 25 Soit une partie mesurable de un. Siespace 1l par rapport à la mesure par sur 1l (5.22) Exercice 14 Avec les notations de la définition précédente, soit la tribu trace telle qu’elle est définie par (1.1). de sur Soit restriction de à . 1. Montrer que la mesurabilité de par rapport aux tribus et entraîne celle de par rapport aux tribus et . . Vérifier que est une 2. Soit la restriction de à mesure. par rapport à la 3. Montrer que l’intégrale de mesure est égale à l’intégrale de 1l par rapport à la mesure . On remarquera que l’intégrale définie sur tout est un cas particulier de la définition 25 et et de l’exercice précédent puisque 1l et . Aussi, au lieu de définir l’intégrale de sur (comme nous l’avons fait) pour ensuite définir celle de sur une partie mesurable de , nous aurions pu procéder en sens inverse : nous aurions pu commencer par définir l’intégrale de sur tout sous-ensemble mesurable de (en procédant comme dans l’exercice précédant) et considérer l’intégrale sur comme un simple cas particulier. L’exercice précédent montre que ces deux approches sont équivalentes et que choisir l’une ou l’autre n’est qu’affaire de goût. Ainsi, dans [22], l’auteur préfère la seconde. Cette remarque entraîne que tous les résultats que nous avons énoncés en utilisant l’intégrale sur tout restent valables lorsqu’on remplace par un sous-ensemble mesurable de . Nous terminons cette section par quelques résultats utiles. 60 Proposition 13 En supposant l’existence des intégrales et la mesurabilité des ensembles et des applications utilisées, nous avons : (a) Si , alors . et (b) Si , alors . . pour tout , alors même si (c) Si pour tout . (d) Si , alors même si P REUVE : Preuve de (a). Il suffit de remarquer que 1l (ii) du théorème 9. Preuve de (b). Il suffit de remarquer que 1l théorème 9. Preuve de (d). Par définition # 1l Or, pour tout . Aussi, si et . D’où le résultat. et d’appliquer (ii) du 1l , . D’où le pour tout # # et d’appliquer l’assertion 1l 1l Preuve de (c). On a évidemment résultat. 1l # Compléments : intégration des variables aléatoires complexes un espace mesuré. Nous décrivons comment on intègre des variables Soit aléatoires complexes, c’est-à-dire des applications définies sur et à valeurs dans dont les parties réelles et imaginaires, notées et , sont des variables aléatoires . 61 Cette construction est très simple. Puisque nous pouvons écrire sous la forme et que et sont mesurables, nous poserons la définition suivante : Définition 26 Soit un espace mesuré. Une variable aléatoire complexe est intégrable si la variable aléatoire réelle est intégrable et l’intégrale de est alors le nombre complexe L’ensemble des variables aléatoires complexes intégrables est noté (5.23) . Le théorème suivant, dont nous laissons la démonstration au lecteur en guise d’exercice, est l’analogue du théorème 9. Théorème 12 Soit (i) L’ensemble (ii) L’application un espace mesuré. (iii) Pour tout élément , alors (iv) Si de et si est un espace vectoriel sur . est une forme linéaire. , est une variable aléatoire complexe telle que . Exercice 15 1. Démontrer que le théorème de convergence dominée reste vrai dans le cas complexe, c’est-à-dire lorsqu’on change en dans l’énoncé du théorème 11. 2. Peut-on énoncer l’inégalité de Bienaymé-Chebyshev dans le cas des variables aléatoires complexes. 62 Chapitre 6 Ensembles négligeables et compléments sur l’intégration Considérons un ensemble mesuré où la mesure n’est pas nécessairement bornée. Même bornée, rien de ce qui va être dit ne serait modifié ou simplifié. Supposons que soit mesurable et de mesure nulle et considérons une va . Supposons aussi que l’intégrale riable réelle aléatoire existe. et , nous voyons que Si nous comparons alors les intégrales 1l ces intégrales sont égales. En effet, nous pouvons écrire 1l . Si nous considérons la partie positive de , nous avons alors 1 % % % 1l est un ensemble mesurable, inclus dans qui est de mesure Or, nulle. On a donc et donc . De même, on aura . . Aussi, l’intégrale de 1l est nulle et nous avons bien % & Ce simple calcul nous montre donc que les ensembles mesurables de mesure nulle ne comptent pas du point de vue de l’intégration. On pourrait s’arrêter là 63 en définissant les ensembles négligeables comme les ensembles mesurables de mesure nulle. On pourrait alors dire qu’une propriété est vraie presque partout si elle est vraie sur le complémentaire d’un ensemble négligeable (donc mesurable et de mesure nulle). Ces définitions de la négligeabilité et du presque partout sont suffisantes pour énoncer le théorème de convergence dominée dans sa version finale (cf. théorème 14) et dans une première lecture, le lecteur peut s’en contenter. Cependant, nous allons aller un peu plus loin dans la démarche. En effet, à cer de mesure tains égards, on aimerait qu’un sous-ensemble d’un ensemble nulle soit lui aussi mesurable et de mesure nulle. C’est tout particulièrement le cas lorsqu’on manipule des probabilités. En effet, en théorie des probabilités, l’inclusion signifie que l’événement implique l’événement . Si est de probabilité nulle, on aimerait dire que est aussi de probabilité nulle. En d’autres termes, on aimerait pouvoir écrire que si avec , alors . Hélas, nous n’avons pas toujours le droit d’écrire une telle implication : rien ne nous dit que est mesurable et, donc, que a une mesure. Nous allons donc construire, à partir d’un espace mesuré quelconque où les sous-ensembles d’ensembles négligeables ne sont pas forcément mesu légèrement plus grand (dans le sens où rables, mesuré unetespace est exactement ) où tous les ensembles néglila restriction de nulle. La mesure sera dite geables sont désormais mesurables et de mesure complète. Nous verrons aussi quelques conséquences importantes de cette construction, notamment en ce qui concerne la tribu des boréliens et la tribu de Lebesgue. Nous terminerons par une version définitive du théorème de convergence dominée, qui, soulignons-le encore, fonctionne très bien que la mesure soit complète ou non. On commence par se donner une terminologie adéquatee aux définitions suivantes. 6.1 Ensembles négligeables et mesure complète Définition 27 Soit mesuré. Une partie de de sera dite -négligeable, ou négligeableunparespace rapport à , ou simplement négligeable s’il n’y a aucune ambiguïté sur la mesure considérée, s’il existe un ensemble mesurable ( ) de mesure nulle et contenant : négligeable 64 et Dans la suite, on désignera par de par rapport à la mesure . la collection de toutes les parties négligeables Définition 28 Soit un espace mesuré. La mesure est dîte complète si tout sous-ensemble d’un ensemble négligeable pour cette mesure est un ensemble mesurable. Remarque : Pour une mesure complète, les ensembles négligeables sont exactement les ensembles de mesure nulle. 6.2 Le "presque partout" et le "presque sûrement" un espace mesuré. Une propriété est dite vraie Définition 29 Soit -presque partout (ou plus simplement presque partout lorsqu’il n’y a aucune ambiguïté quant à la mesure ) si le complémentaire de l’ensemble des points où elle est vraie est négligeable par rapport à la mesure . En abrégé, on écrit vraie -p.p. S’il n’y a aucune ambiguïté sur la mesure, on se contentera d’écrire vraie p.p. Si est vraie presque partout par rapport à une mesure de probabilité , on dit plutôt que la propriété est vraie -presque sûrement (ou simplement presque sûrement en l’absence d’ambiguïté sur la mesure de probabilité concernée). De manière analogue au cas d’une mesure quelconque, on écrire que est vraie -p.s. ou plus simplement que est vraie p.s. Exemples : – Avec les notations introduites ci-dessus, si et sont deux fonctions défi -presque partout si l’ensemble est nies sur , on dit que négligeable ( ). A noter que dans ce qui précède, nous n’avons pas besoin de préciser si et sont mesurables ou non et, de fait, grâce à la définition donnée des ensembles mesurables, n’a pas lieu d’être mesurable. , -presque partout si 1l 1l – Par abus de notation, on écrira que -p.p. Là encore, aucune condition de mesurabilité n’est imposée à et . Le lecteur vérifiera que cette condition d’égalité presque partout entre deux sous-ensembles de équivaut à la -négligeabilité de la différence . symétrique 65 Exercice 16 Soit un espace mesuré. Soient deux parties et de . On dira que -presque partout si 1l 1l -p.p. Montrer que -p.p. si et seulement si est -négligeable. 6.3 Complétée d’une tribu un espace mesuré. Comme nous l’avons dit dans l’introduction, Soit la mesure n’est pas forcément complète. Nous voulons agrandir en une nou et définir sur cette tribu une mesure qui, elle, sera complète et velle tribu doit alors contedont la restriction à est . Il est évident que la nouvelle tribu nir la collection des ensembles -négligeables. Il est donc nécessaire que contienne . Cette collection d’ensembles n’est pas une tribu. Qu’à cela ne tienne : si nous voulons minimiser le risque d’agrandir la mesure , commençons donc par analyser la tribu engendrée par puisque celle-ci est la plus petite tribu que nous pouvons construire à partir de la tribu de départ et de la collection des sensembles -négligeables. Nous allons voir que cette tribu est celle qu’il nous faut pour construire une mesure complète. Aussi, posons la définition suivante. Définition 30 Soit espace mesuré. On appelle tribu -complétée de la tribu engendrée par un la collection où est la collection des en sembles -négligeables : La tribu -complétée jouit de propriétés très intéressantes résumées dans le théorème suivant. Proposition 14 Soit un espace mesuré. Soit la tribu -complétée de . (a) (b) est la collection des parties de pour lesquelles il existe deux éléments et de tels que et (c) est la collection des parties avec de pour lesquelles il existe 66 Du moment que nous venons de construire une tribu un tout petit peu plus grande que celle du départ et qui englobe les ensembles négligeables, que se passet-il au niveau des variables aléatoires réelles ou généralisées ? On aimerait bien ne diffère pas que les variables aléatoires réelles ou généralisées par rapport à trop des variables aléatoires réelles ou généralisées par rapport à . Le résultat suivant montre, qu’effectivement, les applications mesurables pour et pour ne diffèrent que sur un ensemble négligeable. Proposition 15 Soit un espace mesuré. Soit . Une application définie sur et à valeurs dans oula tribu -complétée de est -mesurable si et seulement si l’une quelconque des deux conditions suivantes est satisfaite : -p.p., id est (a) Il existe une application -mesurable telle que l’ensemble est -négligeable. (b) Il existe deux applications -mesurables et telles que et 3 La démonstration de ce résultat est laissée au lecteur. Ce résultat signifie en pratique que les variables aléatoires réelles ou généralisées au sens de la tribu que par ne diffèrent des variables aléatoires réelles ou généralisées au sens de un ensemble négligeable. 6.4 Mesure complétée un espace mesuré et la tribu -complétée de . Nous allons Soit maintenant étendre la mesure définie sur en une mesure complète définie sur . . Nous savons que nous Cela se fait assez facilement. En effet, soit et . Il est pouvons écrire sous la forme avec alors naturel de poser puisque est négligeable. La difficulté à contourner est qu’il peut exister un autre ensemble mesurable et un autre ensemble négligeable tels que . Il faut alors vérifier que l’on a de manière à ce que encore soit défini de manière unique. Heureusement, c’est le cas et ne dépend pas de la décomposition choisie pour . De manière précise, on a le résultat suivant dont nous laissons la démonstration facile au lecteur. 67 Lemme 9 Soit un espace mesuré et la tribu -complétée de . et (i) Si est un élément de tel que où , alors où , , , on définit une (ii) En posant dans qui est une extension de dans le sens où pour mesure de . La mesure est l’unique extension possible tout , de à . Ce lemme justifie la définition suivante. Définition 31 Soit un espace mesuré et la tribu -complétée de . L’unique extension possible de à définie par le lemme 9 est appelée me sure complétée de . Il nous reste à voir que est bien une mesure complète et étudier s’il existe une différence entre l’intégrale par rapport à cette nouvelle mesure et l’intégrale par rapport à la mesure de départ. On a le résultat suivant. Proposition 16 Soit la mesure complétée de . un espace mesuré, la tribu complétée de et (a) La collection des ensembles -négligeables est la même que la collection des ensembles -négligeables. est une application mesurable et si (b) Si est une application mesurable égale -presque partout si à , alors admet une intégrale (resp. est intégrable) par rapport à et seulement si admet (resp. par rapport à , et dans ce cas une intégrale est intégrable) . Cette proposition signifie donc qu’il ne sert à rien de chercher à compléter la par rapport à . Cette proposition nous dit aussi qu’intégrer par rapport tribu à la mesure complétée et la tribu complétée, c’est intégrer par rapport à la mesure de départ et la tribu d’origine. Définitivement, les ensembles -négligeables (et pas seulement les ensembles de mesure nulle) ne comptent pour l’intégration. Le théorème nous dit que toute mesure peut toujours être complétée. Aussi, chaque fois que cela sera nécessaire, on pourra toujours travailler avec la mesure complète. Cela nous donnera juste des ensembles mesurables supplémentaires et plus d’applications mesurables. Au niveau du calcul des intégrales, cela ne chan gera rien : définitivement, les ensembles -négligeables (et pas seulement les ensembles de mesure nulle) ne comptent pour l’intégration. 68 Nous allons maintenant préciser la différence (subtile) que nous avons déjà signalée et qui existe entre la tribu de Lebesgue et celle des Boréliens. 6.5 Le cas de la mesure de Lebesgue Nous avons déjà signalé (cf. 1.7) que la mesure de Lebesgue sur nit sur une tribu strictement plus grande que la tribu des boréliens pouvons maintenant expliquer pourquoi. se défi- . Nous En fait, la tribu des boréliens n’est pas une tribu complète. On peut donc . C’est cette tribu complète la compléter et construire la tribu complète que l’on appelle tribu de Lebesgue . La mesure de Lebesgue se définit et la mesure de en fait comme la seule mesure sur cette tribu complète telle que Lebesgue est la seule mesure complète sur où . # 3 # Le théorème 16 explique aussi pourquoi, dans la littérature, on confond fré et la mesure de Lebesgue avec la tribu des quemment la tribu de Lebesgue et la restriction de la mesure de Lebesgue à la tribu des boréliens. boréliens 6.6 L’ espace associe le nombre réel Considérons l’application qui à . C’est une application qui ne prend que des valeurs positives. Nous avons alors le résultat suivant. Proposition 17 Avec les notations précédentes, l’application norme . est une semi- Nous laissons la démonstration facile de ce résultat au lecteur en guise d’exer cice. On rappelle qu’une semi-norme sur un espace vectoriel de corps de base (égal à ou en pratique) est une application à valeurs réelles positives telle que : – , – Pour tout , – Pour tout 69 Le point crucial de ce résultat est que n’est qu’une semi-norme et non pas une norme. Pour que soit une norme, il faudrait que l’implication soit vraie. Or cette implication n’est pas vraie en raison du théorème suivant. Théorème 13 Avec les notations précédentes, p.p. P REUVE : L’implication directe est une conséquence directe du théorème 16 (b). La réciproque est une conséquence de l’inégalité de Bienaymé-Chebyshev. En effet, si , alors l’inégalité de Bienaymà c -Chebyshev implique que pour tout entier et comme croît vers , on en déduit que et donc que (p.p.). Ce résultat nous montre qu’une application mesurable nulle seulement presque partout a une intégrale nulle. Définitivement, n’est qu’une semi-norme. sur Définissons alors la relation par - p.p 5 Il est facile de voir que est une relation d’équivalence. On peut donc définir l’en par cette relation d’équivalence semble quotient de et on pose la définition suivante. l’ensemble quotient Définition 32 On note de par la relation d’équivalence "égalité presque partout" notée . L’ensemble est donc, par définition d’un ensemble quotient, l’ensemble des classes d’équivalence pour la relation d’équivalence . Si (ce qui signifie que est une classe d’équivalence et non pas, à proprement parlé, une application), on note la valeur commune des lorsque parcout la classe d’équivalence de . 3 On montre que l’ensemble est un espace vectoriel sur et que associe l’application qui à est complet est maintenant une norme sur ce nouvel espace. L’espace pour cette norme. 70 6.7 La version définitive du théorème de la convergence dominée un espace Théorème 14 (Convergence dominée de Lebesgue-II) Soit une suite d’applications mesurables mesuré et . S’il existe une application mesurable telle que , 3 pour tout entier et si la suite converge -p.p 3 vers une limite alors : (i) (ii) , (iii) P REUVE : Posons , . . Les ensembles % . , , et et sont mesurables et négligeables par et négligeable aussi. est donc mesurable , l’application par . . si si 1l . Définissons aussi En d’autres termes, nous avons par si si 1l . Pour tout , nous avons et c’est-à-dire . Aussi, la séquence satisfait-elle les conditions de la hypothèse 1 . L’union Définissons alors, pour tout entier première version du théorème de convergence dominée de Lebesgue que nous avons donnée (théorème 11). 3 3 Comme presque partout, nous avons donc presque partout et donc, d’après la proposition 16, . D’après le théorème 11 (i), nous avons donc 3 3 3 3 3 presque partout et que d’après le théorème 11 (ii), Comme , nous en déduisons (ii) par application de la proposition 16. 1 . Le fait que les ensembles négligeables qui interviennent sont mesurables explique pourquoi il n’est pas nécessaire de supposer la mesure complète. 71 presque Enfin, comme partout et que presque partout, nous et avons d’après la proposition 16. Nous obtenons donc (iii) comme conséquence du théorème 11 (iii). Ce théorème a une version continue très utile. Corollaire 1 Soit un espace mesuré. Soit une famille d’élé ments de . Supposons qu’il existe et une application (nécessai telle que presque rement mesurable) partout. S’il existe une application telle que pour tout , presque partout, alors (i) , (ii) , . (iii) 3 presque partout si et seuleP REUVE : Il suffit de remarquer que et ment si, pour tout suite convergeant vers , d’appliquer le théorème de la convergence dominée. Remarque : le théorème de convergence dominé est évidemment très utile dans la pratique. Insistons sur le fait que le "presque partout" utilisé dans l’énoncé de ce terme fait que les ensembles négligeables que l’on considère sont des ensembles mesurables. Pour énoncer ce théorème, on peut donc très bien se contenter de définir un ensemble négligeable comme un ensemble mesurable de mesure nulle. Exercice 17 Montrer que le théorème de convergence dominée reste vrai si on remplace par ou . Exercice 18 Démontrer la proposition suivante qui généralise la proposition 13. Proposition 18 En supposant l’existence des intégrales et la mesurabilité des ensembles et des applications utilisées, nous avons : (a) Si presque partout, alors . et presque partout, alors . (b) Si (c) Si pour presque tout , alors même si . pour presque tout (d) Si , alors même si . Expliquer pourquoi il n’est pas nécessaire de supposer la mesure complète. 72 Chapitre 7 Intégration sur les espaces produits Le but de ce chapitre est essentiellement de présenter le théorème de TonelliFubini. Ce théorème est essentiel pour intégrer des applications définies sur des dans . espaces produits, notamment des applications de 7.1 Tribu produit : définition et premières propriétés où est un enConsidérons une famille d’espaces mesurables '( , que nous tier supérieur ou égal à . Le produit cartésien noterons des suites à éléments (ou -uplets= est + l’ensemble (( aussi où, pour , . chaque On appellera rectangle ou pavé mesurable tout sous-ensemble de de la (( , que nous noterons aussi où, pour tout forme + , . On construit alors très facilement une tribu sur vante. à l’aide de la définition sui- Définition 33 Avec les notations qui précèdent, on définit la tribu produit , que l’on notera aussi , comme étant la tribu engendrée par : le produit cartésien des tribus , (( + 73 En d’autres termes, la tribu produit sur tangles mesurables de . est la tribu engendrée par les rec- Remarque : Il est très important de noter que l’ensemble des rectangles ou pavés mesurables n’est pas forcément une tribu. D’où la nécessité de considérer la tribu engendrée par ces rectangles. définie, pour tout On appelle ème coordonnée , l’application + (( , par (' . On alors la proposition suivante. Proposition 19 Avec les notations précédentes, la tribu produit est la plus petite , tribu sur telle que chaque application coordonnée soit mesurable. + P REUVE : Nous faisons la démonstration dans le cas présente pas de difficulté supplémentaire. . Le cas % ne Supposons que soit une tribu sur telle et soient mesurables. Soit . Il est facile de voir que un élément de et . et que . Comme et sont supposées Aussi, et sont mesurables et que est une tribu, les ensembles des éléments de ainsi que . Nous venons donc de montrer que si et sont mesurables, alors . Nous traitons la réciproque. Nous supposons donc que est une tribu qui et nous cherchons à montrer que les applications et sont contient mesurables. Soit . L’image réciproque de par est simplement , qui est trivialement un et donc un élément de par élément de hypothèses. Il en va de même pour l’image réciproque par de tout élément de . Nous en déduisons donc que et sont mesurables et donc l’équivalence énoncée par la proposition. Une application très importante dans la pratique de ce résultat est le théorème suivant. Théorème 15 La tribu des boréliens : 74 est égale à la tribu produit Exercice 19 Démontrer ce résultat en se rappelant que la tribu des boréliens de est engendrée par l’ensemble des rectangles où chaque est ouvert et que les coordonnées de sur sont trivialement continues donc mesurables. Il est important de dire que le produit de tribus est associatif. Si nous reprenons les notations utilisées depuis le début de cette section, posons et est la tribu . Il est clair que où, bien sûr, produit de l’espace produit et que est la tribu de l’espace produit . On a bien sûr produit . On montre et sont égales. alors que les tribus produits # 3 Une conséquence immédiate est donc que . 7.2 Mesurabilité des applications définies sur un produit cartésien et deux espaces mesurables et leur produit Soient . , on appellera respectivement -section et -section Pour les ensembles de Le premier résultat que l’on a est le suivant. Théorème 16 Si tout . , alors et pour tout et Exercice 20 Démontrer ce résultat. Indication : Pour tout ) , poser ) , est une tribu qui contient et montrer que pour tout pour . Procéder de manière analogue en ce qui concerne . 75 . Conclure , Soit où est un ensemble quelconque. Pour tout l’application on désigne par qui, à tout , associe la valeur . De même, tout , on désigne par pour associe . On a alors le résultat suivant. l’application qui à tout ! ! ! ! ! ! est mesurable. Si -mesurable, alors Théorème 17 Supposons que est une application ! , , (ii) Pour tout (i) Pour tout est -mesurable. est -mesurable. Exercice 21 Prouver ce résultat. Indication : Il suffit de remarquer que . 7.3 Mesure produit ou produit tensoriel de mesures un espace mesuré. On dit que est une mesure Définition 34 Soit (( finie s’il existe une suite croissante d’ensembles mesurables telle que, pour tout entier , # . Le théorème suivant annonce les théorèmes de Tonelli et de Fubini. Théorème 18 Soient . L’application qui à tout l’intégrale 1l (i) L’application qui à tout l’intégrale 1l (ii) et 1l associe , c’est-à-dire la valeur de est -mesurable. , c’est-à-dire la valeur de associe est elle aussi mesurable. (iii) On a : deux espaces mesurés. Soit 3 1l 3 Ce théorème définir la mesure produit. nous permet alors de En effet, 1l le fait que et que 76 1l les applications soient mesurables et à valeurs dans 3 3 et 1l 1l entraîne que . Ces mesures, en vertu de l’assertion (iii) sont des mesures positives sur du théorème précédent sont même égales. Elles définissent alors ce qu’on appelle . On pose la définition suivante. la mesure produit Définition 35 Avec les notations du théorème précédent, on définit la mesure pro comme étant l’application d’ensembles duit associe qui à tout 1l 1l On a alors le théorème suivant qui justifie, dirons-nous, l’appellation de me . sure produit donnée à Théorème 19 Avec les notations précédentes, la mesure produit telle que, pour tout seule mesure définie sur , est la 7.4 Le théorème de Tonelli-Fubini Théorème 20 (Théorème de Tonelli-Fubini) Soit deux espaces mesurés -finis et . Soit une appli -mesurable à valeurs dans un espace mesurable où cation est , ou . ! 77 (a) Si , les applications et sont respectivement (b) Si 3 3 et (7.1) (7.2) mesurables et (7.3) est à valeurs étendues ou à valeurs complexes et si # (7.4) . , alors pour presque tout , (c) Si pour presque tout ; les applications définies par (7.1) et et et l’égalité (7.3) (7.2) presque partout sont respectivement alors est encore valable. Remarques : – Il est très important de garder en mémoire que la mesurabilité de par rapport à la mesure produit est yne hypothèse incontournable dans l’énoncé du théorème de Tonelli-Fubini. Sans cette hypothèse, on ne sait pas conclure. – Le théorème de Tonelli-Fubini permet d’intervertir l’ordre des intégrales et d’intégrer de manière séquentielle par rapport à chacune des variables, sous certaines conditions quand même ! ! Ainsi, même lorsque est mesurable, il ne faut pas oublier, avant d’appliquer Fubini, de vérifier que est de signe constant ou intégrable. Si n’est pas de signe constant ou n’est pas intégrable, l’égalité (7.3) n’est pas forcément vraie. 78 – Avec toujours les mêmes notations que précédemment, considérons deux applications et telles que . On définit sur l’application par et . Cette application est mesurable d’après les résultats précédents. Le théorème de Tonelli-Fubini implique et que immédiatement que Tout ce qui précède s’étend assez facilement au cas de espaces mesurables. On montre que le produit de mesures est associatif. On montre aussi, dans la formule d’intégration successive (variable par variable) que les variables peuvent en fait être intégrées dans l’ordre que l’on veut. Si nous résumons les remarques précédentes de manière un peu caricaturale (mais correcte) : si on intégre une application positive, on fait ce qu’on veut ; si est de signe quelconque ou complex, on commence par montrer que est intégrable par rapport à la mesure produit et ensuite, et seulement ensuite, on se permet d’intégrer comme on veut. 7.5 La mesure de Lebesgue sur aux calculs des probabilités et application Nous avons déjà présentée la mesure de Lebesgue sur , . Dans ce paragraphe, nous allons comparé cette mesure de Lebesgue au produit tensoriel des mesures de Lebesgue sur . Le but est évidemment de nous donner le moyen de ramener le calcul d’intégrales multiples à celui d’une succession d’intégrales simples. ( Nous avons vu (cf. théorème 15) que la tribu des boréliens . la tribu produit et que est égale à savons, de plus, grâce à ce qui précède, que la mesure produit Nous . On s’attendrait, évidemment, à est définie de manière unique sur ce que soit exactement la mesure de Lebesgue . En fait, il n’y a pas tout à fait égalité entre les deux mesures. Elles coïncident mais la mesure de Lebesgue est définie sur la tribu dite de Lebesgue, qui sur contient tous les boréliens, mais qui reste strictement plus grande que la tribu des 79 boréliens. Il est facile de s’en rappeler : la tribu de Lebesgue sur ne l’est pas ! alors que la tribu produit est complète (( Il se trouve que la mesure de Lebesgue sur est la mesure complétée de la mesure produit , que l’on notera . On peut donc formellement identifier ces deux mesures et appliquer Fubini en respectant les remarques faites à la fin du paragraphe précédent. (( En probabilité, il arrive qu’on ait à considérer des densités de probabilité à et que ayons à intégrer cette fonction à variables réelles variables. Etant donné que est positive (par définition d’une densité de probabilité), le théorème de Fubini va pouvoir s’appliquer sans se poser de questions et l’on aura : (( ( ' (( (( ( ( et l’ordre d’intégration des variables peut être changé arbitrairement. 80 Chapitre 8 Lebesgue et Riemann : éléments de synthèse Au vu des notions qui ont été introduites jusqu’ici, il est opportun de faire le point sur la théorie de l’intégration en prenant en compte, dans notre réflexion, l’intégrale de Riemann qui est l’outil usuel auquel les étudiants sont habitués lorsqu’ils découvrent la théorie de Lebesgue. En général, un chapitre de synthèse de ce type où la comparaison entre l’intégrale de Riemann et l’intégrale de lebesgue sous-tend une réflexion pratique sur l’utilisation de ces théories est souvent réduit à quelques remarques dans les ouvrages spécialisés. Nous pensons, au contraire, que pour une bonne compréhension de la théorie et de son utilisation, ce chapitre n’est pas de trop et mérite que le lecteur s’y attarde quelque peu pour les raisons suivantes. A ce niveau du cours, il est tout à fait normal que les étudiants se posent quelques questions. Ils peuvent se demander s’il faut utiliser Lebesgue ou Riemann en pratique, si on peut statuer sur l’approche la plus commode dans les applications, s’il faut oublier définitivement Riemann et considérer que Lebesgue répond à tous les problèmes. D’autres peuvent même penser que la théorie de Lebesgue ne sert pas à grand-chose et qu’il vaut mieux se contenter de Riemann car c’est cette théorie de l’intégration que l’on va vraiment utiliser. Que les étudiants se rassurent. Ces interrogations sont aussi partagées par beaucoup de physiciens, qui considèrent que le gain apporté par la théorie de Lebesgue par rapport à l’intégrale de Riemann ne justifie pas l’investissement intellectuel que la théorie de Lebesgue requiert. Ces opinions et approches diverses ne peuvent qu’ajouter à la confusion de 81 l’étudiant. Notre but est donc d’éclaircir la situation et, du coup, de préparer le lecteur à ce qui va suivre. En effet, dans la suite de ce cours, de plus en plus de cas concrets que l’on rencontre en pratique vont être inclus. De manière plus précise, nous allons rappeler que la théorie de Lebesgue est particulièrement commode en théorie des probabilités pour manipuler des variables aléatoires qui sont définies sur un espace relativement abstrait somme toute. En ce sens, l’apport de la théorie de Lebesgue en théorie des probabilités justifie l’effort requis. Puis nous présenterons une comparaison mathématique de l’intégrale de Riemann et de l’intégrale de Lebesgue. Cette présentation nous permettra de répondre aux questions soulevées ci-dessus. 8.1 Apport de la théorie de Lebesgue en théorie des probabilités Nous avons vu dès le début de ce cours que la notion de tribu apparaît très naturellement lorsqu’on cherche à formaliser des expériences dont le résultat est aléatoire et que la probabilité d’un événement est, là encore de manière naturelle, une mesure sur la tribu des événements possibles. Lorsqu’on veut alors intégrer une variable aléatoire, on ne dispose que de peu de connaissances sur l’espace probabilisable qui nous sert à modéliser notre expérience : nous n’avons qu’une tribu et qu’une mesure. La théorie de Riemann n’est donc pas applicable directement puisque cette théorie concerne . La théorie de Lebesgue est donc pratiquement incontournable en théorie des probabilités pour construire l’intégrale des variables aléatoires. En théorie des probabilités, définitivement, l’effort intellectuel requis par la théorie de l’intégration est rentable. 8.2 Comparaison des intégrales de Riemann et de Lebesgue Lorsqu’on considère maintenant des applications définies sur et que est muni de la mesure de Lebesgue, voire d’une mesure de Lebesgue-Stieltjes (cf. annexe B, en va-t-il de même ? Est-ce qu’il nous faut obligatoirement utiliser la théorie de Lebesgue ? 82 Nous allons répondre à cette question en analysant la relation entre l’intégrale de Riemann et l’intégrale de Lebesgue. Cette analyse, d’ailleurs, nous permettra de compléter nos remarques d’introduction du chapitre 5. En effet, nous avons justifié notre construction de l’intégrale de Lebesgue en décrivant comment calculer la surface sous la courbe représentative d’une application positive. Nous sommes donc en droit d’espérer que les intégrales de Lebesgue et de Riemann coïncident. On espère aussi gagner quelque chose avec la théorie de Lebesgue, à savoir que les applications intégrables au sens de Lebesgue forment une classe plus grande que les applications intégrables au sens de Riemann. C’est ce que nous allons voir maintenant. Il s’avère effectivement que les fonctions intégrables au sens de Riemann sont également intégrables au sens de Lebesgue et que les intégrales de Riemann généralisées, à condition qu’elles soient absolument convergentes, sont elles-aussi intégrables au sens de Lebesgue. Quelques rappels sur l’intégrale de Riemann sont nécessaires. Tout d’abord, un point sur la terminologie. La notion d’intégrale de Riemann concerne (nous allons le voir dans la définition que nous rappelons ci-dessous), ( les applications définies sur sur un intervalle borné de ). Lorsque et / ou , on parle alors d’intégrale généralisée de Riemann. Nous reviendrons sur ces intégrales généralisées un peu plus loin. Pour l’instant, traitons l’intégrale de Riemann sur un intervalle borné. 3 3 3 # # # # , , est dîte intéDéfinition 36 Une application grable au sens de Riemann ou, plus simplement, Riemann-intégrable s’il existe deux suites de fonctions en escaliers et , respectivement croissante et et décroissante, telles que . 3 , Avec les notations de la définition précédente, la séquence , est croissante du fait de la croissance de . On a de plus (( # , '( et , (( de sorte que les séquences , Les limites admettent chacune une limite. de chacune de ces suites sont en fait 3 . On montre de plus que égales du fait que cette limite commune ne dépend pas du choix des séquences définition suivante. 83 et . D’où la 3 # # Définition 37 Soit , , une application Riemann intégrable. Soient deux suites quelconques de fonctions en escaliers et , respectivement croissante et décroissante, telles que et 3 de l’application L’intégrale de Riemann la valeur commune des limites des séquences lorsque tend vers l’infini : , , (( , (( estet sur l’intervalle , N’oublions pas du’une application intégrable au sens de Lebesgue (on dira Lebesgue-intégrable) est, avant tout, une application mesurable. Si nous voulons alors étudier l’intégrabilité au sens de Lebesgue d’une application Riemann , nous devons d’abors étudier la mesurabilité de cette intégrable application. En effet, pour une application quelconque Riemann intégrable, rien ne nous garantit une quelconque mesurabilité de . Dans ce cours, nous allons évacuer cette difficulté. Nous alons supposer dans l’énoncé des résultats suivants que l’application que l’on considère est effectivement mesurable par rapport à la tribu de Borel. Nous nous permettons de procéder ainsi car la plupart des applications que l’on rencontre en pratique sont continues ou continues par morceaux, et donc mesurables par rapport à la tribu des boréliens. 3 # # Proposition 20 Si , , est une application mesu rable et Riemann intégrable sur , alors est intégrable au sens de Lebesgue et les deux intégrales sont égales : 1l P REUVE : Il existe une suite croissante de fonctions en escaliers décroissante de fonctions en escaliers telles que tende vers avec et on a : 84 et une suite et 3 (8.1) , est clairement intégrable. De plus, une fonction en Comme escalier est trivialement mesurable et intégrable au sens de Lebesgue. On a donc, pour tout , 1l 1l 1l (8.2) Il suffit de combiner (8.1) et (8.1) pour terminer la démonstration. Traitons maintenant des intégrales généralisées de Riemann. Définition 38 Soit . (i) On dit que est localement intégrable au sens de Riemann si est inté grable sur tout intervalle . , (ii) Soit et . On dit que admet une intégrale (ou que l’intégrale généralisée de est convergente généralisée sur ) si est localement intégrable et sur existe dans . On écrit 3 3 # 3 # # # 3 (iii) Soit # 3 et # # . On dit que admet une intégrale généralisée absolument convergente sur (ou que est absolument in tégrable sur ) si est localement intégrable et admet une intégrale généralisée (id est ). On écrit # # Remarques : – Si est absolument intégrable alors admet une intégrale généralisée. – Pour que admette une intégrale généralisée sur , il faut et il suffit que pour tout , admette une intégrale généralisée sur et sur et l’on a . Nous avons alors le résultat suivant qui généralise la proposition 20 aux intégrales généralisées de Riemann. une application mesurable et localement intéProposition 21 Soit grable au sens de Riemann, id est intégrable sur tout intervalle fermé borné de . 85 3 , (a) est intégrable au sens de Lebesgue sur si et seulement si , c’est-à-dire si admet une intégrale . absolument convergente sur (si donc, de manière (b) Si est intégrable au sens de Lebesgue sur équivalente, l’intégrale généralisée de est absolument convergente sur ), on a # 1l 1l (8.3) P REUVE : Nous nous contentons de faire la démonstration pour et les autres cas englobés par la proposition se démontrant de manière analogue. , Preuve de (a). D’après la proposition 20, 1l (8.4) pour tout entier . Le théorème de la convergence monotone nous permet alors d’écrire que 1l (8.5) D’où l’assertion (a). Preuve de (b). La première égalité dans (8.3) est aussi une conséquence immédiate de (8.5). Pour démontrer la seconde égalité de (8.3), on utilise la convergence dominée au lieu de la convergence monotone. En effet, la séquence d’applications 1l converge vers 1l . De plus, 1l . Aussi, si est intégrable , on a, par application du théorème de convergence au sens de Lebesgue de dominée : 1l 1l # Il suffit d’appliquer alors (8.4) pour obtenir le résultat énoncé. Attention : L’égalité entre une intégrale généralisée de Riemann et l’intégrale de Lebesgue n’est valable que si l’intégrale généralisée est absolument convergente. Nous n’insisterons jamais assez sur ce point. Si l’absolue convergence n’est pas 86 assurée, on ne peut rien dire. Ainsi, la fonction généralisée et on a 3 admet une intégrale alors que cette fonction n’admet pas d’intégrale généralisée absolument convergente et n’est donc pas Lebesgue-intégrable. Ce contre-exemple montre quand même que l’intégrale de Riemann a encore son utilité dans certains cas qui ne sont pas rares étant donné que la fonction joue un rôle fondamental en traitement du signal. 3 Comme nous l’avons déjà dit, les résultats présentés ci-dessus supposent, dès le départ, que l’application est mesurable par rapport à la tribu des boréliens. C’est une hypothèse raisonable compte-tenu des applications que l’on rencontre dans la pratique. Si on ne fait pas cette hypothèse, il faut alors prouver la mesurabilité de . Par une amélioration des démonstrations présentées ci-dessus, on aboutit à des résultats analogues à ceux qui précèdent mais où la mesurabilité de est assurée seulement par rapport à la tribu de Lebesgue, et où les intégrales de Lebesgue sont calculées par rapport à la mesure de Lebesgue complète . Ces résultats plus généraux où on n’évacue pas le problème de la mesurabilité de sont énoncés et démontrés à l’annexe C. Le lecteur verra le rôle déterminant joué alors par théorème 16. – La classe des applications Lebesgue-intégrables par rapport à la mesure de Lebesgue (complète) contient la classe de toutes les applications Riemann-intégrables. 1 – La classe des applications Lebesgue-intégrables par rapport à la mesure de Lebesgue (complète) contient aussi la classe de toutes les applications dont l’intégrale généralisée de Riemann est absolument convergente. – La classe des applications Lebesgue-intégrables par rapport à la mesure de Lebesgue (complète) ne contient pas la classe de toutes les applications admettant une intégrale généralisée non absolument convergentes. , &, 1 La classe des fonctions Lebesgue-intégrables est même strictement plus grande que celle des % applications Riemann-intégrables, puisque l’application qui associe à tout , est intégrable au sens de Lebesgue (son intégrale vaut ) mais non et à tout élément de Riemann-intégrable. 87 8.3 Dérivation Un des résultats les plus importants de la théorie de Riemann est le suivant. Si est continue, alors, pour , la fonction est dérivable et a pour dérivée . Evidemment, on peut espérer avoir un résultat analogue pour l’intégrale de Lebesgue, valable sur une classe plus large que celle pour laquelle la théorie de Riemann le démontre. Effectivement, on a les deux théorèmes suivants que l’on admettra. Théorème 21 Si et si on pose , alors pour tout partout et 1l (8.6) est continue (et même uniformément), - p.p. 3 # # , existe presque Théorème 22 Si et si point de , alors 3 1l , est différentiable en tout (8.7) Ces résultats montrent donc que l’intégrale de Lebesgue sur généralise les résultats obtenus avec l’intégrale de Riemann. On ne demande plus à ce que les fonctions soient continus mais qu’elles soient Lebesgue-intégrables. On a donc élargi le domaine de validité des résultats classiques de Riemann en ce qui concerne la dérivation. 8.4 Conclusions En vertu des résultats exposés ci-dessus, nous pouvons conclure comme suit, en espérant que ce qui suit permettra au lecteur de répondre aux interrogations qu’il peut se poser. Tous les résultats classiques et importants de la théorie de Riemann sont valables pour la théorie de Lebesgue sur pour une classe encore plus large de fonctions, qui est la classe des fonctions Lebesgue-intégrables. Donc, dès que l’on 88 travaille avec des fonctions Lebesgue-intégrables, il n’y a aucune raison d’utiliser des notations différentes pour l’intégrale de Lebesgue et l’intégrale de Riemann. A partir de maintenant, on peut donc oublier et et la notation où désignera tout aussi bien l’intégrale de Lebesgue sur que l’intégrale de Riemann ou l’intégrale généralisée de Riemann (si ou est infini) dès que est Lebesgue-intégrable. Par exemple, l’égalité (8.7) s’écrira désormais . 3 3 Certains pourraient alors être tentés d’oublier l’intégrale de Riemann, au vu de ce qui vient d’être dit. Ceci dit, l’argument est fallacieux. En effet, dans la pratique, comment vérifiet-on qu’une application est Lebesgue-intégrable ? En général, la mesurabilité n’est pas un problème car les applications rencontrées en pratique sont souvent continues ou continues par morceaux. Par contre, pour vérifier que l’intégrale du module de l’application est finie, on compare en général ce module à une application qu’on sait être Lebesgue-intégrable. Cette application de référence sera dans la plupart des cas Riemann-intégrable ou d’intégrale généralisée absolument convergente. On ne peut donc pas vraiment oublier les résultats principaux de l’intégrale de Riemann. De plus, il serait d’autant plus fâcheux d’oublier Riemann que l’on peut rencontrer des applications qui ne sont pas Lebesgue-intégrables mais qui admettent quand même une intégrale généralisée. Ces cas ne sont pas pathologiques. Nous avons déjà signalé celui de : cette une fonction que l’on rencontre souvent en pratique du signal. Plus tard, nous traiterons des processus aléatoires. Soit un espace probabilisé, une partie de et une application. Pour tout l’application de dans qui, , désignons par à , associe la va leur . On dira que est un processus stochastique si pour tout , est une variable aléatoire. Nous serons amenés à donner un sens à , c’est à-dire à définir une application de dans qui à associe . La difficulté est que, même pour fiwé, rien ne nous dit que la fonction (qu’on appelle une trajectoire de ) est mesurable. On aura alors recours à la théorie de Riemann pour s’en sortir. Il est donc clair qu’en théorie des probabilités et des processus aléatoires, certes Lebesgue est quasiment incontournable mais Riemann est aussi bien utile. 3 Il n’est donc pas conseillé d’oublier Riemann. 89 Plutôt que de chercher à oublier Riemann, il vaut mieux se souvenir des très importants résultats de la théorie de Lebesgue que sont les théorèmes de convergence (Beppo-Levi mais surtout convergence monotone, convergence dominée) et le théorème de Fubini-Tonelli et savoir les appliquer sans coup férir aux applications Riemann-intégrables (et donc mesurables) que l’on rencontre dans la pratique. Autrement dit, tant que l’on considère des fonctions réelles, Riemann agrémenté des résultats de convergence de la théorie de Lebesgue et du théorème de Fubini suffit en général. Dès que l’on se place dans des espaces mesurés ou probabilisés, la théorie de Lebesgue est difficilement contournable mais Riemann ne doit pas être oublié. Quelques remarques sur le calcul numérique des intégrales de Lebesgue et de Riemann On pourrait penser que l’intégrale de Lebesgue ne se calcule pas aussi facilement que , l’intégrale de Riemann, même pour une application continue . En effet, on peut numériquement calculer l’intégrale de Riemann de formule suivante : (8.8) Il suffit en effet de choisir . grâce à la assez grand et d’approximer par Si on veut calculer numériquement cette intégrale en suivant la théorie de Lebesgue, il faut alors séparer la partie positive de de la partie négativé (ce qui n’est pas difficile et peu coûteux), puis calculer les intégrales de Lebesgue respectives de et de et faire la différence de ces intégrales. Le problème est alors le calcul de l’intégrale de Lebesgue d’une application positive. Il est clair que la définition abstraite 5.4 du paragraphe 5.1 n’est pas très commode pour mener à bien ce calcul numérique. A première vue, on peut donc penser que calculer l’intégrale de Lebesgue, même d’une application continue, est relativement délicat. Mais n’oublions pas les définitions 5.5 et 5.6 que nous avons données au paragraphe 5.2. Ces définitions nous permettent évidemment de calculer numériquement l’intégrale 90 au sens de Lebesgue. Le calcul numérique ainsi proposé est-il vraiment moins simple et plus coûteux que le calcul de l’intégrale de Riemann ? 91 Chapitre 9 Fonctions et paramètres d’une variable aléatoire 9.1 Espérance mathématique une variable aléatoire définie sur un espace probabilisé Définition 39 Soit . On appelle espérance mathématique (ou valeur moyenne) de , l’integrale, si elle existe : (9.1) si On dit que est intégrable et on note . # Remarque : L’ensemble est l’ensemble des variables aléatoires qui Dans la suite, suivant sont égales presque partout à un élément de . . l’usage commun, nous nous contenterons de manipuler Propriétés importantes : 1. # . Plus généralement, Nous pouvons préciser la propriété importante suivante : # / # 2. Comme l’espérance est une intégrale, elle est linéaire. L’espérance mathé . D’où, pour tout couple de matique est une forme linéaire sur variables aléatoires , on a : -/ 92 / / (9.2) 3. Une constante réelle (constante) et l’on a : peut être considérée comme une v.a. réelle 5. 6. 4. 3 presque partout (c’est à dire que partout sauf sur un ensemble de mesure nulle). mesurable de dans . 7. Inégalité de Jensen : Soit une fonction convexe . Alors, si est intégrable, N.B. : cette propriété reste vraie dans le cas des vecteurs aléatoires (cf. cha pitre 12) avec de dans . 9.2 Moments d’ordre supérieur + , si (c’est à dire que Définition 40 Soit + ment intégrable), le moment d’ordre de est absolu- est défini par : (9.3) Remarque : l’espérance mathématique est tout simplement le moment d’ordre 1. + Définition 41 Le moment centré d’ordre 3 de est défini par : (9.4) Une variable aléatoire est dite centrée si son espérance mathématique est nulle. 93 9.3 Variance Définition 42 La variance d’une variable aléatoire est définie comme étant le moment centré d’ordre , soit : 6 3 (9.5) Nous pouvons vérifier que la variance peut s’écrire aussi comme : 6 L’écart-type de la v.a. 3 est défini par : =6 (9.6) 3 (9.7) est presque sûrement Notez que si la variance d’une v.a. est nulle, alors constante et égale à sa moyenne. Inversement, la variance d’une constante est nulle. 9.4 Inégalité de Tchebychev Markov et de Bienaymé- 9.4.1 Expression générale de l’inégalité de Tchebychev Soit une variable aléatoire et une fonction positive paire et croissante sur . Pour tout réel positif , on a : 3 (9.8) où désigne le supremum presque sûr de la variable aléatoire et vaut . En pratique seule la borne supérieure est utilisée. En considérant des fonctions particulières, on peut dériver les inégalités de Markov et de Bienaymé-Tchebychev. % 9.4.2 Inégalité de Markov Théorème 23 Soit ment positif, on a : une v.a. de moment d’ordre k fini, pour tout 94 réel stricte(9.9) 9.4.3 Inégalité de Bienaymé-Tchebychev L’inégalité de Tchebychev est un cas particulier de l’inégalité de Markov : Théorème 24 Soit ment positif, on a : une v.a. de moment d’ordre 2 fini, pour tout 3 6 réel stricte(9.10) 9.5 Fonction caractéristique 6 Définition 43 On appelle fonction caractéristique d’une variable aléatoire fonction à valeurs complexes définie sur par : 6 Propriétés : 1. L’existence de 6 6 pour tout 6 . est continue. 4. 6 6 6 5. 3. 6 2. 6 la (9.11) résulte du fait que : # . 6. 43 . + , on a : 6 6 7. Si les moments d’ordre existent et si ment dérivable) , alors : 6 est de classe 6 . (k fois continue- (9.12) Nous complèterons ces propriétés un peu plus loin, lorsque nous aurons vu la notion de loi d’une variable aléatoire. 95 9.6 Fonction génératrice La fonction génératrice est définie uniquement dans le cas d’une v.a. entière (à valeurs dans ). Définition 44 Soit définie par : 6 une variable aléatoire entière. La fonction génératrice est Remarques : – Lorsque 6 6 '6( . . 3 3 , alors 6 – – – – 5 6 . est + 6 3 . 96 6 fois différentiable et on a : 3 ( ( 3 + (9.13) Chapitre 10 Loi d’une variable aléatoire réelle . Etant Jusqu’ici, nous sommes restés dans un espace probabilisé donné que cet espace probabilisé est, somme toute, assez abstrait, il n’est pas toujours très commode pour faire les calculs des moments, de la fonction caractéristique, etc. Il serait bien plus agréable de travailler sur , à condition de savoir transférer ce qui n’est pas commode sur en un calcul plus facile sur . La théorie de la mesure nous donne l’outil adéquat : c’est la notion de mesure image, qui conduit sur le théorème dit de transfert et qui va nous permettre de mener les calculs dans au lieu de . La notion de mesure image correspond à ce qu’on appelle la loi d’une variable aléatoire. Cette loi possède des propriétés remarquables que nous décrirons. 10.1 Mesure ou loi image et théorème de transfert et Définition 45 Soient un espace mesuré une application définie, pour mesurable. La fonction d’ensemble, tout est une mesure positive appelée mesure image de par la mesure par l’application mesurable . Lorsque la mesure est une mesure est appelée loi image de par ou encore loi de . de probabilité, Remarques : – Bien entendu, pour justifier cette définition, il faut évidemment vérifier que est effectivement une mesure. Ceci est un exercice de l’application routine laissée au lecteur. que nous utilisons est celle proposée par [11]. – La notation 97 6 De nombreux auteurs préfèrent utiliser la notation pour désigner la me sure image de par . Nous l’emploierons donc aussi. Cependant, la notation , proposée dans [11], est très informative. En effet, la formule indique tout de suite comment agit puisque, dans cette écriture, on passe du membre de gauche à celui de droite en ajoutant une parenthèse avant . Nous verrons aussi que certaines propriétés d’une mesure image s’expriment de manière très concise et très commode grâce à cette écriture. L’importance et la commodité de la notion de mesure image est illustrée par les résultats suivants. Lemme 10 Soient un espace mesuré , , la mesure et image de par . La mesure deux applications mesurables. Soit par l’application mesurable est égale à la mesure image image de de par l’application mesurable : . On a, par définition, . Or, l’image réciproque de dpar l’application . On a donc est égale à l’ensemble P REUVE : Soit est mesurable, on a encore, . Comme par définition de la mesure image, La mesure image permet de transférer un calcul d’intégrale sur en un calcul d’intégrale sur . C’est le très important théorème de transfert que nous énonçons maintenant. Théorème 25 (Théorème de transfert) Soient espace mesuré, une variable aléatoire réelle, une un mesurable et la mesure image de application par : 36 3 (i) L’intégrabilité de à la mesure par rapport image de par : rapport à la mesure 98 équivaut à celle de par (ii) Si est positive ou nulle ou si , alors est intégrable par rapport à la mesure (10.1) P REUVE : L’assertion (i) est une conséquence immédiate de (ii). Nous nous contentons de démontrer (ii). Commençons par supposer que est positive ou nulle. D’après (5.6), D’après la définition d’une mesure image et le lemme 10, (10.2) En reportant cette égalité dans (10.2), le résultat dérive de la définition même de donnée par (5.6). l’intégrale de 3 3 3 Supposons maintenant de signe quelconque et intégrable. Nous pou et . vons écrire sous la forme avec 1l 1l Comme est intégrable, et le sont aussi et on a (10.3) On applique alors la première partie de la démonstration à et , de . sorte que et On en déduit donc que et sont intégrables par rapport à la mesure , et que est aussi intégrable . On a donc par rapport à la mesure . Le résultat s’ob 3 tient alors en reportant cette dernière égalité dans (10.3). Ce théorème donne donc une technique de calcul assez simple pour calculer dans l’espace des réels l’espérance mathématique au lieu d’intégrer une fonction dans l’espace des événements élémentaires . Nous verrons qu’il s’étend sans problème au cas des vecteurs aléatoires (cf. chapitre 12). 99 10.2 Application à une mesure de probabilité et une variable aléatoire Considérons un espace probabilisé . Nous voyons que nous pouvons exprimer le moment d’ordre + qui complète la définition donnée par (9.3). Si nous considérons la fonction caractéristique l’écrire maintenant sous la forme 6 6 de (10.4) , nous pouvons 3 par (10.5) 6 qui complète la définition donnée au paragraphe 9.5 (cf. (9.11)). L’égalité précé dente nous montre qu’au coefficient près, est la transformée de Fourier de la mesure positive sur . 6 On montre alors que la fonction caractérise la loi entièrement, dans le ) si et sens où deux variables aléatoires et ont même loi ( seulement si elles ont même fonction caractéristique : 6 8 et ont la même loi 10.3 Fonction de répartition d’une variable aléatoire réelle La notion de fonction de répartition est fondamentale en calcul des probabilités. Elle dérive de la notion de loi image. Définition 46 La fonction de répartition définie par : 6 3 3 6 3 6 d’une variable aléatoire réelle 3 est Cette fonction de répartition possède des propriétés essentielles résumées dans la proposition suivante. 100 Proposition 22 Soit un espace probabilisé et une variable aléatoire réelle. La fonction de répartition propriétés suivantes : (i) est croissante (ii) est continue à droite. (iii) et 6 6 6 P REUVE : Peuve de (i). Soit , deux réels. Nous avons donc , et donc, montre que est croissante. 3 # 3 6 de possède les 6 6 3 # 3 # # , ce qui Preuve de (ii). Soit une suite décroissante telle que . La séquence d’ensembles est décroissante et tend vers . D’après la section décroît vers 1.6) nous en déduisons que . 6 6 . La séPreuve de (iii). Soit une suite croissante telle que , quence formée par les ensembles , est une suite croissante dont . Toujours d’après les propriétés fondamentales des la limite est mesures (section 1.6), nous concluons que , d’où le résultat. 6 3 Soit une suite décroissante telle que . La séquence formée par les ensembles , , est cette fois une suite décroissante dont la limite est l’ensemble vide. En vertu de la section 1.6, il vient , d’où le résultat. 6 Remarque : Même si c’est trivial, il nous faut noter qu’une fonction de réparition . En effet, si , , admet une limite à gauche en tout point , est une suite croissante (puisque est croissante) bornée par . ( ' 6 La proposition 22 admet une réciproque que nous énonçons sans démonstration car celle-ci dépasse le cadre de ce cours. Théorème 26 Si vérifie les conditions (i), (ii) et (iii) de la proposition 22, alors est la fonction de répartition d’une unique loi de probabilité . sur 101 Remarques : 1. Si vérifie les conditions (i), (ii) et (iii) de la proposition 22, une unique mesure positive, alors définit sur la tribu de Lebesgue appelée mesure de Lebesgue-Stieltjes et notée . Cette mesure est l’unique mesure sur la tribu de Lebesgue telle que pour tout intervalle de , (10.6) La restriction de à la tribu des boréliens est aussi la seule mesure 3 définie sur qui vérifie (10.6). Les propriétés (i) et (ii) sont d’ailleurs suffisantes pour assurer ce qui vient d’être dit et nous invitons le lecteur à se reporter à l’annexe B pour plus de détails. 2. En complément de la remarque précédente, considérons maintenant une . La fonction de répartivariable aléatoire tion de cette variable (i), une mesure aléatoire engendre, en vertu de de Lebesgue-Stieltjes la tribu de Lebesgue part, , elle, est une mesuresur .etD’autre sur la tribu des boréliens vérifie clai rement propriétés d’unicité est . laDesrestriction rappelées . En ci-dessus, on en déduit que de à d’autres termes, définit entièrement la loi de 6 6 3 6 6 6 6 Une fonction de répartition vérifie d’autres propriétés très importantes qu’il est bon de connaître pour pouvoir effectuer les calculs en pratique. 3 Proposition 23 Soit un espace probabilisé et une aléatoire réelle. Avec les conventions d’écriture et variable (qui se justifient au vu de la proposition 22 (iii), la fonction de ré tels que partition de possède les propriétés suivantes pour tout : 3 # #6 # # # # # # # 3 3 6 6 33 6 3 36 63 6 3 6 6 3 3 6 6 3 3 6 6 6 102 3 3 (10.7) (10.8) (10.9) (10.10) (10.11) (10.12) (10.13) (10.14) P REUVE : Nous donnons les démonstrations de ces résultats car elles permettent de commencer à manipuler les fonctions de répartitions. 3 # Preuve de (10.7). Nous .avons 3 # , de sorte que # Preuve de (10.8) Soit des ensembles mesurables . La séquence décroît et donc . Or, vers d’après (10.7). D’autre part, . On a " donc . D’où le résultat. 3 6 3 6 3 3 # Preuve de (10.10). On écrit que # Preuve Comme de (10.11). # 3 3 # # # Preuve de (10.13). On écrit que et l’on applique (10.9) et (10.12). # , de sorte que et l’on applique (10.7) et (10.9). , nous avons , d’où le résultat. # , de sorte . Le résultat dérive Preuve de (10.14). Etant donné que , le résultat découle de (10.9) et de (10.11). Preuve de (10.12). Il suffit d’écrire que et d’appliquer ensuite (10.9) et (10.11). # 3 # # Preuve de (10.9). Nous que écrivons que immédiatement de (10.8). 6 # # # Remarque : Dans certains ouvrages, la fonction de répartition est définie par . Dans l’énoncé de la proposition 22, il faut alors remplacer "continue à droite" par "continue à gauche". Les propriétés énoncées à la proposition 23 se voient elles-aussi légèrement modifiées. Il faut remplacer les limites à gauche par des limites à droite et les limites à gauches par la valeur de la fonction de répartition au point considéré. 6 103 10.4 Les densités de probabilité Dans la suite de ce chapitre, nous allons manipuler les intégrales de fonctions réelles sur . En vertu des remarques du chapitre 8, tout ce qui va être dit ci-dessous est valable que l’on considère les intégrales rencontrées comme des intégrales de Riemann ou comme des intégrales de Lebesgue. En effet, les fonctions que nous allons rencontrer sont soit à support compact et Riemann-intégrables (donc Lebesgue-intégrables), soit définie sur tout et absolument intégrables (ce qui équivaut à leur intégrabilité au sens de Lebesgue). Nous nous contenterons de parler de fonctions intégrables et cela signifiera donc que existe et . est fini, ce qui induit l’existence de Compte-tenu du théorème 26, il est assez facile de construire une fonction de répartition. Il suffit de se donner une fonction positive et intégrable telle que . En effet, la fonction définie par (10.15) est une fonction de répartition car elle vérifie toutes les propriétés requises. Elle est même continue (et pas seulement à droite) et a pour dérivée . Cette remarque très simple justifie la définition suivante. Définition 47 Une fonction réelle si elle est positive, intégrable et vérifie est appelée densité de probabilité Si nous nous donnons une densité de probabilité nous savons construire une fonction de répartition donnée par la formule (10.15). Réciproquement, si est une variable aléatoire dont la fonction de réparti tion s’écrit sous la forme (10.15), admet donc une densité qui est (en toute rigueur : presque partout). On dit que admet comme densité. 6 Certes, dans la pratique, on rencontre souvent des variables aléatoires répartition avec densité et nous consacrerons un paragraphe entier à ce cas. Mais il est très important de souligner que si la fonction de répartition existe toujours, il n’en va pas de même pour la densité. Il existe, et ce ne sont encore pas des cas pathologiques, des variables aléatoires qui n’ont pas de densité. 104 Il en va ainsi des variables aléatoires discrètes qui sont aussi très importantes en pratique : un jeu de pile ou face ou on gagne euro si c’est pile et où on perd euro si c’est face est un exemple basique de variable aléatoire discrète ; un élément binaire dans une transmission numérique qui peut valoir ou est aussi représenté par une variable aléatoire discrète. De telles variables aléatoires n’ont pas de densité et nous verrons pourquoi. On peut aussi considérer l’exemple suivant. Soit une fonction à valeurs réelles, telle que positive et intégrable et une séquence où Alors, la fonction définie, pour tout , par est une fonction de répartition, mais elle n’a pas de densité et n’est pas discrète pour autant. Mais que le lecteur se rassure : dans la réalité, on rencontre majoritairement des fonctions de répartition à densité ou des fonctions de répartition discrètes. De plus, lorsque la fonction de répartition admet une densité, cette densité est en général continue sur ou un intervalle borné de de sorte que cette densité est la dérivée en tout point de la fonction de répartition. Aussi, dans la suite, nous allons dédier une section aux variables aléatoires à densité (dites absolument convergentes) et une section aux variables aléatoires discrètes 10.5 Variables aléatoires absolument continues Définition 48 Soit variable aléatoire définie sur un espace probabilisé . On dit estune variable aléatoire absolument continue s’il existe une , appeléeune fonction densité de probabilité, telle que : 6 6 105 6 (10.16) Remarques : 1. Si la fonction de répartition et 6 est continue, on a, pour tout , est : 2. La probabilité de tout borélien 6 (10.17) 6 3. La densité de probabilité est toujours positive ou nulle mais non nécessairement majorée. Elle par contre finie (presque partout) 4. 6 est une densité de probabilité au sens de la définition 47. 5. Dans la pratique, la plupart des fonctions de répartition que l’on rencontre, si elles ne sont pas discrètes sont continues et dérivables. Elles seront donc absolument continues. Pour calculer la densité d’une variable aléatoire réelle continue , on calculera la fonction de répartition absolument donc et on dérivera par rapport à . Dans cer tains cas, on pourra même écrire directement sous la forme (10.16). Répétons-le, il est inutile de se poser la question de savoir si on travaille avec Lebesgue ou Riemann. Ce sera la même chose. Il faut essentiellement retenir les théorèmes de convergence, qui peuvent servir. 6 6 6 6. Le théorème de transfert appliqué à une variable aléatoire absolument continue de densité nous donne la formule très utile suivante : 6 6 (10.18) 6 7. Si nous considérons la fonction caractéristique d’une variable aléatoire absolument continue de densité , on a, par application de l’égalité précédente (10.19) 6 6 6 Cette égalité nous montre que la fonction caractéristique est la transformée de Fourier de la densité , ce qui complète la remarque selon laquelle la 6 106 fonction caractéristique est la transformée de Fourier de la loi de (cf. (10.5)). 8. Nous pouvons compléter la remarque précédente par la suivante. Si la fonction caractéristique d’une variable aléatoire absolument continue est absolument integrable ( ), alors la densité de probabilité de peut être déduite de par transformation de Fourier inverse : 6 6 6 6 # 6 6 (10.20) 10.6 Variables aléatoires discrètes Définition 49 Soit variable aléatoire définie sur un espace probabilisé . La variable une est un ensemble fini aléatoire est dite discrète si ou dénombrable. '( Remarques : : , , , .... 1. Exemples d’ensembles de 2. La loi d’une variable aléatoire discrète est complètement déterminée par une famille dénombrable de nombre positifs où tels que . '6 Soit une variable aléatoire discrète . Soit son image dans où de par . Par définition, pour tout , . Calculons la loi image . Pour tout , Définissons comme : . l’ensemble des indices tels que Nous pouvons alors écrire que Aussi, . En faisant intervenir les mesures de 1 Dirac aux points (cf. (1.3)) , nous pouvons écrire que (10.21) 1 par On rappelle que la mesure de Dirac au point est la mesure définie pour tout " ,& si si 107 " Les variables aléatoires discrètes nous donnent l’opportunité d’introduire rapidement le théorème de Radon-Nikodym dont on trouvera un énoncé à la section 10.7.3. Ce théorème nous permet de dire que les variables aléatoires discrètes . Appliqué n’ont pas de densité à partir de la formule donnée ci-dessus pour à une variable aléatoire , le théorème de Radon-Nikodym nous dit que est absolument convergente si et seulement si tout borélien , de mesure nulle : pour la mesure de Lebesgue est aussi de mesure nulle pour la mesure Or, nous venons de voir que la loi d’une variable aléatoire discrète est de la forme (10.21) et nous avons trivialement et . L’en semble mesurable ne vérifie pas le critère donné par Radon-Nikodym et, effectivement, une variable aléatoire discrète n’a pas de densité par rapport à la mesure de Lebesgue. 6 celle de la fonction de réparti 3 et donc 3 Nous déduisons de l’expression de tion de . Par définition 6 Pour terminer ce paragraphe, soulignons que l’application du théorème de transfert à la variable aléatoire discrète considérée jusqu’ici conduit à l’égalité (10.22) dès que est positive ou que '6 est intégrable. Précisons aussi que si la fonction caractéristique discrète est absolument intégrable, alors : + qui est l’analogue de (10.20). 108 6 6 de la variable aléatoire (10.23) 10.7 Exercices corrigés Nous terminons ce chapitre par trois exercices destinés à familiariser le lecteur avec quelques calculs usuels sur les fonctions de répartition et les parmètres d’une loi discrète et continue. Notamment, Le lecteur peut reprendre les calculs des exercices 2 et 3 dans le cas des exemples donnés dans le chapitre suivant qui présentent des lois élémentaires très utiles dans la pratique. 10.7.1 Exercice corrigé 1 6 3 est telle que son domaine de Une variable aléatoire absolument continue forme et le graphe de sa densité de probabilité définition avec l’axe des x un triangle isocèle. 6 6 et de la fonction de répartition 6 . 43 . 2. Calculer la probabilité % . 3. Calculer la probabilité 4. Donner la densité de probabilité ainsi que la fonction de répartition de la variable aléatoire . 1. Donner l’équation de 5. Donner la densité de probabilité ainsi que la fonction de répartition de la . variable aléatoire Eléments de corrections de l’exercice : 1. La densité de probabilité 6 6 3 est : si si sinon # 3 La fonction de répartition est donné par : 6 2. 3. 4. 6 3 # # 6 6 3 6 3 % 3 3 6 , 8 # # 6 3 6 3 pour 109 , d’où : 8 Or, 6 8 6 3 6 si si est une fonction paire, d’où : 8 6 si sinon 5. même raisonnement que la question 4, on trouve que : 8 6 $# si sinon 10.7.2 Exercice corrigé 2 : variable aléatoire discrète de Poisson " Considérons une variable aléatoire de Poisson (voir 11.4) de paramètre ) :( + + Espérance mathématique : Variance : 6 D’où : + + = + = 3 6 6 6 6 110 Fonction caractéristique : Fonction génératrice : + % et inversement, à partir de la fonction caractéristique, on peut retrouver la loi de en utilisant le théorème des résidus : + 6 + Fonction de répartition : 6 # + + 10.7.3 Exercice corrigé 3 : le cas de la loi absolument continue dite exponentielle ! Considérons une variable aléatoire qui suit une loi exponentielle (voir 11.8) ). La densité de probabilité est donnée par : de paramètres ( 6 Espérance mathématique : Variance : 6 D’où : 6 Fonction de répartition : 6 6 6 6 3 Fonction caractéristique : 6 1l 3 # 3 1l 111 Compléments : le théorème de Radon-Nikodym et son application en théorie des probabilités La notion de variable aléatoire absolument convergente n’est qu’une application de la notion d’absolue continuité que l’on rencontre en théorie de la mesure. La notion de densité, qui accompagne cette notion d’absolue continuité, a fait l’objet de nombreux développements théoriques. Un des résultats les plus importants est le théorème de RadonNikodym. Nous présentons ce théorème afin de familiariser le lecteur avec une notion souvent utilisée dans les articles relatifs à la théorie des probabilités. Dans cette section, nous commençons par présenter la notion de mesure absolument continue par rapport à une autre mesure. Puis nous énonçons le théorème de RadonNikodym. Ce théorème précise ce qu’est une densité et donne un critère pour savoir si une mesure (et en particulier une fonction de répartition) admet une densité. Remarque : Nous avons préféré présenter la notion d’absolue continuité et le théorème de Radon-Nikodym sous forme de complément que sous forme d’annexe. En effet, l’absolue continuité d’une mesure par rapport à une autre nous a servi à la section 10.6 et le théorème de Radon-Nikodym nous servira ultérieurement. 10.7.4 Mesure absolument continue par rapport à une autre Posons le problème dans le cas probabiliste. d’une variable aléatoire est une mesure sur muni de la tribu des Une loi nous connaissons déjà une mesure, plus "naturelle", sur l’espace meboréliens . Or, surable : il s’agit de la mesure de Lebesgue non complète. On peut donc se et . demander s’il existe une relation entre En fait, la mesure de Lebesgue représente une certaine épaisseur de l’ensemble que l’on va mesurer. Ce n’est peut-être pas évident à voir dans le cas de la droite réelle, mais (elle ça l’est beaucoup plus si on considère un instant la mesure de Lebesgue sur représente alors la surface) ou la mesure de Lebesgue sur (elle représente alors le ne possède pas des propriétés analogues volume). Si la mesure à la mesure de Lebesgue (si elle ne correspond pas à la mesure d’une certaine "épaisseur"), alors on et . On peut par contre espérer aboutir à un peut penser qu’il sera difficile de lier résultat intéressant si véhicule une notion d’épaisseur comparable à celle inhérente à la mesure de Lebesgue. La définition suivante permet de formaliser mathématiquement la notion d’épaisseur d’une mesure par rapport à une autre. 112 Définition 50 Soient et deux mesures sur un espace mesurable . On dit que est absolument continue par rapport à la mesure si tout ensemble -négligeable est aussi -négliegable et l’on écrit ou . Exercice 22 Soit un espace probabilisable et deux mesures et Soent et les mesures complètes associées à et respectivement. sur cet espace. , a-t-on ?. , a-t-on ? Si (i) Si (ii) En considérant les mesures et complètes, est donc absolument continue par , rapport à si, pour tout implique que . En d’autres termes, la mesure est "moins épaisse" que . Ceci explique la notation , analogue à celle utilisée en physique pour exprimer qu’une grandeur est négligeable par rapport à une autre. En fait, étant donné une mesure , on sait construire une infinité de mesures absolument continues par rapport à . Il suffit en effet de considérer une variable aléatoire positive quelconque et de poser, pour tout 1l . L’application , est bien une mesure et l’on écrit ou encore . On a alors : . Aussi, si , est aussi égal à puisque et il s’ensuit que aussi. En . d’autres termes, ! par La réciproque est-elle vraie ? id est, lorsque une mesure est absolument continue rapport à une autre mesure , existe-t-il une application mesurable telle que ? 10.7.5 Le théorème de Radon-Nikodym Le théorème de Radon-Nikodym nous apprend que la réponse aux questions précé dentes est oui ... mais pour une certaine catégorie de mesures : les mesures -finies. Il se trouve que la mesure de Lebesgue et toute mesure de probabilité sont (trivialement) des mesures -finies. Le théorème de Radon-Nikodym va donc s’appliquer en théorie des et la probabilités et nous permettre de comparer l’épaisseur mesurée par une loi mesure de Lebesgue. De manière plus précise, on se donne la définition suivante. Définition 51 Soit un espace mesuré. On dit que existe une suite croissante d’ensembles mesurables entier , . 113 ( est une mesure -finie s’il telle que, pour tout Exercice 23 (i) Montrer que la mesure de Lebesgue non complète plète) sont -finies. et la mesure de Lebesgue (com- (ii) Montrer que toute mesure de probabilité est -finie. Théorème 27 (Théorème de Radon-Nikodym) Soient et deux mesures -finies sur un espace probabilisable . La mesure est absolument continue par rapport à si et seulement si il existe un élément tel que , c’est-à-dire, tel que pour tout 1l . Deux éléments de tels que , sont égaux -presque partout. ! Remarques : Si , alors la classe d’équivalence pour la relation " -presque partout" des éléments de tels que est appelé dérivée de Radon-Nikodym ou densité de la mesure par rapport à la mesure . Noter que cette classe d’équivalence est unique d’après le théorème. 10.7.6 Application aux probabilités : variables aléatoires absolument continues et sa Si nous considérons maintenant une variable aléatoire loi , nous savons que et la mesure de Lebesgue sur me est absolument continue par rapportsontà ladeux sures -finies. S’il se trouve que mesure de Lebesgue , alors le théorème de Radon-Nikodym nous dit qu’il existe une densité telle que . On peut donc se donner la définition suivante. 6 6 Définition 52 Soit une variable aléatoire définie sur un espace probabilisé . de est absolument On dit que est une variable absolument continue si la loi continue par rapport à la mesure de Lebesgue : . La densité de RadonNikodym est appelée densité de probabilité de la variable aléatoire . Exercice 24 Soit probabilisé une variable aléatoire définie sur un espace est absolument continue et de densité . 6 presque partout. On pourra considérer les ensembles mesurables 6 et montrer que la mesure de Lebesgue de ces ensembles et donc la mesure de leur union est nulle. 6 Montrer que . 6 (i) Montrer que (ii) . Supposons que 114 (iii) Montrer que 47. 6 1l est une densité de probabilité au sens de la définition Cet exercice montre que pour une variable aléatoire absolument continue , la densité de par rapport à la mesure de Lebesgue est presque-partout une Radon-Nikodym de densité de probabilité au sens de la définition 47. C’est donc, presque partout, la dérivée de la fonction de répartition de la variable aléatoire . Le lecteur vérifiera aisément que la définition 52 que nous venons de donner pour les variables aléatoires absolument continues est équivalente à celle donnée dans le coprs principal de ce chapitre (cf. définition 48) et qui est celle généralement utilisée par les statisticiens. 115 Chapitre 11 Exemples de lois 11.1 La loi de Bernouilli $# # 3 Une variable aléatoire suit une loi de Bernouilli si elle ne peut prendre que les ) , deux valeurs 0 ou 1. On pose traditionnellement : ( et Interprétation : C’est évidemment la loi du pile ou face. Un élément binaire qui peut prendre la valeur ou obéit aussi à une loi de Bernouilli. Lorsqu’on prend une décision sur la présence ou l’absence d’une cible radar, on a aussi affaire à une loi de Bernouilli. Les exemples se multiplient à l’infini. C’est la loi discrète basique et fondamentale que l’on rencontre tout le temps. 11.2 La loi géométrique C’est une variable aléatoire de paramètre , dans . Soit N cette variable aléatoire, on a : # # , qui prend ses valeurs + 3 Interprétation : lorsqu’on répète une infinité de fois une épreuve de Bernouilli de manière indépendante. Le nombre aléatoire correspondant à l’indice de la première apparition d’un succés ( ) est une variable aléatoire qui suit la loi géométrique. 116 Loi géométrique 0.5 P(X=k) 0.4 0.3 0.2 0.1 0 0 1 2 3 4 5 6 7 Indice k F IG . 11.1 – Distribution de la loi géométrique avec 11.3 La loi binomiale '( + 3 et , C’est une variable aléatoire de paramètres ses valeurs dans l’ensemble telle que : ( # # ) . Elle prend Interprétation : lorsqu’on répète n fois une épreuve de Bernouilli de manière indépendante. Le nombre aléatoire correspondant au nombre de succés est une variable aléatoire qui suit la loi Binomiale. Remarquer qu’on peut considérer qu’une loi de Bernouilli est un cas particulier . de la loi Binomiale avec 11.4 La loi de Poisson C’est une variable aléatoire entière de paramètre ) dans , telle que :( + + 117 % qui prend ses valeurs Loi Binomiale B(n=10,p=0.7) 0.25 P(X=k) 0.2 0.15 0.1 0.05 0 0 2 4 6 8 10 Indice k F IG . 11.2 – Distribution de la loi Binomiale avec et Loi Poisson P(4) 0.25 P(X=k) 0.2 0.15 0.1 0.05 0 0 2 4 6 Indice k 8 10 F IG . 11.3 – Distribution de la loi de Poisson 118 12 Interprétation : La loi de Poisson est souvent utilisée dans la modélisation d’une file d’attente (trafic téléphonique par exemple) pour dénombrer le nombre de clients dans la file. 11.5 La loi uniforme Les exemples qui vont suivre, contrairement aux exemples précédents, sont des variables aléatoires absoluments continues. On dit que la v.a. suit une loi uniforme sur un intervalle ) si et seulement si sa densité de pro ( babilité est constante sur l’intervalle , soit : 6 3 1l Remarque : Le choix de la constante est donné par . La loi uni forme sur un intervalle n’est autre que la formulation mathématique de la phrase : "soit une valeur prise au hasard dans ". 6 Interprétation : Lors de la propagation d’une onde sur le canal radio-mobile, du fait des phénomènes de diffusion, réflexion ou diffraction, l’onde emprunte plusieurs trajets. Sur chacun des trajets, elle subit un déphasage aléatoire qui est sup posé distribué selon une loi uniforme sur . , 11.6 La loi normale (ou loi de Gauss) Une variable aléatoire souvent la notation : suit une loi normale de paramètres et (On utilise ) si sa densité de probabilité est donnée par : 6 Remarque : La loi gaussienne joue un rôle fondamental en probabilité et elle apparaitra également quand nous étudierons le théorème de la limite centrale. Interprétation : De nombreux phénomènes physiques aléatoires peuvent être modélisés comme des processus gaussiens. Citons par exemple le bruit thermique généré par des composants électroniques (amplificateurs ...). 119 Loi Uniforme 1 0.9 0.8 densité de probabilité 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -2 -1.5 -1 -0.5 0 x 0.5 1 1.5 F IG . 11.4 – Distribution de la loi Uniforme 2 Loi Gaussienne 0.5 0.45 0.4 densité de probabilité 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -4 -2 0 2 axe des x F IG . 11.5 – Distribution de la loi Normale : 120 4 6 et Loi Log Normale densité de probabilité 0.5 0.4 0.3 0.2 0.1 0 1 2 3 4 5 6 axe des x 7 8 F IG . 11.6 – Distribution de la loi Log Normale : continue) ou 9 , 10 et 11.7 La loi Log Normale Une variable aléatoire suit une loi log normale de paramètres sa densité de probabilité est donnée par : 1l Remarque : La v.a. (trait , et ( si 3 ( 6 où . peut être obtenue par Interprétation : Reprenons l’exemple de la propagation sur canal radio-mobile. L’onde subit des évanouissements de deux types : grande échelle et petite échelle. Les évanouissements à grande échelle se manifestent par une atténuation de la puissance moyenne du signal reçu lorsque l’émetteur et le récepteur sont loin l’un de l’autre. Cette atténuation suit une loi Log Normale. 11.8 La loi Exponentielle ! Une variable aléatoire suit une loi exponentielle de paramètres ) si sa densité de probabilité est donnée par : 1l 6 121 ( Loi Exponentielle 1 0.9 0.8 densité de probabilité 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 1 2 3 4 5 axe des x 6 7 8 9 F IG . 11.7 – Distribution de la loi Exponentielle 10 ! " Interprétation : La loi exponentielle sert entre autres à modéliser les instants d’arrivée des clients dans une file d’attente (cf. exemple du trafic téléphonique cité plus haut pour la loi de Poisson). 11.9 La loi du Une variable aléatoire suit une loi du (prononcer chi ) à liberté si sa densité de probabilité est de la forme : 6 ) degrés de 1l ) "+ + 3 + ) 3 si 2. 6 3. (( + 3 4. Soient variables aléatoires et identiquement distribuées . indépendantes selon une loi normale Alors la variable aléatoire normalisée suit une loi du chi- à degrés de liberté. Remarques 1. 122 Loi du Chi−2 − 0 < n <2 4 3.5 densité de probabilité 3 2.5 2 1.5 1 0.5 0 0 1 2 3 4 5 axe des x 6 7 8 9 10 $# # F IG . 11.8 – Distribution de la loi du Chi- : Loi du Chi−2 − n=2 0.5 0.45 0.4 densité de probabilité 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 0 1 2 3 4 5 axe des x 6 7 8 9 F IG . 11.9 – Distribution de la loi du Chi- : 123 10 Loi du Chi−2 − n>2 0.2 0.18 0.16 densité de probabilité 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 0 1 2 3 4 5 axe des x 6 7 8 9 10 % F IG . 11.10 – Distribution de la loi du Chi- : 11.10 La loi du non centrée de paramètre de décentrage La densité de probabilité d’une variable aléatoire distribuée selon une loi du non centrée s’exprime en fonction d’une fonction hypergéométrique dont on trouvera les propriétés dans [1] et [16], entre autres. où . = deux entiers, et deux suites fiOn définit la fonction hypergéométrique générali et et de la variable complexe , notée , par : Définition 53 Soient et nies d’éléments complexes. sée paramètres de = + (11.1) Etant donnée cette définition, on peut à présent exprimer la densité de probabilité d’une variable aléatoire du non centrée à degrés de liberté et de paramètre de décentrage : 6 ) 124 % (11.2) variables aléatoires indépendantes de même variance . suit une loi de Gauss de moyenne et de variance : . Alors la variable aléatoire normalisée suit une loi du chinon centrée à degrés de liberté et de paramètre de décentrage . Propriété : Soient On suppose que 11.11 La loi de Rayleigh Une variable aléatoire suit une loi de Rayleigh de paramètres de probabilité est donnée par : 1l si sa densité Remarque : Nous pourrons montrer, quand on introduira la notion du couple aléa toire, qu’une variable aléatoire de Rayleigh peut être obtenue par . La où et sont deux v.a. indépendantes et qui suivent la loi normale loi de est donc celle de la racine carrée d’une loi du centrée à degrés de liberté. 5 Interprétation : En reprenant l’exemple de la propagation radio-mobile, en l’absence d’un trajet direct entre la source et le récepteur, l’atténuation de l’amplitude de l’onde sur chacun des trajets suivis par l’onde émise suit une loi de Rayleigh. 11.12 La loi de Rice Une variable aléatoire suit une loi de Rice de paramètres et de probabilité est donnée par : 1l où est la de Bessel modifiée d’ordre fonction . si sa densité (cf. [1], [16]) qui est telle que Interprétation : Lors de communications radio entre deux avions, il est possible que l’onde émise se réfléchisse sur la surface de la Terre, provoquant des trajets secondaires en plus du trajet direct. Les différentes répliques atténuées du signal 125 Loi Rayleigh 0.6 densité de probabilité 0.5 0.4 0.3 0.2 0.1 0 0 1 2 3 4 5 axe des x 6 7 8 F IG . 11.11 – Distribution de la loi Rayleigh : 9 10 (' initial résultant des différents trajets suivis par l’onde se superposent au niveau du récepteur. Lorsque les différentes contributions ne peuvent être isolées, l’amplitude du signal reçu, superposition des différentes répliques (i.e addition) suit alors une loi de Rice. est la loi suivie Exercice 25 Montrer que la loi de Rice de paramètres et par la racine carrée d’une loi du non centrée à deux degrés de liberté et de paramètre de décentrage de densité , montrer que . Indication : soit la densité de est , . Appliquer ce résultat en prennant en compte l’expression de en fonction de la loi hypergéométrique généralisée . 6 8 6 11.13 La loi Gamma ) " + Une variable aléatoire suit une loi Gamma de paramètres ) si sa densité de probabilité est donnée par : 1l Remarques : ) + 6 " + ) est définie par : ) + 126 et + ( Loi Gamma 1 0.9 0.8 densité de probabilité 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 1 2 3 4 5 axe des x F IG . 11.12 – Distribution de la loi Gamma : ) + "+ 3 + 6 7 8 ) *,+ 9 10 avec et + ((- , Dans le cas où . Remarquer aussi que la loi exponentielle . n’est autre qu’un cas particuler de la loi Gamma, on a : ! " ) 11.14 La loi de Cauchy . aléatoire suit une loi de Cauchy de paramètres Une 0 / )variable si sa densité de probabilité est donnée par : 6 / / 3 / ( avec et Remarque : Nous verrons plus loin que cette v.a. n’admet pas de moments d’ordre supérieur. 11.15 La loi Beta Une v.a. suit une loi Beta de paramètres si sa densité de probabilité est donnée par : avec 6 3 127 % 3 % 3 et ( ) Loi de Cauchy 0.4 0.35 densité de probabilité 0.3 0.25 0.2 0.15 0.1 0.05 0 -5 -4 -3 -2 -1 0 axe des x 1 F IG . 11.13 – Distribution de la loi de Cauchy : 2 Remarque : est définie par : 2 . 0/ 3 3 4 avec 5 1 et / ou . 11.16 Loi de Student Une variable aléatoire suit une loi de Student à degrés de liberté si et seulement si sa densité de probabilité définie sur est donnée par : (11.3) 6 1. Posons par : 6 . Si ) ) est entier, la fonction caractéristique de ) 3 + " ) = 128 est donnée Loi beta 3.5 3 densité de probabilité 2.5 2 1.5 1 0.5 0 0 0.1 0.2 0.3 0.4 0.5 0.6 axe des x F IG . 11.14 – Distribution de la loi Beta : 2. Si et male 0.7 0.8 43 0.9 1 5 et aléatoires indépendantes, sont etdes variables à degrés selon une loi du chi 8 selon la loi norde liberté, alors suit une loi de Student à degrés de liberté. Ce résultat s’applique directement au cas où on dispose de va riables aléatoires ( ) gaussiennes identiquement distri buées de moyenne nulle et de variance inconnue. La variable aléatoire suit une loi de Student à degrés de liberté. 6 129 Chapitre 12 Vecteurs aléatoires 12.1 Définition L’étude des vecteurs aléatoires est un outil important pour étudier la dépendance de plusieurs variables aléatoires réelles considérées comme les composantes du vecteur. l’espace probablisable, où est un entier non nul, et Soit est la tribu borélienne de , i.e. la tribu engendrée par les ensembles de la forme est aussi où les sont des boréliens de . La tribu . engendrée, par exemple, par les pavés (( '( Définition 54 Soit un espace probabilisable donné et muni de la tribu des boréliens . Un vecteur aléatoire (de dimension ) est une application : mesurable de dans < 3 3 < ( ( Soit : < (( (( '( 12.2 Intégration des vecteurs aléatoires Nous nous contentons d’une définition très immédiate. 130 (12.1) < un si chacune des composantes , (' Définition 55 Soit un espace mesuré et . vecteur aléatoire réel. Posons < intégrable par rapport à + ,< estestintégrable. (i) On dit que (ii) L’ensemble des vecteurs aléatoires réels intégrables sera noté (iii) L’intégrale < < de < + par rapport à est définie par (( : 12.3 Mesure image et théorème de transfert sans que soit nécessairement une mesure de Soit un espace mesuré probabilité. La notion de mesure image donnée à la section 10.1 (définition 45) s’étend . En effet, sans difficulté au cas d’un vecteur aléatoire définie, il est facile de montrer que la fonction d’ensemble pour tout , par < < < < est une mesure de probabilité. D’où la définition suivante, qui est quasiment identique à celle donnée à la définition 45). < Définition 56 Soient un espace mesuré et un vecteur aléatoire. La fonction d’ensemble, définie, pour par tout est une mesure positive appelée mesure image de la mesure par le vecteur aléatoire . Lorsque la mesure est une mesure de probabilité, est appelée loi image de par ou encore loi de . < < < < < < < Remarque : Dans la suite, nous noterons aussi cette mesure image par . la notation la plus répandue, même si je continue de préférer < 6 , qui est Le lemme 10 reste vrai même avec des vecteurs aléatoires et l’on peut énoncer : 131 < Lemme 11 Soient un espace mesuré un , vecteur aléatoire et , une application mesurable. par l’appliSoit la mesure image de par . La mesure image de de par l’application cation mesurable est égale à la mesure image mesurable : < < < < < < < Nous laissons la preuve au lecteur car celle-ci est identique à celle du lemme 10. Avec les notations utilisées dans le lemme précédent, nous générons un nou , image de par . Cette veau vecteur aléatoire procédure nous permet alors de travailler dans l’espace probabilisable muni de la loi image de par . On peut alors énoncer un théorème de transfert qui étend celui donné à la section 10.1 (cf. théorème 25) ? < < < Théorème 28 (Théorème de transfert) Soit un espace mesuré un vecteur aléatoire, une application mesurable, et la mesure image de par : < 36 3 < < < est intégrable si et seulement si est intégrable par rapport à la mesure < image de par : < (ii) Si est intégrable par rapport à la mesure < , alors < (12.2) (i) La preuve est laissée au lecteur car elle est analogue à celle du théorème 25. 12.4 Loi de probabilité et espérance mathématique d’un vecteur aléatoire , Nous particularisons ce qui précède au cas d’un espace probabilisé d’un vecteur aléatoire et d’une application mesurable . 132 < Conformément à la définition 55, nous dirons que le vecteur aléatoire si chacune de ses composantes est intégrable. < On définira alors l’espérance de < Remarques : -/ 1. 2. < 4< < < (( < comme étant le vecteur / < < < / < < tel que < par < sur : < < La loi de probabilité du vecteur aléatoire suite, d’après la définition 56, la loi image de 6 Si nous appliquons ensuite le théorème de transfert, en supposant grable : < (12.3) inté- (( < (( est en- 12.5 Fonction de répartition Définition 57 La fonction de répartition par : 6 < 3 3 d’un vecteur aléatoire < est définie 6 < 6 '( 6 3 (( 3 (( 3 < 3 # (( # 12.6 Loi conjointe (( Chaque composante < aléatoire réelle. La loi de 6 < d’un vecteur aléatoire est une variable est aussi appelée loi conjointe des variables aléatoires 133 (( réelles . Les lois des différentes composantes sont appelées les lois marginales du vecteur aléatoire . La loi marginale de la composante est donnée par : 6 6 + < (( '( (12.4) Remarque importante : La loi conjointe permet de déterminer toutes les lois marginales mais la réciproque est fausse comme le montre l’exemple suivant : un vecteur aléatoire de dimension (un couple aléatoire). Soit Soit pour tout tel que , les différentes probabilités donnés par le tableau (12.1). 5 6 6 8 3 3 8 TAB . 12.1 – Exemple de loi dont les lois marginales ne permettent pas de retrouver la loi conjointe La loi conjointe du couple dépend du paramètre des deux lois marginales est indépendante de ce paramètre. < alors que chacune Définition 58 Soit un vecteur aléatoire de dimension défini sur un espace probabilisé . On dit que admet une densité de probabilité sur si et seulement si il existe une fonction de dans , appelée densité de probabilité, telle que : < 6 Remarques : 1. On a alors : 6 6 '( (' 6 (( (( 134 (12.5) (12.6) < 2. Si avec une application de théorème de transfert, on a : < 3. On démontre que : 6 < < 6 6 (( 6 (( 4. Chaque composante par : dans , en utilisant le (12.7) (( < (12.8) possède une densité de probabilité sur 6 (( (( donnée (12.9) 12.7 Formule du changement de variables un espace probabilisé, < un vecteur Soit une application mesurable. Le théoaléatoire et rème de transfert nous permet de ramener le calcul de à une intégrale par dans . Dans certains problèmes, rapport à la mesure image < il peut cepen dant utile d’en savoir plus sur et en particulier important de calculer la loi de . Le schéma suivant résume la situation qui est une extension de celle traitée par le théorème de transfert dans le sens où l’on va considérer muni de la mesure image de par . 3 6 6 3 3 37373 37373>37378 3>37373>37373>3 < 8 Lorsque admet une densité de probabilité, on peut calculer la loi de à la formule de changement de variable. 135 grâce 12.7.1 Cas bijectif < un vecteur aléatoire continu de dimension de densité de probabilité 6 Soit . On suppose que < est à valeurs dans le borélien de . On considère l’application mesurable de vers un borélien de . On suppose que est bijective, dérivable et à dérivées partielles continues ainsi que son in verse. Alors est un vecteur aléatoire continu de densité de probabilité notée et donnée par : < 8 < < 8 < < où est le jacobien. Remarque : < < < < < (( < (( .. . < 6 < .. . < .. . (12.10) (12.11) < < . Exemple : Soit lité un couple de v.a. réelles définies sur de densité de probabi6 8 . Quelle est la densité de probabilité de la nouvelle v.a. réelle ? 12.7.2 Cas général , pour déterminer , on < < < 8 6 3 . Dans le cas plus général où est non bijective et que en la fonction de répartition du vecteur aléatoire , avec cherche à évaluer la probabilité 8 12.8 Fonction caractéristique 6 < Définition 59 On appelle fonction caractéristique d’un vecteur aléatoire de dimension , la fonction à plusieurs variables et à valeurs complexes définie par : sur (12.12) 6 < 136 6 pour tout < Remarque : Soit une matrice et < 6 < 6 < , on a : 12.9 Variables aléatoires indépendantes (( p variables aléatoires réelles définies sur l’espace Définition 60 Soit (( sont indépendantes si et seulement si : probabilisé . (( (( 6 (( 6 (12.13) Remarques : 6 1. Si < (( , on a alors : < (( '( 6 (( 6 est la loi du vecteur aléatoire 6 (' 6 est alors une loi produit : 6 6 ' ( 6 (' sont indé2. Si 6 a une densité de probabilité 6 sur , alors : (( 6 '( 6 . pendantes si et seulement si 6 (( 3. Proposition : sont indépendantes si et seulement si (continues '( ' ( . et bornées) (( . 4. Si et sont deux variables alà c atoires indépendantes et absolument continues, la densité de probabilité de la somme n’est autre que le produit de convolution des deux densités de probabilités : 68 6 8 3 137 6 8 3 6 8 Ce résultat se généralise bien sûre au cas d’une somme de v.a. réelles indépendantes. On le retrouve aisément puisque la fonction caractéristique de la somme de v.a. indépendantes est le produit de leurs fonctions caractéristiques. Comme la densité de probabilité est la transformée de Fourier inverse de la fonction caractéristique, alors la densité de probabilité de la somme des v.a. indépendantes est le produit de convolution de ces densités de probabilités. 12.10 Lois conditionnelles un couple aléatoire de loi 6 8 Soit important d’utiliser la loi conditionnelle de Dans le cas où est discrète et que du conditionnement conduit à : 5 . Dans la pratique, il peut être sachant . % , la définition élémentaire et (12.14) Dans le cas où la loi du couple est absolument continue, la loi conditionnelle de sachant est définie, pour tout où , par sa densité de probabilité : 6 8 6 88 8 . On utilise aussi la notation 6 8 % (12.15) Remarques : Remarques : 6 8 8 1. La connaissance de permet de calculer par intégration puis ensuite de déterminer les lois conditionnelles par la formule (12.15). 6 8 ainsi que la densité 2. Si l’on connait toutes les lois conditionnelles marginale , la formule (12.15) permet de calculer la loi conjointe du . couple aléatoire et 3. . 8 8 6 8 138 4. Il est possible de définir l’espérance conditionnelle d’une fonction sachant par : 6 8 (12.16) et l’on a : 8 5. Nous avons alors les résultats très utiles suivants : 1l . En particulier, si pour tout 8 (12.17) , 8 (12.18) Une conséquence de ces résultats est la proposition suivante dont la démonstration est donnée à l’annexe D. Proposition 24 Soit un espace probabilisé, deux variables aléatoires une application mesurable.réelles indépendantes et (i) (ii) . . Ce résultat appelle les commentaires suivants. 1. L’hypothèse d’indépendance entre et n’est pas superflue : si et ne sont pas indépendantes, (i) et (ii) peuvent être En effet, considérons et supposons que faux.. Le , membre de gauche dans (ii) vaut alors alors que le membre de droite dans (ii) est nul puisque . Ni (i), ni (ii) ne sont donc vrais dans ce cas-là. 139 2. Démystifions quelque peu le résultat : (ii) peut être obtenu sans passer par l’espérance conditionnelle. D’ailleurs, celle-ci n’intervient pas dans l’énoncé de (ii). Nous engageons le lecteur à vérifier que (ii) est en fait une simple application du théorème de Fubini, absolument analogue au calcul qui est utilisé pour démontrer (ii) à l’annexe D. Ce que nous dit ce lemme, c’est qu’en plus de (ii), l’espérance conditionnelle, lorsque et sont indépendantes, s’obtient simplement en fixant . Nous engageons le lecteur à étudier l’annexe D où les notions d’espérances conditionnelles sont développées. Dans une première lecture, il peut se contenter des sections D.1, D.2, D.3.1, D.3.3 et D.4. Les résultats qui y sont donnés devraient lui donner une vision saine et claire de la notion d’espérance conditionnelle. 12.11 Covariance et Matrice de covariance 12.11.1 Covariance < Considérons un vecteur aléatoire , c’est à dire tel que chaque composante est de carré intégrable. Nous avons (inégalité de Cauchy-Schwartz) : (12.19) qui s’écrit ici : Ceci montre que < Remarques : 1. (( (12.20) . , la covariance entre deux composantes est défine par : 6 3 2. Un calcul simple montre que : < Définition 61 Soit et du vecteur aléatoire 3 (12.21) (12.22) . 140 3 3. Si . On dit alors que et sont indépendantes alors et sont non corrélées. La réciproque est en général fausse, on peut trouver deux v.a. non corrélées et dépendantes (voir exercice en fin de ce chapitre). et 4. Le coefficient de corrélation entre est définie par : 96 6 =6 =6 9 6 6 96 6 5. On montre que 6. (12.23) . et si et seulement si sont proportionnelles. 12.11.2 Matrice de covariance < Définition 62 Soit toire est défine par : < 6 6 , la matrice de covariance du vecteur aléa- Remarques : 1. 2. 6 (12.24) 6 ). 6 < , on a : < 6 < est une matrice symétrique ( est une matrice positive ( 3. En notation matricielle, si 6 < ). est un vecteur colonne, on peut écrire : 3 < < < 3 < (12.25) 12.12 Droite et courbe de régression un couple aléatoire. Lorsque l’on représente les réalisations des Soit et dans le plan , on obtient un nuage de points variables aléatoires (voir l’exemple de la figure (12.1)). Si les v.a. sont reliées par une fonction déter , on observe sur le plan le graphe de la courbe . Si ministe cette relation n’est pas déterministe, on peut s’intéresser à une fonction de qui approcherait au mieux, selon un certain critère, la variable . 141 nuage de points 4 3 2 axes des y 1 0 -1 -2 -3 -4 -3 =6 78 -2 -1 0 1 axes des x 2 3 4 9 ;: F IG . 12.1 – Nuage de points représentant 1000 réalisations d’un couple gaussien corrélées ( et ) 12.12.1 Droite de régression Définition 63 On appelle droite de régression de où et minimisent la quantité 3 3 , la droite d’équation : . sur On parle alors d’estimation linéaire de en fonction de au sens des "moindres carrés". L’équation de la droite de régression de sur est : 3 3 6 (12.26) 12.12.2 Courbe de régression 3 sur , la. fonction d’équa- Définition 64 On appelle courbe de régression de où minimise la quantité tion : L’équation de la courbe de régression de sur 142 est : (12.27) 12.13 Exercice corrigé un couple de variable aléatoire dont la densité de probabilité est Soit donnée par : 6 8 3 3 $# si sinon # 1. Calculer la constante . . 2. Calculer la distribution marginale de 3. . Calculer la covariance de . Quelle est la densité 4. On éffectue une rotation d’angle du couple de probabilité du couple transformé. 5. Donner la courbe de régression de de régression. par rapport à et en déduire la droite Elément de correction de l’exercice : doit être tel que : 1. La constante où 5 # 6 8 # 6 8 . On a : 3 2. Soit 3 tel que # # 6 3 # 3 D’où : 3 ( fixé), alors peut prendre les valeurs suivantes : . La densité de probabilité marginale est alors : 143 6 8 soit, 6 3. On a : or, alors : # 6 8 si sinon 3 et 3 6 et sont non corrélées. Ceci est un exemple de couple de v.a. dépendantes et non corrélées. 4. Soit la matrice de rotation : Soit 3 D’après la relation (12.10), on a : 6 soit : 6 8 8 le couple transformé. On a : Soit : avec ici 3 , d’où : 3 3 On a la même loi que celle du couple est invariante par rotation). 144 (3 $# si sinon # (normale puisque 6 8 5. Courbe de régression 6 , avec : 8 6 avec : 68 6 8 2 3 3 3 6 6 qui sera confondue la courbe de régression est : 6 dans ce cas avec la droite de régression. 12.14 Problème corrigé : somme de variables aléatoires admettant une densité conjointe Ce problème et le suivant vont nous permettre d’utiliser les résultats précédents dans le but de calculer, par différents moyens, la loi de la somme de deux variables aléatoires. Dans ce premier problème, on s’intéresse à des variables aléatoires qui ne sont pas forcément indépendantes mais nous supposons que le couple qu’elles forment admet une densité de probabilité. Considérons . un espace probabilisé et deux variables aléatoires On se propose de calculer la loi de en suivant différentes méthodes de admet calcul. On supposera que le couple une densité notée qui est donc la densité de probabilité du vecteur aléatoire . 6 8 1. Première méthode : (a) En justifiant son utilisation, employer la formule du changement de pour calculer la densité du couple variable avec . de 3 . La Réponse : L’application telle que dans est bijective. On a est donnée par : matrice Jacobienne de 145 3 On a du couple 6 6 8 . D’où, d’après l’équation (12.10), la densité est donnée par : 6 6 8 6 8 3 (b) En déduire la densité de marginale. en appliquant la définition de la loi Réponse : La densité de probabilité de n’est autre que la densité de probabilité marginale de la seconde composante du couple , soit : 68 6 8 3 (12.28) 2. Deuxième méthode. Soit une application mesurable de par image 63 8 (a) Montrer que si et munissons . Nous avons donc : de la mesure est intégrable, 3 Réponse : c’est une simple application du théorème de transfert. (b) Montrer que la mesure image de est la loi définie par par . Réponse : Il suffit d’appliquer le lemme 11 : 6 8 (c) Montrer que 146 (12.29) Réponse : Etant donné que pour la fonction , nous avons 3 3 le résultat dérive du théorème de transfert et de l’existence de la densité . 6 8 (d) Retrouver le fait que la densité de est donnée par (12.28). Réponse : le membre de droite dans 12.29 est égal à 6 8 6 8 6 8 3 par Fubini la dernière équation étant obtenue en posant et en utilisant le fait que la mesure de Lebesgue est invariante par translation (on n’a pas besoin ici d’utiliser la formule de changement de variable, même si c’en est un). On utilise de nouveau Fubini et on remplace pour écrire 6 8 par 3 6 8 (variable muette) ce qui permet de conclure. 3. Troisième méthode : (a) On suppose que 8 % 1l . Montrer que l’on a : . Soit Réponse : Il suffit d’appliquer (12.17) avec prenant en compte que la densité de est 8 147 8 et en 6 8 . (b) Montrer que 6 8 Réponse : c’est l’application directe de (12.16) avec (c) En déduire la formule (12.28). . Réponse : On reporte l’expression de 1l en prenant en compte la définition de dans celle de donnée par (12.15). Le résultat que l’on obtient étant valable pour tout borélien , on en déduit la formule (12.28). (d) Le cas de variables aléatoires indépendantes On suppose ici que les variables aléatoires et sont indépendantes. i. Montrer que la densité de est la convolution de (on utilisera les résultats précédents). 8 6 6 8 6 et de Réponse : C’est trivial à partir de la formule (12.28) puisque lorsque et sont indépendantes. ii. Retrouver le résultat en utilisant les fonctions caractéristiques. 6 8 6 8 8 Réponse : Puisque et sont indépendantes, la fonction caractéristique de la somme est le produit des fonctions caractéris . La fonction caractéristique tiques : étant la transformée de Foruier de la densité, la densité de est donc la transformée de Foruier inverse du produit des deux fonctions caractéristiques et , donc la convolution des densités. 6 8 6 8 12.15 Problème corrigé : somme de variables aléatoires indépendantes n’admettant pas de densité conjointe Dans ce problème, nous reprenons les notations du problème précédent mais dans certaines questions, nous ne supposons pas que le couple et admet une densité. Par contre, nous supposons que et sont indépendantes. 148 , montrer que 1. Soit intégrable par rapport à la mesure image (12.30) 3 Réponse : On applique le théorème de transfert en prenant en compte que par est la la mesure image de mesure pour obtenir Du fait de l’indépendance de et donc et de , on a qui est la première égalité de (12.30). La seconde égalité dans (12.30) s’obtient en utilisant le théorème de Fubini. 2. Somme d’une variable aléatoire absolument continue et d’une variable aléatoire quelconque. Supposons que est absolument continue par rap port à la mesure de Lebesgue et notons sa densité de probabilité. 8 Montrer que la somme est absolument continue par rapport à la mesure de Lebesgue et de densité 68 6 3 (12.31) Réponse : La seconde égalité de (12.30) s’écrit alors 8 (12.32) 149 Il suffit alors de faire le changement de variable et d’utiliser le fait que la mesure de Lebesgue est invraiante par translation pour obtenir le résultat. Remarque : Ce résultat est quand même remarquable : même si n’est pas absolument continue par rapport à la mesure de Lebesgue, la somme , elle, est absolument continue par rapport à la mesure de Lebesgue du momemnt que et sont indépendantes. 3. Le cas de variables aléatoires absolument continues. Supposons que et sont absolument continues. Retrouver que la densité de est . 6 8 6 Réponse : il suffit d’écrire que 150 dans (12.31). Chapitre 13 Vecteurs gaussiens Les vecteurs gaussiens jouent un rôle très important dans beucoup de cas pratiques notamment en transmission numérique, reconnaissance de formes,. . . etc. 13.1 Définition < 6 < 6 < un vecteur aléatoire. On dit que Définition 65 Soit est de la forme : loi gaussienne si sa fonction caractéristique < où et une matrice Remarques : < suit une (13.1) symétrique positive. 6 . < . 2. La loi gaussienne est notée : 1. Nous avons < < et 13.2 Quelques propriétés du vecteur gaussien 1. < est gaussien si et seulement si n’importe quelle combinaison linéaire de ses composantes est gaussienne. En particulier, les composantes d’un vecteur gaussien sont des v.a. gaussiennes. La réciproque est fausse en général. 151 6 < 2. Dans le cas où est gaussien, on a : est diagonale si et seulement si les sont indépendantes. En particulier, dans le cas d’un couple gaussien, il y a équivalence entre l’indépendance et la non corrélation des deux composantes. < 3. Si , est absolument continue sur probabilité donnée par : 6 < 4. Soit une matrice < < et < 3 < 3 < < 3 < < < et admet une densité de (13.2) , on a : < < < (13.3) 13.3 Quelques figures Les figures (13.1) à (13.8) montrent l’allure de la densité de probabilité d’un couple gaussien pour différentes valeurs des paramètres de la matrice de covariance. Les contours, correspondant à des courbes de densité de probabilité constante, sont tout simplement des ellipses qui deviennent des cercles dans le cas où les deux composantes sont indépendantes (cas où le coefficient de corrélation est nul). L’axe principal de ces ellipses n’est autre que la droite de régression qui représente également la courbe de régression dans le cas gaussien. Quand le coefficient de corrélation tend vers 1, les contours tendent à être confondus avec . la droite 152 Loi gausienne 0.03 0.025 0.02 0.015 0.01 0.005 0 4 3 2 2 0 1 0 -2 -1 -4 axe des y -2 -3 axe des x 9 F IG . 13.1 – Loi gaussienne bidimensionnelle avec < < , =6 les contours 3 2 axe des y 1 0 -1 -2 -3 -3 -2 -1 0 axe des x 1 2 3 F IG . 13.2 – Contours correspondant à la figure 13.1 153 , 78 et Loi gausienne 0.06 0.05 0.04 0.03 0.02 0.01 0 4 3 2 2 0 1 0 -2 -1 -4 axe des y -2 -3 axe des x 9 ;: F IG . 13.3 – Loi gaussienne bidimensionnelle avec < < , =6 les contours 3 2 axe des y 1 0 -1 -2 -3 -3 -2 -1 0 axe des x 1 2 3 F IG . 13.4 – Contours correspondant à la figure 13.3 154 , 78 et Loi gausienne 0.014 0.012 0.01 0.008 0.006 0.004 0.002 0 4 3 2 2 0 1 0 -2 -1 -4 axe des y -2 -3 axe des x 9 F IG . 13.5 – Loi gaussienne bidimensionnelle avec < < , =6 , 78 les contours 3 2 axe des y 1 0 -1 -2 -3 -3 -2 -1 0 axe des x 1 2 3 F IG . 13.6 – Contours correspondant à la figure 13.5 155 et Loi gausienne 0.03 0.025 0.02 0.015 0.01 0.005 0 4 3 2 2 0 1 0 -2 -1 -4 axe des y -2 -3 axe des x 9 ;: F IG . 13.7 – Loi gaussienne bidimensionnelle avec < < , =6 , 78 les contours 3 2 axe des y 1 0 -1 -2 -3 -3 -2 -1 0 axe des x 1 2 3 F IG . 13.8 – Contours correspondant à la figure 13.7 156 et 13.4 Exercice corrigé un vecteur aléatoire réel à deux dimensions, de loi gausSoit 3 , et le vecteur déduit de X par la transformation sienne linéaire où est la matrice donnée par : 3 (13.4) 1. Donner une interprétation géométrique de l’action de la matrice vecteur X. 2. Supposons que 9 # avec couple est de la forme : 9 (13.5) , Donner l’expression de la densité de probabilité . 3. Calculer la densité de probabilité conditionnelle . Quelle est cette loi ? 4. En déduire l’espérance conditionnelle, . 6 5. Ecrire la fonction caractéristique toire X. 6 (où 66 7. Quelle est la loi du couple 8. Trouver les valeurs de dantes. 3 de 6 sachant (b) Calculer lorsque ) du vecteur aléa- . . telles que les composantes de soient indépen- 9. On définit une nouvelle variable aléatoire de dimension 1, : (a) Calculer du , de sachant 6. Donner l’expression de la matrice de covariance de sur le 9 . Expliquer le résultat obtenu lorsque et 9 . et la variance . Discuter aussi le cas qui se produit et 9 . (c) Donner le principe du calcul de 157 . % % 10. On suppose dans cette question que . Montrer que : 9 (13.6) Eléménts de corréctions de l’exercice : 1. L’action de la matrice sur le vecteur des axes de coordonnées. 2. En utilisant la formule (13.2), on a : 6 6 6 3. On a : 66 5 9 3 9 correspond à une rotation d’angle 3 9 . 4. D’après l’expression precédente, on a : 9 5. En utilisant la formule (13.1), on trouve : ( ) 6 6 6. Matrice de covariance de est : 8 , résultat d’une transformation linéaire d’un vecteur gaussien, est égale . ment gaussien et on a : étant un couple gaussien, on a l’équivalence entre l’indépendance et 8. la non corrélation des v.a. et . Pour que ces 2 v.a. soient indépendantes, il suffit qu’elles soient non corrélées, soit : . On trouve alors que : 7. < 8 9 3 158 9. Remarquer que 3 6 6 6 6 peut s’écrire comme : On en déduit que : (a) Dans le cas où dans ce cas (b) (c) Remarquer que : d’où : 10. Dans le cas où 6 6 , normale puisque = 6 6 6 3 + + 3 = , on a : 3 et 9 , on a : , normale puisque dans , on a : Dans le cas où ce cas est une constante. et 9 et . 3 9 on a : % et % 159 6 6 Un changement de variables en coordonnées polaires permet de trouver que : 3 9 Ensuite le changement de variable ( d’achever le calcul. 160 3 9 ) (soit " ) permet Chapitre 14 Variables aléatoires complexes Les variables aléatoires complexes sont utilisées pour modéliser des phénomènes physiques, tels que les évanouissements subis par un signal lors de sa propagation dans l’espace libre (typiquement lors d’une communication de type radio-mobile ou radar). Dans ce chapitre, nous allons considérer les variables aléatoires complexes. Nous allons étendre aux complexes les définitions précisées dans les chapitres précédents. < < < un espace probabilisable. On définit un vecteur aléaDéfinition 66 Soit toute application de toire complexe et on note de dans soit dans telle que l’application un vecteur aléatoire réel de dimension . < < 14.1 Variable aléatoire complexe : paramètres . Alors, si Soit une variable aléatoire complexe et par : existent, l’espérance mathématique de Si le module de , notée ou est donnée (14.1) est de carré intégrable, sa variance s’exprime comme suit : 3 (14.2) Pour deux variables aléatoires dont le module au carré est intégrable, on définit la covariance entre et par : (14.3) 3 3 161 On introduit alors le coefficient de corrélation entre et défini par Les variables aléatoires et sont non corrélées linéairement si et seulement si ( ). 9 9 14.2 Vecteur aléatoire complexe < < < Soit le vecteur complexe à composantes. Si les vecteurs espé rances de et existent, on définit le vecteur espérance de par : < < La matrice covariance de < 3 < < < < < (14.4) est définie par : < < 3 < 3 < < (14.5) où est la matrice transposée conjuguée de . En introduisant la matrice d’intercovariance entre les vecteurs et , donnée par : 6 8 < < 3 < < < 3 < (14.6) on obtient la relation suivante : 6 8 3 6 8 (14.7) 6 8 La matrice de covariance de < est une matrice hermitienne semi-définie positive. 14.3 Vecteur aléatoire complexe gaussien Au vecteur aléatoire complexe à < < < << < composantes , on associe le composantes . La relation entre et est vecteur aléatoire réel à bijective. L’étude des propriétés statistiques de permettent de déduire celles de . < < Définition 67 Le vecteur aléatoire complexe toire réel associé est gaussien. < 162 < < < est dit gaussien si le vecteur aléa- La densité de probabilité et la fonction caractéristique d’un vecteur aléatoire complexe gaussien s’expriment comme suit : < < " 3 < 3 En développant les calculs, on peut exprimer En effet, on montre que : < < 3 6 6 8 6 à partir de 6 , 8 8 8 < (14.8) et 6 8 . (14.9) Au contraire d’un vecteur réel gaussien complètement caractérisé par sa moyenne et sa matrice de covariance, dans le cas complexe, il faut calculer une deuxième matrice, notée , définie par : < 3 < < 3 < 3 < < (14.10) Le vecteur aléatoire complexe gaussien est parfaitement caractérisé lorsque sa matrice de covariance et le moment sont connus. En effet : 6 3 8 6 8 3 3 Par analogie avec le vecteur réel gaussien, nous allons déterminer la condition sous laquelle la matrice de covariance suffit à caractériser le vecteur aléatoire complexe gaussien. Rappelons l’expression de la fonction caractéristique associée à : (14.11) L’exposant du second terme est une forme quadratique . Notre objectif est d’exprimer cette forme quadratique uniquement en fonction de à partir d’une forme quadratique de la forme : < < < < < < < < < < < < < 163 < < < < où est un réel positif. Nous pouvons montrer l’équivalence suivante : < < < 6 3 8 6 8 6 8 < En résumé, pour que la connaissance de suffise à caractériser , il faut que le vecteur aléatoire complexe gaussien vérifie la condition suivante : 6 3 8 6 8 6 8 < < 3 < < 3 < Un vecteur aléatoire complexe gaussien vérifiant cette condition est dit circulaire. La densité de probabilité et la fonction caractéristique d’un tel vecteur deviennent : < < 3 < 3 164 < < 3 < (14.12) Chapitre 15 Convergence des variables aléatoires Les principaux types de convergences sont la convergence en probabilité (ou stochastique), la convergence en moyenne d’ordre , la convergence presque sûrement et la convergence en loi. Ces modes de convergences sont à l’origine des loi faible et forte des grands nombres ainsi que le théorème de la limite centrale. 15.1 Convergence en probabilité Définition 68 (Convergence en probabilité) Soit une suite de variables converge stochastiquement (ou en probabilité) vers aléatoires. La suite la variable aléatoire ( 3 % ) si et seulement si : 3 % (15.1) 15.2 Convergence en moyenne d’ordre et loi faible des grands nombres une suite de Définition 69 (Convergence en moyenne d’ordre ) Soit converge en moyenne d’ordre variables aléatoires. La suite vers la variable aléatoire ( 3 ) si et seulement si : 3 Remarques : 165 (15.2) 3 2. Si & 1. ( 3 / # avec puisque dans ce cas , on dit simplement "convergence en moyenne". 3 , on parle souvent de "convergence en moyenne quadratique" 3. Losque . au lieu de convergence en moyenne d’ordre 2 qu’on note aussi Théorème 29 La convergence en moyenne d’ordre probabilité. Soit : 3 implique la convergence en 3 (15.3) une suite de vaProposition 25 (Loi faible des grands nombres) Soit riables aléatoires indépendantes, de même loi et de variance finie, alors : (( 3 (15.4) Noter que nous avons également dans ce cas la convergence en Probabilité. 15.3 Convergence presque sûre et loi forte des grands nombres 15.3.1 Inégalité de Kolmogorov L’inégalité de Kolmogorov est utilisée pour démontrer la loi forte des grands nombres dans le cas de variables aléatoires indépendantes de variance finie mais non forcément identiquement réparties. # Théorème 30 Soit une suite de variables aléatoires indépendantes telle que . Alors pour tout réel positif , 3 Si de plus il existe un réel positif 3 tel que pour tout 166 + 3 , alors, 15.3.2 Convergence presque sûre Définition 70 (Convergence presque sûre) Soit un espace probabilisé. On dit que la suite converge presque sûrement vers la variable aléatoire ( ) si et seulement si : et (15.5) 3 5 en tout point Ceci n’est autre que la convergence simple des fonctions de (sauf aux points , ensemble qui est de mesure nulle). Pour montrer la convergence presque sûre d’une suite, on est souvent amené à utiliser le lemme de Borel-Cantelli, dérivé du théorème du même nom. 3 Lemme 12 (Lemme de Borel-Cantelli) Une condition suffisante de convergence vers est que la série presque sûre de la suite de variables aléatoires converge. Soit : de terme général 3 % 3 % % # 3 (15.6) 15.3.3 Loi forte des grands nombres de Kolmogorov La Convergence presque sûre est la convergence qui intervient dans la loi forte des grands nombres. Nous allons d’abord donner un théorème d’existence de la limite de la somme de variables aléatoires indépendantes de distribution quelconque. une suite de Théorème 31 (Théorème d’existence de Kolmogorov) Soit variables aléatoires indépendantes de moyennes nulles telle que la série converge. Alors converge presque sûrement vers une va riable aléatoire lorsque tend vers l’infini. Ce théorème permet de démontrer le suivant. une 6 Théorème 32 (Loi forte des grands nombres de Kolmogorov) Soit suite de variables aléatoires indépendantes telle que la série converge. Alors 3 presque sûrement lorsque tend vers l’infini. 167 Dans le cas de variables en plus identiquement distribuées, nous pouvons énoncer la proposition suivante. une suite de vaProposition 26 (Loi forte des grands nombres) Soit riables aléatoires indépendantes, de même loi et de moyenne finie, alors : (( 3 (15.7) 15.4 Convergence en Loi, théorème de la limite centrale et théorème de Lyapounov C’est la convergence la plus faible parmi celles présentées ici. une suite de variables aléaDéfinition 71 (Convergence en Loi) Soit toires. La suite converge en loi vers la variable aléatoire ( ) si et seulement si les fonctions de répartition convergent simplement en tout point de continuité, soit : 6 , si 6 6 3 est continue en . (15.8) Remarques : 1. Les trois conditions suivantes sont : équivalentes , si est continue en . – – – (continue, borné) 2. Schéma mnémothechnique : . 3 6 6 6 */ # 6 6 3 3 Théorème 33 (Thèorème de la limite centrale) Soit une suite de variables aléatoires indépendantes, de même loi et de variance finie ,( ), alors : "! # %$ # & ' # ) (+* -,.0/ # %2143030351 et donc ' # 6 7 . où 168 (15.9) $ & : ! 214303035 1 7 7 ) ( Ceci peut se traduire par / Le théorème de Lyapounov que nous allons à présent énoncer est la généralisation du théorème central limite pour des variables aléatoires indépendantes non forcément identiquement réparties. de variables # ! " #%$ aléaet Théorème 34 (Théorème de Lyapounov) Soit une suite toires indépendantes de variances finies. On pose . S’il existe un réel strictement positif tel que # $ # & & # # / ,+ ')()* , + - #%$ /$ . . & , ! # 0213 54769> 8 3 ;: 3=< converge en loi vers une variable aléatoire normale alors 1 (gaussienne centrée de variance unité). 15.5 Exemple d’utilisation du théorème de la limite centrale Nous nous intéressons aux résultats d’un référendum au sein d’une large population, de taille . Chaque individu peut voter oui ou non (on néglige les abstentions). Nous cherchons à déterminer le pourcentage de oui, qu’on notera . Nous disposons pour cela d’une sous-population de taille tirée au hasard. Si désigne le nombre de oui, suit la loi binomiale . ? 7 #@ 7 #@ # # # ! # BA DC @ / @ # qu’un individu pris au hasard où @ désigne la proportion de oui, ou la probabilité # 1 0 3 0 3 3 1 vote oui. On a , où les représentent 1 pour oui et 0 pour non et forment une suite de v.a. indépendantes et de même loi (Bernouilli @ ). 7 # 5E . Nous cherchons ici à trouver la Une estimation de @ peut être donné par 7 taille de l’échantillon (en fixant un nombre G 1 1 et une probabilité d’erreur F ) tel qu’on puisse affirmer que @ HG 1 positif avec une probabilité de se tromper au plus égale à F . Soit : ! # 7 @ JILK / F 169 D’après le théorème de la limite centrale, on a : avec # 7@ 7 @ / @ . D’où : ! G1 @ * -, 0/ G 1 ! 1 1 1 On veut donc que : 7 ! K / F soit, / F %$ 7 K " # / E . Le nombre d’échantillon miniNotons que n’est pas connu mais que où : male est donc : F , 3, , 3, 7 : / & " / F '$ # /, Application numérique : )( * +, , , on trouve que le nombre d’échantillon est . On a *)dans ce cas le pourcentage de oui est à près avec une probabilité de /. ( . ,3 @ #E7 170 15.6 Exercice corrigé Soit X une variable aléatoire qui suit la loi de Cauchy dont la densité de probabilité est donnée par : / / 1 / 8 (15.10) une suite de variables aléatoires indépendantes et de même loi que Soit # une suite de variables aléatoires définie par : celle de . On définit # $ (15.11) G 1. Calculer la fonction caractéristique de la variable aléatoire 1 . G 2. Montrer que 1 converge en loi vers . G , 3. Montrer que 1 converge en probabilité (ou stochastiquement) vers . G , 4. Montrer que 1 converge presque-sûrement vers (Utiliser le lemme de Borel-Cantelli). Eléments de correction de l’exercice : 8 / / 1 1. Calculons tout d’abord la fonction caractéristique de la v.a. 8 E / 1 6 , on a : En utilisant le théorème des Résidus par intégration de la fonction complexe sur le demi cercle supérieure de centre l’origine des axes et de rayon , on trouve que : ( ) Soit maintenant G1 8 , on a : 1 1 0 1 4 8 1 0 1 4 1 8 $ 18 171 $ $ 8 1 8 "$ " " $$ 8 . . 1 8 ')( * 8 2. D’après la question précédente, on a : 1 G 1 ) ( ce qui implique que . Remarquer que la loi faible (ou forte) des les étant indépendantes, on a : 1 grands nombres ne s’appliquent pas ici puisque les moments d’ordre supérieur ou égal à 1 n’existent pas. G 1 ) ( , , il faut montrer que : # , , , ! ) ' ) ( * 7 G C On a en effet : (on utilise le fait que 1 ! G 1 , ! G 1 7 7 )( , G 1 ) ( , $ de! Borel-Cantelli. 4. Pour montrer que , on peut utiliser le lemme G 1 , " Pour cela, il suffit de montrer que la série entière converge. On a : ! G 1 " 7 $ terme général d’une série entière convergente. 3. Pour montrer que 172 Chapitre 16 Génération de variables aléatoires Dans ce chapitre, on se propose d’indiquer des méthodes pour générer des variables aléatoires suivant une loi de probabilité donnée. En effet, pour valider un système (de communication par exemple), il est nécessaire de le simuler dans des conditions de fonctionnement réalistes. La modélisation des phénomènes aléatoires intervenant lors de son utilisation (bruit thermique, bruit impulsif...) est par conséquent nécessaire. La plupart des langages informatiques proposent dans leur . bibliothèque un générateur de variables pseudo distribués uniformément sur Certains logiciels, tels que Matlab, mettent en plus la loi normale à disposition de son utilisateur. A partir de la loi uniforme, il est possible, à l’aide de méthodes précisées dans ce chapitre, de simuler un grand nombre de lois. Nous allons par conséquent aborder tout d’abord la génération de cette loi de base. $ , 0/ & 16.1 Génération de la distribution uniforme sur La plupart des algorithmes de génération de nombres choisis au hasard utilisent la procédure déterministe suivante. A partir d’un état , ils générent un nombre et un nouvel état qui servira pour générer et ainsi de suite. L’algorithme étant déterministe, le nombre d’états est nécessairement fini et la suite de nombre engendrée périodique. Plus la période est longue, plus le caractère aléatoire de la suite sera grand. Parmi les méthodes utilisées, on peut citer la méthode de Lehmer (1951) et la méthode de registres à décalage rebouclés. Nous allons détailler la première dont le principal avantage est la simplicité de mise en oeuvre. ) ) 173 16.1.1 Méthode de congruences multiplicatives de Lehmer / * Soient , et des entiers. est l’état initial et est la période du générateur. L’équation d’état est la suivante : . A partir des états , on génère la suite pseudo-aléatoire à valeurs dans . 1 : $ , 0/ $ 16.2 Génération de variables aléatoires de loi de probabilité quelconque Etant donnée une ou plusieurs suites de variables aléatoires distribuées suivant une loi uniforme, il est possible de générer des suites de variables aléatoires distribuées selon une autre loi. Nous allons indiquer quelques méthodes. 16.2.1 Génération par inversion de la loi de répartition $, / & 8 Soit une variable aléatoire uniformément répartie sur . On souhaite générer une variable aléatoire dont la fonction de répartition est notée . Cas où est continue est une variable aléatoire de fonction de répartition . Cas où est une variable aléatoire discrète On suppose que est à valeurs dans un ensemble discret ou dénombrable dont les éléments sont notés et tels que . Dans ce cas, la fonction de répartition de vaut . On définit l’application réciproque, notée par : . Alors la variable aléatoire admet pour fonction de répartition. 8 !' # # 8 " . 3 8 8 8 # @ # @ # 8 8 8 16.2.2 Génération par changement de variables 3 3 Soient , , ..., n variables aléatoires indépendantes, mais pas forcé ment identiquement distribuées. L’utilisation d’une fonction définie sur un sous ensemble de à valeurs dans permet l’obtention d’une nouvelle variable aléa toire . Par exemple, pour obtenir deux variables aléatoires gaussiennes indépendantes, et , on génère deux variables aléatoires indépendantes, et uniformément réparties dans . On pourra vérifier que le changement de variables ci-dessous permet l’obtention des deux variables et aux propriétés $ , 0 / & 174 énoncées plus haut. ' 5 ' ( 16.2.3 Génération par convergence en loi En choisissant judicieusement les paramètres d’une suite de variables aléatoires, on peut générer une variable aléatoire, limite de cette suite aux propriétés voulues. Soient variables aléatoires normales (centrées, de variances identiques). Alors la variable aléatoire suit une loi du chi- à degrés de liberté. Par exemple, pour obtenir une variable aléatoire gaussienne, il suffit de disposer d’un nombre suffisant de variables aléatoires indépendantes et identiquement distribuées. L’application directe du théorème central limite nous assure du carac. tère asymptotiquement gaussien de la variable ? $ " 7 $ " $ & 16.2.4 Autres méthodes Citons sans les détailler les méthodes d’acceptation-rejet, de Monte Carlo... 175 Bibliographie [1] A BRAMOWITZ M., S TEGUN I. Handbook of Mathematical Functions. Dover Publications, Inc., New York, 1972, ninth printing. [2] A NDERSON T. W. An introduction to Multivariate Statistical Analysis. John Wiley & Sons, New York, 1958. [3] BASS J. Eléménts de calcul de probabilités. Masson, Paris, 19xx. [4] B OCLÉ J. Cours de probabilités. Ecole Nationale Supérieure des télécommunications de Bretagne, Brest, 1985. [5] C HONAVEL T. Notes de cours de Mesure et Intégration. Polycopié E.N.S.T de Bretagne., 2002. [6] D ELMAS J.P. Probabilités et télécommunications, Exercice et problèmes commentés. Masson, Paris, 1987. [7] D ELMAS J.P. Introduction aux probabilités. Collection pédagogique de télécommunications. Ellipses, Paris, 1993. [8] F ELLER W. An Introduction to Probability Theory and Its Applications. John Wiley & Sons, Inc., New York, 1971. [9] F OUQUE J.P. Probabilités et statistiques. Ecole Nationale Supérieure des télécommunications, Paris, 1990. [10] G IRAULT M. calcul des probabilités en vue des applications. Dunod., 1964. [11] G UIKHMAN I., S KOROKHOD A. Introduction à la théorie des processus aléatoires. Editions MIR, Moscou, 1980. [12] H ALMOS P. R. Measure Theory. Springer-Verlag, New York, Heidelberg, Berlin, 1974. [13] H ILLION A. Probabilités, résumé de cours. Ecole Nationale Supérieure des télécommunications de Bretagne, Brest, 1992. [14] H ILLION A. Mesure et intégration, Notes de cours. Ecole Nationale Supérieure des télécommunications de Bretagne, Brest, 1998. 176 [15] K ENDALL M. AND S TUART A. The Advanced Theory of Statistics (T1, T2). Griffin, London, 1979. [16] L EBEDEV N. N. Special functions and their applications. Prentice Hall, Inc., 1965. [17] M UIRHEAD R. J. Aspects of Multivariate Statistical Theory. John Wiley & Sons, New York, 1982. [18] PAPOULIS A. Probability, random variables and stochastic processes. Mc Graw Hill editions, New York, 1991. [19] P ICINBONO B. Signaux aléatoires : Probabilités et variables aléatoires avec problèmes résolus. Dunod, Paris, 1993. [20] R AO M. M. Conditional Mesures and Applications. Marcel Dekker, Inc., New York, 1993. [21] R EED M., S IMON B. Functional analysis. Academic Press, Inc., San Diego, 1980. : [22] RUDIN W. Real and complex analysis. McGraw-Hill, Inc., USA, 1966. [23] S AOUDI S. Probabilités : Formation Promotionnelle du préparatoire. Polycopié E.N.S.T de Bretagne., 2002. année du cycle [24] S KOROKHOD A. Lectures on the Theory of Stochastic Processes. VSP, Utrecht, The Netherlands, 1996. 177 Annexe A Mesurabilité dans L’objectif de cette annexe est de présenter la tribu usuelle de et le critère de mesurabilité associé à cette tribu. Nous allons procéder à l’aide d’exercices successifs reposant sur des notions classiques de topologie que nous rappelons et sur la définition de la tribu engendrée par une classe d’ensembles (cf. définition 2). Définition 72 Soit un ensemble. (a) Une collection de parties de trois propriétés suivantes : (i) et (iii) Si (ii) Si , / 303 3 7 . , alors est appelée topologie de $ si elle vérifie les . est une collection arbitraire d’éléments de . ou non), alors (finie, dénombrable (b) Is est une topologie de , alors est appelé espace topologique et les éléments de sont les ensemble ouverts (ou ouverts) de pour la topologie considérée. Les ensembles fermés de sont alors les ensembles dont les complémentaires dans sont ouverts pour la topologie considérée. ( et sont deux espaces topologiques et (c) Si une fonction de dans , on dit que est continue si l’image réciproque de tout ouvert de est un ouvert de : 178 3 On rappelle que l’image réciproque par une application continue de tout ouvert de l’espace d’arrivée et un ouvert de l’espace de départ ? Exercice 26 (Topologie usuelle de ) Soit Montrer que de . , & 1 $ 3 est une topologie de . Cette topologie est la topologie usuelle Exercice 27 (Topologie trace) Soit de . On pose : un espace topologique et une partie 3 (A.1) Montrer que est une topologie. Cette topologie s’appelle la topologie trace . de sur . Dans la suite, nous la noterons $ / ", $ n’est pas un ensemble ouvert de muni de sa $ /, $ est un ouvert de $ /60/ & muni de sa topologie Exercice 28 Montrer que topologie usuelle mais que trace. Définition 73 Soient et deux espaces topologiques. Une application est un homeomorphisme si est une application bijective, continue et si sa réciproque est aussi continue. ( ( ( & /0/ $ Exercice 29 Soit l’application définie par . .1 / 3 1. Montrer que est un homeomorphisme de muni de sa topologie usuelle / 0 / & $ 26) dans muni de la topologie trace de /0/ $ exercice & (cf. . 2. Montrer que ' ()* /6 ')( * / 179 Exercice 30 Soit définie par définie comme à l’exercice précédent. Soit $ / / & Soit Montrer que / / si si si la topologie trace de la topologie usuelle est une topologie sur et que est un homéomorphisme entre / 0 / $ & topologie et muni de la topologie trace . ( $ /0/ & sur $ /0/ & . muni de cette Cet exercice justifie la définition suivante. Définition 74 (Topologie usuelle de ) La topologie usuelle de comme la collection où l’intervalle $ /0 / & $ / / & ( $ /60/ & / / est définie est la topologie trace de la topologie usuelle de et où est définie par si si si sur La tribu des boréliens de est la tribu engendrée par la collection des ouverts . De manière analogue, de au sens de la topologie usuelle de : nous poserons la définition suivante. Définition 75 (Tribu des boréliens de ) La tribu des boréliens de est la tribu engendrée par les ensembles ouverts de la topologie usuelle de . La tribu des boréliens de sera notée et nous avons donc : 4 3 En résolvant l’exercice suivant, le lecteur va pouvoir établir, dans le cas de , l’analogue de la proposition ??. 180 $ Exercice 31 Soient les collections suivantes d’ensembles : & $ $ $ & & & 1. Montrer que et sont des sous-ensembles de et de sont des fermés de . * 2. Montrer que pour . / . et que les éléments de 3. Nous cherchons maintenant à montrer la réciproque de la question précé dente, c’est-à-dire que . (a) Montrer que tout ensemble ouvert de (au sens de la topologie usuelle de est l’union dénombrable d’intervalles ouverts de (indication : utiliser le fait que tout réel peut être approchée par une suite de rationnels et que est dénombrable). / * , & $ et que (c) Montrer que tout pour tout ouvert de pour la topologie usuelle de , est un ouvert de , au sens de la topologie usuelle de mais (b) Montrer que pour tout . que la réciproque est fausse. (d) Déduire des questions précédentes que * . Indication : on partira d’un ouvert . le fait que / . / de Nous avons donc démontré la proposition 4 du cours, à savoir que pour . 181 pour et on utilisera Annexe B La mesure et l’intégrale de Lebesgue-Stieltjes Cette annexe constitue un complément des chapitres 1 et 5. Il n’est donc pas nécessaire de se concentrer sur cette annexe dans une première lecture. Cependant, une lecture ultérieure de cette partie peut se révéler utile pour les raisons suivantes. 1. Nous présentons ci-dessous la construction de la mesure de Lebesgue Stieltjes qui concerne exclusivement . La mesure de Lebesgue est un cas particulier de la mesure de Lebesgue-Stieltjes. Il est donc intéressant de savoir comment on construit cette mesure sur et de voir que cette construction n’est pas si évidente. C’est pour cela qu’au chapitre 1, nous nous sommes contentés d’admettre l’existence de cette mesure. 2. On rencontre souvent l’intégrale de Lebesgue-Stieltjes dans la littérature, que ce soit en mathématiques (naturellement) ou même en traitement du signal (notamment dans la littérature américaine telle IEEE). Il est donc bon de savoir ce qu’est cette intégrale pour pouvoir déchiffrer certains articles ou ouvrages. L’intégrale de Lebesgue-Stieltjes, précisons-le dès maintenant, n’est pas une notion d’intégrale différente de celle présentée au chapitre 5. L’intégrale de Lebesgue-Stieltjes n’est qu’un cas particulier de la construction abstraite du chapitre 5. Elle correspond au cas où l’ensemble sur lequel on souhaite intégrer est le corps des réels lui-même et où la mesure sur est ladite mesure de Lebesgue-Stieltjes (et en particulier, la mesure de Lebesgue). C’est 182 pourquoi l’intégrale de Lebesgue-Stieltjes est souvent utilisée en théorie des probabilités car c’est elle qu’on utilise pour définir et calculer les fonctions de répartition. Nous allons d’ailleurs le voir, la mesure et l’intégrale de Lebesgue-Stieltjes sont fortement liées à la notion de fonction de répartition. 3. Certains des résultats que nous présentons ci-dessous nous seront très utiles en théorie des processus aléatoires. 4. La construction de Caratheodory se retrouve aussi en théorie des fractales et en morphologie mathématique. En effet, la mesure de Haussdorff se présente en utilisant la démarche de Caratheodory. B.1 Problématique La notion de mesure sur correspond évidemment à la notion intuitive de longueur d’un intervalle. Si est un intervalle, la "mesure" naturelle de cet intervalle, c’est-à-dire sa "longueur", est . Nous avons considéré un intervalle ouvert à gauche pourdes Cependant, la raisons de cohérence avec la suite. longueur , , reste intuitivement . Posons donc des intervalles . Est-ce que est alors une mesure ? Pour que ce soit une mesure et donc pouvoir intégrer par rapport à cette mesure, il nous faut définir sur une tribu et montrer que est -additive. Or ,l’ensemble des intervalles fermés, ouverts, semi-ouverts à droite ou à gauche, n’est pas une tribu. On est donc amené à considérer la tribu engendré par ces intervalles et nous savons que c’est la tribu des boréliens de , c’est-à-dire la tribu engendré par les ouverts de (qui ne se réduit pas l’ensemble des intervalles ouverts de . Mais il reste toujours le problème de la -additivité de . & & & & & & $ $ & $ En fait, nous n’allons pas résoudre directement ce problème mais traiter un problème plus général. Le problème vraiment intéressant est en fait le suivant. Nous allons chercher à construire une extension de la notion intuitive de longueur d’un intervalle de manière à couvrir la notion de fonction de répartition (telle qu’on la rencontre en probabilités) et aboutir à la mesure de Lebesgue comme cas particulier. Expliquons pourquoi ce problème est celui qui nous intéresse en utilisant des arguments probabilistes. - ( 8 - "! 8 Considérons un espace probabilisé et une variable aléatoire réelle . Soit la fonction de répartition de : 183 . Cette application est continue à droite et croissante. Nous savons ! alors que est une mesure définie sur les boréliens de (en tant que ! ! ' ! & & & & mesure ) et que image de par termes, une variable aléa 8 8 (cf. proposition 23). En d’autres toire réelle nous mesure sur telle que la longueur de tout & permet de définir une & intervalle est de la forme où est continue à droite, croissante, / et , . Il est alors intéressant d’étudier la réciproque : si nous ( , continue à droite croissante et telle que nous donnons une application / , que la "longueur" définie pour tout intervalle & & par & et & est-ce s’étend en une mesure sur tous les boréliens de / ? Si la réponse est oui (et ce sera bien le cas), les conditions et , sont-elles vraiment nécessaires ? Si ces conditions ne sont pas nécessaires ( (et elles ne le seront pas), alors nous pouvons partir d’une application croissante et continue à droite pour pouvoir construire une mesure sur tous les boréliens de et intégrer par rapport à cette mesure. En particulier, il nous suffira de prendre égale à l’identité pour savoir définir la mesure de Lebesgue , c’est-à-dire la mesure qui assure que la longueur de tout intervalle (ouvert, fermé, est . semi-ouvert) de bornes et K Pour résoudre ce problème fondamental, ce qui précède nous indique comment on va procéder et mettre en évidence la difficulté majeure. Nous allons partir d’une application croissante et continue à droite. Nous allons ensuite définir sur l’application définie par . La tribu des boréliens de est la tribu engendrée par : étendre à . Nous allons donc devoir tout et montrer que est effectivement une mesure sur . On aboutit alors au théorème d’extension suivant. ( $, & & & ( & & B.2 Un théorème fondamental d’extension ( Théorème 35 (Théorème d’extension ou de prolongement) Soit une application continue à droite et croissante. (i) Il existe une uniquemesure telle que, pour tout tels que , . (ii) (ii) Pour tout borélien , & & $, & ( ( - 184 & & (B.1) Nous n’allons pas démontrer in extenso ce théorème car les détails techniques dépassent l’objectif du cours. Par contre, nous allons donner les grandes étapes qui en permettent la démonstration à l’aide de la construction dite de Caratheodory. Le lecteur intéressé pourra aussi se référer à [12, Chapter 3]. B.3 La construction de Caratheodory Démontrer le théorème 35 est difficile car le problème traité est un problème d’extension non trivial : nous partons d’une application qui est définie très simplement sur un ensemble élémentaire bien connu et nous devons étendre à un ensemble beaucoup plus compliqué . Nous savons que est engendré par lui-même, mais nous ne disposons d’aucun moyen de construire par union, intersection, différence, ...d’ensembles. Nous pourrions dire que nous ne 1 savons pas "calculer" les éléments de . Le théorème 35 est la conséquence de la construction dîte de Caratheodory. Cette construction est utilisée aussi en théorie des fractales pour définir la mesure dîte de Haussdorf. Nous allons présenter cette construction en énonçant les résultats principaux sans démonstrations car celles-ci, techniques, dépassent le cadre de ce cours. Puis, nous verrons comment on applique cette construction pour démontrer le théorème d’extension ou de prolongement (théorème 35). B.3.1 Les mesures extérieures et le théorème d’extension de Caratheodory Il est commode, d’un point de vue terminologique, d’adopter la définition suivante d’une mesure. Définition 76 Soit ensembles de : mesure positive sur - un ensemble quelconque et une collection de sousoù est l’ensemble des parties de . On appelle toute application telle que ( $ ,. & 1 C’est cette complexité même qui donne à la tribu toute sa souplesse et permet d’avoir tant d’applications mesurables. Il n’est en effet pas commode de construire des applications non mesurables car les ensembles mesurables forment une énorme classe et sont divers et variés. N’oublions pas en effet qu’un ouvert, un fermé, un compact, sont des ensembles mesurables. Même un singleton de est un ensemble mesurable ! 185 , , (ii) Si " (i) pour tout 7 K / et , alors La propriété (ii) est, comme nous l’avons déjà signalé dans le corps de ce cours, la propriété de -additivité ou d’additivité dénombrable. Evidemment, lorsque est une tribu, on retrouve la définition 8 puisque, dans ce cas, l’union d’éléments de est un élément de . Nous introduisons maintenant la notion de mesure extérieure. un ensemble On appelle mesure extérieure , quelconque. $ & ( telle que , - Définition 77 Soit toute application (i) (ii) (iii) " $ Evidemment, ce qui fait la grande différence entre une mesure positive et une mesure extérieure, c’est la propriété (iii) qui est moins restrictive que la additivité requise pour une mesure. L’intérêt des mesures extérieures tient à la propriété remarquable et surprenante que décrit le théorème suivant. Théorème 36 Soit Soit ( $ , & une mesure extérieure. 1 3 un ensemble et (i) La collection d’ensembles est une tribu, appelée tribu associée à la mesure extérieure . Les éléments de sont appelés les ensembles -mesurables. (ii) La restriction de à la tribu est une mesure sur la tribu . 6 < Le second théorème que nous allons énoncer repose sur la notion d’anneau. Définition 78 Un anneau ensembles de telle que : sur un ensemble 186 est une collection de sous- (i) (ii) (iii) On voit donc qu’une tribu est un anneau qui contient et qui est stable par union dénombrable et pas seulement finie. Les anneaux sont plus manipulables que les tribus car ils ont une structure moins compliquée. Il se trouve alors que nous savons construire une mesure extérieure à partir d’une mesure sur un anneau grâce au théorème d’extension de Caratheodory que nous allons présenter. Avant d’énoncer ce théorème, nous nous donnons une définition commode pour la suite Définition 79 Soit une collection de sous-ensembles d’un ensemble . Pour tout , on appelle -couverture de , toute suite d’éléments de telle que . L’ensemble des -couvertures de sera noté : 7 K / et 3 Nous donnons maintenant le théorème d’extension de Caratheodory. Il nous apprend comment étendre une mesure définie sur un anneau en une mesure sur la tribu engendrée par cet anneau. ( $, & ( un anneau sur un ensemble , posons : Théorème 37 (Extension de Caratheodory) Soit et une mesure sur . Pour tout - ( $ , & est une .mesure extérieure sur avec la convention (i) L’application (ii) La restriction de (iii) si à est égale à 3 (B.2) . : 3 est une mesure puisque à est une mesure (cf. théorème 36 (ii)). à est un sous-ensemble de la tribu associée à la mesure extérieure ce qui implique que la tribu engendrée par est un sous-ensemble de la tribu : (iv) La restriction de que la restriction de 187 et B.3.2 Construction d’une mesure sur un anneau par extension d’une mesure sur un semi-anneau & & Le théorème d’extension de Caratheodory requiert un anneau. Comme le lec teur le vérifiera aisément, l’ensemble n’est hélas pas un anneau. Aussi, avant d’utiliser le théorème de Caratheodory, quelques résultats supplémentaires sont nécessaires. & & est ce qu’on appelle un En fait, l’ensemble semi-anneau comme le lecteur le vérifiera très facilement. Définition 80 Un semi-anneau sur un ensemble est un sous-ensemble l’ensemble des parties tel que : (i) alors (ii) Si , il existe un entier , (iii) Si et des éléments tel que 7 K / $ 3 de / 7 Nous donnons alors ci-dessous deux propositions fort utiles pour la suite. La première de ces propositions (proposition 27) nous dit, entre autres, que les unions finies d’éléments disjoints d’un semi-anneau forment un anneau . La seconde de ces propositions (proposition 28) nous apprend ensuite qu’une mesure sur le semi-anneau se prolonge de manière unique en une mesure sur l’anneau . Proposition 27 Soit un semi-anneau sur un ensemble $ 7 K / quelconque. Soit 3 est un anneau. (ii) $ 7 K /6 (il n’est pas nécessaire que les éléments de soient disjoints dans l’union). (iii) est le plus petit anneau contenant , id est est égal à l’intersection de tous les anneaux contenant (il en existe puisque est trivia(i) lement un anneau). 188 Nous dirons que est l’anneau engendré par . ( $ ,. & $ , & ( - $ Proposition 28 Soit un semi-anneau sur un ensemble quelconque, l’anneau engendré par et une mesure sur . (i) Il existe une unique mesure dont la restriction à est égale à . par (ii) Cette mesure est définie pour tout / 30303 7 $ où , , est une quelconque suite finie d’éléments disjoints de telle que . En d’autres termes, ne dépend pas de la décomposition choisie pour en éléments disjoints de . considéré dans ces propositions est alors d’autant plus intéres engendrée par cet anneau est précisément la tribu 3 (B.3) En effet, l’inclusion entraîne l’inclusion et donc puisque l’inclusion la tribu engendrée par est la plus petite tribu contenant . Réciproquement, puisque les éléments de sont des unions disjointes de , les éléments de sont donc des éléments de . On d’éléments aussi est a donc l’inclusion et comme la plus petite tribu contenant , nous avons . L’anneau sant que la tribu engendré par : Nous pouvons maintenant conjuguer les résultats précédents pour énoncer un résultat d’extension pour les semi-anneaux analogue à celui de Caratheodory. ( $, & Théorème 38 (Extension de Caratheodory pour les semi-anneaux) Soit un semi-anneau sur un ensemble quelconque et une mesure positive sur . Pour tout , posons avec la convention ( si 189 . (B.4) ( $ ,. & (i) L’application (ii) La restriction de est une mesure positive. à est égale à : ( $, & 3 P REUVE : D’après la proposition 28, nous étendons de manière unique mesure sur et nous avons . mesure sur ( $ , est& enuneutilisant (B.2). Comme , nous construisons la mesure extérieure Comme on vérifie aisément que pour tout - en une 6 < - , (B.5) est la restriction de à , nous déduisons de (B.3) et du Puisque théorème d’extension de Caratheodory (37) (iv), que est une mesure sur . et la restricD’après le point (ii) du theorème 37, nous avons aussi la restriction de à est égale à l’application définie sur par (B.4). tion de à est donc . Nous terminons en donnant une résultat d’unicité pour le théorème précédent lorsque la mesure sur est -finie , c’est-à-dire lorsqu’il existe une suite dé nombrable d’éléments de tels que pour tout entier et . Dans ce cas, on a : 7 K / Proposition 29 Soit un semi-anneau sur un ensemble quelconque . Si est une mesure -finie sur alors l’extension de Caratheodory dé crite par le théorème 38 est la seule extension possible de à . Cette extension est elle aussi -finie. ( $, & Nous ne donnons pas la démonstration de ce résultat qui repose sur des notions que nous n’avons pas abordées jusqu’ici et qui ne sont pas utiles pour la suite. B.3.3 Application à la preuve du théorème d’extension Nous expliquons maintenant comment on démontre le théorème 35 à partir des résultats précédents. 190 & & Nous avons déja vu que anneau. est un semi- ( $, & On montre ensuite (et ce n’est pas si simple) que l’application définie par sous les conditions pour données dans l’énoncé du théorème 35 est -additive (c’est donc une mesure sur ). De plus, cette mesure est trivialement -finie : il suffit de considérer les intervalles de la forme dont les mesures sont finies et qui recouvrent . & & & 7 7 & Nous nous retrouvons donc dans les conditions requises par le théorème 29 et comme , on peut alors en déduire le théorème de prolongement (théorème 35). B.4 La tribu et la mesure de Lebesgue-Stieltjes ( Soit une application continue à droite et croissante. Le théorème de prolongement nous assure donc l’existence d’une mesure unique, que nous noterons désormais , définie sur la tribu et telle que pour des boréliens tout , . & & Rien ne nous dit que cette mesure est complète. Nous pouvons alors appliquer les résultats du chapitre 6 pour construire alors une mesure complète à partir de sur la tribu -complétée de . On pose alors la définition suivante. ( , une application continue à droite et croisDéfinition 81 Soit sante. Soit l’unique mesure définie sur la tribu des boréliens telle que pour tout couple de réels tels que . (i) La tribu de Lebesgue-Stieltjes est la tribu -complétée de la tribu des boréliens . (ii) La mesure de Lebesgue-Stieltjes est la mesure complétée de , c’est-àdire la mesure complète qui est l’unique extension possible de la mesure à la tribu de Lebesgue-Stieltjes. & & Par abus de langage, la mesure est aussi appelée mesure de Lebesgue-Stieltjes. Remarque : Pour compenser l’abus de langage mentionné ci-dessus, nous continuerons à utiliser la notation pour parler de la mesure de Lebesgue-Stieltjes 191 non complète et la notation complète bien sûr). pour signifier la mesure de Lebesgue-Stieltjes (la En fait, nous pouvons caractériser la tribu et la mesure de Lebesgue-Stieltjes associée à une application croissante et continue à droite, grâce au théorème suivant que nous ne démontrerons pas. ( Théorème 39 Soit un ensemble quelconque et un anneau sur cet ensemble. Soit une mesure -finie sur , la mesure extérieure définie par (B.2) et associée à , , la restriction de la mesure extérieure à la tribu . Alors la mesure est la mesure complétée de la mesure de est la tribu . et la tribu -complétée Si on applique ce résultat à une mesure de Lebesgue-Stieltjes : en compte (B.5) avec , nous voyons que pour tout ( - et en prenant & & 3 La tribu de Lebesgue-Stieltjes est alors la collection (B.6) 1 3 (B.7) A titre d’exercice, le lecteur pourra maintenant vérifier les propriétés suivantes, qui sont les analogues de celles données par la proposition 23 de la section ??. La démonstration des résultats suivants est d’ailleurs pratiquement identique à celle conduisant aux propriétés énoncés dans la proposition 23. La différence est que les résultats suivants ne demandent pas à ce que et que . / , Proposition 30 Soit la mesure de Lebesgue-Stieltjes 2 sur associée à une application croissante et continue à droite. On désigne par la limite à gauche (cette limite existe toujours puisque est croissante) de au point . ( 2 Nous nous contentons de la mesure non complète de la mesure de Lebesgue-Stieltjes, mais on peut très bien énoncer les mêmes résultats avec puisque est la restriction de à la tribu des boréliens et que nous ne considérons que des intervalles (donc des boréliens) dans cette proposition. 192 , & & & & , & $ , $ $ , , , Remarque : Noter que pour , et , le résultat est valable si $ même & ce qui n’est pas le cas pour où implique alors que le membre de droite vaut qui n’a pas lieu d’être nul, sauf si est continue à gauche au point . Dans le. cas de la mesure de Lebesgue, la propriété est alors valable même si (i) Pour tout , (ii) Pour tels que (iii) Pour tels que (iv) Pour tels que (v) Pour tels que Une mesure de Lebesgue-Stieltjes induit une structure d’espace mesuré sur . sera noté L’espace mesuré obtenu en utilisant la mesure de Lebesgue-Stieltjes . B.5 L’intégrale de lebesgue-Stieltjes Maintenant que nous disposons de la mesure de Lebesgue-Stieltjes, nous pouvons appliquer la théorie générale de l’intégration et considérer les applications qui sont intégrables par rapport à cette mesure. Il n’y a pas de résultats spécifiques à donner ici pour ces fonctions et cette mesure. Nous nous contenterons de préciser seulement les notations en nous limitant à la version incomplète d’une mesure de lebesgue-Stieltjes associée à une application croissante et continue à droite. Nous pouvons nous le permettre en vertu du théorème 16. ( ( une mesure de Lebesgue-Stieltjes. L’intégrale d’une application posiSoit tive mesurable ou d’une application intégrable sera préférentiellement notée 3 de maniçère à mettre en évidence le rôle jouée par dans la définition même de la mesure considérée. Dans la littérature, on peut aussi rencontrer ou . L’ensemble des applications intégrables sera alors notée conformément à la notation employée pour désigner l’espace mesuré sur lequel on travaille. ( 193 B.6 Le cas de la mesure de Lebesgue ( Un cas trivial d’application continue à droite et croissante est l’identité sur . Nous posons alors la définition suivante, qui n’est qu’un cas particulier de celle définissant la tribu et la mesure de Lebesgue-Stieltjes. l’unique mesure définie sur la tribu des boréliens telle Définition 82 Soit que pour tout couple de réels tels que . (i) La tribu de Lebesgue est la tribu -complétée de la tribu des boréliens . (ii) La mesure de Lebesgue est la mesure complétée de , c’est-à-dire la mesure complète qui est l’unique extension possible de la mesure à la tribu de Lebesgue. & & Par abus de langage, la mesure est aussi appelée mesure de Lebesgue. Comme en ce qui concerne la mesure de Lebesgue-Stieltjes, on conservera les notations et de manière à compenser l’abus de langage. L’égalité (B.6) s’applique directement et l’on a : ( - & & 3 (B.8) En fait, on peut très bien remplacer dans l’expression précédente les intervalles ouverts à gauche et fermés à droite par des intervalles fermés et écrire ( - $ & 3 (B.9) $ & par $ $ ou par & $ . L’égalité B.9 On pourrait même remplacer est souvent utilisée comme définition dans la littérature, notamment celle consacrée aux fractales et à la géométrie intégrale, pour la mesure de Lebesgue. Si on applique maintenant (B.10), nous voyons que la tribu de Lebesgue est alors la collection 194 1 3 (B.10) Si l’on veut rester cohérent avec les notations utilisées classiquement pour désigner l’intégrale par rapport à une mesure, l’intégrale (si elle existe) d’une fonction réelle par rapport à la mesure de Lebesgue devrait donc être notée Avec cette notation, si 1l 1l et si 3 $ & , on a : 1l 1l puisque la mesure de Lebesgue d’un singleton est nulle. Comme précisé au chapitre 8, les intégrales de Lebesgue et de Riemann coïncident lorsque est Riemann-intégrable ou d’intégrale généralisée absolument convergente. Il est alors d’usage, lorsque et qu’on l’in est Lebesgue-intégrable tègre sur un intervalle fini ou non ( ) d’utiliser la notation usuelle bien que celle-ci représente traditionnellement l’intégrale de Riemann de sur $ & $ & B.7 Complément Nous allons montrer maintenant un résultat qui nous servira pour présenter la notion d’intégrale stochastique. Ce résultat est une conséquence même de la construction de Caratheodory. , , il existe 30303 Théorème 40 Soit un semi-anneau sur un ensemble et une mesure sur . Soit l’extension de Caratheodory de cette mesure à la tribu . # % # $ Pour tout tel que . et tout tel que , P REUVE : Avec les mêmes notations que celles du théorème 38, nous savons que est donnée par (B.4). Aussi, pour tout , il existe une une séquence d’éléments de tels que - 195 1 3 (B.11) $ 7 K / D’autre part, éEtant donné que est une mesure dont la restriction = est , les valeurs , croissent vers . Aussi, existe-t-il un entier tel que 7 K / $ 1 3 , nous avons aussi l’inclusion Etant donné que$ et donc l’inégalité $ $ $ en prenant en compte le fait que la restriction de $ $ De manière analogue, nous avons . Comme Comme #%$ # #%$ (B.13) # 1 (B.14) #%$ # il suffit de sommer (B.13) et (B.14) pour obtenir le résultat voulu. 196 et donc l’inclusion est finie, il vient $ est . $ " 3 à $ " (B.12) Annexe C Compléments sur la comparaison des intégrales de Riemann et de Lebesgue Dans cette annexe, nous complétons les résultats de la section 8.2 du chapitre 8. En effet, dans ladite section, on considère une application Riemann-intégrable que l’on suppose mesurable. Certes, pour une application en escalier, une application continue ou continue par morceaux, cette hypothèse est valide et s’applique à une très large classe d’applications que l’on rencontre dans la pratique. Cependant, on peut être plus général. On peut considérer une application Riemann-intégrable, montrer sa mesurabilité par rapport à la tribu de Lebesgue (et non pas par rapport à la tribu des boréliens) et montrer que son intégrale de Riemann est égale à son intégrale de lebesgue par rapport à la mesure de lebesgue complète. Ces résultats s’obtiennent en améliorant les démonstrations des propositions 20 et 21 qui deviennent alors des cas particuliers des théorèmes que nous allons énoncer. Remarque sur les notations : A la fin du chapitre 8, nous précisons qu’il n’y a pas lieu d’utiliser deux notations différentes pour les intégrales de Lebesgue et de Riemann. Cependant, dans cette annexe, étant donné que notre objectif est de montrer l’égalité entre l’intégrale de Lebesgue et l’intégrale de Riemann pour les fonctions réelles Riemann-intrégrables, nous conservons deux notations différentes. Ainsi représentera l’intégrale de Riemann de alors que 1l , conformément aux notations utilisées dès le début de ce cours, désignera l’intégrale de Lebesgue par rapport à la mesure de Lebesgue (complète) . De façon précise, on a le premier résultat suivant. 197 $ & Théorème 41 Soit une application Riemann intégrable sur . (a) Elle est mesurable par rapport à la tribu de Lebesgue . (b) Son intégrale de Riemann est égale à l’intégrale de Lebesgue de 1l par rapport à la mesure complétée de Lebesgue : 1l 3 P REUVE : Commençons par une remarque très simple et très utile. Nous avons déjà faite cette remarque à la section 8.2. Une fonction en escalier est clairement une fonction simple, au sens donnée dans la théorie de Lebesgue. Une fonction en escalier est donc -mesurable. Il est tout aussi évident qu’elle est intégrable par rapport à la mesure de Lebesgue et que son intégrale de Lebesgue par rapport à est égale à son intégrale de Riemann : $ & ( 1l $ & 3 $ & ( Soit maintenant une application Riemann-intégrable définie sur un inter valle borné et à valeurs dans . Nous connaissons l’existence d’une suite croissante de fonctions en escaliers et d’une suite décroissante de fonctions en escaliers telles que et tende vers avec . 7 , Preuve de (a). On a alors ')( * ' ()* La suite et ' ()* 5 ')( * étant croissante et la suite existent et vérifient 3 (C.1) étant décroissante, les limites . 7 Comme nous l’avons déjà remarqué, l’intégrale de Lebesgue d’une fonction en escalier coïncide avec son intégrale de Riemann. On a donc, pour tout , 1l 198 1l 3 (C.2) Comme . . . . ')()* 1l . . . . , et sont donc inférieures ou égales à . L’application est trivialement mesurable et intégrable au sens de Lebesgue. Le théorème de la convergence dominée de Lebesgue nous permet donc d’obtenir 1l ')( * 1l 1l 3 (C.3) En combinant (C.1), (C.2) et (C.3), on obtient alors que 1l 1l 3 5 (C.4) L’application positive est donc d’intégrale nulle. On applique alors le théorème 13 pour en déduire que -presque partout. Etant donné que , nous déduisons de la proposition 15 (b), que est mesurable par rapport à la tribu de Lebesgue , id est la tribu complétée de , ce qui prouve (a). , -presque partout 1 . Comme Preuve de (b). Nous voyons aussi que 1l est intégrable par rapport à la mesure de Lebesgue sur , on déduit de la proposition 16 (b) que 1l admet une intégrale par rapport à la mesure de Lebesgue et que , ce qui prouve (b). Remarque : Noter que dans la démonstration, la croissance de nous sert à jus tifier de l’existence de sa limite mais que nous ne pouvons pas utiliser la convergence monotone pour conclure. En effet, nous ne savons pas si les applications sont positives. $ & ( $, $( une application mesurable et intégrable au Théorème 42 Soit sens de Riemann sur tout intervalle fermé borné , . (a) est mesurable par rapport à la tribu de Lebesgue. (b) intégrable au sens de Lebesgue par rapport à la mesure de Lebesgue sur si et seulement si . (c) Si est intégrable au sens de Lebesgue sur $, $ $, & . . . . 1l $, $ $, $ . . (C.5) 1 On pourrait tout aussi bien dire que 1l , -presque partout puisque les ensembles -négligeables sont aussi les ensembles -négligeables (cf. théorème 16 (b)). 199 et 1l 3 (C.6) P REUVE : Nous ne démontrerons que l’assertion (a). Pour démontrer (b) et (c), il suffit de reproduire la preuve de la proposition 21 en remplaçant la mesure de Lebesgue (non complète) par la mesure de Lebesgue complète . $, 7 & Comme chaque application 1l est Riemann-intégrable sur , le théo rème 41 nous dit que 1l est mesurable par rapport à la tribu de Lebesgue. Puisque , les théorèmes généraux sur les séquences d’applications 1l mesurables (cf. 4.5, proposition 11) permettent de conclure quant à la mesurabilité de par rapport à la tribu de Lebesgue. ' ()* 200 Annexe D Probabilités conditionnelles La théorie relative aux probabilités conditionnelles est une des parties les plus difficiles de la théorie des probabilités, une des moins bien perçues par les étudiants et de fait une des plus mal utilisées. Il faut reconnaître qu’un traitement complet des probabilités conditionnelles est long et requiert beaucoup de résultats intermédiaires. On peut y consacrer un livre entier comme l’a fait Rao ([20]). Un tel livre se justifie sur le plan théorique mais aussi sur le plan pratique : les probabilités conditionnelles sous-tendent, par exemple, la théorie des martingales qui joue un rôle important dans la théorie des jeux, mais aussi en économie et en finance. Nous allons donc présenter les éléments théoriques principaux concernant les probabilités conditionnelles associées à des variables aléatoires réelles. Nous laissons le soin au lecteur de vérifier que tous les résultats donnés ci-après restent valables pour des variables aléatoires complexes. Avant de rentrer dans le vif du sujet, il faut dire dès à présent à quoi servent les probabilités et lois conditionnelles. Lorsqu’on réalise une expérience, il peut arriver que l’on souhaite étudier le résultat de cette expérience lorsque les conditions expérimentales sont modifiées. On peut souhaiter aussi étudier le résultat d’une expérience sous certaines hypothèses ou conditionnellement au résultat d’une autre expérience. Supposons qu’une chaine de grande distribution souhaite faire des promotions sur certains produits au moment de Noël. Si l’on sait que les consommateurs achetant le produit dans cette période sont tentés d’acheter aussi le produit dans la même préiode, il sera certainement rentable pour la chaine de distribution de proposer des promotions sur les produits et au même moment. Il va donc 201 falloir identifier de tels couples de produits. Pour ce faire, il va falloir quantifier la loi de probabilité qu’un client achète le produit s’il a acheté le produit , c’est-à-dire conditionnellement à l’achat du produit , ou encore sachant qu’il a acheté . Pour modéliser le problème sous forme probabiliste, on considère l’ensemble de tous les clients du magasin. On munit de la tribu de ses sous-ensembles. Puis on considère le couple de variables aléatoires définies comme suit. Pour un client donné, est le nombre de produits que le client achète pendant la période de Noël et est le nombre de produits achetés par ce même client durant la même période. Les valeurs et sont le résultat d’une simple expérience de comptage. > > > Si maintenant, on veut déterminer la probabilité qu’un client achète le produit s’il achète le produit ou, en d’autres termes, la probabilité que l’achat du produit soit conditionné à celui du produit , on s’intéresse à une autre expérience dont les conditions sont légèrement différentes de la précédente. Ce n’est plus qui va nous intéresser, mais simplement une partie de . Ce n’est plus qu’on étudie mais lorsque parcourt l’ensemble des clients qui ont acheté le produit . Le problème est donc d’étudier la restriction de la variable à un sous-ensemble mesurable de qui représente l’événement "le client a acheté le produit ". > ( > > Tant qu’on en restreint une variable aléatoire à un sous-ensemble mesurable de , donc à un événement de mesure non nulle (donc non négligeable), tout va bien : le problème rest aisé à traiter. C’est ce que nous allons voir à la section D.2. La situation devient beaucoup plus délicate lorsque l’événement qui conditionne la variable aléatoire a une mesure de probabilité nulle. Donnons un exemple. Supposons que nous disposions d’une base de données où chaque élément de la base de données est associé à un être humain identifié par son nom et contient le poids et la taille de cette personne. Supposons que l’on cherche à étudier la loi de probabilité du poids d’un individu conditionnellement à sa taille, id est sachant sa taille. On cherche à répondre à des questions * du type : quelle est la . . probabilité de peser kilos sachant que l’on mesure * cm. Le problème est . alors que la probabilité qu’une personne mesure cm est nulle car la taille est exacte d’une personne est une grandeur continue. Le conditionnement ne sera donc pas aussi facile que dans l’exemple précédent et il faudra prendre quelques précautions. Il y aura alors un intermédiaire de calcul qui sera le conditionnement par rapport à une tribu. / , 3/ / , 3/ , 202 L’organisation de cette annexe est donc la suivante. Dans la section suivante, nous nous intéressons au cas simple du conditionnement par rapport à un événement de mesure non nulle. Ensuite, à la section D.3, nous présenterons le conditionnement par rapport à une tribu. Cette sous-section nous permettra de traiter le conditionnement par rapport à une variable aléatoire à la section D.4. D.1 Un résultat préliminaire Le lemme suivant sera très utile dans la suite, notamment l’assertion (b-ii) qu’il énonce. - " ! un espace probabilisé. ( une variable aléatoire positive ou intégrable. (a) Soit , / > ! K , , alors K , presque partout. (a-i) Si pour tout , / > ! , , alors , presque partout. (a-ii) Si pour tout ( deux variables alatoires positives ou inté(b) Soient Lemme 13 Soit grables. (b-i) Si pour tout partout. (b-ii) Si pour tout partout. , , /> ! K /> ! /> /> ! K ! , alors , alors presque presque P REUVE : Les assertions (b-i) et (b-ii) sont des conséquences immédiates de (a-i) et de (a-ii). Nous prouvons donc simplement ces deux dernières. ! Preuve On peut écrire 1l de (a-ii). Par hypothèse, 1 8 , .nous . obtenons que 7 . Chaque est mesurable / ! ! . on en déduit , / ! , 1 , et donc1 que est aussi de probabilité Preuve de (a-i). Soit et par hypothèse, donc que nulle. lorsque . Or, ! . ! 203 avec 1l et 8 ! , . Aussi, puisque . . . , et le résultat dérive du théorème 13. D.2 Conditionnement par rapport à un événement D.2.1 Définitions ( " Considérons une variable aléatoire . Cette variable aléatoire est censée modéliser une expérience aléatoire : la nature, suite à des méandres qui nous échappent complètement, tire un dans ; le résultat de l’ex périence est alors . Si maintenant, les conditions de l’expérience sont modifiées de telle sorte que l’on sait les choisis dans un sous-ensemble de , nous conditionnons le résultat à . Aussi, si je veux calculer, sous ces nouvelles conditions expérimentales, la probabilité que les réalisations soient dans un ensemble mesurable de , je vais devoir étudier le comportement de lorsque le domaine de définition de se trouve réduit à . En d’autres termes, conditionner par rapport à va consister à étudier la restriction de , ni plus ni moins. Il n’y donc aucune difficulté à définir , mais si on veut parler de la probabilité que prennent des valeurs dans , il va évidemment falloir munir d’une tribu adéquate rendant mesurable puis définir sur cette tribu une mesure de probabilité. Puisque nous voulons munir d’une tribu rendant mesurable, nous de vons choisir une tribu sur qui contienne tous les ensembles où . Or, signifie que nous avons à la fois et . Aussi, est mesu . Comme rable, est un élément de dès que est mesurable. Aussi, si , appartiendra à la tribu trace de sur , notée , et définie par : 3 Il n’y donc pas grand-chose à faire pour rendre mesurable dès que mesurable : il suffit de munir de la tribu trace . est est un espace mesurable qui Maintenant que permet de définir la en espace provariable aléatoire , il nous faut désormais transformer babilisé en unissant cet espace d’une mesure de probabilité adéquate. Il serait tentant de considérer la restriction de à . Le seul problème est que qui n’est pas forcément égale à . Si est non nul, la solu tion est simple : on va normaliser la restriction de à en divisant par . 204 Nous sommes donc obligés de supposer si nous voulons obtenir des résultats intéressants. Sous cette condition, nous avons donc un nouvel espace $ . En d’autres termes plus explicites, probabilisé " où est définie pour tout par : 6 < Etant donné que nous venons de définir un nouvel espace probabilisé $ , nous pouvons considérer les applications mesurables par rapport " à qui admettent une intégrale par rapport à la mesure de probabilité . Nous définissons alors une nouvelle notion d’espérance qui sera notée et qui, pour tout , est définie par : Si est positive, on a donc - (D.1) soit positive et calcuEn particulier, supposons que . Nous utilisons l’équation précédente pour écrire lons - - - 6 < 6 < Nous obtenons donc, in fine, 1l 205 (D.2) existe si et seulement si Nous déduisons de ce résultat que existe et les deux intégrales sont alors liées par la relation (D.2) 1l sachant comme étant la loi donc définir la loi suivie par On pourrait et s’arrêter là. On va aller un peu plus loin car il est gênant d’avoir à utiliser la mesure , définie sur la tribu trace de sur . On préfèrait manipuler uniquement des mesures de probabilité définies sur et ne pas avoir à traîner l’espérance . On va donc améliorer la présentation dans ce sens. , de sorte que nous pouvons associer à tout Si on, laprend valeur . Nous définissons ainsi une fonction > < d’ensemble . . 6 définie par 6 < . Le lecteur . vérifiera aisément que est une mesure. . Il est très simple Soit alors une variable aléatoire réelle . de vérifier que . D’où la définition suivante. un espace probabilisé et de mesure non Définition 83 Soit nulle : . (a) On appelle mesure de probabilité conditionnelle par rapport à , la mesure . définie par . . La valeur . est alors appelée probabilité condipour tout tionnelle de l’événement par rapport à ou sachant . une variable aléatoire réelle. (b) Soit par rapport à l’événement (ou loi de (i) La loi conditionnelle de conditionnellement à , ou encore, loi de sachant ) est la loi , qui est la mesure image de par . On posera, pour tout , . . . (D.3) . . et le membre de gauche se lira "probabilité conditionnelle que ap partienne à par rapport à (l’événement) ou "probabilité que appratienne à conditionnellement à ". 206 (ii) Si 1l existe, on appelle espérance conditionnelle de par rapport à (ou espérance de conditionnellement à ), la grandeur définie par : . . 1l (D.4) (iii) Si est une variable réelle et si est tel que , l’espérance conditionnelle de par rapport à l’événement est notée au lieu de . On dit encore que est l’espérance conditionnelle de sachant . . . . Remarque : Le point (iii) de la définition précédente sera généralisé à la section D.4. En effet, dans la définition ci-dessus, nous devons supposer que . Dans D.4, nous étendrons la définition de au cas . . Il est facile de montrer le lemme suivant qui généralise (D.2). Lemme 14 Soit un espace probabilisé, une variable aléatoire réelle. . , de mesure non nulle et ou existe pour que . 1l . et que Remarque. Le lecteur vérifiera aisément que . . au lieu pour alléger les De fait, on écrira souvent notations. Rappelons que 1l pour tout et que 1l> pour tout Il suffit qu’une des intégrales les deux autres existent aussi et l’on a 1l 207 . . . > . En vertu de la remarque précédente, nous pouvons donc écrire immédiatement que 1l et que 1l . Ces relations sont elles alors encore valables lorsqu’on remplace par tel que , ce qui assurerait une cohérence des notations et des résultats. La réponse est oui, comme le montre le lemme suivant. un espace probabilisé et tel que . Alors . 1l . pour tout et . 1l> . pour tout Lemme 15 Soit > . Il suffit ensuite de choisir (D.5). (D.6) 6 < 1l> 14 l > 6 < 1l 8 6 < 6 < . et dans (D.6) pour obtenir 1l , P REUVE : On commence par montrer (D.6) en écrivant que pour et (D.5) . est absolument continue par . 1l est absolument continue par rapport à et que Exercice 32 Avec les notations précédemment introduites (i) Montrer que la mesure de probabilité rapport à la mesure et que . . (ii) Montrer que si est absolument continue par rapport à la mesure de Lebesgue sur , est aussi absolument continue par rapport à la mesure de Lebesgue sur . 208 Sur la base de ce qui précède, on peut donner des règles de calculs (cf. lemme 16). Ces règles de calcul seront améliorées plus loin. On commence par la remarque suivante qui est une simple conséquence des définitions et qui utilise une notation simplifiée utilisée largement dans la pratique. 8 . Posons désignera la loi conditionnelle de par rapport à et 8 . . 8 Remarque : On utilisée, pour dési rappelle que 8 est une autre notation, souvent gner la loi de . On remarquera que, trivialement, 8 8 . Dans la suite, nous utiliserons la notation 8 pour rester cohérent avec celle utilisée pour désigner la loi conditionnelle de par rapport à . Par définition même de la loi conditionnelle de par rapport à , on a pour , tout 8 (D.7) résultat qui induit le lemme suivant. un espace Lemme 16 Soit probabilisé et l’espace mesurable . Soit et tel que . (i) 8 8 8 (ii) Si . . (D.8) En d’autres termes, pour tout , P REUVE : Pour démontrer (i), il suffit d’appliquer (D.7) deux fois : une fois avec une autre fois avec . Pour démontrer (ii), on utilisera le lemme 14 deux fois aussi : une fois avec et une fois avec le complémentaire de . . Retrouver la relation classique . . 1l> . en utilisant le résultat précédent : ne pas oublier que Exercice 33 Soit tel que Nous terminons par un lemme qui sera amélioré plus loin. 209 8 Lemme 17 Soit tel que et un couple de va riables aléatoires admettant une densité de probabilité , . , noté usuellement admet aussi une densité de probabilité, Alors notée , , et 8 8 8 8 8 et 8 P REUVE : Par définition, pour tout 8 8 E 8 , 8 . 6 < 6 < > 8 > 8 5 8 par Fubini D’où le premier résultat. La seconde égalité est une simple application de la première, appliquée une fois à et une autre fois à . D.3 Conditionnement par rapport à une tribu Cette section est importante car elle va permettre, à la section D.4, d’étendre les résultats précédents en définissant le conditionnement par rapport à une variable aléatoire. D.3.1 Définitions Nous suivons ici les présentations de [24], [11] et [20]. K Soit un espace probabilisé et aléatoire positive presque partout : -p.p. Soit une tribu de telle que une variable . On parle alors d’une sous-tribu de . 210 8 Considérons l’applications 8 Il est facile de voir que espace probabilisé. Pour tout 8 8 (D.9) 8 est un est donnée par : - - par , la mesure 8 définie, pour tout 1l est une mesure de sorte que 1l 8 Aussi, pour tout tel que , aussi. On en déduit . Pour appliquer le théorème de Radon-Nikodym, il faudrait donc que que soit -finie, ce que nous ne savons pas. On pourrait penser que est bornée, mais qui n’est pas forcément finie si on ne rajoute pas une condition supplrémentaire sur . On va donc supposer non seulement positive mais aussi intégrable de sorte que . La mesure est alors bornée et le théorème s’applique. Il existe donc une de Radon-Nikodym . Comme il est évident application telle que, que , nous avons, pour tout , . Aussi, 1l 1l , ce qu’on peut encore écrire 8 8 8 8 8 8 8 8 1l 1l 8 8 (D.10) L’ensemble des variables aléatoires intégrables qui vérifient l’équation précédente est une classe d’équivalence par rapport à la relation d’équivalence "presque sû rement". L’ensemble des variables aléatoires intégrables qui vérifient (D.10) est donc un élément de . Cette classe d’équivalence est souvent notée et on l’appelle espérance conditionnelle de par rapport ou conditionnée par . Il est d’usage d’écrire l’équation (D.10) sous la forme . 1l 1l Cette équation signifie donc que pour tout élément est vérifiée. de (D.11) , l’équation (D.10) Le raisonnement précédent a été conduit dans le cas où est intégrable et positive. Supposons maintenant que est toujours intégrable mais de signe 211 8 et quelconque. On peut alors écrire avec 1l 1l . Les variables aléatoires et sont toutes deux intégrables et positives. Elles admettent donc, toutes les deux, des espérances conditionnelles par rapport à . On posera donc : 8 (D.12) celle Cette somme est théoriquement celle des classes d’équivalences, c’est-à-dire portant sur les éléments de . L’espérance conditionnelle est vérifiera encore définie de manière unique dans et le lecteur aisément que l’équation (D.10) reste vraie pour tout élément de de sorte qu’on écrira encore (D.11). Ce qui précède justifie la définition suivante qui synthétise ce qui vient d’être dit. Définition 84 Soit un espace probabilisé, une sous-tribu de sur et . L’espérance conditionnelle de par rapport à la tribu est l’unique élément de tel que pour tout et tout , 1l , 1l . Par convention, on écrira, pour tout 1l 1l (D.13) D.3.2 Propriétés de l’espérance conditionnelle Nous énumérons maintenant quelques propriétés des espérances mathématiques conditionnelles qui dérivent de leur définition. Proposition 31 Soit un espace probabilisé et une sous-tribu de . On convient que les espérances conditionnelles écrites ci-dessous sont définies. (i) $ p.s. . (iii) Si est -mesurable, . (iv) Si est -mesurable, alors et prennent des valeurs de même signe ou possèdent (v) Si une espérance mathématique finie, alors (vi) Si et , . " (ii) Si est -mesurable, 212 p.s alors (vii) Si . . . . (viii) p.s. , une sous-tribu de (ix) Soit P REUVE : . 1l 1l 1l 1l 1l 1l où 1l 1l 1l . L’espérance 1l Or, par définition de l’espérance conditionnelle de par montrer (ii) On commence le résultat pour conditionnelle 1l est telle que $ " . (i) Il suffit d’appliquer (D.11) avec , on a : D’où le résultat pour 1l . Comme une variable aléatoire positive est limite d’une suite croissante de fonctions simples, on en déduit que le résultat est encore vrai pour positive. Pour une variable aléatoire de signe quelconque, on écrit, comme d’habitude, que , ce qui permet d’assurer que le résultat est encore vrai pour une variable aléatoire réelle de signe quelconque. (iii) Il suffit d’appliquer (i) et (ii). (iv) Il suffit d’appliquer le résultat précédent à 1l . 1l " : 1l 1l 1l 1l 1l (v) Par définition de l’espérance conditionnelle, on a pour tout %$ 1l D’où le résultat. , alors, de l’espérance conditionnelle, . D’après (i) du lemme 13, 1l K par pourdéfinition tout K p.s. (vi) Immédiat. K (vii) Si 1l cela implique que 213 . que Si nous considérons maintenant et , on écrit . Comme On (iv) pour obtenir applique K ensuite p.s., K . D’où le résultat. . . . Aussi, On a . en (viii) vertu de (vi) et de (v), et . sont inférieurs ou égaux à . D’où le résultat. 1l puis (ix) Pour un élément donné de , nous allons calculer $ " 1l et montrer que ces deux termes sont égaux, ce qui suffira en vertu du lemme 13. Par application directe de la définition de l’espérance conditionnelle, on a tout d’abord, 1l 1l D’autre part, toujours par application directe de la définition de l’espérance condi tionnelle, '$ " %$ 1l 1l " Comme , est aussi un élément de . Par définition encore de l’espérance conditionnelle, le membre de droite de l’égalité précédente est donc égal à 1l . D’où le résultat. D.3.3 L’espérance contitionnelle par rapport à une tribu est une projection orthogonale La propriété (iii) a en fait une conséquence remarquable qui est très exploitée en statistique et en estimation. Le résultat donnée ci-dessous est peut être le plus important de cette section dédiée aux probabilités conditionnelles par rapport à une tribu. . . Supposons que soit un élément de , c’est-à-dire une application mesurable telle que . On sait alors que est aussi élément de de sorte que son espérance conditionnelle par rapport à une sous-tribu de existe. En vertu de la relation (iii) et étant donné qu’on vérifie immédiatement que l’espérance conditionnelle du conjugué est le conjugué de l’espérance conditionnelle, nous avons 214 pour tout mesurable par rapport à . Désignons alors par l’ensemble de toutes les applications à valeurs dans qui sont mesurables par rapport à . L’égalité précédente signifie encore que pour tout , (D.14) . . . Or, l’ensemble est un espace de Hilbert dont le produit scalaire définie par est . La associé à la norme relation (D.14) traduit donc l’orthogonalité de avec . Puisque est un espace vecoriel fermé pour la norme , nous pouvons le théo appliquer rème de projection et déduire de cette orthogonalité que est la projection ortgogonale de sur , c’est-à-dire l’application -mesurable qui "ressemble le )à plus" (au sens de la norme . On comprend désormais toute l’importance de la probabilité conditionnelle dès que l’on veut estimer une variable aléatoire. Ce résultat mérite un théorème. un espace probabilisé, une sous-tribu de sur par rapport à la tribu Soit conditionnelle de . L’espérance vectoriel fermé constitué de est la projection orthogonale de sur l’espace toutes les applications qui sont -mesurables. On a donc . . ( . . Exercice 34 Montrer que est effectivement un espace vectoriel fermé par rap port à la norme . Théorème 43 Soit et l’espace mesurable. D.3.4 Théorèmes de convergence Les espérances conditionnelles, bien qu’étant des variables aléatoires et non des intégrales comme le sont les espérances, permettent d’énoncer des théorèmes de convergence analogues à ceux déjà rencontrés (convergence monotone, Fatou, convergence dominée). Théorème 44 Soit un espace probabilisé, 215 une sous-tribu de . Convergence monotone. Si est une séquence croissante de variables aléatoires positives (ou même généralisées), alors ')( * ' ()* Lemme de Fatou. K K ' ()* ( ' ()* ( (ii) Si est une séquence de variables aléatoires réelles pour la quelle il existe intégrable tel que pour tout entier K , alors ' ) ( * ' ) ( * (p.s.) K (i) Si est une séquence de variables aléatoires réelles pour la pour tout entier quelle il existe intégrable tel que , alors (p.s.) . . Convergence dominée. Si toires réelles telles que (p.s.), alors ')( * est une séquence de variables aléa (p.s.) avec et si (p.s.) Nous engageons le lecteur à faire les démonstrations de ces résultats. Ces démonstrations sont analogues à celles qui ont permis d’énoncer les résultats classiques de la théorie de la mesure comme pourra le constater le lecteur s’il se reporte à [20] pour vérifier ses raisonnements. Il existe même une version des inégalités de Hölder, de Minkowsky et de Jensen que nous énonçons maintenant. Théorème 45 Soit une sous-tribu de . Inégalité de Hölder : et . . . Inégalité de Minkowsky : pour @ K , . . 4 . . 216 4 . 4 avec . . 4 (p.s.) . . 4 (p.s.) . Soit Inégalité de Jensen : si est une fonction continue et convexe telle que ou est intégrable, alors K " %$ . . Remarque : Soit la fonction convexe et application est. bien . Cette . . . . . on a donc, en vertu de l’inégalité En prenant . de . Jensen, . . ..Aussi, l’espérance, on obtient pour est @K et , . L’opérateur donc une contraction de . D.4 Conditionnement par rapport à une variable aléatoire Soit un espace probabilisé et variables aléatoires réelles. deux Il peut être utile de définir l’espérance conditionnelle de par rapport à la valeur prise par . Pour ce faire, on introduit la notion de tribu engendrée par à l’aide de la définition suivante. Définition 85 Soit un espace probabilisé et une application mesurable. On appelle tribu engendrée par la collection d’en sembles Exercice 35 Vérifier que la collection est bien une tribu. Disposant d’une tribu qui décrit la manière dont pouvons alors poser la définition suivante. prend ses valeurs, nous un espace probabilisé et Définition 86 Soit deux variables aléatoires réelles. L’espérance conditionnelle de par rapport à , notée , est l’espérance conditionnelle de par rapport à la tribu engendrée par : 217 Exercice 36 Avec les notations de la définition précédente, démontrer que pour tout , (D.15) 4>< 6 4>< 6 C’est une simple application des définitions. Nous allons maintenant utiliser le résultat suivant. un espace probabilisé et l’espace mesurable Théorème 46 Soit . Si sont deux applications mesurables telle que est mesurable par rapport à la tribu engendrée par , alors, il existe une application -mesurable telle que . ')( * 1 1 4 %? " P REUVE : Commençons par le cas où est positive réelle. On sait alors que nous 1l pouvons écrire que où . Etant donné est -mesurable, alors, pour chaque paire d’entiers , l’ensemble que est égal à un élément de de la forme où . On a donc 1l 1l de sorte que " avec 1l 1 1 4 > 6 < et > 6 < ' ()* (D.16) ' ()* Il est évident que chaque est mesurable et il serait alors tentant de poser pour conclure. Nous ne pouvons pas procéder ainsi directement. En effet, nous ne savons pas si la suite est convergente en tout point de . Qu’à cela ne tienne. Soit , l’ensemble des points pour lesquels la suite est convergente. Nous savons que cet ensemble est mesurable. On définit alors par 1l . Les applications tout sont alors mesurables et pour , existe. En effet, si , la limite de la suite existe et . Si , on a trivialement . L’application est donc définie partout sur et est mesurable. Il nous reste à vérifier que . Soit Si ' ()* ')( * ' ()* ' ()* ( ' ()* ' ()* ' ()* , l’égalité (D.16) nous montre clairement que ' ()* ' ()* ce qui prouve que . E . Aussi, est réelle mais de signe quelconque, on procède selon le scénario clas sique. On écrit . On sait alors que et que . de sorte que si , on a 218 Remarque : Avec les notations du théorème précédent, il faut noter que l’appli cation n’est pas forcément unique. Prenons par exemple 1l où et supposons que est -mesurable. Nous savons donc qu’il existe tel que 1l . Pour , et pour , . où On a donc 1l 1l . Soit alors 1l 1l est arbitraire. Pour , et pour , 1l . On a donc, 1l 1l . F F Le théorème précédent nous permet maintenant d’énoncer le très important résultat suivant. Théorème 47 Soit deux applications mesurables . Il existe une application unique au sens de la relation d’équivalence "presque partout" qui est -mesurable et telle que (D.17) 8 et quel que soit , 1l> 8 > 8 L’espérance conditionnelle (D.18) par rapport à est, par définition, -mesurable. En vertu du théorème 46, il existe application une . , -mesurable, telle que Il est évident que 1l 1l . Comme appartient à la tribu engendrée par , nous avons 1l 1 l (définition de l’espérance conditionnelle) 1l (par définition de ) $ " 1l 1l (théorème de transfert) P REUVE : une application 8 > > > 4 6> < 8 8 8 > > > 8 8 d’où l’existence. Il reste à prouver l’unicité. Celle-ci est une conséquence immédiate du lemme vérifie(D.18), alors elle est égale preque 13 : si une application autre que partout à . 8 8 219 Note : noter que le théorème précédent est un résultat d’unicité bien que basé sur le théorème 46, qui lui, n’est pas un résultat d’unicité. Remarque très importantes. Ce théorème nous dit trois choses. Tout d’abord, qu’il nous suffit de connaître pour connaître en fait l’espé rance conditionnelle . Il nous dit ensuite qu’un moyen de calculer (et donc de connaître ) est de résoudre l’équation (D.18). par Il nous dit enfin que l’espérance de est simplement l’intégrale de rapport à la loi : 8 8 Nous allons maintenant établir la relation entre conditionnelle de par rapport à l’événement ensemble mesurable est non nulle. 8 P REUVE : Soit 8 . On a 8 1l , la fonction telle 8 . Par définition de 8 grâce à l’éga- , et l’espérance lorsque la mesure de cet . (D.19) 8 Lemme 18 Soit un espace probabilisé, deux applications mesurables et . que est tel que , alors Si 8 , on peut accéder à l’espérance de 8 Ainsi, lorsque on connaît lité précédente. 8 8 , nous avons : D’après la définition de l’espérance conditionnelle par rapport à l’événement , nous avons aussi 1l 1l Comme $ . , on en déduit le résultat. 220 8 8 . 8 . 8 . 1l> . Ce résultat justifie la définition suivante que généralise la définition 83 (b-iii). Définition 87 Soit deux applications mesurables et . soit la fonction , telle que (i) La valeur de au point de est appelée espérance de conditionnel lement à ou espérance (conditonnelle) de sachant . est notée et est définie comme la valeur de au point de : (ii) Pour tout , on définit la probabilité que sachant ou conditionnellement à par 8 (D.20) Commentaires : La définition (i) n’est qu’une conséquence du lemme 18 et étend donc la définition 83 (b-iii) au cas . L’égalité (D.20) permet de définir même lorsque . Elle est évidemment compatible avec (D.6). On peut donc re-écrire (D.18) et (D.19) sous les formes usuellement rencon trées dans la littérature. On a , pour tout , . 1l> qui est la ré-écriture de (D.18) et > . . (D.21) qui correspond à (D.19) et qui est la conséquence la première égalité avec Nous laissons le soin au lecteur de vérifier que > . (D.22) 221 . (D.23) Nous énonçons maintenant un résultat fort important dans la pratique. un espace probabilisé, Proposition 32 Soit deux variables aléatoires réelles indépendantes et une application mesurable. . . . (ii) P : (ii) est une conséquence immédiate de (i) et du fait que . . Nous nous contentons de montrer (i). , nous avons, grâce au théorème de transfert, Soit Aussi, en prenant en compte successivement le théorème de Fubini, le fait que puisque et sont indépendantes, le théorème de transfert et la définition même de , nous avons : > > < > 6 4 > < 1l> 6 (i) REUVE D’où le résultat en vertu de (D.21) et du lemme 13. Le résultat que nous venons de démontrer est énoncé dans le corps principal de ce document, précisemment à la section 12.10. Nous engageons le lecteur à revenir sur les commentaires donnée dans ladite section sur ce résultat. Nous allons maintenant comment les égalités (D.21), (D.22) et (D.23) se déclinent dans deux cas très importants dans la pratique : celui où est une variable aléatoire discrète et celui où le couple admet une densité. Nous nous placerons dans le cas réel. D.4.1 Conditionnement par rapport à une variable aléatoire discrète Nous reprenons les notations de la section précédente et supposons que discrète et de la forme : 1l - 222 1 est forment une . Nous K & 1 les étant tous distincts de sorte que les ensembles partition de . Nous supposons que pour tout , savons déjà (cf. (10.21), section 10.6) que : On a alors 1l > . D’autre part, 1l > " 1l> - 1l . $ 1 , de sorte que - > $ 1l 1 1l 1l> 1l > - Nous engageons le lecteur à justifier rigoureusement cette dernière égalité. Nous avons donc 8 avec, puisque pour tout - . (D.24) , , $ . 1l 1 K 1l 1 (D.25) Nous maintenant donner une expression de l’espérance condition pouvons nelle : 1l On notera que " 1 une variable aléatoire , à est donc par. rapport . L’espérance conditionnelle de discrète qui prend les valeurs $ - . . On pose maintenant la définition suivante. 223 $ $ 8 $ 8 Définition 88 Avec les notations précédentes, la loi conditionnelle de que l’on notera est la loi . On posera et, par définition, on a pour tout 8 8 . . $ 8 1 1 . . 1 sachant , Pour les calculs, il faut alors retenir les résultats suivants qui étendent ceux du lemme 16. - . (i) (ii) 8 . 8 où Lemme 19 Avec les notations utilisées jusqu’ici, pour , $ 1 . . Nous laissons la preuve lecteur. Pour le premier résultat, il faut utiliser au la relation . On peut aussi utiliser le fait que . Pour (ii), c’est un simple calcul basé sur les 1l définitions. Ce résultat généralise donc l’égalité (D.8). D’ailleurs, à titre d’exercice, nous engageons le lecteur à retrouver les résultats du lemme 16 à partir de ceux qui précèdent. D.4.2 Application aux variables aléatoires absolument continues Nous gardons les notations des sections précédentes, mais nous supposons que les variables aléatoires et sont réelles et que le couple admet une densité par rapport à la mesure de Lebesgue sur . Nous savons alors que et sont absolument continues par rapport à la mesure de Lebesgue de densités respectives et telles que : 8 8 8 . Nous allons calculer 8 8 5 en résolvant (D.21) pour tout . 224 Soit donc 1l> Etant donné que 1l , nous avons, grâce aux théorèmes de transfert et de Fubini, > 1l > admet la densité . 1l > 8 . , nous avons aussi 1l Aussi, résoudre (D.21) équivaut à résoudre 8 1l > > . (D.26) ce qui, en vertu du lemme 13 nous conduit à la relation fondamentale . Si nous posons . F 6 < 8 8 5 (D.27) (D.28) . où F est arbitraire, on vérifie que vérifie alors bien (D.26). En effet, soit en prenant en compte que si alors 8 presque partout sur et, nous avons : 1l> 8 1l> 8 1l> 8 5 1l> 8 1l> . (par notre choix de . ) 1l> . 1l> . 1l> . 225 . , nous voyons que, pour tel que 6 < 8 joue le rôle de densité pour calculer . 8 . par . Définissons alors la fonction 8 De l’expression même de , la fonction . 8 . 6 < < 6 pour fixer les idées, mais où est arbitraire. Dans la suite, nous choisirons ce qui suit reste valide pour toute autre valeur. que , nous avons clairement 8 5 de sorte Pour tel (D.29) . que est une densité de probabilité. Il existe donc une variable aléatoire qui admet cette densité. D’où la définition suivante. 8 . un espace probabilisé, et Définition 89 Soit deux variables aléatoires réelles. (i) La fonction définie par (D.29) où est la densité de est appelée densité de probabilité conditionnelle de sachant . (ii) Pour tel que , la loi conditionnelle de sachant est la loi de densité . 8 . 8 Nous pouvons alors démontrer un théorème de transfert. Théorème 48 Soit un espace probabilisé et deux variables aléatoires telles que le couple admette une den sité de probabilité. Soit une application mesurable. Sous réserve que les intégrales existent, on a, pour tout tel que : P REUVE : Soit > . . Par définition de . 8 226 . . , on a : 1l > En utilisant le théorème de transfert et celui de Fubini, il vient : 1l > > > > On a donc, pour tout > . , 8 8 . 8 5 . 8 > . d’où le résultat. . Il est alors aisé de démontrer le résultat suivant qui met en avant la cohérence des résultats précédents, puisque la densité conditionnelle nous permet de retrouver la probabilité conditionnelle de sachant . 8 Proposition 33 Avec les notations du théorème 48, . > 8 . . . 1l> : Par définition, > pour tout tel que P REUVE d’appliquer le théorème 48 avec . . 8 8 8 . Il suffit alors 1l pour obtenir le résultat. . Exercice 37 Avec les notations utilisées jusqu’ici, 1. Montrer que pour presque tout , 2. Montrer que pour tout , utiliser la formule de changement de variable. 3. En déduire que pour presque tout , 227 8 8 . 8 8 8 . . On pourra 8 Nous terminons ce paragraphe en présentant un moyen souvent utilisé pour introduire la densité de probabilité conditionnelle. , Supposons que pour tout En vertu de la section D.2, la densité de 8 sachant 8 . est non nul. est Il suffit alors d’appliquer la règle de l’Hôpital pour retrouver l’expression de la densité conditionnelle comme limite, lorsque tend vers de . 8 8 D.4.3 Courbe de régression et . Soit un espace probabilisé et deux variables aléatoires réelles . La courbe de régression, si elle existe, est une fonction telle que minimise la distance quadratique . . On a alors le résultat suivant dont l’importance est majeure en estimation statistique. . . Théorème 49 Soit un espace probabilisé et deux variables aléatoires réelles et telles que . La courbe de régression existe, est unique et est égale à l’espérance de conditionnelle à : . 8 . . Pour toute application mesurable , est mesurable par rapport à la tribu engen drée par . Réciproquement, toute variable aléatoire qui est mesurable s’écrit sous la forme en vertu du théorème 46. Aussi, chercher une courbe de régression de sur , c’est chercher une applica tion qui est -mesurable et qui minimise lorsque parcourt l’espace des applications qui sont -mesurables. P REUVE : 8 8 8 . . Etant donné que , c’est-à-dire, lemme 18 et de la définition 87. 8 , le théorème 43 nous dit que la solution est . D’où le résultta par application du 228 Index -algèbre, 4 -additivité, 9 -algèbre, 5 écart-type, 93 épreuve, 1 événement élémentaire, 4 événement ĺémentaire, 6 événement certain, 4 événement impossible, 4 événements indépendants, 20 événements mutuellement disjoints, 9 convergence en moyenne quadratique, 165 convergence en probabilité, 164 convergence presque sûre, 166 coordonnée, 74 courbe de régression, 141 couverture, 186 covariance, 139 dérivée de Radon-Nikodym, 113 densité d’une mesure, 113 densité de probabilité, 103, 104, 113 densité de probabilité conditionnelle, 225 droite de régression, 141 anneau, 185 anneau engendré, 188 application intégrable au sens de Riemann, 83 application localement intégrable, 85 application mesurable, 25 application Riemann-intégrable, 197 ensemble fermé, 177 ensemble négligeable, 64 ensemble ouvert, 177 espérance conditionnelle, 138 espérance conditionnelle par rapport à un événememnt, 206 espérance conditionnelle par rapport à une variable aléatoire réelle, 216 espérance conditionnelle sachant la valeur prise par une variable aléatoire, 220 espérance mathématique, 91 espace mesurable, 5 espace probabilisé, 12 calcul combinatoire, 15 changement de variable, 134 Changement de variables, 135 coefficient de corrélation, 140 complétée d’une tribu, 66 convergence des v.a., 164 convergence en Loi, 167 convergence en moyenne d’ordre , 164 F 229 espace probabilisable, 5 loi de Cauchy, 126 loi de Poisson, 116 loi de Rayleigh, 124 loi de Rice, 124 Loi de Student, 127 loi du , 121 loi du chi- non centrée, 123 loi Exponentielle, 120 loi faible des grands nombres, 165 loi forte des grands nombres, 167 loi géométrique, 115 loi Gamma, 125 loi gaussienne, 118 loi image, 96 loi image d’un vecteur aléatoire, 130 loi Log Normale, 120 loi normale, 118 loi uniforme, 118 fonction étagée, 35 fonction borélienne, 26 fonction caractéristique, 94 fonction de répartition, 99 fonction génératrice, 95 fonction simple, 35 formule de Bayes, 20 homeomorphisme, 178 Inégalité de Bienaymé-Tchebychev, 94 Inégalité de Jensen, 92 inégalité de Markov, 93 intégrale de Riemann, 84 intégrale généralisée, 85 intégrale généralisée absolument convergente, 85 matrice de covariance, 140 mesure -finie, 76, 112, 189 mesure absolument continue, 112 Mesure bornée, 10 mesure complétée, 67, 68 mesure complète, 65 Mesure de comptage, 10 Mesure de Dirac, 10 mesure de Lebesgue, 193 mesure de Lebesgue-Stieltjes, 190 mesure de probabilité conditionnelle, 205 mesure extérieure, 185 mesure image, 96 mesure image par un vecteur aléatoire, 130 mesure positive, 9, 184 mesure produit, 77 moments d’ordre supérieur, 92 lemme de Borel-Cantelli, 166 limite inférieure, 32 limite supérieure, 31 loi Beta, 126 loi binomiale, 116 loi conditionnelle, 137 loi conditionnelle à un événement, 205 loi conditionnelle associée à la densité d’un coupe de variables aléatoires, 225 loi conditionnelle sachant la valeur prise par une variable aléatoire discrète, 223 loi conjointe, 132 loi d’un vecteur aléatoire, 130 loi d’une variable aléatoire, 96 loi de Bernouilli, 115 230 observable, 1 tribu produit, 73 tribu trace, 6 tribus indépendants, 22 partie négative, 52 partie positive, 52 partition, 20 possible, 1 presque partout, 65 presque sûrement, 65 probabilité, 12 probabilité conditionnelle, 19 probabilité conditionnelle d’un événement, 205 produit cartésien, 73 v.a. indépendantes, 136 variable aléatoire, 25 variable aléatoire absolument continue, 104, 113 variable aléatoire complexe, 33, 160 variable aléatoire complexe intégrable, 62 variable aléatoire discrète, 106 variable aléatoire généralisée, 25 variable aléatoire intégrable, 52 variance, 93 vecteur aléatoire, 129 vecteur complexe gaussien circulaire, 163 vecteur gaussien, 150 règle de Bayes, 19 rectangle ou pavé mesurable, 73 semi-norme, 69 système complet de constituants, 6 Théorème de Borel-Cantelli, 22 Théorème de la convergence dominée-II, 71 théorème de transfert, 97, 131 thèorème de la limite centrale, 167 topologie, 177 topologie trace, 178 topologie usuelle de , 179 topologie usuelle de , 178 tribu, 4, 5 tribu associée à une mesure extérieure, 185 tribu complétée, 66 tribu de Lebesgue, 11, 69, 193 tribu de Lebesgue-Stieltjes, 190 tribu des boréliens, 6 Tribu engendrée, 5 tribu engendrée par une application mesurable, 216 231