Cours de Probabilités - MDI 104 P. Bianchi, L. Decreusefond, G. Fort, J. Najim 6 novembre 2012 Table des matières 1 Evénements 8 1.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.2 Probabilités sur un espace discret . . . . . . . . . . . . . . . . . . . . . . . 9 1.3 Conditionnement et indépendance . . . . . . . . . . . . . . . . . . . . . . . 13 1.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2 Variables aléatoires discrètes 22 2.1 Loi d’une variable discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.2 Indépendance des v.a. discrètes . . . . . . . . . . . . . . . . . . . . . . . . 24 2.3 Espérance, moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.4 Fonction génératrice d’une v.a. à valeurs entières . . . . . . . . . . . . . . . 33 2.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 3 Eléments de théorie de la mesure 43 3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3.2 Tribus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 3.3 Mesures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.4 Applications mesurables . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 4 Intégration 60 4.1 L’intégrale de Lebesgue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 4.2 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 4.3 Exemple : cas des mesures discrètes . . . . . . . . . . . . . . . . . . . . . . 64 4.4 Espaces produit et théorème de Fubini . . . . . . . . . . . . . . . . . . . . 65 1 TABLE DES MATIÈRES 5 Variables et vecteurs aléatoires réels 2 69 5.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 5.2 Variables aléatoires réelles . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 5.3 Vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 5.4 Changement de variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 5.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 6 Fonction caractéristique 101 6.1 Définition et propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 6.2 Fonctions caractéristiques de v.a. usuelles . . . . . . . . . . . . . . . . . . . 104 6.3 Caractérisation de la loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 6.4 Caractérisation de l’indépendance . . . . . . . . . . . . . . . . . . . . . . . 107 6.5 Calcul de moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 6.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 7 Vecteurs gaussiens 112 7.1 Préliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 7.2 Vecteurs gaussiens : définitions, propriétés . . . . . . . . . . . . . . . . . . 114 7.3 Caractérisation de l’indépendance . . . . . . . . . . . . . . . . . . . . . . . 116 7.4 Stabilité par transformation affine . . . . . . . . . . . . . . . . . . . . . . . 117 7.5 Somme de vecteurs gaussiens indépendants . . . . . . . . . . . . . . . . . . 117 7.6 La loi d’un vecteur gaussien admet-elle une densité ? . . . . . . . . . . . . . 118 7.7 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 8 Convergences 122 8.1 Loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 8.2 Limité centrée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 8.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 A Ensembles 125 A.1 Opérations sur les ensembles . . . . . . . . . . . . . . . . . . . . . . . . . . 125 A.2 Espaces d’états dénombrables . . . . . . . . . . . . . . . . . . . . . . . . . 127 A.3 Dénombrement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 TABLE DES MATIÈRES B Notions d’analyse utiles 3 130 B.1 Limite supérieure et limite inférieure . . . . . . . . . . . . . . . . . . . . . 130 B.2 Séries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 B.3 Convexité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 C Approfondissements 136 C.1 Existence de suites de v.a. indépendantes . . . . . . . . . . . . . . . . . . . 136 Note L’astérisque ∗ signale une partie (paragraphe, remarque ou preuve) qui va au delà des connaissances exigibles et qui peut être omise en première lecture. 4 Introduction Les premières formalisations des probabilité datent du XVIIIe siècle avec les travaux de Jacob Bernoulli (1713) et de Abraham de Moivre (1718). La probabilité d’un événement y était définie comme le rapport du nombre de cas favorables sur le nombre total de cas. Au début du XIXe siècle, les « probabilités géométriques » firent leur apparition. Dans ce cadre, la probabilité d’un événement s’exprime comme un rapport de volumes ou d’aires. Ces approches permettaient de faire bon nombre de calculs mais butaient sur certains paradoxes. Figure 1 – J. Bertrand (1822-1900) (DR). Premier paradoxe de Bertrand : on dispose de trois boîtes à deux tiroirs chacune. Chacun des tiroirs de la boîte A contient une médaille en or, chacun des tiroirs de la boîte B contient une médaille en argent, l’un des tiroirs de la boîte C contient une médaille en or et l’autre une médaille en argent. Le joueur ouvre un tiroir au hasard et essaie de déterminer s’il a ouvert la boîte C. Avant d’ouvrir le tiroir, il a une chance sur 3 d’avoir choisi la boîte C. Sil trouve une médaille en or, alors c’est que la boîte qu’il avait ouverte ne pouvait être que la boîte A ou la boîte C donc il a en fait une chance sur 2 d’avoir ouvert la boîte C. Le même raisonnement s’applique aussi s’il trouve une médaille en argent. Conclusion, quel que soit ce qu’il trouve dans le tiroir, il en conclut qu’il a une chance sur 2 d’avoir ouvert la boîte C. Mais puisque ce raisonnement ne dépend pas de ce qu’il a trouvé dans le tiroir ouvert, autant ne pas l’ouvrir et décréter avant l’expérience qu’il a une chance sur 2 de choisir la boîte C... Deuxième paradoxe de Bertrand : quelle est la probabilité que deux points choisis au hasard sur la sphère de R3 fasse un angle de moins de 100 = 1◦ /6. Par symétrie, on peut toujours supposer que l’un des points est le pôle nord. Dans ce cas, la probabilité que l’événement voulu soit réalisé est le rapport de la surface de la calotte concernée sur 5 TABLE DES MATIÈRES 6 Figure 2 – É. Borel (1871-1956), M. Fréchet (1878-1973), J. Hadamard (1865-1963), P. Lévy (1886-1971). (DR) la surface de la sphère, on trouve 2,1.10−6 . Mais Bertrand remarqua que si l’on connaît les deux points, on connaît aussi le grand cercle qui passe par eux deux. Pour trouver la probabilité recherchée, il suffit donc de calculer le rapport d’un arc de grand cercle d’amplitude angulaire de 1◦ /3 au périmètre d’un grand cercle soit 1/(3.360) = 9,26. 10−4 . La solution est ici plus sophistiquée (et due à Borel), il faut remarquer qu’un grand cercle est de surface nulle. En conséquence, on est obligé de considérer une tranche de largeur infinitésimale quand on choisit M 0 et la figure ?? montre qu’on a alors plus de chance de choisir un point proche de l’équateur qu’un point proche du pôle. La probabilité « induite » sur le grand cercle n’est donc pas la probabilité uniforme et le deuxième raisonnement est donc faux. Ces deux paradoxes montrent la nécessité d’une formalisation précise des probabilités. Les probabilités sont au départ, une tentative de représentation mathématique de l’incertain. Elles doivent être tout à la fois suffisamment formalisées pour permettre des calculs justes et rigoureux et garder une connexion forte et immédiate avec les phénomènes « physiques » analysés. Cette tension a longtemps posé des problèmes. Notamment, à la fin du XIXe , se posait le problème des événements « presque certains » ou « presque impossibles » : y-a-t’il un seuil en dessous un événement de probabilité inférieure à ce seuil ne peut se réaliser ? Au début du XXe , David Hilbert assigna aux mathématiciens, 23 problèmes, ou plutôt 23 défis, pour les années à venir. Parmi ceux-ci figurait l’axiomatisation de la « physique » par laquelle il fallait entendre l’axiomatisation des probabilités. Le formalisme correct ne se fit jour qu’en 1930 dans les travaux d’Andreï Kolmogorov, qui réussit la synthèse des réflexions de Émile Borel, Jacques Hadamard, Maurice Fréchet et Paul Lévy entre autres. Le concept de mesure permet d’avoir une vision unifiée des probabilités discrètes et des probabilités dites « continues ». Le vocabulaire de l’intégration permet de simplifier la présentation des différentes notions probabilistes. Par ailleurs, ainsi que l’illustre le deuxième paradoxe de Bertrand, la modélisation de certains phénomènes même simples impose de TABLE DES MATIÈRES 7 comprendre finement les liens entre théorie et interprétation physique. Enfin, la simulation, outil indispensable tellement est grande la complexité des systèmes, requiert de « construire » des variables et des processus aléatoires. Tout cela ne peut se faire sans une solide compréhension de la théorie sous-jacente. Figure 3 – Andrey Kolmogorov (1903-1987). (DR) Chapitre 1 Evénements 1.1 Définitions Une expérience aléatoire est une expérience pouvant conduire à plusieurs résultats possibles. Formellement, une expérience aléatoire se décrit par la donnée de l’ensemble Ω des résultats possibles. L’ensemble Ω est appelé l’univers ou l’espace des états. Traditionnellement, un résultat possible de l’expérience est noté ω. C’est un élément de l’univers Ω. Un tel élément ω ∈ Ω est parfois appelé une épreuve ou une issue. Exemples : a) Jet d’un dé : Ω = {1, 2, 3, 4, 5, 6}. b) Deux lancers consécutifs d’une pièce. L’univers est Ω = {P P, P F, F P, F F } où P et F signifient respectivement pile et face. c) Durée de fonctionnement sans panne d’une machine : Ω = [0, +∞[. d) Valeur d’un signal continu sur un intervalle de temps [t0 , t1 ] : Ω = Cb ([t0 , t1 ]) est l’ensemble des fonctions continues de [t0 , t1 ] dans R. Un événement aléatoire est un événement dont la réalisation dépend du résultat de l’expérience. Formellement, un événement aléatoire se décrit comme un sous-ensemble de Ω. Exemples : Considérons à nouveau les exemples précédents. a) Ω = {1, 2, · · · , 6}. L’événement A =« Le résultat est pair » s’identifie au sous-ensemble A = {2, 4, 6}. b) Ω = {P P, P F, F P, F F }. L’événement A =« on obtient deux faces identiques » s’identifie au sous-ensemble A = {P P, F F }. c) Ω = [0, ∞[. L’événement A =« La machine fonctionne au moins x unités de temps » s’identifie à A = [x, +∞[. d) Ω = Cb ([t0 , t1 ]). L’événement A =« L’amplitude du signal n’excède pas α » s’écrit A = {ω ∈ Ω : supt∈[t0 ,t1 ] |ω(t)| ≤ α}. Pour une issue donnée ω ∈ Ω, on dit qu’un événement A est réalisé si ω ∈ A. L’espace d’état Ω est aussi appelé l’événement certain : il est réalisé quelle que soit l’issue. L’ensemble vide ∅ est aussi appelé l’événement impossible : il n’est jamais réalisé. 8 CHAPITRE 1. EVÉNEMENTS 9 La notation suivante sera d’un usage constant. Définition 1.1.– Soit Ω un espace d’état et A ⊂ Ω un ensemble. La fonction indicatrice de A est définie par : 1A : Ω → {0, 1} ω 7→ 1 si ω ∈ A, 0 sinon. L’exercice 1 fournit quelques propriétés importantes de l’indicatrice. 1.2 Probabilités sur un espace discret Comme nous l’avons vu au début de ce chapitre, beaucoup d’expériences aléatoires peuvent être décrites par un univers Ω fini ou dénombrable. Citons comme exemples immédiats le tirage à pile ou face (Ω = {P, F }), le lancer de dé (Ω = {1, · · · , 6}), le nombre de requêtes reçues par un serveur en une unité de temps (Ω = N), etc. 1.2.1 Définition Définition 1.2.– Une mesure µ, sur un ensemble E au plus dénombrable, est une application de P(E), l’ensemble des parties de E, dans R qui satisfait les deux propriétés suivantes : – µ(∅) = 0, – pour toute famille (Aj , j ∈ N∗ ) de parties deux à deux disjointes de E, µ( ∞ [ Aj ) = j=1 +∞ X µ(Aj ). (1.1) j=1 Les parties de E s’appellent plus souvent des « événements ». Définition 1.3.– Une mesure µ est dite mesure de probabilité (ou probabilité) lorsque µ(E) = 1. Dans ce cas, on la note usuellement P et non µ. 1.2.2 Propriétés générales Proposition 1.1.– Soient A, B, (An )n∈N? des ensembles. a) P(Ac ) = 1 − P(A) . b) P(A ∪ B) = P(A) + P(B) − P(A ∩ B) . c) Si A ⊂ B, alors P(A) ≤ P(B) . CHAPITRE 1. EVÉNEMENTS 10 d ) Si (An )n∈N? est une partition de Ω, alors P(B) = ∞ X P(An ∩ B) . n=1 e) Si An ↑ A, alors P(A) = limn→∞ P(An ) . Si An ↓ A, alors P(A) = limn→∞ P(An ) . T f ) Si P(An ) = 1 pour tout n ∈ N? , alors P ( ∞ n=1 An ) = 1 . g) Pour une famille quelconque (An )n∈N? dans F, on a la borne de l’union : ! ∞ ∞ [ X P An ≤ P(An ) . n=1 n=1 Preuve : a) On applique l’axiome de σ-additivité (1.1) en posant A1 = A, A2 = Ac et An = ∅ pour tout n ≥ 3. Il en résulte que 1 = P(Ω) = P(A ∪ Ac ∪ ∅ ∪ ∅ ∪ · · · ) = P(A) + P(Ac ) + 0 + 0 + · · · et finalement 1 = P(A) + P(Ac ). b) On écrit que A ∪ B s’écrit comme l’union disjointe (A\B) ∪ (B\A) ∪ (A ∩ B). La règle de σ-additivité conduit à : P(A ∪ B) = P(A\B) + P(B\A) + P(A ∩ B) . (1.2) Par ailleurs, A s’écrit comme l’union disjointe (A\B)∪(A∩B) et donc P(A) = P(A\B)+ P(A ∩ B). De même, P(B) = P(B\A) + P(A ∩ B). On a donc : P(A\B) + P(B\A) = P(A) + P(B) − 2P(A ∩ B). En faisant la substitution dans (1.2), nous obtenons le résultat. c) Si A ⊂ B, on a en particulier : B = A ∪ (B\A) et comme l’union est disjointe, P(B) = P(A) + P(B\A) ≥ P(A). d) Comme les (An ) sont deux à deux est de même pour les événements P disjoints, il en S (An ∩ B). Par σ-additivité, on a n P(An ∩ B) = P ( n (An ∩ B)) = P ((∪n An ) ∩ B) = P(B) , où la dernière égalité provient du fait que ∪n An = Ω . e) Soit An ↑ A. On introduit la suite (Bn ) définie par récurrence de la façon suivante : B1 = A1 et Bn+1 = An+1 \Bn . On vérifie sans peine que les (Bn ) sont deux à deux disjoints, ce qui implique : ! ∞ ∞ [ X P Bk = P(Bk ) . (1.3) k=1 k=1 Sn On vérifie également que pour tout n, A = n k=1 Bk , et donc, par passage à la limite, S∞ A = k=1 Bk . Ainsi, le membre de gauche de (1.3) n’est autre Pn que P(A). Le membre de droite se réécrit comme la limite quand n → ∞ de la suite k=1 P(Bk ). Mais comme les P S (Bk ) sont deux à deux disjoints, nk=1 P(Bk ) = P ( nk=1 Bn ) = P(An ) . On a donc bien montré que P(A) = limn P(An ) . Soit maintenant An ↓ A. Dans ce cas, Acn ↑ Ac . En appliquant le résultat précédent, P(Ac ) = limn P(Acn ). Par la propriété a), cette égalité se réécrit 1 − P(A) = limn (1 − P(An )), d’où on déduit P(A) = limn P(An ) . CHAPITRE 1. EVÉNEMENTS 11 T T∞ f) La suite ( nk=1 Ak ) est décroissante et converge vers k=1 Ak . Puisque P(An ) = 1 pour T∞ tout n, il s’en suit que 1 = limn P(An ) = P ( k=1 Ak ) . g) On montre d’abord la borne pour un nombre fini d’éléments : ! n n [ X ∀n , P Ak ≤ P(Ak ) . k=1 (1.4) k=1 S n+1 L’inégalité est vraie au rang n = 1. Supposons qu’elle soit vraie au rang n, P A = k k=1 Sn Sn P (An+1 ∪ ( k=1 Ak )) ≤ P (An+1 ) + P ( k=1 Ak ) d’après la propriété b). En injectant l’hypothèse de récurrence dans le membre de droite, la proposition est démontrée au rang n + 1. P∞ Sn A ) ≤ L’inégalité (1.4) implique que P ( k k=1 P(Ak ) pour tout n. Or la suite k=1 Sn S∞ ( k=1 Ak ) est croissante, de limite k=1 Ak . Par passage à la limite dans la dernière inégalité, on obtient le résultat voulu en invoquant la propriété e). 1.2.3 Représentation des probabilités sur un espace discret La propriété suivante établit qu’une probabilité P sur un espace discret est entièrement caractérisée par la valeur qu’elle prend sur les singletons. Proposition 1.2.– Soit Ω un espace discret et P une mesure de probabilité définie sur la tribu des parties P(Ω). Alors pour tout événement A, X P({ω}) . P(A) = ω∈A Preuve : Comme Ω est au plus dénombrable, on peut indexer ses éléments sous la forme Ω = {ω1 , ω2 , · · · }. Tout sous-ensemble A de Ω est donc de la forme A = {ωi1 , ωi2 , · · · } où i1 , i2 , · · · sont des entiers. Par conséquent, A est l’union dénombrable des singletons {ωi1 }, {ωi2 }, etc. Par σ-additivité de P, on a donc P(A) = P({ωi1 }) + P({ωi2 }) + · · · , ce qui prouve le résultat. Ainsi, il suffit de connaître la probabilité des événements élémentaires pour connaître la probabilité de n’importe quel événement. Cette affirmation est caractéristique des probabilités sur un espace discret, elle est clairement fausse dans le cas général des probabilités sur un espace non dénombrable. La propriété suivante va un peu plus loin : elle établit que, pour qu’une famille de nombres positifs définissent une probabilité, il faut et il suffit que leur somme soit égale à un. Proposition 1.3.– P Soit Ω un ensemble discret. Soit (pω )ω∈Ω une suite de nombres positifs satisfaisant ω∈Ω pω = 1 . Alors il existe une (unique) mesure de probabilité P sur P(Ω) telle que pour tout ω ∈ Ω, P({ω}) = pω . CHAPITRE 1. EVÉNEMENTS 12 Preuve : L’unicité est une conséquence de la propriété précédente. Afin de montrer P l’existence, il suffit de poser P(A) = ω∈A pω . On montre sans peine que cette application satisfait les axiomes d’une mesure de probabilité. Ainsi, concrètement, une probabilité sur un espace discret se ramène à une famille de nombres positifs sommant à un : se donner l’un revient à se donner l’autre. 1.2.4 Exemples de probabilités sur un espace discret Cas où Ω est fini • Soit Ω un ensemble fini quelconque. La probabilité uniforme sur Ω est définie par : P(A) = |A| |Ω| où |A| représente ici le cardinal de l’ensemble A. Autrement dit, P(A) est le ratio entre le nombre d’issues pour lesquelles A est réalisé, et le nombre total d’issues. D’après la propriété précédente, on aurait pu définir la probabilité uniforme de façon équivalente comme l’unique probabilité pour laquelle toutes les issues sont équiprobables, c’està-dire pour tout ω, 1 P({ω}) = . |Ω| • Soit p ∈ [0, 1]. La probabilité de Bernoulli de paramètre p, notée B(p), est la probabilité définie sur Ω = {0, 1} par : P({1}) = p , P({0}) = 1 − p . La probabilité de Bernoulli permet de décrire la probabilité de succès ou d’échec d’une expérience. Par exemple, elle permet de décrire la probabilité qu’une pièce tombe sur pile : si la pièce est parfaitement équilibrée, on choisira p = 1/2 et la probabilité de Bernoulli se ramène à la loi uniforme sur {0, 1} ; dans le cas d’une pièce non équilibrée ou d’un jeu truqué, le paramètre p est possiblement différent de 1/2. • Soit n ∈ N? et p ∈ [0, 1]. La probabilité binomiale de paramètres n, p, notée B(n, p), est la probabilité définie sur Ω = {0, 1, · · · , n} par : n k P({k}) = p (1 − p)n−k k pour tout k = 0, · · · , n où l’on rappelle que nk = n!/(k!(n − k)!) . La probabilité binomiale est utilisée pour décrire le nombre de succès obtenus lorsqu’on réitère n fois une expérience ayant même probabilité de succès p (voir l’exercice 14). CHAPITRE 1. EVÉNEMENTS 13 Cas où Ω est dénombrable • Soit p ∈]0, 1]. La probabilité géométrique de paramètre p sur N? , notée G(p), est la probabilité définie sur Ω = N? par : P({k}) = p(1 − p)k−1 (1.5) pour tout k ∈ N? . Imaginons que l’on réitère autant de fois que nécessaire une certaine expérience ayant un probabilité de succès p. Alors la probabilité géométrique est utilisée pour décrire le nombre d’expériences qui ont été nécessaires pour obtenir un succès (voir l’exercice 14). Remarque : On peut aussi définir la probabilité géométrique sur N (et non N? ) par P({k}) = p(1 − p)k pour tout k = 0, 1, 2, · · · . Dans ce dernier cas, on cherche à décrire non pas l’instant du premier succès, mais le nombre d’échecs qui ont précédé le premier succès. • Soit α > 0. La probabilité de Poisson de paramètre α, notée P(α), est la probabilité définie sur Ω = N par : αk −α e . P({k}) = k! La probabilité de Poisson est souvent utilisée pour modéliser des quantités telles que le nombre de requêtes reçues par un serveur par unité de temps, ou le nombre de clients qui se présentent à un guichet pendant une unité de temps. 1.3 1.3.1 Conditionnement et indépendance Probabilité conditionnelle : définition De façon informelle, la probabilité d’un événement vise à quantifier l’occurence de cet événement. La probabilité conditionnelle d’un événement A sachant un événement B vise à quantifier l’occurence de A lorsque l’on sait que B s’est produit. D’un point de vue plus formel, on a la définition suivante. Soit (Ω, F, P) un espace de probabilité. Définition 1.4.– Pour tous événements A, B ∈ F tels que P(B) 6= 0, on définit la probabilité conditionnelle de A sachant B, et on note P(A|B), la quantité : P(A|B) := P(A ∩ B) . P(B) Si on associe probabilité et « poids », la probabilité d’un ensemble étant son poids relatif par rapport à celui de l’ensemble total, la probabilité conditionnelle de A sachant B est le poids de la trace de A sur B relativement au poids total de B. CHAPITRE 1. EVÉNEMENTS 14 A∩B A B Figure 1.1 – Interprétation graphique du conditionnement. Considérons le cas où P est la probabilité uniforme sur un ensemble Ω fini, c’est-à-dire P(A) = |A|/|Ω|. On a alors P(A|B) = |A ∩ B|/|B|. Cette expression justifie la remarque suivante : P(A|B) peut être interprétée comme la probabilité de l’événement A ∩ B dans ce nouvel univers qu’est B. Application : Considérons le lancer d’un dé : P est la probabilité uniforme sur Ω = {1, 2, . . . , 6}. Calculer la probabilité d’obtenir « 6 » sachant que le résultat est pair. Proposition 1.4.– Soit B ∈ F tel que P(B) 6= 0. L’application définie sur F par A 7→ P(A|B) est une mesure de probabilité. On la nomme la probabilité conditionnelle à B. Preuve : i) P(Ω|B) = P(Ω ∩ B)/P(B) = 1 et P(∅|B) = P(∅ ∩ B)/P(B) = 0. S S ii) Soit (An ) une famille d’événement deux à deux disjoints. P( n An |B) = P( n An ∩ P P S B)/P(B) = P( n (An ∩ B))/P(B) = n P(An ∩ B)/P(B) = n P(An |B). 1.3.2 Propriétés La première propriété est connue sous le nom de formule des probabilités totales. Proposition 1.5.– a) Soient A, B ∈ F tels que 0 < P(B) < 1. Alors, P(A) = P(A|B)P(B) + P(A|B c )P(B c ) . b) Soit (Bn )n∈N? une partition de Ω telle que pour tout n, P(Bn ) 6= 0. Alors, P(A) = ∞ X P(A|Bn )P(Bn ) . n=1 Preuve : A s’écrit comme l’union disjointe A = (A ∩ B) ∪ (A ∩ B c ) donc P(A) = P(A ∩ B) + P(A ∩ B c ). Le résultat provient du fait que P(A ∩ B) = P(A|B)P(B) et P(A ∩ B c ) = P(A|B c )P(B c ). La preuve de b) est fondée sur le même principe. CHAPITRE 1. EVÉNEMENTS 15 Exemple : On dispose de trois pièces de monnaie : l’une est bien équilibrée, l’une comporte deux côtés pile, l’autre deux côtés face. On choisit une pièce au hasard. Evaluons la probabilité de tomber sur pile. Désignons par E, 2P et 2F les événements « la pièce bien équilibrée est choisie », « la pièce comportant deux côtés pile est choisie », etc. D’après la propriété ci-dessus, P(pile) = P(pile|E)P(E) + P(pile|2P )P(2P ) + P(pile|2F )P(2F ) 1 1 1 1 1 × +1× +0× = . = 2 3 3 3 2 La seconde propriété est connue sous le nom de formule de Bayes. La preuve est immédiate. Proposition 1.6.– Soient A, B ∈ F deux événements tels que P(A) 6= 0 et P(B) 6= 0. Alors, P(B|A)P(A) P(A|B) = . P(B) La formule de Bayes permet typiquement d’évaluer des probabilités du type : P(une action « a’ a été effectuée | le résultat « r » a été observé) lorsqu’on connait le modèle P(le résultat « r » est observé | l’action « a » est effectuée). Exemple : Reprenons l’exemple précédent des trois pièces. Sachant qu’on obtient le résultat pile, quelle est la probabilité que la pièce à deux côtés pile ait été choisie ? La réponse est donnée par la formule de Bayes : P(2P | pile) = 1.3.3 1× P(pile|2P ) P(2P ) = 1 P(pile) 2 1 3 = 2 . 3 Événements indépendants Dans l’exemple précédent, l’événement B =« pile est le résultat » apporte une information sur la probabilité que l’événement A =« la pièce à deux côtés pile a été choisie ». Avant l’expérience qui a vu B se réaliser, la probabilité de A valait 21 . Après l’expérience, elle vaut 2 . Le fait que B soit réalisé ne dit pas si A est ou non réalisé, mais par contre, il change 3 notre croyance en A. A l’inverse, il existe des événements A, B tels que la réalisation de B n’apporte aucune information sur A. De tels événements sont dits indépendants. Voici une définition plus formelle. Définition 1.5.– Deux événements A, B ∈ F sont dits indépendants, noté A ⊥⊥ B, si P(A ∩ B) = P(A) P(B) . CHAPITRE 1. EVÉNEMENTS 16 Si P(B) 6= 0, la définition revient bien à P(A|B) = P(A) : la réalisation de B ne modifie pas la croyance en A. Remarque : a) Les propriétés suivantes sont équivalentes : A ⊥⊥ B, B ⊥⊥ A, A ⊥⊥ B c , Ac ⊥ ⊥ B, Ac ⊥ ⊥ Bc. b) Si P(B) = 0 ou P(B) = 1, alors A et B sont indépendants quel que soit A. Définition 1.6.– Soit I un ensemble quelconque. Une famille (Ai )i∈I d’événements est dite indépendante si pour tout sous-ensemble fini J ⊂ I, on a : ! \ Y P Aj = P(Aj ) . j∈J j∈J Illustrons la formule ci-dessus lorsque la famille contient trois événements A, B, C. Les événements A, B, C sont indépendants si P(A ∩ B) = P(A)P(B), P(A ∩ C) = P(A)P(C), P(B ∩ C) = P(B)P(C), et P(A ∩ B ∩ C) = P(A)P(B)P(C) . Il est important de souligner que la première ligne d’équations ci-dessus n’implique pas la deuxième : ce n’est pas parce que des événements sont deux à deux indépendants qu’ils forment une famille indépendante. L’exercice 10 fournit un contre-exemple. Définition 1.7.– Soit C ∈ F tel que P(C) 6= 0. On dit que A et B sont indépendants conditionnellement à C, noté A ⊥⊥ B|C si P(A ∩ B|C) = P(A|C)P(B|C). La notion de famille indépendante conditionnellement à C se définit selon le même principe. Remarque : Attention : des propositions A ⊥⊥ B et A ⊥⊥ B|C, aucune n’implique l’autre. Là encore, l’exercice 10 fournit un contre-exemple. CHAPITRE 1. EVÉNEMENTS Ω Probabilité Ω fini Probabilité uniforme {0, 1} Bernoulli de paramètre p ∈ [0, 1] 17 Expression de P P(x) = Notation 1 |Ω| P({1}) = p P({0}) = 1 − p n k {1, · · · , n} Binomiale de paramètres n, p ∈ [0, 1] P({k}) = p (1 − p)n−k k B(p) B(n, p) N? Géométrique de paramètre p ∈]0, 1] P({k}) = p(1 − p)k−1 G(p) N Géométrique de paramètre p ∈]0, 1] P({k}) = p(1 − p)k G(p) N Poisson de paramètre α > 0 P({k}) = αk −α e k! Table 1.1 – Quelques exemples de probabilités sur un espace discret. P(α) CHAPITRE 1. EVÉNEMENTS 1.4 18 Exercices . Exercice 1. a) Montrer que 1Ac = 1 − 1A , 1A∩B = 1A 1B , 1A∪B = 1A + 1B − 1A 1B . b) Montrer que pour toute famille dénombrable (Ai )i∈I d’ensembles deux à deux disjoints, X 1∪i∈I Ai = 1Ai . i∈I . Exercice 2. Soit E un ensemble muni d’une tribu E. Soit X : Ω → E une fonction. Montrer que la famille {X −1 (H) : H ∈ E} forme une tribu. On l’appelle la tribu engendrée par X et on la note σ(X). De manière informelle, on peut interpréter σ(X) comme l’ensemble des événements dont un observateur qui disposerait seulement de la valeur de X pourrait décider s’ils sont ou non réalisés. . Exercice 3. Construire l’espace probabilisé correspondant au problème du premier paradoxe de Bertrand. Résoudre le paradoxe. . Exercice 4. Dans un lot de 20 articles, 12 sont parfaits, 6 comportent un défaut mineur et 2 un défaut majeur. 1. Deux articles sont choisis au hasard, calculer les probabilités suivantes : (a) Les deux sont parfaits, (b) Les deux ont un défaut majeur, (c) Au moins l’un d’entre eux est parfait, (d) Au plus l’un d’entre eux est parfait„ (e) Exactement un est parfait, (f) Aucun n’a de défaut majeur, (g) Aucun n’est parfait. 2. Un lot de 20 articles est accepté lorsque 3 éléments choisis au hasard n’ont pas de défaut majeur. Quelle est la probabilité que le lot décrit ci-dessus soit accepté ? . Exercice 5. On lance simultanément trois dés à 6 faces non pipés. 1. Quel est l’espace des événements ? 2. Quelle est la probabilité d’avoir au moins 1 as ? 3. Montrer que les événements « la somme des faces est paire » et « la somme des faces est impaire » ont même probabilité. 4. Quelle est la probabilité que la somme des faces soit paire ? 5. Même question si on a N dés avec N quelconque. On pourra traiter d’abord le cas N impair puis le cas N pair. CHAPITRE 1. EVÉNEMENTS 19 . Exercice 6. Une boîte contient 4 piles usagées et 6 piles neuves. On tire deux piles au hasard. L’une d’entre elles seulement est testée. Quelle est la probabilité que l’autre soit bonne si la pile testée est bonne ? Même question si la pile testée est usagée. On teste l’ensemble de la boîte par la méthode suivante : les piles sont tirées les unes après les autres au hasard sans remise. À chaque tirage, on teste la pile courante, le protocole s’arrête lorsque l’on a sorti les 4 piles usagées. Quelle est la probabilité que le test s’arrête au cinquième tirage (au dixième tirage) ? . Exercice 7 ((Loto)). Un joueur coche 6 numéros sur une grille de 49 numéros. On tire 6 boules parmi 49 boules numérotées. Quelle est la probabilité pour que le joueur ait exactement n bons numéros (n = 1, · · · , 6) ? . Exercice 8 (Arnaque ou pas ?). Dans le jeu « Vegas », il est vendu 500 000 tickets à 3 e chaque. Ces tickets sont distribués aux buralistes sous forme de bandes de 50 tickets attachés les uns aux autres. La répartition des gains est la suivante : Nb de lots Gains 1 40 000 e 1 20 000 e 2 10 000 e 5 1 000 e 18 500 e 800 200 e 850 100 e 2 020 50 e 4 000 20 e 9 000 10 e 28 000 6e 25 000 4e 47 500 3e 1. Quel est le montant moyen des gains ? 2. Quelle est la probabilité d’avoir un lot supérieur à 20 e ? 3. Sur 50 tickets, quelle est la probabilité (exacte et approchée) d’avoir 0 ou 1 lot supérieur à 20 e ? 4. M. R. a acheté 100 bandes de 50 tickets et il a constaté qu’aucune d’entre elles ne comportait plus d’un lot supérieur à 20 e. Quelle est la probabilité (approchée, en supposant que 5 000 est négligeable devant 500 000) d’un tel événement ? 5. Même question avec 25 bandes. « Le montant ou la nature des gains ou lots est déterminé par le règlement du jeu ou par l’intervention du hasard. L’attribution des lots aux gagnants est déterminée par le hasard. L’intervention du hasard, totale ou prépondérante, peut CHAPITRE 1. EVÉNEMENTS 20 être antérieure, concomitante ou postérieure à la mise à disposition du support. Les jeux doivent respecter le principe d’égalité des chances entre les joueurs, ce qui n’interdit pas de tenir compte des différences objectives de situations entre ceux-ci. » Journal Officiel de la République Française, décret 2002-651 du 29 avril 2002 . Exercice 9. Lors d’un bal, n couples dansent. Les cavaliers ont choisi leur cavalière aléatoirement. Quelle est la probabilité qu’aucun des couples d’origine ne soit réuni ? . Exercice 10. On lance deux dés. Soient les événements : A = “le premier dé affiche un résultat pair”, B = “le deuxième dé affiche un résultat pair”, C = “la somme des deux dés est paire”. Montrer que A, B, C sont deux à deux indépendants, mais ne forment pas une famille indépendante (on montrera que P(A ∩ B ∩ C) 6= P(A)P(B)P(C)). . Exercice 11. On suppose que l’on dispose d’un test déterminant d’une maladie donnée. Malheureusement, comme tout test, celui-ci est faillible : 1% des individus que l’on sait sains sont déclarés malades et 2% des individus que l’on sait malades sont déclarés sains. On suppose que la maladie atteint 1% de la population testée. Quelle est la probabilité qu’un individu réagissant positivement au test soit effectivement malade ? . Exercice 12. Soient P et Q deux mesures de probabilité sur N. On note pi = P({i}) et qi = Q({i}). On définit la distance en variation totale entre P et Q par dT V (P, Q) = sup |P(A) − Q(A)|. A∈N 1. Montrer que +∞ X +∞ 1X |pi − qi |. (pi − qi ) = 2 i=0 i=0 P P On pourra utiliser le fait i pi = i qi = 1. 2. Montrer que pour toute partie A de N, + |P(A) − Q(A)| ≤ +∞ X (pi − qi )+ . i=0 3. En choisissant convenablement l’ensemble A, montrer que +∞ 1X dT V (P, Q) = |pi − qi |. 2 i=0 4. On suppose maintenant que P est donnée par P({0}) = p = 1 − P({1}) et que Q est une mesure de Poisson de paramètre λ = − ln(p), c’est-à-dire que qi = e Calculer dT V (P, Q). i −λ λ i! . CHAPITRE 1. EVÉNEMENTS 21 . Exercice 13. Peut-on piper deux dés de sorte que la loi de leur somme soit la loi uniforme sur {2, · · · , 12} ? Chapitre 2 Variables aléatoires discrètes 2.1 2.1.1 Loi d’une variable discrète Définitions On se donne un univers Ω au plus dénombrable, équipé d’une probabilité P. De manière informelle, une variable aléatoire discrète est une grandeur à valeur dans un ensemble discret E qui dépend du résultat de l’expérience. C’est donc une fonction de l’issue ω (en ce sens, la terminologie de variable est assez malencontreuse). On la notera souvent : X : Ω → E ω 7→ X(ω) , où Ω est l’univers, supposé muni d’une probabilité P et où E est un ensemble au plus dénombrable. Exemple : Considérons un lancer de n dés. Une issue ω est un n-uplet sur Ω = {1, · · · , 6}n . On peut par exemple définir la variable aléatoire X(ω) qui est égale au nombre de « 6 » obtenus : c’est bien une fonction de ω. Nous nous intéressons à la probabilité la forme « la variable X vaut x » ou, plus généralement, « la variable X appartient à l’ensemble H » = {ω ∈ Ω : X(ω) ∈ H} = X −1 (H) . Nous utiliserons souvent les notations [X ∈ H] ou {X ∈ H} pour désigner l’événement {ω ∈ Ω : X(ω) ∈ H}. Définition 2.1.– On appelle loi de la v.a. X la fonction définie pour tout H ⊂ E par : PX (H) = P(X −1 (H)) . 22 CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES 23 Avec une écriture plus compacte : PX := P ◦ X −1 où ◦ représente la composition. Nous pouvons écrire de manière équivalente mais sans doute plus « parlante » : PX (H) := P[X ∈ H] . Autrement dit, PX (H) est la probabilité pour que X appartienne à H. Proposition 2.1.– PX est une probabilité sur E. Preuve : On vérifie les axiomes i) et ii) que doit satisfaire une mesure de probabilité. i) PX (E) = P(X −1 (E)) = P(Ω) = 1 et PX (∅) = P(X −1 (∅)) = P(∅) = 0. S ii) Soit (Hn )n∈N? une famille d’éléments de E deux à deux disjoints. On a X −1 ( n Hn ) = S −1 (H ) et on montre aisément que les événements (X −1 (H )) sont deux à deux n n nX disjoints. Ainsi en appliquant P aux deux membres de l’égalité précédente, on obtient S S P PX ( n Hn ) = P( n X −1 (Hn )) = n P(X −1 (Hn )). On sait grâce au paragraphe 1.2.3 que PX est entièrement caractérisée par la valeur qu’elle prend sur les singletons. Afin d’alléger les notations, nous écrirons PX (x) au lieu de PX ({x}), soit : PX (x) = P[X = x] . Proposition 2.2.– Pour toute partie H de l’ensemble d’arrivée E, on a : X P[X ∈ H] = PX (x) . x∈H Exemple : Soit X le nombre de « 6 » obtenus lorsqu’on lance n dés. La probabilité d’obtenir au plus deux « 6 » s’écrit : P[X ∈ {0, 1, 2}] = PX (0) + PX (1) + PX (2). 2.1.2 Loi jointe, lois marginales Soient X, Y deux v.a.d. de Ω dans E de lois respectives PX et PY . L’application : (X, Y ) : Ω → E × E ω 7→ (X(ω), Y (ω)) définit une v.a.d. sur E × E. Définition 2.2.– La loi du couple (X, Y ) est appelée la loi jointe de X et Y , notée PX,Y . Les lois PX et PY sont appelées les lois marginales de X et Y respectivement. D’après ce qui précède, la loi jointe est définie pour tout (x, y) ∈ E × E par PX,Y (x, y) = P [(X, Y ) = (x, y)] soit : PX,Y (x, y) = P [X = x, Y = y] . CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES 24 Proposition 2.3.– La loi marginale PX est liée à la loi jointe par : X ∀x ∈ E, PX (x) = PX,Y (x, y) . y∈E Preuve : La famille d’événements de la forme [Y = y] où y décrit E, forme une partition de P l’univers Ω. D’après la formule des probabilités totales, P[X = x] = y P[X = x, Y = y]. Généralisation au cas d’une famille finie de v.a.d. Soient X1 , · · · , Xn des v.a. de Ω → E. Le n-uplet (X1 , · · · , Xn ) définit une v.a.d. sur E n . Sa loi est appelée la loi jointe de X1 , · · · , Xn , notée PX1 ,··· ,Xn . Pour tout k, la loi PXk est appelée la loi marginale de Xk . Proposition 2.4.– Pour tout k = 1, · · · , n et tout xk ∈ E, X PX1 ,··· ,Xn (x1 , · · · , xn ) , PXk (xk ) = x1 ···xk−1 ,xk+1 ···xn où la somme s’étend sur l’ensemble des (n − 1)-uplets (x1 , · · · , xk−1 , xk+1 , · · · , xn ) sur E. Ainsi, à partir de la loi jointe, on peut déduire les lois marginales en éliminant les variables non-souhaitées par sommation sur toutes les valeurs possibles prises par celles-ci. Définition 2.3.– Une famille (Xi )i∈I de variables aléatoires sur le même espace E est dite identiquement distribuée si toutes les variables ont la même loi : ∀i ∈ I, PXi = PX1 . Remarque : Il est évident que deux v.a. X et Y différentes peuvent avoir la même loi (PX = PY ). Par exemple, si X ∈ {0, 1} suit une loi de Bernoulli de paramètre 1/2, alors la v.a. Y = 1 − X est différente de X et suit néanmoins la même loi : P[Y = 0] = P[1 − X = 0] = P[X = 1] = 2.2 1 = P[X = 0] . 2 Indépendance des v.a. discrètes Soient X et Y deux v.a.d. à valeurs dans E. Définition 2.4.– X et Y sont dites indépendantes si pour tout G, H ⊂ E, les événements [X ∈ G] et [Y ∈ H] sont indépendants, autrement dit si : P[X ∈ G, Y ∈ H] = P[X ∈ G]P[Y ∈ H] , où [X ∈ G, Y ∈ H] désigne l’ensemble [X ∈ G] ∩ [Y ∈ H]. CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES 25 Proposition 2.5.– Deux v.a.d X et Y sont indépendantes si et seulement si pour tout (x, y) ∈ E 2 , PX,Y (x, y) = PX (x) PY (y) Remarque : Par définition, X et Y sont indépendantes lorsque les événements [X ∈ H] et [Y ∈ G] sont indépendants quel que soit le choix de H et G. Le résultat ci-dessus montre qu’il suffit de vérifier cette propriété sur les singletons H = {x} et G = {y}. Preuve : Le sens ⇒ est immédiat. On montre la réciproque. On a pour tout H, G ⊂ E, P[X ∈ H, Y ∈ G] = PX,Y (H × G). Comme PX,Y est une mesure de probabilité sur P un espace discret, PX,Y (H × G) = (x,y)∈H×G PX,Y (x, y). En appliquant l’hypothèse, P P P PX,Y (H × G) = (x,y)∈H×G PX (x)PY (y) = x∈H PX (x) y∈G PY (y) = PX (H)PY (G), ce qui prouve le résultat. Soit E 0 un autre espace discret et soient f, g : E → E 0 . On désigne par f (X) la v.a.d. ω 7→ f (X(ω)), c’est à dire f (X) = f ◦ X. Proposition 2.6.– Si X et Y sont indépendantes, alors f (X) et g(Y ) sont des v.a. indépendantes. Preuve : Soient H, G deux parties de E 0 . Les ensembles [f (X) ∈ H] et [g(Y ) ∈ G] s’écrivent respectivement [X ∈ f −1 (H)] et [Y ∈ g −1 (G)] et sont donc indépendants. Généralisation au cas d’une famille finie de v.a.d. Soient X1 , · · · , Xn des v.a.d. sur E. Elles sont dites indépendantes si pour toute suite d’ensembles (H1 , · · · , Hn ), les événements ([Xk ∈ Hk ])k=1,··· ,n sont indépendants. Autrement dit, P [X1 ∈ H1 , · · · , Xn ∈ Hn ] = P [X1 ∈ H1 ] × · · · P [Xn ∈ Hn ] , T où l’on utilise la notation [X1 ∈ H1 , · · · , Xn ∈ Hn ] = k [Xk ∈ Hk ]. Proposition 2.7.– X1 , · · · , Xn sont indépendantes si et seulement si ∀(x1 , · · · , xn ) ∈ E n, n Y PX1 ···Xn (x1 , · · · , xn ) = PX (xk ) . k=1 La preuve suit le même principe que dans le cas n = 2 traité plus haut. Définition 2.5.– Une famille de variables aléatoires est dite indépendante si toute sousfamille finie est indépendante. n.b. : on utilise souvent l’abréviation i.i.d. pour désigner une famille indépendante et identiquement distribuée de variables aléatoires. CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES 26 Proposition 2.8.– Soit (Xi )i∈I une famille indépendante de v.a., chacune étant à valeur dans un espace Ei . On se donne pour tout i une application mesurable fi sur Ei . Alors la famille de v.a. (fi (Xi ))i∈I est indépendante. 2.3 2.3.1 Espérance, moments Introduction Un joueur de « pile ou face » gagne 10 euros lorsque la pièce tombe sur pile et perd 5 euros lorsqu’elle tombe sur face. Soit X le gain réalisé après l’expérience. X peut prendre deux valeurs : a = 10 ou b = −5. On définit l’espérance du gain par E(X) = a P[X = a] + b P[X = b] 1 1 = 10 . + (−5) . = 2, 5 euros. 2 2 L’espérance est donc une moyenne pondérée des gains. D’un point de vue physique, c’est le centre de gravité des points a et b auxquel on a affecté les masses P[X = a] et P[X = b] respectivement. Imaginons que le joueur précédent effectue n lancers de pièce : on note X1 , . . . , Xn les gains respectifs réalisés à chaque expérience. La moyenne empirique des gains est définie par n Sn = 1X Xk . n k=1 Nous verrons à la fin de ce chapitre un résultat important appelé la loi des grands nombres que nous énonçons pour l’instant de manière informelle : la moyenne empirique Sn converge vers l’espérance lorsque n → ∞. Naturellement, il conviendrait de préciser de quelle « convergence » il est question (n’oublions pas que l’on parle ici de variables aléatoires et non d’une simple suite de nombres). Mais cette remarque donne une première illustration de l’importance de l’espérance en probabilité. 2.3.2 Définition On suppose dorénavant que E est une partie au plus dénombrable de R. Définition 2.6.– On définit l’espérance E(X) d’une v.a.d. X par X E(X) = x P[X = x] (2.1) x∈E = X x PX (x) . x∈E Pour que cette somme ait un sens, il suffit que l’une de ces deux conditions soit vérifiée : CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES 27 1. ses termes sont tous positifs : PX (x) = 0 pour tout x < 0 (auquel cas E(X) peut éventuellement être égal à +∞) ; 2. ses termes sont absolument sommables, c’est à dire : X |x| P[X = x] < ∞ . (2.2) x∈E Lorsque la première condition est vraie i.e., PX (x) = 0 pour tout x < 0, nous dirons que la v.a.d. X est positive presque partout et nous noterons X ≥ 0 p.p. Soulignons que l’espérance E(X) est une constante, elle ne dépend pas de l’issue ω. Elle ne dépend de X qu’au travers de sa loi PX . En particulier, deux v.a. identiquement distribuées ont même espérance. Une variable d’espérance nulle est dite centrée. 2.3.3 Propriétés Soient E, F deux espaces discrets avec F ⊂ R. Soit f : E → F une fonction. La composée f (X) définit une nouvelle variable aléatoire ω 7→ f (X(ω)). Nous nous intéressons à son espérance. Proposition 2.9.– Si f est positive, E(f (X)) = X f (x) P[X = x] . (2.3) x∈E La formule reste vraie pour f quelconque pourvu que P x∈E |f (x)|P[X = x] < ∞ . Preuve : Donnons d’abord la preuve pour f positive : X X E(f (X)) = y P[f (X) = y] = y P[X ∈ f −1 ({y})] y∈F y∈F = X X y P[X = x] y∈F x∈f −1 ({y}) = = X X y∈F x∈f −1 ({y}) X f (x) P[X = x] , f (x) P[X = x] (2.4) x∈E où on a utilisé le fait que les ensembles de la forme f −1 ({y}) sont une partition de E. Dans le cas où f n’est pas positive, on doit d’abord vérifier que E(f (X)) est bien définie. En appliquant le résultat déjà démontré à la fonction « valeur absolue », nous avons : X |y| P [f (X) = y] = E(|f (X)|) y∈F CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES 28 P et en appliquant le résultat à la fonction |f |, E(|f (X)|) = x∈E |f (x)|P[X = x] qui est fini par hypothèse. L’équivalent pour la v.a. f (X) de la condition (2.2) est satisfaite : E(f (X)) est bien définie. La preuve de (2.3) est obtenue par le même calcul qu’en (2.4). Remarque : Si l’on devait évaluer E(f (X)) en utilisant la définition (2.1) de l’espérance, on devrait au préalable calculer la loi Pf (X) de la v.a.d. f (X). L’équation (2.3) montre que l’espérance E(f (X)) s’exprime directement en fonction de la loi de la variable X. Lorsqu’on choisit pour f l’indicatrice d’un ensemble H, on a le corollaire suivant : E(1H (X)) = PX (H) . (2.5) La propriété (2.3) permet d’écrire la condition de sommabilité (2.2) de manière plus compacte : on écrira simplement E|X| < ∞. Soient deux X et Y deux v.a.d. sur E ⊂ R. Pour tous coefficients réels α, β, la somme αX + βY est bien une v.a.d. en tant que fonction du couple (X, Y ). Dans la suite, on utilisera la notation « X ≤ Y p.p. » pour signifier que Y − X ≥ 0 p.p.. Si a ∈ E est une constante, on écrira que « X = a p.p. » pour signifier que P(X = a) = 1. Proposition 2.10.– Soient X et Y deux variables aléatoires dans un ensemble E ⊂ R discret. Supposons que E|X| < ∞ et E|Y | < ∞. Soient (α, β) ∈ R2 et a ∈ E. Alors : a) E(αX + βY ) est bien définie et E(αX + βY ) = α E(X) + β E(Y ) . b) Si X ≥ 0 p.p., alors E(X) ≥ 0 . c) Si X ≥ 0 p.p. et si E(X) = 0 , alors X = 0 p.p. d ) |E(X)| ≤ E|X| . e) Si X ≤ Y p.p., alors E(X) ≤ E(Y ). f ) Si X = a p.p., alors E(X) = a. Preuve : Montrons que E(αX + βY ) est bien définie. D’après la propriété précédente, X E|αX + βY | = |αx + βy| PX,Y (x, y) (x,y)∈E 2 ≤ |α| X = |α| X |x| PX,Y (x, y) + |β| (x,y) X |y| PX,Y (x, y) (x,y) |x| X x = |α| X PX,Y (x, y) + |β| y |x| PX (x) + |β| x X |y| y X X PX,Y (x, y) x |y| PY (y) . y Ainsi, E|αX + βY | ≤ |α| E|X| + |β| E|Y | < ∞ par hypothèse. On évalue l’espérance : X E(αX + βY ) = (αx + βy) PX,Y (x, y) (x,y) = α X (x,y) x PX,Y (x, y) + β X (x,y) y PX,Y (x, y) , CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES 29 où la dernière équalité se justifie par le fait que les deux dernières sommes convergent absolument (nous l’avons prouvé plus haut). Par le même calcul que ci-dessus, ces deux sommes sont égales à E(X) et E(Y ) respectivement, ce qui démontre a). Les preuves des autres propositions sont laissées au lecteur. 2.3.4 Inégalités Proposition 2.11.– (Inégalité de Markov) Pour tout > 0, p ≥ 1, P [|X| > ] ≤ E (|X|p ) . p Preuve : On donne d’abord la preuve pour = p = 1 et X ≥ 0. D’après (2.5), P [X > 1] = E(1]1,+∞[ (X)) ≤ E(X) car 1]1,+∞[ (X) ≤ X. Dans le cas général, on utilise le fait que P [|X| > ] = P [|X|p /p > 1] et on applique le résultat précédent. Lorsque p = 2, l’inégalité de Markov est aussi connue sous le nom d’inégalité de BienayméTchebychev. Proposition 2.12.– (Inégalité de Cauchy-Schwarz) p E (|XY |) ≤ E(X 2 ) E(Y 2 ) . Preuve : Si E(X 2 ) = 0, la v.a. X 2 est nulle p.p. donc XY = 0 p.p. ce qui implique que le membre de gauche est nul. L’inégalité est triviale dans ce cas. Le seul cas non-trivial est celui pour lequel E(X 2 ) 6= 0 et E(Y 2 ) 6= 0 . p p On utilise l’inégalité U 2 + V 2 ≥ 2U V en posant U = |X|/ E(X 2 ) et V = |Y |/ E(Y 2 ). Comme E(U 2 ) = E(V 2) = 1, on obtient en prenant l’espérance de chaque membre de p 2 2 l’inégalité : 1 + 1 ≥ 2E |XY |/ E(X ) E(Y ) ce qui démontre le résultat. 2.3.5 Moments, variance, écart-type Définition 2.7.– Soit p ≥ 0. Soit une v.a.d. réelle X telle que E(|X|p ) < ∞. La quantité E(X p ) est appelée le moment d’ordre p de X. On dit d’une telle variable qu’elle est d’ordre p, ou qu’elle possède un moment d’ordre p. Remarque : Le moment d’ordre 1 coïncide avec l’espérance. Une variable bornée possède tous ses moments. CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES 30 Proposition 2.13.– Une variable d’ordre p possède tous ses moments d’ordre inférieur. Preuve : Soit 0 ≤ q ≤ p. De l’inégalité |x|q ≤ 1+|x|p , on déduit E|X|q ≤ 1+E|X|p < ∞. Définition 2.8.– La variance d’une v.a.d. X d’ordre 2 est définie par Var(X) := E (X − E(X))2 . Son écart-type est la racine carrée de la variance, noté σX := p Var(X) . Exemple : Un joueur lance une pièce, gagne un euro si le résultat est pile, perd un euro sinon. L’espérance du gain X est E(X) = 0. La variance est Var(X) = 1 × 12 + 1 × 21 = 1 et l’écart-type est 1. Si le joueur gagne ou perd 10 euros à chaque partie, l’espérance de gain est toujours nulle. En revanche, la variance vaut 100 et l’écart type vaut 10. La variance donne donc une information sur l’amplitude des fluctuations de la X autour de son espérance. Exemple : La variance d’une loi de Bernoulli B(p) vaut p(1 − p). Définition 2.9.– Soient X et Y deux v.a.d. d’ordre 2. Leur covariance est définie par : Cov(X, Y ) := E [(X − E(X))(Y − E(Y ))] . L’inégalité de Cauchy-Schwarz garantit que la quantité ci-dessus est bien définie. En statistique et en traitement du signal, on utilise souvent une version renormalisée de la covariance, le coefficient de corrélation qui est défini par : ρX,Y := Cov(X, Y ) . σX . σY Lorsque Cov(X, Y ) = 0, on dit que X et Y sont décorrélées. Proposition 2.14.– Soient X et Y deux v.a.d. d’ordre 2 et (α, β) ∈ R2 . On a : a) Var(X) = E(X 2 ) − (EX)2 ; b) Cov(X, X) = Var(X) ; c) Cov(Y, X) = Cov(X, Y ) ; d ) Var(αX + β) = α2 Var(X) ; e) Var(X + Y ) = Var(X) + Var(Y ) + 2Cov(X, Y ) . La preuve est laissée à titre d’exercice. CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES 2.3.6 31 Cas des variables indépendantes Proposition 2.15.– Soient X et Y des v.a. indépendantes telles que E|X|, E|Y | < ∞. Alors E|XY | < ∞ , et on a l’égalité : E(XY ) = E(X) E(Y ) . P Preuve : E|XY | = (x,y) |xy|PX,Y (x, y) et comme X et Y sont indépendantes, PX,Y (x, y) = P P PX (x)PY (y). Ainsi, E|XY | = x |x|PX (x) y |y|PY (y) = E|X|E|Y | < ∞. Le même calcul, sans les valeurs absolues, montre que E(XY ) = E(X) E(Y ) . Cette propriété admet une généralisation immédiate. Si X et Y sont indépendantes, on sait que pour des fonctions f et g arbitraires, les v.a.d. f (X) et g(Y ) restent indépendantes. Par conséquent, E (f (X)g(Y )) = E(f (X)) E(g(Y )) , (2.6) dès lors que les deux sommes du membre de droite sont absolument convergentes. On a même une réciproque à ce résultat. Proposition 2.16.– Deux variables aléatoires X : Ω → (E, E) et Y : Ω → (F, F) sont indépendantes si et seulement pour toutes les fonctions mesurables bornées f : E → R et g : F → R, E [f (X)g(Y )] = E [f (X)] E [g(Y ]). (2.7) Preuve : On vient de voir que l’indépendance implique (2.7). Réciproquement, si l’équation (2.7) est vérifiée, on obtient (??) en spécialisant (2.7) pour f = 1{i} et g = 1{j} . Un cas particulier intéressant est obtenu en posant f (x) = x − E(X) et g(y) = y − E(Y ). Dans ce cas, le membre de gauche de (2.6) n’est autre que la covariance Cov(X, Y ) et les deux facteurs du membre de droite sont nuls. On en déduit la propriété suivante : Proposition 2.17.– Si X et Y sont indépendantes et d’ordre 2, alors Cov(X, Y ) = 0 . Cette propriété implique en particulier que pour des v.a. indépendantes : Var(X + Y ) = Var(X) + Var(Y ) . (2.8) Notons que deux variables décorrélées ne sont pas nécessairement indépendantes. L’exercice 15 permet de s’en convaincre. CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES 32 Généralisation au cas d’une famille finie de v.a.d. Proposition 2.18.– Pour tout k = 1, · · · , n, soit Xk une v.a. sur un espace discret Ek et fk : Ek → Ek0 une fonction sur Ek0 ⊂ R telle que E|fk (Xk )| < ∞ . On suppose X1 , · · · , Xn indépendantes. Alors, ! Y Y E fk (Xk ) = E (fk (Xk )) k=1 k=1 Proposition 2.19.– Si X1 , · · · , Xn sont des v.a.d. indépendantes d’ordre 2, alors Var(X1 + · · · + Xn ) = Var(X1 ) + · · · + Var(Xn ) . Preuve : La propriété est vraie au rang n = 1. Supposons la vraie au rang n − 1. Posons Zn = X1 + · · · + Xn−1 . Les v.a. Xn et Zn sont indépendantes. Par l’égalité (2.8), Var(Xn + Zn ) = Var(Xn ) + Var(Zn ) or Var(Zn ) = Var(X1 ) + · · · + Var(Xn−1 ) par l’hypothèse de récurrence. La propriété est donc démontrée. 2.3.7 Application : Loi faible des grands nombres ∗ Soit (Xk )k∈N? une famille indépendante et identiquement distribuée de v.a. sur un ensemble E ⊂ R au plus dénombrable. On s’intéresse au comportement de la moyenne empirique des n premières variables : n 1X Xk . Sn = n k=1 Théorème 2.20.– Soit (Xk )k∈N? une famille indépendante, identiquement distribuée de v.a.d.. On suppose que E(X12 ) < ∞ . Alors, ∀ > 0, lim P [|Sn − E(X1 )| > ] = 0 . n→∞ On dit de la variable aléatoire Sn qu’elle converge en probabilité vers E(X1 ). Preuve : En utilisant le fait que E(X1 ) = E(Xk ), on a : " # X P [|Sn − E(X1 )| > ] = P (Xk − E(Xk )) > n k P E (( k (Xk − E(Xk )))2 ) ≤ , n2 2 en utilisant l’inégalité de Bienaymé-Tchebichev. La somme dans l’espérance est une v.a. centrée, donc son moment d’ordre 2 et P sa variance coïncident. Par indépendance de P Xk , sa variance satisfait : Var( k Xk ) = k Var(Xk ) = nVar(X1 ), où la seconde égalité CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES 33 provient du fait que toutes les variances sont égales, les Xk étant identiquement distribués. Finalement, n Var(X1 ) P [|Sn − E(X1 )| > ] ≤ , n2 2 et le membre de gauche converge bien vers zéro quand n tend vers l’infini. Le théorème précédent se nomme « loi faible des grands nombres ». Donnons-en une illustration. Un joueur lance une pièce, gagne un euro si le résultat est pile, perd un euro sinon. Il réitère l’expérience n fois. Xk représente son gain à l’instant k et Sn la moyenne des gains. L’espérance du gain Xk est E(Xk ) = 0. La loi faible des grands nombres implique que P[|Sn | > ] tend vers zéro. Quel que soit aussi petit qu’on veut, le gain moyen est plus petit que avec forte probabilité lorsque n est grand. Remarque : Plus loin dans ce cours, nous étendrons la loi faible des grands nombres à des v.a. quelconques, pas nécessairement discrètes. Nous montrerons également un résultat plus puissant appelé « loi forte des grands nombres ». La loi forte établit que quelle que soit l’issue ω, hormis peut-être pour ω dans un ensemble de probabilité nulle, nous avons limn Sn (ω) = E(X1 ). 2.4 Fonction génératrice d’une v.a. à valeurs entières Dans ce paragraphe, on se limite au cas où la v.a. X est à valeurs dans N (ou bien dans un sous-ensemble E ⊂ N : dans ce dernier cas, on étend X à une fonction dans N en imposant que P[X = k] = 0 pour k ∈ / E). Définition 2.10.– La fonction génératrice de X, notée ΦX , est définie pour tout s dans l’intervalle [−1, +1] par : ΦX (s) = E(sX ) ∞ X = P[X = k] sk . k=0 La fonction génératrice est donc la série entière de terme général P[X = k]. Le rayon de convergence de cette série est supérieur ou égal à un. Proposition 2.21.– Pour toute v.a.d. à valeurs entières, sa fonction génératrice ΦX satisfait les propriétés suivantes. a) ΦX est continue sur [−1, +1] et de classe C ∞ sur ] − 1, +1[. b) Pour tout n, (n) (n) où ΦX Φ (0) , P[X = n] = X n! est la dérivée nème de ΦX . CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES 34 Preuve : Il suffit d’appliquer des résultats connus sur les séries entières. On sait (voir l’annexe et [Rud95, Théorème 8.1]) qu’une série entière de terme général ak et de rayon P de convergence R est de classe C ∞ sur ] − r, r[, et sa dérivée nème vaut k≥n n(n − 1) · · · (n−k +1)ak sn−k . L’application de ce résultat démontre b). Il ne reste qu’à montrer la continuité de ΦX en ±1, ce qui peut être fait par un argument de convergence dominée. Du deuxième résultat, on en déduit le corollaire suivant. Corollaire 2.22.– Si X et Y sont deux v.a.d. de même fonction génératrice alors PX = PY , i.e. X et Y ont la même loi. Si la fonction génératrice caractérise la loi, elle caractérise a fortiori les moments. La propriété suivante permet de déduire les moments de la fonction caractéristique. Notation : Pour toute fonction f ayant un limite à gauche (resp. à droite) en b, on note f (b−) cette limite (resp. f (b+ )). Proposition 2.23.– Une v.a. X : Ω → N admet un moment d’ordre p si et seulement (p) si ΦX admet une limite à gauche en 1. Alors, (p) ΦX (1− ) = E (X(X − 1) · · · (X − p + 1)) . Preuve : P On traite le cas p = 1, le cas général suit le même principe. Rappelons que P 0 k−1 ΦX (s) = k≥1 kpX (k) s . Supposons que E(X) < ∞. Comme E(X) = k≥1 kpX (k), suite sommable kpX (k). les termes kpX (k) sk−1 de la série Φ0X (s) sont P dominés par une k−1 0 = E(X). Par convergence dominée, lims↑1 ΦX (s) = k≥1 lims↑1 kpX (k) s Réciproquement, supposons que Φ0X (1− ) existe. Comme Φ0X est croissante sur [0, 1[, on P a pour tout s < 1, k≥1 kpX (k) sk−1 ≤ Φ0X (1− ) et comme tous les termes sont positifs, Pn k−1 ≤ Φ0 (1− ) quel que soit n. En faisant s ↑ 1 dans la dernière inégalité, k=1 kpX (k) s X P on en déduit que la suite ( nk=1 kpX (k))n est bornée. C’est une suite croissante, elle est P donc convergente. On a bien nk=1 kpX (k) < ∞, autrement dit E(X) < ∞. L’exercice 16 fournit des exemples d’applications. CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES 2.5 35 Exercices . Exercice 14. Soit (Xn )n∈N? une suite i.i.d. de loi de Bernoulli de paramètre p sur {0, 1}. P 1. Pour tout n, caractériser la loi de Sn = nk=1 Xk . 2. On pose Y = min{n : Xn = 1} lorsque cet ensemble est non-vide, Y = +∞ sinon. Caractériser la loi de Y . 3. Déduire de la première question l’espérance d’une variable binomiale de paramètres (n, p). . Exercice 15. Soit X de loi uniforme sur {0, 1} et Z de loi uniforme sur {−1, +1} indépendante de X. Soit Y = ZX. Montrer que X et Y sont décorrélées mais ne sont pas indépendantes. . Exercice 16. 1. Calculer ΦX , E(X) et Var(X) pour une v.a. de Bernoulli B(p), une v.a. de loi géométrique G(p), une v.a. de Poisson P(λ). 2. Soient X1 , · · · , Xn des v.a. Xk suit une loi de Poisson de paramètre Pindépendantes. n λk . Caractériser la loi de k=1 Xk . . Exercice 17 (Canal binaire symétrique). On considère un canal de communication qui transmet des bits avec erreur selon le modèle suivant : un bit à une probabilité p d’être transmis correctement et 1 − p d’être inversé. On suppose que n canaux de ce type sont en série. On note Xn le bit reçu en sortie du n-ième canal. On note πn = P(Xn = 0 | X0 = 0), P(Xn = 1 | X0 = 1) . 1. Exprimer la relation matricielle entre πn et πn−1 pour tout n ≥ 1. On traitera à part les cas p = 0 et p = 1. 2. On suppose dorénavant que p ∈]0, 1[. Calculer la probabilité pn pour que l’information soit fidèlement transmise. 3. Que se passe-t-il quand n tend vers l’infini ? . Exercice 18. Un étang contient un nombre de poissons N inconnu. Pour estimer N, on prélève un échantillon de r poissons que l’on marque et que l’on remet dans l’étang. Une semaine plus tard, un autre échantillon de s < r individus est prélevé. On appelle X le nombre de poissons marqués lors du premier prélèvement qui sont aussi dans le deuxième échantillon. 1. Calculer la loi de X (dite loi hypergéométrique). On note pour la suite de cet exercice r N −r pk = k s−k N s pour k ≤ min(r, s) et k ≥ max(s + r − N, 0). , CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES 36 2. Montrer que p2k ≥ pk−1 pk+1 . 3. En déduire qu’il existe une unique valeur de k telle que pk = maxj pj . 4. Soit k0 tel cette valeur. Par définition, pk0 +1 < pk0 et pk0 −1 < pk0 . En déduire que k0 = (r + 1)(s + 1) . N +2 On pourra poser pour simplifier les calculs, r0 = r + 1, s0 = s + 1, N 0 = N + 2. 5. En déduire une estimation de N . 6. Lors du dépouillement, on pose Xi = 1Psi le i-ème poisson est marqué, Xi = 0 sinon. En utilisant la relation évidente X = si=1 Xi , montrer que E [X] = sp et var(X) = sp(1 − p) N −s , N −1 où p = r/N. . Exercice 19. Dans le protocole WiMaX, la bande de fréquences est découpée en N = 48 groupes de M = 32 fréquences. Un sous-canal est constitué d’une fréquence dans chaque groupe. Dans une cellule donnée, les algorithmes de construction des sous-canaux garantissent que deux sous-canaux ne partagent pas de fréquences. On peut donc faire au maximum M sous-canaux dans une cellule. En revanche, rien ne garantit qu’un sous-canal d’une cellule voisine n’ait pas de fréquence commune avec un sous-canal de la cellule de référence. Lorsqu’une fréquence est partagée, il y a interférence d’où perte du signal. On suppose que la cellule A dispose de x sous-canaux avec 0 < x ≤ M . La cellule B a construit y sous-canaux. 1. Quelle est la probabilité qu’il y ait c collisions dans un groupe donné ? 2. Comment calculer la probabilité d’avoir C collisions sur l’ensemble de la bande de fréquences ? 3. Quel est le nombre moyen de collisions en fonction de x, y, N et M ? . Exercice 20. Un actif financier de prix initial S0 vaut S0 .M avec probabilité p ou S0 .m (avec probabilité 1 − p) (m < M )à la fin de la période d’observation. On a aussi à disposition, un compte rémunéré à r% par période : pour x e placés sur ce compte initialement, on récupère (1 + r)x e en fin de période. On dispose d’une fortune initiale X0 , que l’on peut répartir à volonté entre des actions et le compte rémunéré. 1. À quelle condition sur m et M est-il possible d’avoir une fortune finale fixée égale à K? 2. Quelle est la stratégie (dite stratégie de couverture) pour y parvenir ? CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES 37 . Exercice 21 (Erdös et Renyi (1960)). On fabrique un graphe sur n sommets en choisissant ses arêtes « au hasard ». Plus précisément, on considère le graphe Gn,p obtenu en n choisissant chacune des 2 arêtes potentielles indépendamment avec probabilité p. Le but de ce problème est d’étudier la probabilité que Gn,p soit connexe. On s’intéressera au cas où p est de la forme ln n c + p = p(n) = n n où c est une constante fixée. 1. Soit (X Pin, 1 ≤ i ≤ n) un n-uple de variables aléatoires à valeurs dans {0, 1} et soit X = i=1 Xi . Montrer que pour tout r tel que r ≥ 1 et 2r + 1 ≤ n on a : 2r+1 X k (−1) F (k) 2r X ≤ P(X = 0) ≤ (−1)k F (k) k=0 k=0 où l’on a posé F (0) = 1 et pour k ≥ 1 X F (k) = E [Xj1 Xj2 . . . Xjk ] . j1 <j2 <...<jk Suggestion. On pourra montrer que " n Y P(X = 0) = E (1 − Xi ) # i=1 et appliquer une formule de Taylor à la fonction Qn i=1 (1 − xi ). 2. On dira qu’un sommet est isolé s’il n’est l’extrémité d’aucune arête. Dans Pn un premier temps, on étudie le nombre X de sommets isolés. On peut écrire X = i=1 Xi où Xi est la variable aléatoire qui vaut 1 si le sommet i est isolé, 0 sinon. Que valent E [Xi ] et E [X] ? 3. On suppose dorénavant c fixé. Montrer que la quantité F (k) , pour la variable X, converge, lorsque n tend vers l’infini, vers e−ck /k!. −c 4. Montrer que limn→∞ P(X = 0) = e−e . 5. Calculer l’espérance du nombre de composantes connexes à 2 sommets, et constater que celle-ci tend vers zéro quand n tend vers l’infini. 6. Plus généralement, soit Ct le nombre de composantes connexes à t sommets. Montrer que pour 2 ≤ t ≤ n/2, k t p 1 X 2 . E [Ct ] ≤ t! 1−p k t t−1≤k≤(2) −c En déduire que la P probabilité que Gn,p soit connexe tend, quand n → ∞, vers e−e . On admettra que 2≤t≤n/2 E [Ct ] → 0 quand n → ∞. CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES 38 7. Que peut-on dire de la probabilité que Gn,p soit connexe ? Commentaire : on pourrait montrer de la même manière que −c P(X = j) → e−e e−cj /j!. La loi de X se rapproche d’une loi de Poisson, ce qui veut dire que les Xi se comportent de manière « de plus en plus indépendantes ». – Il y a n2 paires de sommets. la probabilité qu’une paire de sommets donnée constitue une composante connexe vaut p(1 − p)2(n−2) . L’espérance du nombre de composantes connexes à deux sommets vaut donc n p p p(1 − p)2(n−2) ∼ (ne−pn )2 = e−2c → 0 2 2 2 car p tend vers 0 quand n → ∞. – On en déduit qu’avec probabilité tendant vers 1 le nombre de composantes connexes à t éléments avec 2 ≤ t ≤ n/2 tend vers 0. Or Gn,p n’est pas connexe si et seulement s’il existe une composante connexe à t sommets pour 1 ≤ t ≤ n/2. La probabilité d’être non connexe se comporte donc comme la probabilité d’avoir (au moins) un point isolé. Autrement dit, −c la probabilité que Gn,p soit connexe tend vers e−e . En particulier on en déduit que si p grandit moins vite que ln n/n + c/n pour tout c, alors Gn,p n’est pas connexe avec probabilité tendant vers 1. Par contre si p grandit plus vite que ln n/n+c/n pour tout c, alors Gn,p est connexe avec probabilité tendant vers 1. . Exercice 22. En codage correcteur d’erreurs, les erreurs interviennent au hasard sur l’un quelconque des bits. Si on transmet des mots de n bits, on pose Ω = {0, 1}n , que l’on munit de la loi uniforme. On introduit Xi (ω) = ωi pour i = 1, · · · , n. La distande de Hamming entre mots de code x = (x1 , · · · , xn ) et y = (y1 , · · · , yn ), est définie par : d(x, y) = n X 1{xi 6=yi } . i=1 On appelle longueur d’un mot x, sa distance au mot nul 0 = (0, · · · , 0). 1. Quelle est la longueur moyenne d’un mot ? 2. Quelle est la variance de la longueur d’un mot ? 3. On choisit deux mots au hasard indépendamment l’un de l’autre, soit X et Y les variables aléatoires correspondantes. Calculer E d(X, Y )2 . CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES 39 . Exercice 23. On veut calculer les moments d’une v.a. de loi hypergéométrique. On se donne donc une urne contenant r boules rouges et b boules blanches de sorte que N = r +b. Muni d’une épuisette à boules, on tire m boules parmi les N présentes. On range ces boules dans des cases numérotées de 1 à m. On note X le nombre de boules rouges ressorties et ( 1 si la case i contient une boule rouge, Xi = 0 sinon. On a donc X = Pm i=1 Xi . 1. Pourquoi les vecteurs aléatoires (X1 , · · · , Xm ) et (Xσ(1) , · · · , Xσ(n) ) ont-ils la même loi ? 2. Calculer P(Xi = 1) et P(Xi Xj = 1) pour i 6= j. 3. En déduire E [X] et Var(X). . Exercice 24. On rappelle qu’une suite de variables aléatoires (Xn , n ∈ N) converge en probabilité vers la variable aléatoire X si et seulement si pour tout > 0, lim P(|Xn − X| ≥ ) = 0. n→+∞ Soit (Xn , n ∈ N) une suite de v.a. de moyenne µn et de variance σn2 . Soit (bn , n ∈ N) une suite de réels positifs tels que σn2 /b2n tende vers 0. Montrer que X n − µn tend vers 0 en probabilité. bn . Exercice 25 (Borne de Chernoff). Soit X une v.a. de loi de Poisson de paramètre λ. 1. Montrer que X ≥ η = exp(θX) ≥ exp(θη) . 2. Montrer que, pour tout θ ≥ 0, P(X ≥ Kλ) ≤ e−Kθλ E [exp(θX)] . (2.9) 3. Calculer E [exp(θX)]. 4. Trouver θ qui minimise le terme de droite de (2.9). 5. Trouver K tel que P(X ≥ Kλ) ≤ 0, 001. . Exercice 26 (Diffusion de gaz). Un modèle simple de diffusion de deux gaz dû à Ehrenfest est le suivant. On considère deux urnes A et B qui contiennent respectivement n boules blanches et n boules noires. À chaque étape, on choisit une boule dans chacune des urnes et on permute la position de ces deux boules : celle qui était en A passe en B et réciproquement. On note Xk le nombre de boules blanches dans A après le k-ième mélange. 1. Pour k ≥ 1, calculer la loi de Xk sachant Xk−1 . 2. Calculer E [Xk ]. CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES 40 3. Quelle est la limite de E [Xk ] quand k tend vers l’infini ? . Exercice 27. Dans le tri rapide (quicksort), on note Mn le nombre de comparaisons nécessaires pour ordonner un tableau de n nombres. Montrer que E [Mn ] vérifie la relation n−1 2X E [Mn ] = n − 1 + E [Mk ] . n k=1 En déduire que E [Mn ] = 2(n + 1) n−1 X i=1 i (i + 1)(i + 2) et trouver un équivalent asymptotique de Mn quand n tend vers +∞. . Exercice 28. On veut collectionner N images dont une et une seule apparaît dans chaque tablette de chocolat achetée. Les images sont mises au hasard dans les tablettes. On appelle Ti le nombre de tablettes nécessaires avant d’avoir i images distinctes. On pose T0 = 0. 1. Montrer que Ti+1 − Ti suit une loi géométrique de paramètre 1 − i/N. 2. Montrer que les variables aléatoires T0 , T1 − T0 , . . . , TN − TN −1 sont indépendantes dans leur ensemble. 3. Calculer l’espérance et la variance de TN . Trouver un équivalent de l’espérance et montrer que la variance est un O(N ) quand N tend vers +∞. 4. En utilisant l’exercice 24, montrer que TN /(N log N ) tend vers 1 en probabilité. . Exercice 29. Les règles du jeu du not-seven sont les suivantes : on part d’un score X0 = 0. À chaque coup, on lance deux dés non pipés, si la somme des faces égale 7, le score retourne à 0 et la partie est terminée. Sinon, le score augmente de la somme des faces et on a le droit de rejouer ou pas. Si l’on ne rejoue pas, le score est acquis et la partie est terminée. Si l’on rejoue, on relance les deux dés avec la même règle. 1. Calculer la loi de la somme S des deux faces. Calculer son espérance. On considère une suite (Sn , n ∈ N) de variables aléatoires indépendantes de même loi que S. 2. Soit τ = inf{n ≥ 1, Sn = 7}, trouver la loi de τ . 3. Calculer la moyenne de τ . 4. Quelle est la stratégie d’un Initié (celui qui sait le résultat du prochain lancer de dés) ? 5. Calculer son gain moyen. 6. On appelle Xn le score au n-ième coup en l’absence de stratégie d’arrêt. Montrer que E [Xn+1 | Xn = i] = 35 5 i+ , 6 6 où l’espérance conditionnelle par rapport à un événement B est définie comme l’espérance associée à la loi de probabilité A 7→ P(A | B). CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES 41 7. En déduire que la stratégie optimale consiste à jouer tant que l’on n’a pas atteint 35 et à s’arrêter immédiatement après avoir franchi ce seuil. 8. Calculer par simulation le gain moyen avec cette stratégie. . Exercice 30. Soient (X1 , X2 , X3 ) des variables aléatoires indépendantes de même loi à valeurs dans N. On note pi = P(Xl = i), l = 1, 2, 3. On introduit Z de loi uniforme sur {1, 2}. 1. Quelle est la loi de Y = (XZ , X3−Z ) ? 2. Soit W le vecteur aléatoire défini par : W = (X1 , X3 ) si Z = 2 et W = (X3 , X2 ) si Z = 1. Quelle est la loi de W ? . Exercice 31. Soient 1 ≤ n ≤ N deux entiers. Soit M une v.a. de loi binomiale (N, θ) et X une v.a. dont la loi est donnée par N −m m P(X = k | M = m) = k n−k N n pour tout k ∈ {0, · · · , n}. 1. Calculer la loi de M sachant X = k, dite loi a posteriori de M. 2. Pour k = 0, identifier cette loi. . Exercice 32. Soit X1 , · · · , Xn , Y1 , · · · , Yn , U ) des variables aléatoires indépendantes. La loi de U est la loi uniforme sur {1, · · · , n}. Pour tout i ∈ {1, · · · , n}, P(Xi = 1) = P(Yi = 1) = p = 1 − P(Xi = 0) = 1 − P(Yi = 0). On pose W = X1 + . . . + Xn . On note X = (X1 , · · · , Xn ).On construit X 0 de la façon suivante : X 0 = (X1 , · · · , Xi−1 , Yi , Xi+1 , · · · ) si U = i. On pose W 0 = W − XU + YU . 1. 2. 3. 4. Montrer que X et X 0 ont même loi. En déduire que W et W 0 ont même loi. Calculer P(Xi = 1 | W = m) pour m ∈ {0, · · · , n}. Calculer P(W − W 0 = | W = m) pour = −1, 0, 1. . Exercice 33 (Processus de branchement). Soit X0 une v.a. à valeurs entières. Soit (Xn, j , n ≥ 1, 1 ≤ j ≤ n) une famille dénombrable de variables aléatoires indépendantes, de loi PX0 . On note Φ la fonction génératrice de PX0 . On considère un individu « racine » qui a un nombre X0 de descendants Chacun de ses descendants a un nombre aléatoire de descendant, ce nombre est indépendant de celui des autres descendants et de loi PX0 . On pose Zn le nombre total d’individus au rang n. CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES 42 1. Calculer la fonction génératrice de Zn en fonction de celle de Zn−1 . 2. Soit un = P(Zn = 0). Montrer que un = Φ(un−1 ). 3. Trouver des conditions nécessaires et suffisantes sur PX0 qui garantissent que Φ est strictement convexe. 4. Montrer que u converge vers une limite non nulle si et seulement si E [X0 ] < 1. Ce processus représente tout aussi bien l’évolution de la contamination par un virus ( X0 est le nombre d’individus contaminés par le malade initial ), que la transmission d’un nom de famille ( X0 étant alors le nombre d’enfants portant le nom de leur père )et bien d’autres situations. Chapitre 3 Eléments de théorie de la mesure 3.1 Introduction Ce chapitre a pour but l’introduction des outils nécessaires à la construction de probabilités sur des ensembles plus généraux que les seuls ensembles discrets. Une probabilité sur l’univers Ω est une application P qui à un événement A associe une valeur P(A) comprise entre 0 et 1. Formellement, P : F → [0, 1] A 7→ P(A) où F est le domaine de définition de P. Lorsque l’univers Ω est au plus dénombrable, nous avons simplement choisi F comme l’ensemble des parties. En revanche, dans des espaces plus complexes tels que Ω = R, il s’avère problématique de définir P sur l’ensemble des parties. Exemple : Considérons la position d’une particule dans un espace Ω isotrope de volume 1. Il est naturel de définir la probabilité que la particule se trouve dans un ensemble R A ⊂ Ω comme le volume de A : P(A) = 1A . Une telle définition n’a de sens que pour des parties A intégrables. Comme il existe des parties non intégrables (voir le cours d’analyse [LMR12]), il est nécessaire de restreindre le domaine F. Les conditions qui pèsent sur F sont liées aux considérations suivantes : a) On veut pouvoir définir les probabilités de l’événement impossible (zéro) et de l’événement certain (un). Donc F doit contenir ∅ et Ω. b) Si on sait évaluer la probabilité qu’un événement A se réalise, on doit logiquement pouvoir parler de la probabilité qu’il ne se réalise pas. Autrement dit, si F est stable par passage au complémentaire. 43 CHAPITRE 3. ELÉMENTS DE THÉORIE DE LA MESURE 44 c) Si A et B sont des événements dont on sait évaluer les probabilités, on doit pouvoir donner un sens à P(A∪B), donc F est stable pour l’union. Pour des raisons techniques qui apparaitront clairement plus loin, nous supposerons en outre que F est stable par union dénombrable. Les axiomes ci-dessus sont ceux qui définissent une tribu (voir le cours MDI-103). Le paragraphe 3.2 sera consacré à des rappels sur les tribus. Le paragraphe 3.3 est consacré à la définition des mesures, qui sont des applications sur F à valeurs positives. Les mesures de probabilité en sont un cas particulier. Le paragraphe 3.4 introduit la notion d’applications mesurables qui donnera le cadre formel nécessaire à la définition des variables aléatoires à valeurs dans des espaces plus généraux que les espaces discrets (voir le chapitre ??). 3.2 3.2.1 Tribus Définition et propriétés générales Définition 3.1.– Une famille F de sous-ensembles de Ω est appelée une tribu sur Ω si elle vérifie les propriétés suivantes : i) Ω ∈ F ; ii ) ∀A ∈ F, Ac ∈ F ; S iii ) ∀A1 , A2 , · · · ∈ F, ∞ i=1 Ai ∈ F . Autrement dit, une tribu est stable par passage au complémentaire et stable par union dénombrable. Citons quelques exemples de tribus : – la tribu grossière : F = {∅, Ω} ; – la tribu des parties : F = l’ensemble des sous-ensembles de Ω, noté P(Ω) ou 2Ω ; – l’ensemble des parties localement intégrables de R, appelée tribu de Lebesgue (voir MDI-103) : Q = A ⊂ R : 1A ∈ L1loc (R) ; • la tribu engendrée par une application : voir l’exercice 2. Un espace mesurable est un couple (Ω, F) où Ω est un ensemble et F est une tribu sur Ω. On parle parfois d’espace probabilisable. Proposition 3.1.– Toute tribu satisfait les propriétés suivantes. a) ∅ ∈ F ; b) ∀A1 , A2 , · · · ∈ F, T∞ i=1 Ai ∈ F ; c) ∀A, B ∈ F, A ∪ B ∈ F et A ∩ B ∈ F. CHAPITRE 3. ELÉMENTS DE THÉORIE DE LA MESURE 45 Preuve : a) Ω ∈ F donc Ωc = ∅ ∈ F par l’axiome ii). S c b) Les complémentaires Ac1 , Ac2 , · · · sont dans F par l’axiome ii). Donc ∞ i=1 Ai ∈ F par l’axiome iii). En invoquant à nouveau l’axiome ii), le complémentaire de cet ensemble est également dans F par l’axiome ii). Or d’après les lois de De Morgan, le complémentaire S coïncide avec ∞ i=1 Ai ∈ F. c) Il suffit de poser A1 = A, A2 = B et Ai = ∅ pour tout i ≥ 3. Les deux résultats découlent de l’axiome iii) et de b) respectivement. Proposition 3.2.– Soit C une collection d’ensembles sur Ω. L’intersection de toutes les tribus sur Ω contenant C est une tribu sur Ω. On la note σ(C) et on l’appelle la tribu engendrée par C sur Ω. Preuve : Soit S l’ensemble des tribus contenant C. S est non-vide puisqu’il contient la T tribu des parties. On vérifie que σ(C) = τ ∈S τ vérifie les trois axiomes d’une tribu. T i) Pour tout τ ∈ S, ∅ ∈ τ puisque τ est une tribu. Donc ∅ ∈ τ ∈S τ . ii) Soit A ∈ σ(C). Pour tout τ ∈ S, on a A ∈ τ par définition de σ(C). Donc Ac ∈ τ car une tribu est stable T par passage au complémentaire. Ainsi Ac ∈ τ ∈S τ . iii) Soient A1 , A2 , · · · ∈ σ(C). Pour tout τ ∈ S, on a A1 , A2 , · · · ∈ τ . Donc, l’union des Ai est dans τ quelque soit τ ∈ S. S T Finalement, ∞ i=1 Ai ∈ τ ∈S τ . 3.2.2 Tribu de Borel Définition 3.2.– La tribu de Borel sur R, notée B(R), est la tribu engendrée par les intervalles de la forme ]a, b[ : B(R) := σ ]a, b[ : (a, b) ∈ R2 , a < b . Un élément de la tribu de Borel est appelé un borélien. Par exemple, dans R, tout ensemble que l’on peut construire à partir d’unions ou d’intersections d’intervalles est un borélien. B(R) n’est pas égal à l’ensemble des parties : il existe des parties de R non boréliennes (voir le paragraphe 6.6 du polycopié MDI-103 [LMR12]). Heureusement, tous les ensembles « utiles » en probabilité s’écrivent comme des boréliens : la propriété ci-dessous vise à en convaincre le lecteur. Proposition 3.3.– Les ensembles suivants sont dans B(R) : le singleton {a}, les intervalles de la forme [a, b] , ] − ∞, b] , [a, +∞[ , l’ensemble des rationnels, l’ensemble des irrationnels. Preuve : Le singleton {a} est un borélien car il s’écrit comme une union dénombrable de S boréliens {a} = n≥1 ]a − n1 , a + n1 [ . L’intervalle [a, b] est un borélien car il s’écrit comme CHAPITRE 3. ELÉMENTS DE THÉORIE DE LA MESURE 46 l’union de trois boréliens [a, b] = {a}∪]a, b[∪{b}. L’intervalle ] − ∞, b] est un borélien S car il s’écrit comme une union dénombrable de boréliens ] − ∞, b] = n≥1 ]b − n, b]. La preuve est similaire pour [a, +∞[ . L’ensemble Q s’écrit comme l’union de ses singletons S Q = x∈Q {x}. Puisque Q est dénombrable et que les singletons sont des boréliens, Q est un borélien. L’ensemble des irrationnels est le complémentaire de Q, c’est donc aussi un borélien puisque B(R) est stable par passage au complémentaire. Proposition 3.4.– B(R) est la tribu engendrée par les intervalles de la forme ] − ∞, b]. Preuve : D’après la propriété précédente, la classe C des ensembles ] − ∞, b] sont dans B(R), donc σ(C) ⊂ B(R) car σ(C) est la plus petite tribu contenant C. Inversement, tout S intervalle ]a, b[ s’écrit ] − ∞, a]c ∩ ( n ] − ∞, b − n1 ]), donc ]a, b[ est inclus dans σ(C). Donc B(R) ⊂ σ(C). Généralisation à Rd (d ∈ N? ). Définition 3.3.– La tribu de Borel sur Rd , notée B(Rd ) est la tribu engendrée par les pavés : ( d )! Y B(Rd ) := σ ]ai , bi [ : ∀i = 1, · · · , d, (ai , bi ) ∈ R2 , ai < bi . i=1 Proposition 3.5.– B(Rd ) est engendrée par les ensembles de la forme Qd i=1 ] − ∞, bi ]. Proposition 3.6.– B(Rd ) est la tribu engendrée par les ouverts de Rd . Preuve : On donne la preuve pour d = 1, la généralisation est laissée au lecteur. Soit O la topologie sur R. Tout intervalle de la forme ]a, b[ est un ouvert, donc l’ensemble de tels intervalles est inclu dans O et donc dans σ(O). Comme B(R) est la plus petite tribu contenant les intervalles ]a, b[, cela implique que B(R) ⊂ σ(O). On sait que l’ensemble I des intervalles ouverts à extrémités rationnelles forme une base de la topologie. Cela signifie que tout ouvert s’écrit comme une union d’éléments de I. Une telle union est forcément dénombrable puisque I est lui-même dénombrable. Comme en outre tout élément de I est un borélien, on en déduit qu’un ouvert est un borélien : O ⊂ B(R). Donc σ(O) ⊂ B(R). On a donc montré σ(O) = B(R). La proposition 3.6 suggère que l’on aurait pu définir la tribu de Borel comme la tribu engendrée par les ouverts. Fort de cette remarque, on peut définir la tribu de Borel de n’importe quel espace topologique Ω comme la tribu engendrée par les ouverts. En particulier, on peut définir une tribu de Borel sur la droite réelle complétée R = [−∞, +∞] : nous la noterons B(R). Voir le paragraphe 3.4.4 pour une discussion. CHAPITRE 3. ELÉMENTS DE THÉORIE DE LA MESURE 47 Proposition 3.7.– Tout élément de B(Rd ) est localement intégrable : B(Rd ) ⊂ {A ⊂ Rd : A ∈ L1loc (Rd )} . Preuve : Voir le paragraphe 6.2 du polycopié d’analyse [LMR12] . 3.3 3.3.1 Mesures Définition Soit (Ω, F) un espace mesurable. Définition 3.4.– Une mesure sur (Ω, F) est une fonction d’ensemble µ telle que i ) µ : F → [0, +∞] ; ii ) µ(∅) = 0 ; iii ) Pour toute famille (An )n∈N d’événements deux à deux disjoints, ! X [ µ(An ) . µ An = n∈N n∈N On prêtera attention à l’intervalle fermé à droite dans l’axiome i) : la mesure d’un ensemble A est une quantité positive, possiblement infinie. Lorsque µ(Ω) < ∞, on dit que la mesure est finie. Si en outre µ(Ω) = 1, la mesure µ est une mesure de probabilité. La définition ci-dessus est en ce sens une généralisation de celle du paragraphe ??. Un triplet (Ω, F, µ) où µ est une mesure sur (Ω, F), est appelé un espace mesuré. C’est un espace de probabilité lorsque µ est une mesure de probabilité. L’axiome i) traduit le fait que l’événement impossible a une probabilité nulle d’être réalisé, alors que l’événement certain est réalisé avec une probabilité égale à un. L’axiome ii) est connu sous le nom de propriété de σ-additivité. La σ-additivité est une propriété familière des étudiants ayant suivi le cours d’intégration MDI-103 : l’application qui à un ensemble associe son volume, est σ-additive : le volume d’une union disjointe est égal à la somme des volumes (voir la proposition 3.8). On peut évidemment construire bien d’autres mesures de probabilités sur Rd , qui vont au delà de la notion usuelle de volume. 3.3.2 Exemples Mesure de Lebesgue Proposition 3.8.– L’application λd définie sur B(Rd ) par λd (A) = mesure, appelée mesure de Lesbesgue sur Rd . R 1A définit une CHAPITRE 3. ELÉMENTS DE THÉORIE DE LA MESURE 48 Preuve : Si (An ) est une famille de boréliens deux à deux disjoints, ! Z Z X ∞ ∞ Z ∞ ∞ X [ X S ∞ 1An = λd 1An = An = 1 n=1 An = P(An ) . n=1 n=1 n=1 n=1 La mesure de Lebesgue sur Rd ne définit pas une mesure de probabilité car λd (Rd ) = +∞. Toutefois, la mesure de Lebesgue sur [0, 1], définie comme la restriction de λ1 à B([0, 1]), est bien une mesure de probabilité. Mesures à densité La propriété ci-dessous généralise la proposition 3.8. Proposition 3.9.– Soit f : Rd → R+ une fonction borélienne. L’application définie sur R B(Rd ) par µ : A 7→ A f définit une mesure. On dit alors Rque f est une densité de µ. La mesure µ est une mesure de probabilité si et seulement si Rd f = 1. Dans ce cas, f est appelée une densité de probabilité. Rappelons qu’un ensemble est dit négligeable si son indicatrice est une fonction intégrable d’intégrale nulle. Deux fonctions boréliennes f et g à valeurs dans Rd sont dites égales presque partout (en abbréviation p.p.) si elles sont égales hormis sur un ensemble négligeable. Ceci revient à : λd ({x : f (x) 6= g(x)}) = 0 . Proposition 3.10.– Soient f et g deux densités d’une même mesure µ sur Rd . Alors f et g sont égales presque partout. Preuve : Soit A l’ensemble des points où f > g. Alors A = limn An où An := {x : R R R f (x)−g(x) ≥ n1 } est une suite croissante. On a 0 = An f − An g = An (f −g) ≥ n1 λd (An ) d’où λd (An ) = 0. Comme An ↑ A, on conclut λd (A) = limn λd (An ) = 0. Donc A est négligeable. Par symétrie, on a aussi que l’ensemble des points où g > f est négligeable, ce qui conclut la preuve. En parlant d’une mesure µ à densité, on dit souvent que f est la densité de µ. La propriété précédente montre qu’il ne s’agit que d’un léger abus de langage : µ admet effectivement une unique densité à un ensemble négligeable près. Proposition 3.11.– Soit µ une mesure sur Rd admettant une densité et soit x ∈ Rd . Alors µ({x}) = 0. Preuve : Un singleton est un ensemble négligeable. Donc f 1{x} est une fonction d’intégrale nulle. Son intégrale est précisément µ({x}). CHAPITRE 3. ELÉMENTS DE THÉORIE DE LA MESURE 49 La table 3.1 fournit différents exemples de densités de probabilité f , sur lesquels nous aurons l’occasion de revenir pendant ce cours. A titre d’exemple, la figure 3.1 représente la densité gaussienne de paramètres 0 et 1, notée N (0, 1) et appelée gaussienne centrée réduite : 1 2 (3.1) f (x) = √ e−x /2 . 2π La densité gaussienne porte aussi le nom de densité normale, ce qui justifie la notation N . Mesure de Dirac Soit (Ω, F) un espace mesurable quelconque et soit a ∈ Ω. La mesure de Dirac au point a est l’application δa définie sur F par δa (A) = 1A (a) c’est à dire : 1 si a ∈ A δa (A) = 0 sinon. Mesure de comptage et mesures discrètes Soit I un ensemble au plus dénombrable et (ai )i∈I une collection de points de Ω. La fonction définie pour tout A ∈ F par : X δai (A) µ(A) := i∈I définit une mesure sur F, appelée la mesure de comptage de (ai )i∈I . La quantité µ(A) est le nombre de points ai contenus dans l’ensemble A : µ(A) = cardinal{i : ai ∈ A}. Plus généralement, si (αi )i∈I est une suite de coefficients réels positifs, alors : X µ(A) := αi δai (A) i∈I définit une mesure sur F. La quantité µ(A) est égale à la somme des αi pour tous les i tels que ai ∈ A. Une telle mesure est appelée une mesure discrète. 3.3.3 Propriétés Soit µ une mesure sur (Ω, F). Proposition 3.12.– Soient A, B, (An )n∈N? des éléments de F. a) Si µ(A ∩ B) < ∞, alors µ(A ∪ B) = µ(A) + µ(B) − µ(A ∩ B) . b) Si A ⊂ B, alors µ(A) ≤ µ(B) . CHAPITRE 3. ELÉMENTS DE THÉORIE DE LA MESURE 50 Domaine Densité Expression de f (x) Notation R Densité uniforme sur [a, b] 1[a,b] (x) U([a, b]) Rd Densité uniforme sur une partie A ⊂ Rd 1RA (x) 1A R Densité exponentielle de paramètre α > 0 αe−αx 1R+ (x) R Densité gaussienne de paramètres m, σ 2 (m ∈ R, σ 2 > 0) Rd Gaussienne multivariée de paramètres m, Σ (m ∈ Rd , Σ ∈ Rd×d définie positive) e− 2 (x−m) Σ (x−m) p (2π)d det Σ R Densité de Cauchy de paramètres m, α (m ∈ R, α > 0) 1 α · π (x − m)2 + α2 R Densité Gamma de paramètres a, b (a >, b > 0) b−a √ 1 2 /(2σ 2 ) 2πσ 2 1 x e−(x−m) T a−1 b E(α) N (m, σ 2 ) −1 Nd (m, Σ) a −bx e Γ(a) Γ(a, b) 3.1 – Quelques exemples de densités de probabilité – (Rappel : Γ(a) = RTable +∞ a−1 −x x e dx). 0 . 0.5 0.4 0.3 0.2 0.1 0 −4 −3 −2 −1 0 1 2 3 4. Figure 3.1 – Densité gaussienne centrée réduite N (0, 1). CHAPITRE 3. ELÉMENTS DE THÉORIE DE LA MESURE 51 c) Si An ↑ A, alors µ(A) = limn→∞ µ(An ) . Si An ↓ A et si µ(A1 ) < ∞, alors µ(A) = limn→∞ µ(An ) . d ) Pour une famille quelconque (An )n∈N? dans F, on a la borne de l’union : ! ∞ ∞ [ X µ An ≤ µ(An ) . n=1 n=1 Preuve : La preuve repose sur les mêmes arguments qu’au paragraphe 1.2.2. 3.3.4 Caractérisation d’une mesure∗ Dès que Ω n’est pas dénombrable, il est impossible de décrire une mesure en donnant sa valeur pour tous les ensembles mesurables. Arrive à notre secours le théorème de classe monotone (théorème 3.13 ci-dessous) qui nous dit, en substance, qu’une mesure est totalement déterminée par sa valeur sur un ensemble d’ensembles suffisamment riche. Définition 3.5.– Un π-système (ou algèbre) est une classe de sous-ensembles de Ω stable pour l’intersection finie : ∀A, B ∈ P, A ∩ B ∈ P. Exemple : Un π-système intéressant est la classe des intervalles de la forme ] − ∞, b]. Plus généralement, sur Rd , les pavés ] − ∞, b1 ] × · · · ×] − ∞, bd ] forment un π-système. Définition 3.6.– Un λ-système (ou classe monoton) est une classe de sous-ensembles de Ω vérifiant : i) Ω ∈ L ; ii ) Pour tout A ∈ L, Ac ∈ L ; iii ) Pour toute suite (An )n∈N? d’éléments de L deux à deux disjoints, S n An ∈ L . Remarque : La définition d’un λ-système est assez semblable à celles d’une tribu, à une différence majeure près : on n’impose pas que toute union dénombrable soit dans L, mais seulement les unions dénombrables d’ensembles deux à deux disjoints. Un λ-système est également appelé une classe monotone pour la raison suivante : on peut montrer que la limite d’une suite croissante d’éléments de L est dans L. La lettre grecque λ de λ-système fait référence au « L » de « limite ». Exemple : En particulier, pour deux mesures de probabilité P et Q, l’exercice ?? montre que S = {A ∈ P(R), P(A) = Q(A)} est un λ-système On a le résultat pratique suivant : CHAPITRE 3. ELÉMENTS DE THÉORIE DE LA MESURE 52 Théorème 3.13.– Soit P un π-système et L un λ-système. Si P ⊂ L alors σ(P) ⊂ L . En conséquence, on en déduit : Théorème 3.14.– Deux mesures qui coïncident sur R sont égales. Corollaire 3.15.– Pour identifier une mesure sur R, il faut et il suffit que l’on connaisse P(] − ∞, x]) pour tout réel x. Remarque.– Ce résultat s’étend sans changement aux dimensions supérieures : pour identifier une probabilité sur Rd , il faut et il suffit que l’on connaisse P(] − ∞, x1 ] × . . . ×] − ∞, xd ]) pour tout d-uple (x1 , · · · , xd ). 3.4 Applications mesurables d Nous ferons toujours l’hypothèse que R, Rd , R sont munis de leurs tribus de Borel. 3.4.1 Définition Soient (Ω, F) et (E, E) deux espaces mesurables. Définition 3.7.– Une application X : Ω → E est dite mesurable si : ∀H ∈ E, X −1 (H) ∈ F . Remarque : La notion d’application mesurable dépend du choix des tribus de départ F et d’arrivée E. Il arrive donc qu’on parle d’application F-mesurable si l’on souhaite spécifier la tribu de départ, voire d’application F/E-mesurable si l’on veut être encore plus précis. En langage probabiliste, une application mesurable s’appelle une variable aléatoire. Proposition 3.16.– Soient (Ω, F), (E, E) et (E 0 , E 0 ) trois espaces mesurables. Soit X : Ω → E une application F/E-mesurable et f : E → E 0 une application E/E 0 -mesurable. La composée f ◦ X : Ω → E 0 est une application F/E 0 -mesurable. Preuve : Soit H 0 ∈ E 0 . L’image réciproque de H 0 par f ◦ X est égale à X −1 (f −1 (H 0 )). Comme f est mesurable, f −1 (H 0 ) ∈ E. Comme X est mesurable, l’image réciproque d’un élément de E est dans F, d’où X −1 (f −1 (H 0 )) ∈ F. CHAPITRE 3. ELÉMENTS DE THÉORIE DE LA MESURE 3.4.2 53 Propriétés Deux lemmes utiles Soient (Ω, F) et (E, E) deux espaces mesurables. Proposition 3.17.– Soit (E 0 , E 0 ) un espace mesurable. Soit X : Ω → E une application F/E-mesurable et f : E → E 0 une application E/E 0 -mesurable. La composée f ◦X : Ω → E 0 est une application F/E 0 -mesurable. Preuve : Soit H 0 ∈ E 0 . L’image réciproque de H 0 par f ◦ X est égale à X −1 (f −1 (H 0 )). Comme f est mesurable, f −1 (H 0 ) ∈ E. Comme X est mesurable, l’image réciproque d’un élément de E est dans F, d’où X −1 (f −1 (H 0 )) ∈ F. La propriété suivante montre que, pour vérifier la mesurabilité d’une application X, il suffit de vérifier la propriété « X −1 (H) ∈ F » non pas pour tout H ∈ E, mais seulement pour H dans une classe plus réduite, qui engendre la tribu d’arrivée. La preuve est fournie dans le polycopié d’analyse [LMR12]. Proposition 3.18.– Supposons que E = σ(C) pour une certaine classe C. Soit une fonction X : Ω → E telle que pour tout C ∈ C, X −1 (C) ∈ F. Alors X est F/E-mesurable. Fonctions boréliennes Définition 3.8.– Soit f : E → E 0 une application entre deux espaces topologiques E et E 0 . Si f est B(E)/B(E 0 )-mesurable, on dit que f est borélienne. Proposition 3.19.– Une application f : E → E 0 continue est borélienne. Preuve : B(E 0 ) est la tribu engendrée par les ouverts de E 0 . D’après le paragraphe précédent, il nous suffit donc de vérifier la propriété f −1 (H) ∈ B(E) pour H ouvert de E 0 . Rappelons qu’une fonction est par définition continue si l’image réciproque d’un ouvert est un ouvert. Donc f −1 (H) est un ouvert et nous savons que B(E) contient tous les ouverts, donc f −1 (H) ∈ B(E), ce qui conclut la preuve. Fonctions mesurables à valeurs vectorielles Proposition 3.20.– Soit d ∈ N? et soient X1 , · · · , Xd une collection de fonctions de Ω dans R. On définit X : Ω → Rd par X(ω) = (X1 (ω), · · · , Xd (ω)). Les propositions suivantes sont équivalentes : a) X1 , · · · , Xd sont des fonctions F/B(R)-mesurables ; CHAPITRE 3. ELÉMENTS DE THÉORIE DE LA MESURE 54 b) X est une fonction F/B(Rd )-mesurable. d Preuve : a)⇒b). Puisque B(R de vérifier Qd) est la tribu engendrée par les pavés, il suffit Q −1 −1 ( que X (H) ∈ F pour H = H , où H est un intervalle réel. Or X k k=1 k k Hk ) = T −1 k Xk (Hk ) est bien un élément de F comme intersection d’éléments de F. b)⇒a) Donnons la preuve pour X1 . Pour tout intervalle ]a, b[, l’ensemble X1−1 (]a, b[) est l’image réciproque par X de ]a, b[×R×· · ·×R qui appartient à B(Rd ). Donc X1−1 (]a, b[) ∈ F, ce qui montre que X1 est mesurable. 3.4.3 Opérations usuelles sur les fonctions mesurables D’après le paragraphe précédent, si X1 , · · · , Xd sont des fonctions mesurables et si f est continue, alors f (X1 , · · · , Xd ) est mesurable. On en déduit immédiatement la propriété suivante. Proposition 3.21.– Si X, Y sont des fonctions mesurable sur R, alors X + Y , XY , X ∨ Y , X ∧ Y sont des fonctions mesurables. Nous allons maintenant montrer que si (Xn )n est une suite de fonctions mesurables, alors le sup et l’inf de la suite sont aussi des variables aléatoires. Bien sûr, le sup d’une suite réelle n’est pas forcément fini. Pour donner un sens à supn Xn et inf n Xn en tant que variables aléatoires, nous devons dorénavant nous placer sur R. Notons qu’on peut sans difficulté étendre la tribu de Borel à R (voir le paragraphe 3.4.4). Soit (Xn )n∈N une suite de variables aléatoires sur R. On désigne par respectivement par supn Xn , inf n Xn , limn Xn les fonctions définies sur R par ω 7→ supn Xn (ω), ω 7→ inf n Xn (ω) et, lorsqu’une telle fonction existe, ω 7→ limn Xn (ω). Proposition 3.22.– Soit (Xn )n∈N une suite de fonctions mesurables sur R. a) supn Xn , inf n Xn sont des fonctions mesurables sur R. b) Si limn Xn existe, c’est une fonction mesurable sur R. Preuve : a) Posons X := supn Xn . B(R) est la tribu engendrée par les intervalles [−∞, b] T où b ∈ R. On laisse au lecteur le soin de vérifier que X −1 ([−∞, b]) = n Xn−1 ([−∞, b]). Ainsi, X −1 ([−∞, b]) est dans F comme intersection dénombrable d’éléments de F. D’après le critère de mesurabilité du paragraphe précédent, X est mesurable. Pour montrer que inf n Xn est mesurable, il suffit d’écrire inf n Xn = − supn (−Xn ). b) On écrit limn Xn (ω) = lim supn Xn (ω) = limn supk≥n Xk (ω) = inf n supk≥n Xk (ω). Or pour tout n, Yn := supk≥n Xk est mesurable d’après le point a). Toujours d’après a), limn Xn = inf n Yn est bien mesurable comme inf d’une suite de fonctions mesurables. CHAPITRE 3. ELÉMENTS DE THÉORIE DE LA MESURE 3.4.4 55 Compléments ∗ Tribu de Borel sur un espace topologique La proposition 3.6 indique que nous aurions pu définir la tribu de Borel sur Rd comme la tribu engendrée par les ouverts de Rd (c’est d’ailleurs la définition utilisée dans le cours MDI-103). On peut ainsi étendre la notion de tribu de Borel à n’importe quel espace topologique. Définition 3.9.– La tribu de Borel B(Ω) sur un espace topologique quelconque Ω est la tribu engendrée par les ouverts. Dans ce cours, nous utiliserons assez fréquemment la tribu de Borel B(R) sur R = R ∪ {−∞, +∞}. Rappelons qu’une base de la topologie sur R est formée par les intervalles de la forme ]a, b[, ]a, +∞] et [−∞, b[. Dès lors, il n’est pas difficile de montrer que les élements de B(R) sont exactement les ensembles de la forme H, H ∪ {+∞}, H ∪ {−∞}, H ∪ {−∞, +∞} où H ∈ B(R). On en déduit aussi que B(R) est la tribu engendrée par les intervalles de la forme [−∞, b] pour b décrivant R. Définition 3.10.– Si E est une partie quelconque d’un espace topologique Ω, la classe d’ensembles {U ∩ E : U ouvert de Ω} forme une topologie, appelée la topologie induite sur E. Par exemple, la tribu de Borel sur l’intervalle [0, 1], notée B([0, 1]) est la tribu engendrée par la topologie induite sur [0, 1]. On peut montrer qu’elle coïncide avec les ensembles de la forme H ∩ [0, 1] où H ∈ B(R). On peut définir de même les tribus de Borel sur R+ , R+ , etc. Théorème π-λ Ce paragraphe est consacrée à la preuve du théorème 3.4.4. Elle peut être omise en première lecture. Nous aurons besoin d’un lemme préliminaire. Lemme 3.23.– Une classe qui est à la fois un π-système et un λ-système est une tribu. Preuve : Soit C une telle classe. Il suffit juste de vérifier que C est stable par union dénombrable. Soit (An )n une suite dans C. On définit Sla suite(Bn )n par récurrence de la manière suivante : B1 = A1 et Bn+1 = An+1 \ k≤n Ak . Pour tout n, Bn ∈ C S comme intersection finie d’éléments du π-système C. Donc n Bn ∈ C comme union dénombrable d’éléments deux à deux disjoints du λ-système C. On vérifie facilement que S S n An = n Bn , ce qui conclut la preuve. Soit P un π-système et L un λ-système tels que P ⊂ L. Soit L0 l’intersection de tous les λsystèmes contenant P. Nous montrons plus bas que L0 est à la fois un π et un λ-système. Grâce au lemme précédent, c’est donc une tribu. Puisque P ⊂ L0 , nous avons donc σ(P) ⊂ L0 . Et par conséquent, σ(P) ⊂ L et le théorème π-λ est donc démontré. Preuve de l’affirmation « L0 est un λ-système ». T On désigne par L l’ensemble de tous les λ-systèmes contenant P : L0 = `∈L `. Montrons que L0 CHAPITRE 3. ELÉMENTS DE THÉORIE DE LA MESURE 56 T est un λ-système. i) Pour tout ` ∈ L, nous avons Ω ∈ `. Donc Ω ∈ `∈L `. ii) Soit A ∈ TL0 . Pour c c tout ` ∈ L, nous avons A ∈ ` et donc A ∈ ` puisque ` est un λ-système. Donc A ∈ `∈L `. iii) Soit (An )n une suite d’éléments de L0 S deux à deux T disjoints. Tout λ-système ` ∈ L contient la suite et donc contient son union. Donc n An ∈ `∈L `. Finalement, L0 est un λ-système. Preuve de l’affirmation « L0 est un π-système ». Pour tout A ∈ P, soit LA la classe des ensembles B vérifiant A ∩ B ∈ L0 . Lemme 3.24.– Pour tout A ∈ P, LA est un λ-système. Preuve : Soit A ∈ P. i) On a A ∩ Ω = A ∈ L0 , donc Ω ∈ LA . ii) Si B ∈ LA i.e., A ∩ B ∈ L0 . Comme A ∈ L0 et comme L0 est un λ-système, Ac ∈ L0 . Toujours parce que L0 est un λ-système, l’union disjointe Ac ∪ (A ∩ B) = Ac ∪ B est dans L0 . Par passage au complémentaire, A ∩ B c ∈ L0 et donc B ∈ LA . iii) Soit (Bn )n une suite d’ensembles S disjoints satisfaisant A ∩ Bn ∈ L0 pour tout n. L’union n (A ∩ Bn ) est dans L0 car c’est une union disjointe. Elle est égale à A ∩ (∪n Bn ), donc ∪n Bn ∈ LA . Lemme 3.25.– Pour tout A ∈ L0 , on a L0 ⊂ LA . Preuve : Commençons par montrer que l’inclusion est vraie pour tout A ∈ P. Pour tout A, B ∈ P, nous avons A ∩ B ∈ P et donc B ∈ LA . Par conséquent, P ⊂ LA . Puisque LA est un λ-système et que puisque L0 est le plus petit λ-système contenant P, on a donc L0 ⊂ LA . Il s’agit maintenant d’étendre l’inclusion aux ensembles A dans L0 . Soient A ∈ L0 et B ∈ P. On a L0 ⊂ LB d’après la preuve ci-dessus, donc A ∈ LB . Cela signifie que A ∩ B ∈ P, autrement dit B ∈ LA . On a donc montré que P ⊂ LA . Pour la même raison que précédemment (LA est un λ-système et L0 est le plus petit λ-système contenant P), on en conclut que L0 ⊂ LA . Soient A, B ∈ L0 . Le lemme précédent implique que B ∈ LA ce qui se lit : A ∩ B ∈ P. Or L0 contient par définition la classe P. Donc A ∩ B ∈ L0 . La classe L0 est un π-système. CHAPITRE 3. ELÉMENTS DE THÉORIE DE LA MESURE 3.5 57 Exercices . Exercice 34. Soit f une fonction de R dans R bornée, croissante, continue à droite. On peut sans restreindre la généralité supposer que f prend ses valeurs dans [0, 1]. 1. Pour n ≥ 1, montrer que l’ensemble {x : f (x) ≥ f (x− ) + 1/n} est de cardinal fini. 2. En déduire que l’ensemble des points de discontinuité de f est au plus dénombrable. . Exercice 35. Soit X une v.a.r. sur (Ω, F, P) de fonction de répartition FX . 1. Démontrer les égalités : P[a < X ≤ b] = FX (b) − FX (a), P[a < X < b] = FX (b− ) − FX (a), P[a ≤ X ≤ b] = FX (b) − FX (a− ). 2. Calculer FX dans les cas suivants : X suit la loi exponentielle de paramètre α, X suit la loi uniforme sur l’intervalle [a, b]. . Exercice 36. Nous dirons qu’une v.a.r. X est symétrique lorsque X et −X ont la même loi. Si X est une v.a.r. de densité f , montrer que X est symétrique si et seulement si f (x) = f (−x) pour tout x hors d’un ensemble négligeable. . Exercice 37. Soit X une v.a.r. à densité et (a, b) ∈ R2 . Exprimer la densité de la v.a.r. Y := aX + b en fonction de la densité de X. . Exercice 38. Soit X ∼ N (0, 1) et Y = X 2 . 1. Calculer la fonction de répartition FY de Y en fonction de celle de X. 2. En déduire que Y admet une densité, que l’on exprimera. . Exercice 39 (Ensemble triadique de Cantor). L’objectif est de construire un ensemble non dénombrable de mesure de Lebesgue nulle. Soit S les éléments de {0, 1, 2}N qui ne se terminent pas par une infinité de 2. 1. Montrer que tout nombre x de [0, 1[ s’écrit de manière unique sous la forme x= +∞ X xn 3−n où (xn , n ≥ 1) ∈ S. n=1 On appelle la suite (xn , n ≥ 1) le développement triadique de x. 2. On appelle C, l’ensemble de Cantor, constitué des réels de [0, 1[ qui n’ont pas de 1 dans leur développement triadique. Montrer que C = ∩∞ n=1 En où les En sont des ensembles que l’on construira (voir la figure 3.2). 3. Montrer que la mesure de Lebesgue de C est nulle. 4. Montrer que C est non dénombrable. 5. Montrer que C c est partout dans [0, 1[ : quel que soit > 0, pour tout x ∈ [0, 1[, il existe y ∈ C c tel que |x − y| < . 6. En déduire que l’intérieur de C est vide. CHAPITRE 3. ELÉMENTS DE THÉORIE DE LA MESURE 0 58 1 1/3 1/9 2/9 2/3 7/9 8/9 Figure 3.2 – Les premières étapes de la construction de l’ensemble de Cantor. . Exercice 40 (Fonction de Cantor). À partir de l’ensemble de Cantor, on va maintenant construire une fonction continue, croissante, nulle en 0, qui vaut 1 en 1 et dont la dérivée est presque-partout nulle... – La fonction f0 est définie par f0 (x) = x. – La fonction f1 est continue, affine par morceaux, est telle que f1 (0) = 0, f1 (1) = 1 et vaut 1/2 sur E1c donc 3 1 x pour x ≤ 2 3 1 1 2 f1 (x) = pour ≤ x ≤ 2 3 3 2 2 1 3 + (x − ) pour x ≥ . 2 2 3 3 – Au rang n, fn est continue, affine par morceaux, égale à j2−n sur le j-ième intervalle de Enc et telle que fn (0) = 0 et fn (1) = 1. 1. Montrer que kfn − fn+1 k∞ ≤ 2−(n+1) . 2. En déduire que la suite (fn , n ≥ 1) est de Cauchy dans l’ensemble des fonctions continues muni de la norme uniforme. Soit f sa limite. 3. Montrer que f est croissante, vaut 0 en 0 et 1 en 1, est dérivable et de dérivée nulle sur C c . . Exercice 41 (Construction d’un ensemble non-mesurable). Soit E = [0, 1] muni de la mesure de Lebesgue notée µ. Pour A ⊂ E\{1} et x ∈ R, on pose τx (A) = {t + x − [t + x], t ∈ A} où [a] est la partie entière de a. CHAPITRE 3. ELÉMENTS DE THÉORIE DE LA MESURE 59 2−(N +1) 3−(N +1) Figure 3.3 – Vue partielle de deux étapes successives dans la construction de la fonction de Cantor. 1. Montrer que si A est mesurable alors τx (A) l’est aussi et µ(τx (A)) = µ(A). 2. Soit R la relation d’équivalence définie par xRy ssi x − y ∈ Q. On construit F en choisissant un et un seul représentant de chaque classe d’équivalence. Montrer que les (τr (F ), r ∈ [0, 1[∩Q) forment une partition de [0, 1] et en déduire que F n’est pas mesurable. . Exercice 42. Montrer qu’une fonction mesurable de (E, {∅, E}) dans (R, B(R)) est constante. Caractériser les fonctions mesurables de (E, {∅, A, Ac , E}) dans (R, B(R)) où A est un sousensemble propre de E. Chapitre 4 Intégration Ce chapitre repose sur le cours d’analyse MDI-103 : les preuves sont par conséquent Romises. Il s’agit de rappels, à une différence près : nous généralisons la notion d’intégrale f vue R en cours d’analyse à l’intégrale f dµ d’une fonction f par rapport à une mesure µ. 4.1 4.1.1 L’intégrale de Lebesgue Notations et conventions Soit (Ω, F) un espace mesurable et µ une mesure sur (Ω, F). On suppose R et R équippés de leurs tribus de Borel. On utilise la convention : 0 × (+∞) = (+∞) × 0 = 0 . Nous dirons qu’un ensemble est µ-négligeable s’il est inclus dans un ensemble A tel que µ(A) = 0. Un événement A ⊂ Ω est dit réalisé µ-presque partout si son complémentaire est µ-négligeable. Nous noterons µ-p.p. ou seulement p.p. lorsqu’il n’y a pas d’ambiguité sur la mesure µ à laquelle on fait référence. Exemple : Si f et g sont deux fonctions mesurables, la proposition “f = g µ-p.p.” signifie que µ([f 6= g]) = 0 . La proposition “f ≤ g µ-p.p.” signifie que µ([f > g]) = 0 . Enfin “fn → f µ-p.p.” signifie que limn fn (ω) = f (ω) pour tout ω hors d’un ensemble µ-négligeable. La notation xn ↑ x signifie que (xn )n est une suite croissante convergeant vers x. On notera 0 ≤ xn ↑ x si en outre (xn )n est positive. 4.1.2 Fonctions simples Définition 4.1.– Une fonction f : Ω → R est appelée une fonction simple, ou étagée, si son image est de cardinal fini et si les ensembles {ω : f (ω) = x} sont dans F pour tout réel x. 60 CHAPITRE 4. INTÉGRATION 61 Une fonction simple est mesurable. Si α1 , · · · , αn sont les valeurs distinctes prises par f et si l’on pose Ak = {ω : f (ω) = αk }, alors : f = α1 1A1 + · · · + αn 1An . (4.1) Proposition 4.1.– Pour toute fonction mesurable positive f : Ω → R, il existe une suite (fn ) de fonctions simples positives telle que fn (ω) ↑ f (ω) pour tout ω ∈ Ω. Preuve : Pour tout ω, on pose fn (ω) = k2−n si k2−n ≤ f (ω) < (k + 1)2−n pour un certain entier k ∈ {0, · · · , n2n − 1}, et fn (ω) = n sinon. La fonction fn est simple : elle prend un nombre fini de valeurs et l’événement [fn = k2−n ] = f −1 ([k2−n , (k + 1)2−n )) est dans F puisque f est mesurable. On laisse au lecteur le soin de vérifier que la suite (fn (ω))n est bien croissante. Comme |fn (ω) − f (ω)| ≤ 2−n , on conclut que fn ↑ f . 4.1.3 Définition de l’intégrale Rappel : Dans le cas particulier où Ω = R et où f ≥ 0, nous savons d’après le cours d’analyse MDI-103 que l’intégrale de la fonction (4.1) s’écrit : Z f = α1 λ1 (A1 ) + · · · + αn λ1 (An ) , (4.2) R où λ1 (A) := 1A est la mesure de Lebesgue sur R. L’expression (4.2) se prête à une généralisation. Définition 4.2 (Intégrale d’une fonction simple positive).– Soit f une fonction simple à valeurs positives. On suppose f donnée par (4.1) où α1 , · · · , αn sont les valeurs distinctes prises par f . L’intégrale de Lebesgue de f par rapport à la mesure µ est définie par : Z f dµ := α1 µ(A1 ) + · · · + αn µ(An ) . Notons que R f dµ est une quantité positive, possiblement infinie. Définition 4.3.– (Intégrale d’une fonction mesurable positive). Soit f : Ω → R une fonction mesurable à valeurs positives. On définit l’intégrale de f par rapport à µ par : Z Z f dµ := sup g dµ : g fonction simple telle que 0 ≤ g ≤ f . Dans le cas où f est elle-même une fonction simple, on vérifie sans peine que cette définition coïncide avec la précédente. CHAPITRE 4. INTÉGRATION 62 Définition 4.4.– (Intégrale d’une fonction mesurable). Soit f : Ω → R uneR fonction + − + mesurable. R − Les fonctions f = f ∨0, f = (−f )∨0 sont mesurables, positives. Si f dµ < ∞ ou f dµ < ∞, on définit l’intégrale de f par rapport à µ par : Z Z Z + f dµ := f dµ − f − dµ , R R R et on dit que f dµ est bien définie. Si en outre, f + dµ < ∞ et f − dµ < ∞, on dit que f est intégrable par rapport à µ. On note L1 (µ) l’ensemble des fonctions mesurables intégrables par rapport à µ. R R R Remarque : On note parfois f dµ sous la forme f (ω) dµ(ω) ou f (ω) µ(dω) ou µ(f ). R Exemple : L’intégrale f dµ ainsi définie peut être vue comme une extension de l’intégrale R f vue en cours d’analyse. En particulier, lorsque f est une fonction sur Rd et µ = λd est la mesure de Lebesgue sur R, on a bien Z Z f dλd = f , où le membre de droite est l’intégrale définie en cours d’analyse MDI-103. Il se fait que R l’intégrale f dµ hérite de toutes les propriétés de l’intégrale vues en cours d’analyse. Ces propriétés sont rappelées ci-dessous. 4.2 Propriétés Dans ce paragraphe, f , g et (fn )n désignent des fonctions mesurables de Ω dans R. Proposition 4.2.– Soient f , g des fonctions mesurables dont les intégrales sont définies. On a les propriétés suivantes : R R i ) Si f ≤ g µ-p.p., alors f dµ ≤ gdµ ; R R ii ) Si f = g µ-p.p., alors f dµ = gdµ ; R R iii ) f ≤ |f | . Notons que la troisième propriété est une conséquence immédiate de la première, où l’on a remarqué que f ≤ |f | et −f ≤ |f |. Proposition 4.3.– Soit f : Ω → R une fonction à valeurs positive (f ≥ 0). Alors, Z f dµ = 0 ⇔ f = 0 µ-p.p. Théorème 4.4.– (Théorème de convergence monotone). Si 0 ≤ fn ↑ f µ-p.p., alors : Z Z fn dµ ↑ f dµ . CHAPITRE 4. INTÉGRATION 63 R P P R On a le corollaire suivant : si fn ≥ 0 µ-p.p., alors ( n fn )dµ = n fn dµ . Proposition 4.5.– (Linéarité). Soient f, g ∈ L1 (µ). Pour tout (α, β) ∈ R2 , Z Z Z (αf + βg)dµ = α f dµ + β g dµ . En utilisant cette propriété avec le fait que |f | = f + + f − , on en déduit qu’une fonction f est intégrable si et seulement si : Z |f | dµ < ∞ . La propriété suivante est une application immédiate du théorème de convergence monotone : Proposition 4.6.– Si (fn )n est une suite de fonctions mesurables positives, alors : ∞ Z X n=1 fn dµ = Z X ∞ fn dµ . n=1 Théorème 4.7.– (Lemme de Fatou). Si fn ≥ 0 pour tout n, alors : Z Z lim inf fn dµ ≤ lim inf fn dµ . n n Théorème 4.8.– (Théorème de convergence dominée). Supposons que fn → f µ-p.p. et que |fn | ≤ g µ-p.p. pour tout n, où g ∈ L1 (µ). Alors f est intégrable et : Z Z lim fn dµ = lim fn dµ . n n Caractérisation des mesures de probabilités Le théorème suivant donne une caractérisation des mesures finies (et en particulier des mesures de probabilité). Théorème 4.9.– Soient µ et ν deux mesures finies sur (Rd , B(Rd )). Les conditions suivantes sont équivalentes : a) µ = ν. R R b) pour toute fonction f continue à support compact, f dµ = f dν . R R c) pour toute fonction f continue bornée, f dµ = f dν . R R d ) pour toute fonction f mesurable positive, f dµ = f dν . CHAPITRE 4. INTÉGRATION 64 Preuve∗ : a) ⇒ b,c,d). Immédiat. R R R d) ⇒ c). Soit f continue bornée. Par définition, f dµ = f + dµ − f − dµ : il suffit donc d’appliquer d) à f + et f − qui sont bien des fonctions mesurables positives. c) ⇒ b). Immédiat. b) ⇒ a). Soit A =]a1 , b1 [× · · · ×]ad , bd [ un pavé de Rd et fn la fonction continue à support compact égale (1 − nd(x, A))+ où d(x, A) désigne la distance de x à A : fn vaut 1 sur A et vaut 0 en tout point x tel que d(x, A) ≥ 1/n. Comme 0 ≤ fn ↑ 1A , le théorème R R de convergence monotone implique fn dµ → µ(A) et fn dν → ν(A). Par conséquent, µ(A) = ν(A) et µ et ν coïncident sur le π-système formé par les pavés. Ce π-système engendre B(Rd ). Or on sait d’après le théorème 3.13 que deux mesures qui coïncident sur un π-système, sont égales sur la tribu engendrée par ce dernier, ce qui conclut la preuve. Nous verrons au chapitre 6 une dernière caractérisation des mesures de probabilité, fondée sur la fonction caractéristique. 4.3 Exemple : cas des mesures discrètes On rappelle qu’une mesure discrète est une mesure de la forme : X αi δai , µ= i∈I où I est un ensemble au plus dénombrable, ai ∈ Ω et αi ≥ 0 pour tout i. Proposition 4.10.– Soit µ la mesure définie P ci-dessus et f : Ω → R une fonction 1 mesurable. Alors f ∈ L (µ) si et seulement si i∈I αi |f (ai )| < ∞. Dans ce cas, Z X αi f (ai ) . f dµ = i∈I De plus, l’égalité ci-dessus est vraie pour toute fonction f mesurable positive. PreuveP: On peut se ramener sans difficulté à I = N? . Considérons le cas f ≥ 0. Posons fn =R i≤n f (aP i )1{ai } . Il s’agit d’unePfonction simple dont l’intégrale vaut par définition fn dµ = i≤n f (ai )µ({ai }) = i≤n f (ai )αi . Pour tout ω fixé dans {a1 , a2 , · · · }, (fn (ω))n est une suite croissante convergeant vers f (ω). ↑ f µ-p.p., et le théoR R Donc fnP rème de convergence monotone implique f dµ = limn fn dµ = ∞ i=1 f (ai )αi . R Considérons maintenant le cas général. La fonction f ∈ L1 (µ) si et seulement si |f |dµ < P ∞ ce qui équivaut à ∞ i=1 |f (ai )|αi < ∞ d’après la première partie de la preuve. Dans ce cas, la suite fn définie ci-dessus est dominée par la fonction intégrable |f | et converge R R vers f µ-p.p. Le théorème de convergence dominée implique que f dµ = limn fn dµ, ce qui conduit à nouveau au résultat voulu. CHAPITRE 4. INTÉGRATION 65 Lorsque la mesure discrète µ est réduite à une seule mesure de Dirac δa , nous obtenons le corollaire suivant : pour toute fonction mesurable f , Z f dδa = f (a) . 4.4 4.4.1 Espaces produit et théorème de Fubini Tribu produit Dorénavant, on se donne deux espaces mesurables (E, E) et (F, F). Définition 4.5.– La tribu produit des espaces (E, E) et (F, F) est définie comme la tribu sur E × F engendrée par les ensembles de la forme A × B où A ∈ E et B ∈ F. On la note E ⊗ F. Naturellement, E ⊗ F ne se limite pas aux ensembles de la forme A × B. Il ne s’agit donc pas d’un produit cartésien au sens usuel. Proposition 4.11.– B(R) ⊗ B(R) = B(R2 ) . Preuve∗ : Tout produit cartésien d’intervalles A × B est dans la tribu B(R) ⊗ B(R) donc B(R2 ) ⊂ B(R) ⊗ B(R) . On montre l’autre inclusion. Si A est un intervalle, on vérifie que {B : A × B ∈ B(R2 )} forme une tribu sur R : la preuve est laissée à titre d’exercice. Cette tribu contient les intervalles et donc contient B(R). Autrement dit, pour tout B ∈ B(R), l’ensemble {A : A × B ∈ B(R2 )} contient tous les intervalles. Comme il s’agit là encore d’une tribu, cet ensemble contient B(R). On a finalement montré que pour tout A ∈ B(R), B ∈ B(R), A × B ∈ B(R2 ). Donc B(R) ⊗ B(R) ⊂ B(R2 ) . Nous achevons ce paragraphe par un lemme technique. Lemme 4.12.– Soit f : E × F → R une fonction E ⊗ F-mesurable. Pour tout x ∈ E, la fonction y 7→ f (x, y) est F-mesurable. Pour tout y ∈ F , la fonction x 7→ f (x, y) est E-mesurable. Preuve : Pour x fixé, on définit la fonction Tx : y 7→ (x, y) de F dans E × F . Pour tout A ∈ E et B ∈ F, Tx−1 (A × B) vaut B si x ∈ A et vaut ∅ sinon, et donc appartient à F dans tous les cas. Puisque la classe des ensembles A×B engendre E ⊗F, Tx est mesurable d’après le paragraphe ?? et donc Tx−1 (G) ∈ F. Donc Tx est F/(E ⊗ F)-mesurable. La fonction y 7→ f (x, y) s’écrit comme la composée f ◦ Tx . de deux fonctions mesurables. Elle est donc mesurable. CHAPITRE 4. INTÉGRATION 4.4.2 66 Mesure produit Définition 4.6.– Une mesure µ sur (E, E) est dite σ-finie s’il existe une partition dénombrable (An )n de E telle que pour tout n, µ(An ) < ∞. Remarque : Tout mesure finie (et a fortiori toute mesure de probabilité) est σ-finie. La mesure de Lebesgue sur R est une mesure σ-finie (choisir la partition An = [n, n + 1[ pour n décrivant Z) bien qu’elle ne soit pas une mesure finie. Proposition 4.13.– Soient µ et ν deux mesures σ-finies sur (E, E) et (F, F) respectivement. Il existe une unique mesure sur E ⊗ F, appelée mesure-produit et notée µ ⊗ ν telle que : pour tout A ∈ E, B ∈ F : µ ⊗ ν(A × B) = µ(A) . ν(B) . (4.3) Preuve∗ : On se contente de donner la preuve dans le cas où µ, ν sont des mesures finies. Unicité. Soient π1 et π2 deux mesures sur E ⊗ F satisfaisant (4.3). La classe L formée par les éléments de E ⊗ F sur lesquels π1 et π2 coïncident, forme un λ-système. La classe P d’ensembles de la forme A × B pour A ∈ E, B ∈ F, forme un π-système inclus dans L. D’après le théorème π-λ, σ(P) ⊂ L. Comme par définition σ(P) = E ⊗ F, les mesures π1 et π2 sont égales. Existence. On construit cette mesure. Pour tout G ∈ E ⊗ F, elle vaut : Z Z µ ⊗ ν(G) := 1G (x, y) dν(y) dµ(x) . (4.4) Il faut avant tout justifier que la définition ci-dessus à un sens avant de vérifier la propriété annoncée. On doit donc démontrer les points suivants : a) pour tout x ∈ E fixé, la fonction y 7→ 1G (x, y) est F-mesurable ; b) la fonction x 7→ ν ({y : (x, y) ∈ G}) est E-mesurable ; c) µ ⊗ ν est une mesure sur E ⊗ F ; d) cette mesure satisfait la propriété (4.3) annoncée. L’affirmation a) est une conséquence directe du lemme du paragraphe 4.4.1. Il reste à vérifier les points b), c), d). b) Soit L la classe d’ensembles G ∈ E⊗F tels que la fonction fG : x 7→ ν ({y : (x, y) ∈ G}) est E-mesurable. On montre que L est un λ-système. i) Comme fE×F est une fonction constante égale à ν(F ), E × F ∈ L. ii) Soit G tel que fG est E-mesurable. On a ν(F ) = ν{y : (x, y) ∈ G} + ν{y : (x, y) ∈ Gc } et donc, puisque ν(F ) est finie, fG = ν(F ) − fGc . Ainsi, fG est mesurable comme différence de deux fonctions fonctions mesurables P finies. iii) Si (Gn )n est une famille d’ensembles deux à deux disjoints, f∪n Gn = n fGn est mesurable comme limite d’une suite de fonctions mesurables. Nous avons bien montré que L est un λ-système. Pour tout A ∈ E et B ∈ F, fA×B (x) = ν(B)1A (x) est mesurable. Donc L contient le π-système formé par la classe P des ensembles de la forme A × B. Par le théorème π-λ, L contient σ(P) = E ⊗ F. Finalement, fG est mesurable pour tout G ∈ E ⊗ F ce qui montre le point b). c) On vérifie la σ-additivité de µ⊗ν. R PSoit (Gn )n une suite d’éléments deux à deux disjoints de E ⊗ F. On a µ ⊗ ν (∪n Gn ) = n fGn dµ où fG est la fonction définie ci-dessus. Par CHAPITRE 4. INTÉGRATION 67 P R P le théorème de convergence monotone, µ ⊗ ν (∪n Gn ) = n fGn dµ = n µ ⊗ ν(Gn ). Donc µ ⊗ ν est bien une mesure. R R d) La propriété est satisfaite : µ ⊗ ν(A × B) = fA×B dµ = ν(B)1A dµ = ν(B)µ(A). Remarque∗ : La preuve précédente est constructive. Nous disposons d’une expression explicite de la mesure produit grâce à (4.4). n.b. : On aurait tout aussi bien pu poser : Z Z µ ⊗ ν(G) = 1G (x, y) dµ(x) dν(y) . (4.5) En inversant les rôles joués par µ et ν, la preuve ci-dessus permet de montrer que le membre de droite de (4.5) est une mesure satisfaisant la propriété (4.3). Et par unicité de cette mesure, nous obtenons comme sous-produit de la preuve précédente que les membres de droite des équations (4.4) et (4.5) sont égaux. La mesure de Lebesgue sur R2 satisfait λ2 (A × B) = λ1 (A)λ1 (B). Elle est donc égale à la mesure produit λ1 ⊗ λ1 . 4.4.3 Théorème de Fubini Théorème 4.14.– les fonctions i ) Soit f : E × F → R+ une fonction (E ⊗ F)-mesurable. Alors Z Z x 7→ f (x, y) dν(y) et y 7→ f (x, y) dµ(x) F F sont mesurables. De plus, on a l’égalité : Z Z Z Z Z f d(µ ⊗ ν) = f (x, y) dν(y) dµ(x) = f (x, y) dµ(x) dν(y) . E×F E F F E (4.6) ii ) Soit f : E × F → R une fonction (E ⊗ F)-mesurable telle que Alors les affirmations du point i) sont satisfaites. R |f | dµ ⊗ ν < ∞. Preuve∗ : On donne la preuve du point i). Soit G ∈ E ⊗ F. Le résultat est déjà déR montré dans le cas où f = 1G . La mesurabilité de x 7→ F f (x, y) dν(y) est une conséquence du point b) de la preuve d’existence de la mesure-produit. L’égalité (4.6) est obtenue par identification des égalités (4.4) et (4.5). Soit f : E × F → R+ une fonction mesurable et soit fn ↑ f une suite de fonctions simples positives convergeant vers R R P P f . On pose fn =: k αk 1Gk . Pour tout x, F fn (x, y) dν(y) = k αk 1Gk (x, y) dν(y) R est mesurable comme somme de fonctions mesurables et converge vers F f (x, y) dν(y) R par le théorème de convergence monotone. Donc x 7→ F f (x, y) dν(y) est mesurable R R P comme limite de fonctions mesurables. De plus, fn d(µ ⊗ ν) = k αk 1Gk d(µ ⊗ ν) = R R R R R P fn d(µ ⊗ ν) = ( fn (x, y)dν(y))dµ(x). En apk αk ( 1Gk (x, y)dν(y))dµ(x). Donc pliquant le théorème de convergence monotone aux deux membres de cette égalité, on CHAPITRE 4. INTÉGRATION 68 R R R obtient f d(µ ⊗ ν) = ( f (x, y)dν(y))dµ(x). En inversant les rôles de µ et ν dans la R R R preuve, on montre de même que f d(µ ⊗ ν) = ( f (x, y)dµ(x))dν(y). La preuve du point ii) est fondée sur la décomposition f = f + − f − et l’application du point i) à f + et f − respectivement. 4.4.4 Produit d’ordre supérieur Soient (E1 , E1 , µ1 ), · · · , (Ed , Ed , µd ) des espaces mesurés, où les mesures µ1 , · · · , µd sont σfinies. L’espace produit E1 ⊗ · · · ⊗ Ed , aussi noté E ⊗d si tous les Ei coïncident Q avec E, est la tribu sur E1 × · · · × Ed engendrée par les produits cartésiens de la forme di=1 Ai où Ai ∈ Ei . On peut démontrer que : B(Rd ) = B(R)⊗d . N Théorème 4.15.– Il existe une unique mesure sur E1 ⊗ · · · ⊗ Ed , notée di=1 µi , telle que pour tout Ai ∈ Ei , d d O Y µi (A1 × · · · × Ad ) = µi (Ai ) . i=1 i=1 Q Théorème 4.16.– Pour toute fonction mesurable f : i Ei → R positive ou integrable N par rapport à di=1 µi et pour toute permutation (i1 , · · · , id ) de {1, · · · , d} : ! ! Z Z Z d O f (x1 , · · · , xd )dµi1 (xi1 ) · · · dµid (xid ) . ··· fd µi = i=1 Eid Ei1 Chapitre 5 Variables et vecteurs aléatoires réels 5.1 5.1.1 Généralités Loi d’une variable aléatoire On se place sur un espace de probabilité (Ω, F, P). Soit (E, E) un espace mesurable. Définition 5.1.– Une variable aléatoire X sur E est une application mesurable de Ω dans E. Grâce à la notion de mesurabilité, nous assurons que les événements du type « X appartient à H » sont bien des événements de la tribu F, c’est-à-dire des sous-ensembles de Ω dont nous pouvons évaluer la probabilité. La théorie de la mesure fournit le cadre mathématique nécessaire à la construction d’une théorie complète des probabilités (voir également la table 5.1). Lorsque l’ensemble d’arrivée est une partie de R ou de R = R ∪ {−∞, +∞}, on parle de variable aléatoire réelle (en abbréviation, v.a.r.). Lorsque l’ensemble d’arrivée est une partie de Rd avec d ≥ 2, on parle de vecteur aléatoire ou de variable aléatoire multivariée. Une quantité scalaire ou vectorielle a constante par rapport à ω est parfois qualifiée de déterministe. Définition 5.2.– On appelle loi de la v.a. X la fonction PX définie par : PX : E → [0, 1] H 7→ P(X −1 (H)) . En écriture plus compacte, PX := P ◦ X −1 . Une autre manière d’écrire cette définition est : PX (H) := P[X ∈ H] . Autrement dit, PX (H) est la probabilité pour que X appartienne à H. 69 CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS 70 Proposition 5.1.– PX est une mesure de probabilité sur (E, E). Preuve : On vérifie les axiomes i) et ii) que doit satisfaire une mesure de probabilité. i) PX (E) = P(X −1 (E)) = P(Ω) = 1 et PX (∅) = P(X −1 (∅)) = P(∅) = 0. S ii) Soit (Hn )n∈N? une famille d’éléments de E deux à deux disjoints. On a X −1 ( n Hn ) = S −1 (H ) et on montre aisément que les événements (X −1 (H )) sont deux à deux n n nX disjoints. Ainsi en appliquant P aux deux membres de l’égalité précédente, on obtient S S P PX ( n Hn ) = P( n X −1 (Hn )) = n P(X −1 (Hn )). 5.1.2 Discussion En pratique, on s’intéresse le plus souvent à des probabilités de la forme P[X ∈ H] = PX (H) où X est une v.a. et H un ensemble. Ainsi, on manipule la loi PX = P ◦ X −1 bien plus souvent que la probabilité P elle-même. Or PX est une probabilité sur l’espace où X prend ses valeurs. De ce fait, dans les problèmes que nous rencontrerons, l’espace de probabilité (Ω, F, P) n’est souvent pas spécifié. Il s’agit d’un espace abstrait, suffisamment riche pour modéliser le problème d’intérêt, mais sans nécessairement de signification « physique » en rapport avec l’expérience décrite. Par exemple, nous rencontrerons fréquemment des énoncés qui débutent par une phrase du type : « Soit X une variable aléatoire de Bernoulli de paramètre p sur {0, 1} ». Un tel énoncé suppose implicitement la donnée d’un espace de probabilité (Ω, F, P) tel que X est une v.a. sur cet espace et tel que PX est une mesure de probabilité de Bernoulli, c’est-à-dire PX ({1}) = p, PX ({0}) = 1 − p. Toutefois, cet énoncé ne précise ni la nature de (Ω, F, P), ni l’expression de X(ω) en fonction de ω : cela est sans importance du moment que PX est la loi voulue. Spécifier Ω n’est d’aucune utilité. Si nous tenions malgré tout à le faire, nous aurions maintes possibilités. Dans l’exemple précédent, nous pourrions naturellement poser Ω = {0, 1}, P la probabilité de Bernoulli et X(ω) = ω. Mais nous pourrions tout aussi bien choisir pour Ω l’intervalle [0, 1], pour P la mesure de Lebesgue sur [0, 1] et poser X(ω) = 1[0,p] (ω). Dans les deux cas, on pourra vérifier que X est bien une v.a. de Bernoulli de paramètre p : peu importe donc la solution choisie. 5.2 Variables aléatoires réelles Dans ce paragraphe, on traite le cas de variables aléatoires X à valeurs dans E = R muni de la tribu de Borel. 5.2.1 Fonction de répartition Comme PX est une mesure sur R, on sait qu’elle est totalement caractérisée (voir ??) par les valeurs de PX (] − ∞, b]) pour b parcourant R. CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS 71 Définition 5.3.– Soit X une v.a.r., la fonction FX : R −→ [0, 1] x 7−→ PX (] − ∞, x]) = P(X ≤ x) s’appelle la fonction de répartition de X. En vertu des propriétés de monotonie des mesures (voir exercice ??), FX possède les propriétés suivantes : – limx→−∞ FX (x) = 0, – limx→+∞ FX (x) = 1, – FX est croissante, continue à droite, i.e., limy↓x FX (y) = FX (x). Remarque.– Réciproquement, toute fonction satisfaisant ces propriétés est la fonction de répartition d’une v.a.r., voir chapitre ??. On a, d’après les propriétés de monotonie des mesures (exercice ??), [ 1 FX (x− ) = lim P( n = 1∞] − ∞, x − ]) = PX (] − ∞, x[). n→+∞ n Par conséquent, FX (x− ) = PX (] − ∞, x[) et donc FX (x) − FX (x− ) = P(X = x). En d’autres termes, si FX est continue en x, P(X = x) = 0. Comme FX est bornée, le nombre de ces points de discontinuité est au plus dénombrable (voir exercice 34). Soit {xn , n ∈ N∗ } ces points. On peut alors parler de FXc , la régularisée de FX : ∞ X c FX (xn ) − FX (xn− ) 1[xn , +∞[ (x). FX (x) = FX (x) − n=1 = FX (x) − ∞ X ∆FX (x)1[xn , +∞[ (x). n=1 La fonction FXc est continue et croissante par définition. Elle est d’après un théorème de Lebesgue, dérivable sauf sur un ensemble de mesure de Lebesgue nulle. Dans la suite, nous ne nous préoccuperons pas de savoir ce qui se passe si elle n’est pas dérivable en tout point. Théorème 5.2.– Soit X une v.a.r. de fonction de répartition FX . Si FXc est dérivable sur R, alors ∞ X dPX (x) = ∆FX (xi )δxi + (FXc )0 (x)dx. (5.1) n=1 Si FX est continue alors dPX (x) = (FXc )0 (x)dx et (FXc )0 s’appelle la densité de la loi de X. CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS 72 Démonstration. Remarquons que 1[x, +∞[ (x) = δxn (] − ∞, x]), puisque le terme de gauche ne vaut 1 que si x ≥ xn , soit de manière équivalente xn ∈ ] − ∞, x]. Si FXc est dérivable en tout point alors on a FX (x) = FXc (x) + ∞ X ∆FX (x)1[xn , +∞[ (x) n=1 soit Z ∞ X x (FXc )0 (s)ds P(X ∈] − ∞, x]) = + −∞ ∆FX (xi )δxi (] − ∞, x]). n=1 Les deux mesures de part et d’autre de l’égalité (5.1) coïncident donc sur les ensembles de la forme ] − ∞, x] pour tout x réel. C’est suffisant (cf. théorèmes de classe monotone 3.13) pour assurer que ces deux mesures sont égales. 5.2.2 Variables aléatoires réelles à densité Lorsque FX est dérivable donc a fortiori continue, FX = FXc et dPX (x) = FX0 (x)dx. On dit que PX admet FX0 pour densité, on dit de manière raccourcie que X est de densité FX0 . Réciproquement, si l’on se donne une v.a.r. de densité f , i.e. si f est supposée satisfaire la relation Z P[X ∈ H] = f. H En posant H = ] − ∞, x], on en déduit que la fonction de répartition de X est l’intégrale de la densité : Z x FX (x) = f . (5.2) −∞ Notons bien que la condition « FX est de classe C 1 » est suffisante, mais pas nécessaire pour que la loi de X soit à densité. D’ailleurs, les fonctions FX rencontrées en pratique ne sont pas toujours de classe C 1 et peuvent néanmoins admettre une densité. Le paragraphe suivant fournit une condition nécessaire et suffisante. CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS 73 Conditions d’existence d’une densité∗ Une fonction F est dite absolument continue si pour tout > 0, il existe δ > 0 tel que pour toute suite finie d’intervalles disjoints [a1 , b1 ], · · · , [ap , bp ], p X (bk − ak ) < δ ⇒ k=1 p X |F (bk ) − F (ak )| < . k=1 Le résultat suivant est admis (voir [Bil95, Théorèmes 31.7 et 31.8]). Théorème 5.3.– Les trois propositions suivantes sont équivalentes : i ) X admet une densité ; ii ) FX est absolument continue ; iii ) PX (A) = 0 pour tout ensemble négligeable A ∈ F . 5.2.3 Retour sur les variables discrètes Soit X : Ω → R une variable aléatoire prenant ses valeurs dans un ensemble au plus dénombrable, disons par exemple : X(Ω) =: {x1 , x2 , x3 , · · · } ⊂ R . Bien que l’espace d’arrivée R ne soit pas discret, X(Ω) l’est, et on ne perdrait guère à restreindre le domaine d’arrivée de X à {x1 , x2 , · · · } plutôt que R. C’est pourquoi nous utiliserons le terme de variable aléatoire discrète pour désigner X. Le chapitre 2 suffit donc à étudier ce type de v.a. sans qu’il soit besoin d’avoir recours aux notions nouvelles de théorie de la mesure que nous venons d’introduire. Nul besoin par exemple de donner la fonction de répartition pour caractériser la loi de X : nous savons déjà que la donnée des seuls coefficients P[X = xk ] suffit. Toutefois, il est intéressant, à titre d’exercice, de voir comment le formalisme général présenté dans ce chapitre permet de couvrir le traitement des variables discrètes, et de comprendre ce que deviennent les notions de loi et de fonction de répartition dans ce cas particulier. Proposition 5.4.– La loi Px est donnée par : X PX = P[X = xk ] δxk . k≥1 S P Preuve : PX (H) = PX (H ∩ X(Ω)) = PX ( k H ∩ {xk }) = k PX (H ∩ {xk }). Or PX (H ∩ {xk }) est égal à PX (xk ) si xk ∈ H, à 0 sinon. Donc PX (H ∩ {xk }) = PX (xk )δxk (H). CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS 74 La fonction de répartition est donnée par : X FX (x) = P[X = xk ] 1[xk ,+∞[ (x) . k≥1 Il s’agit donc d’une fonction en escalier, dont l’amplitude des sauts est donnée par les coefficients P[X = xk ]. On note que X n’admet pas de densité puisque FX est discontinue. Dans le cas particulier où X est une v.a. constante, disons X(ω) = a pour tout ω, la loi de X coïncide avec un Dirac au point a. Une telle loi est dite dégénérée. La fonction de répartition associée est un échelon : FX = 1[a,+∞[ . 5.2.4 Espérance et moments Introduction Au chapitre 2, nous avons défini l’espérance E(X) d’une v.a.r. discrète X ∈ {x1 , x2 , · · · } comme le barycentre des xk pondérés par la « masse » P[X = xk ] : X xk P[X = xk ] . k Cette définition est très spécifique au cas discret, et il nous faut maintenant la généraliser. Par exemple, si X est une v.a.r. de densité fX , la notion précédente de barycentre devient : Z x fX (x)dx , R et on pourrait ainsi définir l’espérance d’une v.a. à densité, en remplaçant la somme par une intégrale, et la loi discrète par la densité. Cette seconde définition resterait elle aussi très spécifique au cas des variables à densité. Le chapitre 4 permet de fournir une définition générale de l’espérance qui admet les deux exemples ci-dessus comme cas particuliers. Définition Soit (Ω, F, P) un espace de probabilité et X : Ω → R une variable aléatoire. Définition 5.4.– L’espérance de la v.a. X est définie par : Z E(X) := XdP . Il s’agit donc de l’intégrale de X, vue comme fonction sur Ω, par rapport à la mesure de probabilité P. CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS Terminologie « analyse » Fonction mesurable Mesure Intégrale R Terminologie « probabilités » f Variable aléatoire µ Mesure f (x)dµ(x) 75 Espérance X P E(X) = R X(ω)dP(ω) Table 5.1 – Correspondance des notations et de la terminologie "théorie de la mesure et de l’intégration" v.s. "théorie des probabilités" L’espérance est toujours bien définie pour X ≥ 0. Dans le cas général, elle est bien définie lorsque E(X + ) ou E(X − ) sont finies. La v.a. X est intégrable lorsque E|X| < ∞. Un cas particulier important est obtenu en posant X(ω) = 1A (ω) où A ∈ F. Comme 1A est une fonction simple, son intégrale de Lebesgue par rapport à P est immédiatement donnée par : P(A) = E(1A ) . (5.3) Au sens de l’égalité précédente, l’espérance peut être interprétée comme une extension de la notion de mesure de probabilité. Théorème de transfert Dans la pratique, nous avons généralement accès à la loi PX et non à la loi P ni à l’expression de X(ω) en fonction de ω : le théorème de transfert permet d’exprimer E(X) en fonction de PX . Il permet en outre d’exprimer l’espérance d’une variable aléatoire g(X) non pas en fonction de la loi Pg(X) qui n’est généralement pas disponible directement, mais en fonction de la loi PX . Soit (E, E) un espace mesurable. Théorème 5.5.– Soit X : Ω → E et g : E → R deux fonctions mesurables telles que E(g(X)) est définie. Alors, Z E (g(X)) = g(x)dPX (x) . Preuve : On donne d’abord P la preuve dansR le cas où gPest une fonction simple positive, de la formeR g = gdPX =P k αk PX (Ak ). Or par définik αk 1Ak . Alors tion, E(g(X)) = (g ◦ X)dP. Comme g ◦ X(ω) = k αk 1X −1 (Ak ) (ω), on obtient : P −1 E(g(X)) = k αk P(X (Ak )) est l’égalité est donc démontrée pour les fonctions simples. Donnons maintenant la preuve pour g fonction positive quelconque. D’après le paragraphe 4.1.2, il existe R une suiteRde fonctions simples gn ↑ g. Par le théorèmeRde convergence monotone, gn dPx → g dPX . Or d’après la preuve précédente, gn dPx = R E(gn (X)) = (gn ◦ X)dP. On montre facilement que gn ◦ X ↑ g ◦ X, donc, toujours CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS d’après le théorème de convergence monotone, R On conclut que E(g(X)) = g dPX . R (gn ◦ X)dP ↑ R 76 (g ◦ X)dP = E(g(X)). Le cas g quelconque se traite facilement en écrivant E(g(X)) = E(g(X)+ ) − E(g(X)− ) et en appliquant le résultat précédent aux fonctions g(X)+ et g(X)− respectivement. En particulier, notons bien la conséquence suivante : E(X) = 5.2.5 R x dPX (x) . Cas des variables à densité Soit X une R v.a.r. de densité fX . On rappelle que la loi d’une telle v.a. est donnée par PX (A) = A fX (x) dx. Théorème 5.6.– Dès que E(g(X)) est bien définie, on a : Z E (g(X)) = g(x) fX (x) dx . (5.4) Preuve : Commençons par le cas où g est une fonction P P simple positive, disons g = α 1 . D’après le théorème de transfert, E(g(X)) = kRαk PX (Ak ) et comme PX (Ak ) = R k k Ak R P 1Ak fX , nous avons bien E(g(X)) = ( k αk 1Ak ) fX = g . fX . Traitons maintenant le cas où g est une fonction positive quelconque. Soit 0 ≤ gn ↑ g une suite de fonctions simples. Le théorème de convergence monotone implique que R R R R gn dPX → g dPX = E(g(X)). Mais d’après la preuve précédente, gn dPX = gn fX R tend vers g . fX toujours d’après le théorème de convergence monotone. Cela conclut la preuve pour les fonctions g positives. Le cas g quelconque se traite en décomposant g = g + − g − et en appliquant le résultat précédent à g + et g − . R Remarque : D’après (5.3) appliquée à PX au lieu de P, on a PX (H) = H dPX (x). Dans le R cas où PX est de densité fX , on a en outre PX (H) = H fX (x)dx. Ainsi, pour écrire que PX est de densité fX , on utilise souvent la notation symbolique « dPX (x) = fX (x) dx ». Densité par rapport à une mesure arbitraire ∗ Soient P et µ deux mesures quelconques sur B(R). On dit que P admet une densité par rapport àR µ s’il existe une fonction positive mesurable f telle que pour tout H ∈ B(R), P (H) = H f dµ. Cette fonction f est appelée la densité de P par rapport à µ, elle est unique à un ensemble µ-négligeable près. Pour la même raison que celle évoquée à la remarque ci-dessus, on utilise la notation symbolique dP = f dµ CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS 77 pour signifier que P admet une densité par rapport à µ. La densité f est souvent notée On l’appelle également la dérivée de Radon-Nikodym de P par rapport à µ. dP . dµ Si X est une variable aléatoire telle que PX est de densité fX par rapport à une mesure µ, alors l’égalité (5.4) se généralise immédiatement : Z E (g(X)) = g(x) fX (x) dµ(x) . (5.5) Par exemple, une variable aléatoire discrète à valeurs dans {x1 , x2 , · · · } possède une densité par rapport à la mesure de comptage des xi (voir l’exercice 47) Si g : R → R est une fonction, l’espérance de g(X) s’écrit comme l’intégrale de g par rapport à la mesure discrète PX . En appliquant les résultats du paragraphe 4.3, on en déduit : X E(g(X)) = g(xk ) P[X = xk ] . (5.6) k Cette expression est cohérente avec l’égalité (2.3) vérifiée par l’espérance sur un espace discret. Remarque : Il existe des v.a.r. qui ne sont ni discrètes, ni à densité. Exemple : si X suit la loi uniforme sur [0, 1], considérer la variable aléatoire max(X, 12 ). 5.2.6 Inégalités Proposition 5.7.– (Inégalité de Markov). Pour tout > 0, p ≥ 1, P [|X| > ] ≤ E (|X|p ) . k Preuve : Voir paragraphe 2.3.4. Proposition 5.8.– (Inégalité de Hölder). Soient p, q ≥ 0 tels que 1 1 p + 1 q = 1. Alors, 1 E (|XY |) ≤ (E(|X|p )) p (E(|Y |q )) q . Lorsque p = q = 2, l’inégalité de Hölder se ramène à l’inégalité de Cauchy-Schwarz : p E (|XY |) ≤ E(X 2 ) E(Y 2 ) . Preuve : Il suffit de donner la preuve pour des v.a. positives. On utilise l’inégalité ab ≤ ap /p + bq /q valable ∀a, b ≥ 0 (pour démontrer cette inégalité, poser (s, t) = (p ln a, q ln b), ab = exp( ps + qt ) ≤ p1 es + 1q et par convexité de exp, ce qui est bien l’inégalité voulue). En posant a = X/E(X p ) et b = Y /E(Y p ) et en passant à l’espérance, on tombe bien sur l’inégalité de Hölder après un calcul simple. CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS 78 Proposition 5.9.– (Inégalité de Jensen). Soit ϕ : R → R une fonction convexe. Soit X une v.a.r. telle que E|X| < ∞ et E|ϕ(X)| < ∞ . Alors : ϕ(E(X)) ≤ E(ϕ(X)) . Preuve : Rappelons que toute fonction convexe définie sur R est continue et que de plus, ∀x ∈ R, ∃α, ∀t, ϕ(t) ≥ ϕ(x) + α(t − x). Cela signifie que le graphe est au dessus d’une droite qui touche le graphe au point x. Soit α une constante telle que pour tout t, ϕ(t) ≥ ϕ(E(X))+α(t−E(X)) . On intègre les deux membres de cette inégalité par rapport à la loi PX . Par monotonicité de l’intégrale de fonctions PX -intégrables, E(ϕ(X)) ≥ ϕ(E(X)) . Remarque : Le résultat peut être généralisé au cas où ϕ est une fonction définie sur un intervalle ]a, b[ avec −∞ ≤ a < b ≤ +∞, pourvu que X(Ω) ⊂]a, b[ (voir MDI-103 [LMR12, Proposition 8.1.5]). Remarque : Une fonction ϕ est dite strictement convexe si ϕ(tx+(1−t)y) < tϕ(x)+(1− t)ϕ(y) pour tout t ∈]0, 1[ . Si ϕ est strictement convexe et si X est de loi non-dégénérée, alors l’inégalité de Jensen est satisfaite au sens strict : ϕ(E(X)) < E(ϕ(X)) . 5.2.7 Moments, variance Définition 5.5.– Soit p ≥ 0. Soit une v.a.r. X telle que E(|X|p ) < ∞. La quantité E(X p ) est appelée le moment d’ordre p de X. On dit d’une telle variable qu’elle est d’ordre p, ou qu’elle possède un moment d’ordre p. L’ensemble de telles variables est noté Lp (P). Les propriétés des moments sont identiques à celles vue dans le cas discret. Nous les résumons ici sans preuves. Proposition 5.10.– Une variable d’ordre p possède tous ses moments d’ordre inférieur. Notons que certaines v.a. possèdent tous leurs moments, c’est par exemple le cas des variables gaussiennes ou des variables à valeur dans un ensemble borné. A l’inverse, certaines v.a. n’admettent aucun moment (voir l’exercice 48). Définition 5.6.– La variance d’une v.a.r. X d’ordre 2 est définie par Var(X) := E (X − E(X))2 . p Son écart-type est la racine carrée de la variance, noté σX := Var(X) . Définition 5.7.– Soient X et Y deux v.a.r. d’ordre 2. Leur covariance est définie par : Cov(X, Y ) := E [(X − E(X))(Y − E(Y ))] . On utilise parfois le coefficient de corrélation défini par ρX,Y = Cov(X, Y )/(σX σY ). Lorsque Cov(X, Y ) = 0, on dit que X et Y sont décorrélées. CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS 79 Proposition 5.11.– Soient X et Y deux v.a.r. d’ordre 2 et (α, β) ∈ R2 . On a : a) Var(X) = E(X 2 ) − (EX)2 ; b) Cov(X, X) = Var(X) ; c) Cov(Y, X) = Cov(X, Y ) ; d ) Var(αX + β) = α2 Var(X) ; e) Var(X + Y ) = Var(X) + Var(Y ) + 2Cov(X, Y ) . 5.3 Vecteurs aléatoires On se place sur un espace de probabilité (Ω, F, P). On se donne une fonction mesurable X : Ω → Rd , où d est un entier et Rd est muni de sa tribu de Borel. Pour tout ω ∈ Ω, on notera X1 (ω), · · · , Xd (ω) les coordonnées du vecteur X(ω) dans la base canonique de Rd . Nous savons d’après le paragraphe 3.4.2 que X est mesurable si et seulement si X1 , · · · , Xd le sont. Se donner un vecteur aléatoire est équivalent à se donner une collection de d variables aléatoires réelles. 5.3.1 Fonction de répartition On rappelle que la loi du vecteur aléatoire X est la mesure de probabilité définie pour tout H ∈ B(Rd ) par PX (H) = P[X ∈ H], aussi appelée loi jointe des variables aléatoires X1 , · · · , Xd . Définition 5.8.– La fonction de répartition de X est l’application FX : Rd → R+ définie pour tout (x1 , · · · , xd ) ∈ Rd par : FX (x1 , · · · , xd ) = P [X1 ≤ x1 , · · · , Xd ≤ xd ] . Q d k=1 De manière équivalente, FX est liée à la loi de X par FX (x1 , · · · , xd ) = PX ] − ∞, xk ] . Plus généralement, on peut définir la fonction associée à une mesure de proQde répartition d babilité µ quelconque par (x1 , · · · , xd ) 7→ µ k=1 ] − ∞, xk ] . Théorème 5.12.– Deux mesures de probabilité sur B(Rd ) ayant même fonction de répartition sont égales. La preuve est identique au cas d = 1 (voir paragraphe ??). Donc, la fonction de répartition FX caractérise la loi du vecteur aléatoire X. CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS 80 Vecteurs aléatoires à densité R Par définition, X admet une densité fX : Rd → R+ si PX (H) = QH fX pour tout H ∈ B(Rd ). Dans ce cas, FX (x1 , · · · , xd ) est l’intégrale de fX sur le pavé k ] − ∞, xk ] . D’après le théorème de Fubini (c.f. cours MDI-103 [LMR12]), on peut écrire de manière équivalente : Z x1 Z x1 fX (u1 , · · · , ud )du1 · · · dud . ··· FX (x1 , · · · , xd ) = −∞ −∞ Si FX est de classe C d , alors : fX (x1 , · · · , xd ) = 5.3.2 ∂ d FX (x1 , · · · , xd ) . ∂x1 · · · ∂xd Variables aléatoires indépendantes Soit X = (X1 , · · · , Xd ) un vecteur aléatoire sur (Ω, F). On rappelle que les v.a. X1 , · · · , Xd sont dites indépendantes si pour tout H1 , · · · , Hd ∈ B(R), P[X1 ∈ H1 , · · · , Xd ∈ Hd ] = P[X1 ∈ H1 ] × · · · × P[Xd ∈ Hd ] . Q Le membre de droite est égal au produit i PXi (Hi ) où PXi est la loi marginale de Xi . Le membre de gauche est égal à la loi jointe PX évaluée en H1 ×· · ·×Hd . D’après le paragraphe précédent, l’unique loi satisfaisant la propriété ci-dessus est la loi produit. Ainsi, les v.a. X1 , · · · , Xd sont indépendantes si et seulement si la loi jointe est égale au produit des lois marginales : d O PX = PXi . (5.7) i=1 On note FX la fonction de répartition de X = (X1 , · · · , Xd ) et FXi celle de la v.a.r. Xi . Théorème 5.13.– Les propositions suivantes sont équivalentes. i ) X1 , · · · , Xd sont indépendantes ; ii ) Pour tout x1 , · · · , xd ∈ R, FX (x1 , · · · , xd ) = FX1 (x1 ) × · · · × FXd (xd ) ; (5.8) iii ) Pour toutes fonctions mesurables h1 , · · · , hd : R → R telles que les v.a. hi (Xi ) sont toutes positives ou toutes intégrables, E (h1 (X1 ) × · · · × hd (Xd )) = E(h1 (X1 )) × · · · × E(hd (Xd )) ; (5.9) iv ) Pour toutes fonctions h1 , · · · , hd : R → R+ continues à support compact, (5.9) est satisfaite. CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS 81 Si en outre chaque v.a.r. Xi admet une densité fXi , alors les propositions précédentes sont équivalentes à : v ) Le vecteur X admet une densité fX donnée pour tout x1 , · · · , xd ∈ R par : fX (x1 , · · · , xd ) = fX1 (x1 ) × · · · × fXd (xd ) ; (5.10) Preuve : i)⇒iii). On donne la preuve dans le cas où d = 2 (le cas général se traite de manière similaire). Posons Y1 = h1 (X1 ) et Y2 = h2 (X2 ). D’après le paragraphe 5.3.2, nous savons que Y1 et Y2 sont indépendantes. Supposons Y1 , YR2 positives. Puisque impliqueR que E(Y1 Y2 ) = y1 y2 dPY1 ,Y2 (y1 , y2 ). PY1 ,Y2 = PY1 ⊗ PY2R, leRthéorème de Fubini Donc, E(Y1 Y2 ) = y1 y2 dPY1 (y1 ) dPY2 (y2 ) = y2 E(Y1 ) dPY2 (y2 ) = E(Y1 )E(Y2 ) . La propriété est prouvée pour des v.a. Yi positives. Dans le cas de v.a. signées, on a d’après ce qui précède : E|Y1 Y2 | = E|Y1 | E|Y2 | < ∞. La fonction (y1 , y2 ) 7→ y1 y2 est intégrable et le théorème de Fubini s’applique là encore. iii)⇒iv). Immédiat. iv)⇒ii). Fixons x1 , · · · , xd . Soit hi,n la fonction continue égale à un sur l’intervalle ] − ∞, xi ], à zéro sur [xi + n1 , +∞[, et linéaire sur [xi , xi + n1 ]. Pour tout Q i, hi,nQ↑ 1]−∞,xi ] et donc E(h (xi ) par convergence monotone. DeQ même, i hi,n Q ↑ i 1]−∞,xi ] et Qi,n (Xi )) ↑ FXiQ donc E( i hi,n (Xi )) ↑ i FXi (xi ) . Or, par hypothèse, E( i hi,n (Xi )) = i E(hi,n (Xi )) . Le résultat est obtenu par passage à la limite. N ii)⇒i). La fonction N de répartition associée à la loi produit i PXi est égale au produit des FXi . Donc i PXi et PX ont la même fonction de répartition. Puisque la fonction de répartition caractérise la loi, ces lois sont égales, ce qui prouve (5.7). Dans le cas où chaque Xi admet une densité fXi on montre que ii)⇔iv). ii) équivaut à : Q R xi ∀x = (x1 , · · · , xd ) ,FX (x) = i −∞ fXi . Par le théorème de Fubini, cela équivaut à : R x1 R xd N N FX (x) = −∞ · · · −∞ ( i fXi ) , ce qui revient à dire que X est de densité i fXi . Du théorème ci-dessus, on retiendra en particulier la propriété importante suivante : l’espérance d’un produit de variables aléatoires indépendantes est égale au produit des espérances. Plus précisément, si X1 , · · · , Xd des v.a.r. indépendantes telles que E|Xi | < ∞ pour tout i, alors le produit X1 × · · · × Xd est une v.a. intégrable et on a : E (X1 × · · · × Xd ) = E(X1 ) × · · · × E(Xd ) . En corollaire, l’égalité ci-dessus implique que si X1 et X2 sont indépendantes alors Cov(X1 , X2 ) = 0 . Autrement dit, des variables indépendantes sont décorrélées. Généralisation à une collection de vecteurs aléatoires Le Théorème 5.13 admet une généralisation immédiate au cas où X1 , · · · , Xd sont ellesmêmes des vecteurs aléatoires de dimensions n1 , · · · , nd respectivement. Il suffit d’adapter l’énoncé au fait que pour tout i, FXi et fXi sont cette fois des fonctions de Rni → R. CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS 82 Théorème 5.14.– Les propositions suivantes sont équivalentes. i ) X1 , · · · , Xd sont indépendantes ; ii ) Pour tout (x1 , · · · , xd ) ∈ Rn1 × · · · × Rnd , (5.8) est vérifiée ; iii ) Pour toutes fonctions mesurables hi : Rni → R (i = 1, · · · , d) telles que les v.a. hi (Xi ) sont toutes positives ou toutes intégrables, (5.9) est vérifiée ; iv ) Pour toutes fonctions hi : Rni → R (i = 1, · · · , d) continues à support compact, (5.9) est vérifiée. Si en outre chaque v.a.r. Xi admet une densité fXi , alors les trois propositions précédentes sont équivalentes à : v ) Le vecteur X admet une densité fX donnée par (5.10) pour tout (x1 , · · · , xd ) ∈ Rn1 × · · · × Rnd . Généralisation au cas d’une famille de v.a. Définition 5.9.– Soient (E1 , E1 ), · · · , (En , En ) une suite de n espaces mesurables. Pour tout k = 1, · · · , n, soit Xk : Ω → Ek une variable aléatoire sur (Ek , Ek ). La famille de v.a. (X1 , · · · , Xn ) est dite indépendante si pour toute suite (H1 , · · · , Hn ) ∈ E1 × · · · × En , les événements ([Xk ∈ Hk ])k=1,··· ,n sont indépendants. Autrement dit, P [X1 ∈ H1 , · · · , Xn ∈ Hn ] = P [X1 ∈ H1 ] × · · · P [Xn ∈ Hn ] , T où l’on utilise la notation [X1 ∈ H1 , · · · , Xn ∈ Hn ] = k [Xk ∈ Hk ]. Définition 5.10.– Une famille de variables aléatoires est dite indépendante si toute sous-famille finie est indépendante. n.b. : on utilise souvent l’abréviation i.i.d. pour désigner une famille indépendante et identiquement distribuée de variables aléatoires. Proposition 5.15.– Soit (Xi )i∈I une famille indépendante de v.a., chacune étant à valeur dans un espace Ei . On se donne pour tout i une application mesurable fi sur Ei . Alors la famille de v.a. (fi (Xi ))i∈I est indépendante. Remarque∗ : Dans ce cours, nous rencontrerons assez fréquemment le cas d’une famille indépendante (Xn )n∈N? dont les lois PXn sont spécifiées. Le lecteur est en droit de se demander s’il existe effectivement un espace de probabilité (Ω, F, P) sur lequel on peut construire une telle famille de v.a.. La réponse est oui, voir l’annexe C.1. CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS 5.4 5.4.1 83 Changement de variable Introduction Soit X est un vecteur aléatoire sur Rd admettant une densité connue fX . On pose : Y := φ(X) pour une certaine fonction borélienne φ. L’objectif de cette section est de déterminer la loi de Y et, si elle existe, sa densité. Les exercices 37 et 38 montrent que, dans les cas simples (d = 1), la réponse est immédiatement donnée par calcul et différentiation de la fonction de répartition de Y . Dans les cas plus complexes, l’expression de la densité de Y est obtenue grâce à la formule du changement de variable vue en cours d’analyse MDI-103. Nous la rappelons au paragraphe suivant. 5.4.2 Formule du changement de variable Définition 5.11.– (Difféomorphisme). Soient U et V deux ouverts de Rd . On dit qu’une application φ : U → V est un difféomorphisme si φ est bijective, continûment différentiable sur U et si sa réciproque φ−1 est continûment différentiable sur V . Dans la suite, nous désignons par φ1 (x), · · · , φd (x) les coordonnées du vecteur φ(x) dans la base canonique i.e., φ(x) = (φ1 (x), · · · , φd (x)). Dire qu’une application φ : U → V est continûment différentiable équivaut à dire que toutes les dérivées partielles ∂φi (x)/∂xj existent et sont continues. La matrice jacobienne d’une telle application φ est définie par : ∂φi (x) . ∂φ(x) = ∂xj 1≤i≤d 1≤j≤d Définition 5.12.– Soit φ une fonction continûment différentiable sur un ouvert U ⊂ Rd . On appelle jacobien de ϕ et on note Jφ la fonction définie sur U à valeurs dans R par : Jφ (x) := det [∂φ(x)] . On rappelle la propriété suivante des difféomorphismes : Jφ−1 = 1 . Jφ ◦ φ−1 Proposition 5.16.– Soient U et V deux ouverts de Rd et φ : U → V une application bijective, continûment différentiable sur U . Alors φ est un difféomorphisme si et seulement si Jφ (x) 6= 0, ∀x ∈ U . CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS 84 Théorème 5.17.– (Formule du changement de variable). Soient U et V deux ouverts de Rd et φ : U → V un difféomorphisme. Alors si f est une fonction définie sur V à valeurs positives, Z Z f . (5.11) f ◦φ= −1 U V |Jφ ◦ φ | Remarque∗ : Dans l’égalité (5.11), on suppose implicitement que f : U → R est une fonction borélienne. Dans le cas où f n’est pas nécessairement positive, alors l’égalité (5.11) est satisfaite au moins par la valeur absolue |f | et, dans le cas où les deux membres de l’égalité sont finis, les barres de valeur absolue peuvent être enlevées. 5.4.3 Application au calcul de densité Revenons au problème initialement posé. On souhaite déterminer la loi de Y = φ(X) où X est un vecteur aléatoire. On fait les hypothèses suivantes : • X admet une densité fX . • X(Ω) ⊂ U ⊂ Rd où U est un ouvert ; • φ : U → V est un difféomorphisme. Soit h une fonction arbitraire, positive, définie sur Rd . On évalue l’espérance : E(h(Y )) = E((h ◦ φ)(X)) Z (h ◦ φ) fX = U Z = (h × (fX ◦ φ−1 )) ◦ φ ZU fX ◦ φ−1 h = |Jφ ◦ φ−1 | V où la dernière égalité provient de la formule du changement de variable. Ainsi, on peut R écrire E(h(Y )) = h fY où : fX ◦ φ−1 fY = 1V . (5.12) |Jφ ◦ φ−1 | Le calcul précédent étant valable pour toute fonction positive h, il l’est en particulier lorsque R h est de la forme h = 1H pour un certain ensemble H ∈ B(R). L’égalité E(h(Y )) = h fY se lit alors : Z P[Y ∈ H] = fY . H On en conclut que Y est un vecteur aléatoire de densité fY donnée par (5.12). CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS 5.5 85 Exercices . Exercice 43. Soit X la v.a. dont la loi est donnée par P(X = n) = 6 1 , pour n ≥ 1. π 2 n2 Montrer que P(X < +∞) = 1 mais que X n’a pas d’espérance. . Exercice 44. Soit (Ω, A, µ) un espace mesuré. Soit I un intervalle de R et une famille de fonctions mesurables {f (·, t)}t∈I , f (·, t) : Ω → R. On suppose que • ∀ω ∈ Ω, t 7→ f (ω, t) est continue sur I. R • Il existe une application mesurable g : Ω → R+ telle que g dµ < +∞ et ∀t ∈ I, Montrer que t 7→ R ∀ω ∈ Ω, |f (ω, t)| ≤ g(ω). f (ω, t) dµ(ω) est continue sur I. . Exercice 45. Soit (Ω, A, µ) un espace mesuré. Soit I un intervalle de R et une famille de fonctions mesurables {f (·, t)}t∈I : f (·, t) : Ω → R. On suppose que • x 7→ f (x, 0) est intégrable. • ∀ω ∈ Ω, t 7→ f (ω, t) est dérivable sur I. • Il existe une application mesurable g : Ω → R+ telle que R g dµ < +∞ et ∂f (ω, t) | ≤ g(ω). ∂t R En utilisant l’inégalité des accroissements finis, montrer que t 7→ f (ω, t)dµ(ω) est bien définie sur I. Montrer que cette fonction est dérivable et que l’on a Z Z ∂ ∂f (ω, t) f (ω, t) dµ(ω) = dµ(ω) . ∂t ∂t ∀t ∈ I, ∀ω ∈ Ω, | . Exercice 46. Soit µn la suite de mesure sur [0, 1] donnée par n−1 1X dµn (x) = δj/n . n j=0 Pour f continue sur [0, 1], quelle est la limite de R f (t)dµn (t) quand n tend vers +∞ ? . Exercice 47. Soit X : Ω → R la variable discrète du paragraphe ??. Soit µ la mesure comptage des points {x1 , x2 , · · · }. 1. Montrer que PX admet pour densité par rapport à µ la fonction fX définie µ-p.p. par : fX (xk ) = P[X = xk ] . CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS 86 2. Retrouver l’égalité (5.6) en appliquant (5.5). . Exercice 48. 1. Soit X une v.a.r. de densité f telle que lim|x|→∞ |x|p f (x) = 0 pour tout p > 0. Montrer que X possède tous ses moments. En déduire qu’une v.a.r. gaussienne possède tous ses moments. 2. Soit X une v.a.r. suivant une loi de Cauchy (voir Table 3.1, paragraphe ??). Montrer que E(|X|) diverge. Plus généralement, montrer que X ne possède aucun moment. . Exercice 49. Soit (E, E, µ) un espace mesurable et T une application de E dans lui-même. On dit que µ est invariante par T si Z Z f ◦ T dµ = f dµ E pour toute fonction f mesurable bornée. 1. Montrer que la mesure de Lebesgue sur R est invariante par translation. 2. Soit E = Rn et 1 2 1 2 exp − (x1 + . . . + xn ) dx1 . . . dxn . dµ(x1 , . . . , xn ) = (2π)n/2 2 Montrer que µ est invariante par rotation. 3. Soit E = [0, 1] et T (x) = 2x − [2x] (T (x) est la partie fractionnaire de x). Montrer que la mesure de Lebesgue restreinte à E est invariante. . Exercice 50. Montrer que toute mesure de Radon sur R (c’est-à-dire µ(K) < +∞ quel que soit le compact K) invariante par translation est proportionnelle à la mesure de Lebesgue. . Exercice 51. Soit (E, E, µ) un ensemble mesuré, (F, F) un ensemble et une tribu et T une application mesurable de E dans F. On définit la mesure T ∗ µ (appelée mesure image de µ par T ) par ∀B ∈ F, (T ∗ µ)(B) = µ(T −1 (B)). ou de manière équivalente par Z ∗ Z f ◦ T dµ. f d(T µ) = F E pour toute fonction f mesurable bornée de F dans R. Soit E = R/Z × Z/2Z, muni de µ la mesure uniforme. 1. Montrer que µ est invariante par translation. 2. Considérons l’application T de E dans O2 (R) (le groupe des transformations orthogonales de R2 ) donnée par : cos 2πθ sin 2πθ T (θ, ) = (−1) sin 2πθ (−1)1− cos 2πθ Quelle est la mesure de l’ensemble des symétries (respectivement des rotations d’angle inférieur à θ0 donné) sous T ∗ µ? CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS 87 3. Montrer que T ∗ µ est invariante par translation. 4. On considère S l’application de O2 (R) dans C qui à une transformation orthogonale associe la valeur propre de plus grandes parties réelle et imaginaire. Décrire S ∗ (T ∗ µ). CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS 88 . Exercice 52. a) Soient X1 , · · · , Xd des v.a. i.i.d. de loi N (0, 1). Quelle est la loi du vecteur aléatoire X = (X1 , · · · , Xd ) ? b) Même question pour des variables Xi ∼ N (mi , σi2 ) indépendantes, σi2 > 0. . Exercice 53. Démontrer la Proposition ??. . Exercice 54. Soit (X1 , X2 ), une variable aléatoire à valeurs dans R2 et N une deuxième variable aléatoire indépendante de (X1 , X2 ) et de loi αδ1 + (1 − α)δ2 , où α ∈]0, 1[. 2 1. Calculer E[XN ], σX en termes de celles de X1 et de X2 . N 2. On suppose que X1 et X2 sont indépendantes et de même loi, calculer la loi de XN . . Exercice 55. Trois personnes A, B et C arrivent à la poste en même temps pour téléphoner. Il y a deux cabines téléphoniques qu’occupent A et B tout de suite. C remplace le premier sorti. On désigne par X1 , X2 , X3 les temps d’occupation de la cabine par A, B et C respectivement. On suppose que (X1 , X2 , X3 ) sont indépendantes, de même loi exponentielle de paramètre α. 1. Calculer la probabilité que C sorte le dernier. 2. Donner la loi du temps T passé par C à la poste. 3. Donner la loi de probabilité de l’instant du dernier départ ; l’instant 0 étant l’instant d’arrivée des trois personnes à la poste. . Exercice 56 (Castor et Pollux). Castor et Pollux se sont donnés rendez-vous en convenant de ne pas attendre l’autre plus de dix minutes. Ils arrivent tous les deux indépendamment à un instant « au hasard » entre midi et 13 heures. On note X, respectivement Y , l’heure d’arrivée de Castor, respectivement celle de Pollux. On note W le temps d’attente de Castor. 1. Quelle est la probabilité qu’ils se rencontrent ? 2. Exprimer en fonction de X et Y , la valeur du temps d’attente de Castor. On pourra utilement faire un dessin en identifiant dans le pavé [0, 1] × [0, 1], différentes zones où l’expression de W est simple – voir Figure 5.1. 3. Quelle est la loi du temps d’attente de Castor ? 4. Quel est le temps d’attente moyen de Castor ? 5. Quelle est la loi du temps d’attente de Castor sachant qu’il y a rencontre ? . Exercice 57. Soit 2 x + y2 dP (x, y) = c exp − 1{x>y} dxdy 2 une mesure sur le plan R2 . 1. Trouver la constante c pour que P soit une probabilité. 2. Soit (Ω, F, P) un espace de probabilité et (X, Y ) : Ω → R2 une variable aléatoire de loi P . Trouver la loi de X et celle de Y . CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS 89 1 1/6 1/6 5/6 1 Figure 5.1 – Castor et Pollux 3. Sont-elles indépendantes ? 4. On définit les nouvelles variables aléatoires U = X 2 + Y 2 et V = Y . Calculer la loi du vecteur (U, V ). 5. Les variables U et V sont-elles indépendantes ? . Exercice 58. Soient X et Y deux v.a. réelles indépendantes sur (Ω, F, P), de même loi √ 2 uniforme sur [0, a] (a > 0 réel, fixé). On note par R = X + Y 2 , Z = Y /X et par Pa une nouvelle probabilité définie par Pa (A) = P(A | R < a), pour tout A ∈ F. 1. Pour tout borélien B de [0, a]2 , exprimer P((X, Y ) ∈ B) à l’aide de la surface S(B) de B. 2. Montrer que R et Z sont indépendantes pour la probabilité Pa mais pas pour P. 3. Trouver deux fonctions simples f et g telles que pour Pa , f (R) et g(Z) soient uniformes ; sont-elles indépendantes ? . Exercice 59. Soient X et Y deux v.a. indépendantes de loi uniforme sur [0, 1]. 1. Quelle est la loi du couple (X, Y ) ? 2. Quelle est la loi du couple (min(X, Y ), max(X, Y )) ? . Exercice 60. Soient Z = (X, Y ) la loi de densité π −1 1D (x, y) où est D est le disque unité de R2 . 1. Calculer les lois marginales de X et Y. CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS 90 2. Ces deux variables sont-elles indépendantes ? 3. Calculer la loi du couple (min(X, Y ), max(X, Y )). . Exercice 61. Soient a, m ∈ Rd et Σ une matrice d × d définie positive. Soit A une matrice d × d. Si X ∼ Nd (m, Σ), quelle est la loi de a + AX ? En déduire que √ −1 si X ∼ Nd (m, Σ) alors Σ (X − m) ∼ Nd (0, I). √ si X ∼ Nd (0, I), alors m + ΣX ∼ Nd (m, Σ). . Exercice 62. Soient X, Y deux v.a.r. de loi jointe fX,Y sur R2 . Exprimer la densité de probabilité de X + Y en fonction de fX,Y . Dans le cas où X et Y sont indépendantes, montrer cette densité est égale au produit de convolution des densités marginales. . Exercice 63. Soient X, Y deux v.a. indépendantes suivant la loi N (0, 1). Caractériser la loi du vecteur (X + Y, X − Y ). . Exercice 64. Comment simuler le tirage de points uniformément répartis dans un triangle scalène en utilisant le moins possible le générateur de nombres pseudo-aléatoires. Même question avec un disque. . Exercice 65. Soit D une variable aléatoire de loi uniforme sur [0, 3], c’est-à-dire 1 dPD (x) = 1[0,3] (x) dx. 3 Soient s et t deux réels positifs tels que 0 ≤ t + s ≤ 3. 1. Pour x ∈ [0, 3], simplifier l’expression (t − (x − s)+ )+ où x+ = max(x, 0). 2. Calculer la loi de R = (t − (D − s)+ )+ . . Exercice 66 (Statistiques d’ordre). Soit (X1 , · · · , Xn ) des v.a. i.i.d. de fonction de répartition F . On définit par récurrence sur p, la suite de v.a. X(p) par X(1) = min Xj 1≤j≤n τ1 = inf{j, Xj = X(1) } X(2) = min Xj j6=τ1 τ2 = inf{j 6= τ1 , Xj = X(2) } .... .. X(n) = max Xj j τn = max{j, Xj = X(n) }. 1. Montrer que presque sûrement, Xi 6= Xj pour i 6= j. 2. Calculer la fonction de répartition de X(1) et de X(n) . CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS 91 3. Soit τ la permutation définie par τ (i) = τi . Calculer la loi de τ . 4. Calculer la loi de X(k) . 5. Soit α ∈]0, 1[ et Fαn (x) = P(X([αn]) ≤ x). On définit xα par xα = inf{x, F (x) ≥ α}. Montrer que n→+∞ Fαn −−−−→ ( 1 0 si x ≥ xα sinon. . Exercice 67 (Recouvrement d’un cercle). Soit U = (U1 , · · · , Un ) des v.a. i.i.d. de loi uniforme sur [0, 1]. Soit W = (W1 , · · · , Wn ) la statistique d’ordre (cf. exercice 66) associée à U , i.e., Wi = U(i) , pour tout i = 1, · · · , n. On pose V1 = 1 + W1 − Wn , V2 = W2 − W1 , . . . , Wn = Wn − Wn−1 . On considère aussi XP 1 , · · · , Xn des v.a. indépendantes de loi exponentielle de paramètre n −1 1. On pose Sn = n j=1 Xj . 1. Montrer que la loi de W est donnée par dPW (w1 , · · · , wn ) = n!1A (w1 , · · · , wn ) dw1 . . . dwn , où A = {(x1 , · · · , xn ), 0 ≤ x1 ≤ x2 ≤ . . . ≤ xn ≤ 1}. 2. Calculer la loi de V = (nV1 , · · · , nVn−1 ). 3. Calculer la loi de (X1 , · · · , Xn−1 , Sn ). 4. Montrer que la loi de Xn−1 X1 ,··· , Sn Sn est la même que celle de V . 5. Soit Nα le nombre minimum d’arcs de longueur α nécessaires pour recouvrir la circonférence du cercle unite. Montrer que (Nα ≤ n) = (max Vk ≤ α). k≤n . Exercice 68. Un nombre est choisi au hasard dans l’intervalle [0, 10] suivant une loi P donnée par dP (t) = K t 1[0,10] (t)dt , où K est une constante à calculer. On note par X sa partie entière et par Y sa partie fractionnaire. CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS 92 1. Calculer la loi du vecteur (X, Y ). Est-ce que les composantes sont indépendantes ? 2. Calculer la matrice de covariance de (X, Y ). . Exercice 69. Pour a > 0, on définit Z ∞ Γ(a) = e−t ta−1 dt . 0 Une v.a.r. X est dite de loi gamma de paramètres a et λ > 0 si sa loi est donnée par dPX (t) = 1[0,∞[ (t) λa −λt a−1 e t dt , Γ(a) notée par X ∼ G(a, λ). 1. Calculer l’espérance et la variance de X. 2. Soit Y une autre v.a.r. indépendante de X, de loi G(b, λ). Montrer que X + Y et X sont indépendantes, calculer leur loi. X +Y 3. En déduire que Z 1 Γ(a)Γ(b) ta−1 (1 − t)b−1 dt = β(a, b) = . Γ(a + b) 0 . Exercice 70. On considère E = {x = (x1 , x2 ) ∈ R2 , x21 + x22 ≤ 1} et on considère Ω l’ensemble des familles finies de points de E, c’est-à-dire qu’un ω ∈ Ω est une famille finie de points de E. On munit E de la tribu borélienne et d’une probabilité P. Pour toute partie A de E on définit la variable aléatoire N (A)(ω) qui représente le nombre de points de ω qui sont dans A. Les seules hypothèses que l’on fait sur P sont : – Pour toute partie borélienne A de E, P(N (A) = k) = e−m(A) m(A)k , pour tout k ∈ N, k! où m est la mesure de Lebesgue sur R2 . – Si (Ai , i ∈ N) sont des boréliens disjoints deux à deux, les v.a. (N (Ai ), i ∈ N) sont indépendantes dans leur ensemble. On appelle le triplet (E, P, N ) un processus de Poisson ponctuel d’intensité m. 1. Calculer la moyenne et la variance de N (A) pour A borélien de E. Calculer la probabilité que A ne contienne pas de points de ω. 2. Soient A ⊂ B deux boréliens, calculer la loi de la variable aléatoire (N (A), N (B)). 3. Pour C = {x, a2 < x21 + x22 ≤ b2 }, calculer la loi de N (C). 4. On pose U (ω) = inf{α, N (B(0, α))(ω) > 0} où B(0, α) est la boule fermée de centre O et de rayon r. Calculer P(U > x) pour tout x. CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS 93 5. On fixe r > 0, on considère Arα le secteur angulaire composé des points distants de O de moins de r et d’argument compris entre 0 et α. On pose V r = inf{β, N (Arβ ) > 0} avec la convention V r = 0 si B(0, r) ne contient pas de point de ω. Calculer P(V > x) pour tout x ∈ [0, 2π[. 6. Calculer la loi de l’argument du point le plus proche de O. r le secteur angulaire des 7. On suppose n fixé, pour k ∈ {0, . . . , n − 1}, on appelle Bk,n éléments de E de module inférieur à r et d’argument supérieur à 2kπ/n et strictement 1 1 )) conditionnellement ), . . . , N (Bn−1,n inférieur à 2(k+1)π/n. Calculer la loi de (N (B1,n à N (E) = k. 8. On admet que les secteurs angulaires définis précédemment engendrent la tribu borélienne de E quand r parcourt [0, 1] et n décrit N. Montrer que si on met k points répartis uniformément dans E la loi de 1 1 (N (B1,n ), . . . , N (Bn−1,n )) est celle que l’on vient de trouver. En déduire (en utilisant l’exercice 64) une façon de simuler un processus Poisson ponctuel d’intensité m. 9. Dans l’avant-dernière question, que se passe-t-il si on change m en une constante fois m? 10. Calculer E e−sN (A) pour tout borélien. Pour f fonction mesurable positive de E dans R+ , on pose X f (ξ). N (f )(ω) = ξ∈ω Calculer E e−sN (f ) . 11. Chaque point de ω est effacé avec probabilité p et conservé avec probabilité 1 − p et ce indépendamment des autres. On appelle Np (A) le nombre de points qui restent dans A après l’opération d’effacement. Montrer que (E, P, Np ) est un processus de −sN (A) pour tout borélien. Poisson ponctuel d’intensité (1 − p)m. Calculer E e . Exercice 71. Soit X une v.a. réelle de fonction de répartition FX et FX−1 l’inverse à droite de FX défini par : FX−1 (y) = inf{u; FX (u) ≥ y}. Soit U une v.a. de loi uniforme sur [0, 1], montrer que FX−1 (U ) a la loi de X. Cette relation permet de générer des v.a. de loi arbitraire à partir de variables de loi uniforme sur [0, 1]. Ceci est très fréquemment utilisé en simulation et connu sous le nom de méthode d’inversion.Trouver comment générer des variables de loi exponentielle et de Cauchy avec cette méthode. . Exercice 72. La difficulté qui apparaît lors de la mise en oeuvre de la méthode précédente est l’inversion de la fonction de répartition. On a fréquemment la densité de façon explicite mais pas la fonction de répartition. Dans ce cas, on applique la méthode de rejet. Soit CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS 94 fX la densité de X et g une densité qui majore à une constante près fX et pour laquelle on sait facilement générer des v.a. dont la loi a pour densité g. On procède de la manière suivante : soit a tel que fX (u) ≤ ag(u) pour tout u. On tire une v.a. de loi de densité g, soit Y le résultat de ce tirage. On tire, indépendamment, une v.a. de loi uniforme sur [0, 1] et on note U le résultat de ce tirage. Si U ≤ f (Y )/ag(Y ) alors le résultat est Y sinon on recommence au début. 1. Quel est l’espace de probabilité sous-jacent sur lequel sont définies les v.a. Z et Y. 2. Montrer que P(Y ≤ t) = FX (t). 3. Soit X et Y deux v.a. indépendantes de loi exponentielle de paramètre µ. Calculer la densité de la loi de Z = X − Y. 4. En déduire une façon d’engendrer des v.a. de loi de densité : µ exp(−µ|x|α ) 2γ(1 + 1/α) où α ≥ 1 et µ > 0. . Exercice 73. Soit U et V deux v.a. indépendantes de loi uniforme sur [0, 1]. Posons : p p X = −2 ln(U ) cos(2πV ) et Y = −2 ln(U ) sin(2πV ). Montrer que X et Y sont des v.a. gaussiennes centrées, réduites, indépendantes. . Exercice 74 (Processus de Poisson). Processus !Poisson L’un des modèles stochastiques les plus utilisés est le processus de Poisson. Nous allons ici le décrire et exhiber quelques unes de ses propriétés. Soit (Sn , n ≥ 1) une suite de v.a.r. indépendantes, identiquement distribuées, de loi exponentielle de paramètre λ. On note T1 = S1 et Tn+1 = Tn + Sn+1 . Les instants (Tn , n ≥ 1) sont usuellement vus comme des instants d’arrivée. Les durées Sn s’appellent logiquement inter-arrivées. On pose Nt = +∞ X 1[0,t] (Tn ). n=1 1. Calculer la loi de (T1 , · · · , Tn ). 2. Calculer la loi de Tn . 3. Montrer que (Nt = k) = (Tn ≤ t < Tn+1 ). 4. Calculer la loi de Nt . 5. Soit Wt = t − TNt et Zt = TNt +1 − t. Calculer la loi de (Wt , Zt ). 6. Montrer que Wt et Zt sont indépendantes et que Zt suit une loi exponentielle de paramètre λ. CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS 95 7. En quoi, ce résultat est-il surprenant ? . Exercice 75. Soit W une v.a. de loi de Poisson de paramètre λ > 0 : P(W = k) = e−λ λk . k! 1. Montrer que pour toute fonction positive f : λE [f (W + 1)] = E [W f (W )] . (5.13) 2. Réciproquement, soit W une v.a. discrète, à valeurs dans N, telle que pour toute fonction positive, l’identité 5.13 soit satisfaite. En appliquant 5.13 à des fonctions f judicieusement choisies, montrer que P(W = j) = λ P(W = j − 1), j pour tout j ≥ 1. 3. En déduire la loi de W . . Exercice 76. On tire un nombre X uniformément sur [0, 1]. On tire ensuite des nombres Y1 , Y2 , · · · indépendamment les uns des autres et indépendamment de X, uniformément sur [0, 1]. Le jeu s’arrête dès que Yi > X. Vous gagnez alors (i − 1)e. On appelle G le gain. Pour k entier, on définit ( 1{y1 >x} si k = 0 ϕk (x, y1 , · · · , yk+1 ) = 1{y1 ≤x,..., yk ≤x, yk+1 >x} si k > 0. 1. Pour k entier, montrer que Z ϕk (x, y1 , · · · , yk+1 )dy1 dy2 . . . dyk+1 dx = [0, 1]k+2 1 1 − · k+1 k+2 On traitera séparément les cas k = 0 et k > 0. 2. Calculer la loi de G. 3. Calculer l’espérance de G. . Exercice 77. Pour tout a réel strictement positif, Ga désigne une variable aléatoire de loi gamma de paramètres (a, 1) : la densité ga de sa loi est donnée par ga (x) = 1 xa−1 e−x 1R+ (x), Γ(a) où Z Γ(a) = 0 +∞ xa−1 e−x dx. CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS 96 En particulier, G1 suit une loi exponentielle de paramètre 1. On admet que E eitGa = (1 − it)−a , pour tout t ∈ R. De plus, pour a, b réels strictement positifs, Ba, b désigne une variable aléatoire de loi bêta de paramètres (a, b) : la densité ha, b de sa loi est donnée par ha, b (y) = Γ(a + b) a−1 y (1 − y)b−1 1[0,1] (y). Γ(a)Γ(b) 1. Calculer la loi du couple (Ga+b Ba, b , Ga+b ) lorsque les v.a. Ga+b et Ba,b sont indépendantes. 2. En déduire que pour deux variables Ga+b , Ba,b indépendantes, la loi de Ba, b Ga+b est identique à celle de Ga . 3. Soit n ≥ 0. Montrer par récurrence, que lorsque les variables aléatoires Ba,1 , · · · , Ba+n,1 , Ga+n+1 sont indépendantes, la loi de Pn = Ga+n+1 n Y Ba+j, 1 j=0 est la même que celle de Ga . On utilisera la question précédente et les hypothèses d’indépendance. On évitera les longs calculs. 4. Soit X une v.a. de loi exponentielle de paramètre 1 indépendante de Ga , montrer que Ga + X a la même loi que Ga+1 . 5. En déduire que pour tout entier n, Ga+n a même loi que Hn = Ga + X1 + X2 + . . . + Xn , où les Xi sont des v.a. dont on précisera les propriétés. On pose Wn = Ga + X1 + X2 + . . . + Xn où les Xi sont indépendantes, identiquement distribuées de loi exponentielle de paramètre 1. On suppose de plus que les v.a. Ga et {Xk , k ≥ 1} sont définies sur le même espace de probabilité. 6. Quelle est la limite presque-sûre de (n−1 Wn , n ≥ 1) ? 7. Montrer que la suite (n−1 Ga+n , n ≥ 1) converge en loi, vers une loi que l’on précisera. . Exercice 78. On rappelle que Z 1 u−1/2 (1 − u)−1/2 du = π. 0 Soit X = (X1 , X2 ) un vecteur gaussien de R2 , centré, de matrice de covariance (ou dispersion) Γ = I. On pose X2 U = 2 1 2 et V = X12 + X22 . X1 + X2 CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS 97 1. Calculer la densité de la loi de (U, V ). 2. Donner les densités marginales de U et V . On précisera les constantes de normalisation. X2 3. Soit Z = 22 . Exprimer Z en fonction de U puis calculer la densité de la loi de Z. X1 On note Rθ la rotation d’angle θ dans R2 . Si x ∈ R2 , x1 cos θ − x2 sin θ cos θ − sin θ x1 Rθ x = = , x1 sin θ + x2 cos θ sin θ cos θ x2 où x1 et x2 sont les composantes de x dans la base canonique de R2 . Soit X = (X1 , X2 ) une v.a. à valeurs dans R2 telle que pour tout θ ∈ [−π, π], Rθ X a même loi que X. C’est-à-dire que E [g(Rθ X)] = E [g(X)] , (5.14) pour toute fonction g mesurable bornée de R2 dans R. On suppose que la loi de X a une densité par rapport à la mesure de Lebesgue, notée v. 4. Montrer que pour toute fonction g mesurable bornée de R2 dans R, pour tout θ ∈ [−π, π], Z Z g(x)v(x)dx = R2 g(y)v(Rθ y)dy. R2 On admet qu’alors il existe w : R+ → R+ , mesurable, telle que v(x) = w(kxk) pour tout x ∈ R2 . 5. Montrer que dans ce cas, Z +∞ w(r) rdr = 0 1 . 2π On suppose maintenant que X = (X1 , X2 ) est un vecteur gaussien centré de matrice de covariance (ou dispersion) Γ. 6. Soit θ ∈ [−π, π], quelle est la loi de Rθ X ? 7. Montrer que Rθ X a même loi que X pour tout θ si et seulement si ΓRθ = Rθ Γ. 8. Supposons que ΓRθ = Rθ Γ pour tout θ ∈ [−π, π]. En écrivant les équations satisfaites par les coefficients de Γ, montrer que Γ est la matrice d’une homothétie positive (c’est-à-dire qu’il existe σ 2 tel que Γ = σ 2 I). . Exercice 79. Soit N un processus de Poisson (cf. exercice 74) d’intensité λ, on note Tn le n-ième instant de saut. Par convention, T0 = 0. Soit (Zn , n ≥ 1), une suite de variables aléatoires de même loi telles que pour tout n, Tn et Zn sont indépendantes. Soit g la densité de la loi commune aux Zn . CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS 98 1. Montrer que pour toute fonction f, Z +∞ Z (λt)n−1 f (t, z)g(z)λe−λt dz dt. E[f (Tn , Zn )] = (n − 1)! 0 2. En déduire que Z X E[ f (Tn , Zn )] = λ +∞ Z f (t, z)g(z) dz dt. 0 n≥1 3. On suppose que les communications téléphoniques d’un abonné durent un temps aléatoire de loi exponentielle de moyenne 3 minutes. Ces durées sont indépendantes entre elles. Au siècle dernier, le coût d’une communication était fonction de sa durée t selon la formule suivante : c(t) = α si t ≤ t0 , et c(t) = α + β(t − t0 ) si t ≥ t0 . Déduire de ce qui précède que le coût moyen d’une heure totale de communication est donné par : Z 1 c(t)λe−λt dt λ 0 avec λ = 20. (Indication : Considérer Zn = Tn+1 − Tn et expliquer pourquoi on peut appliquer le résultat précédent.) . Exercice 80. Soit N un processus de Poisson sur R+ . Soit f R+ → R+ . Considérons Z X f (s)dNs = f (Tn ). n≥1 1. Montrer que Nt − Ns a même loi que Nt−s pour tout couple (t, s) avec t ≥ s. 2. Montrer que Z Z −1]a, b](s) E exp(− 1]a,b] (s)dNs ) = exp − 1 − e λds . R 3. En déduire E exp(− f (s)dNs ) pour toute fonction f positive. 4. Pour B ⊂ R+ , calculer de deux manières différentes Z d E exp(− (f + t1B )(s)dNs ) . dt t=0 . Exercice 81. En radio-mobiles, on est souvent amené à simuler des usagers répartis de façon uniforme dans une cellule hexagonale (voir la figure 5.2 pour les éléments caractéristiques d’une telle cellule). Comment faire en utilisant un minimum d’appels au générateur de nombres aléatoires ? On rappelle √ pour simplifier les calculs que pour un hexagone de longueur de côté 1, l’aire est A = 3 3/2. CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS 99 y π/6 1−x y= √ 3 x Figure 5.2 – Hexagone régulier. . Exercice 82 (Somme aléatoire). Soient X = (Xn , n ≥ 1) une suite de v.a. indépendantes de loi exponentielle de paramètre λ. Soit N une v.a. indépendante de la suite X de loi géométrique de paramètre ρ. Calculer la loi de Z où Z= N X Xj . j=1 . Exercice 83. En quoi la fonction définie sur [0, 1] × [0, 1] par (x2 − y 2 )/(x2 + y 2 )2 montret-elle que les hypothèses du théorème de Fubini sont optimales ? . Exercice 84. Soit (E, E, P) un espace probabilisé et T une application mesurable de E dans lui-même. On suppose que P est invariante par T, c’est-à-dire que P(T −1 (A)) = P(A) pour tout A ∈ E. 1. Montrer que l’ensemble des mesurables invariants par T, c’est-à-dire qui vérifie T −1 (A) = A, est une tribu (notée I par la suite). 2. Soit f une fonction mesurable de E dans R. Montrer que si f est invariante par T (c’est-à-dire f ◦ T = f ) alors f est mesurable de (E, I) dans (R, B(R)). 3. Le système dynamique (E, T, P) est dit ergodique lorsque I ⊂ σ{A ⊂ E, P(A) = 0 ou P(A) = 1}. Montrer que (E, T, P) est ergodique si et seulement si les fonctions invariantes par T sont constantes presque partout. 4. On dit que T est mélangeante si et seulement si pour tout couple f, g d’éléments de L2 (dP), Z Z Z f ◦ T n gdP = lim n→+∞ E f dP E gdP. E (5.15) CHAPITRE 5. VARIABLES ET VECTEURS ALÉATOIRES RÉELS 100 Montrer que si T est mélangeante alors (E, T ) est ergodique. 5. Montrer que si la condition de mélange (5.15) est vérifiée pour f, g appartenant à un sous-ensemble dense de L2 (dP) alors T est mélangeante. On veut maintenant étudier le système dynamique donnée par l’équation d’évolution : xan+1 = T (xan ) où T (x) = 4x(1 − x), xa0 = a ∈ [0, 1]. On veut montrer en particulier que pour presque tout a ∈ [0, 1], n 1X lim f (xaj ) = n→+∞ n j=0 Z 1 √ √ f (u)(π u 1 − u)−1 du. 0 On admet que si (E, T, P) est un système ergodique alors n 1X lim f ◦ T j (x) = n→+∞ n j=0 Z f dP E pour presque tout x. Il nous faut donc trouver une mesure invariante µ par T et montrer que le système dynamique ([0, 1], T, µ) est ergodique. Pour ce faire on considère un autre système dynamique : E1 = [0, 1[, T1 x = 2x si 0 ≤ x ≤ 1/2, T1 (x) = 2 − 2x pour 1/2 ≤ x < 1. (où [x] est la partie entière de x) muni de la mesure de Lebesgue sur [0, 1[, notée λ. 1. Montrer que λ est invariante par T1 . 2. En admettant (ou se souvenant, cf. séries de Fourier) que la famille de fonctions ek (x) = exp(2iπkx) pour k ∈ Z est une famille dense de L2 (dλ), montrer que T1 est mélangeante. 3. Soit Θ l’application de E1 dans [0, 1] définie par : Θ(x) = sin2 (πx/2). 4. Identifier µ la mesure image de λ par Θ. 5. Montrer que ([0, 1[, T, µ) est ergodique et conclure. Chapitre 6 Fonction caractéristique On note ha, bi le produit scalaire de deux vecteurs a, b de Rd , et kak la norme euclidienne de a. AT désigne la transposée de la matrice A. Par convention, les vecteurs sont des vecteurs-colonne. √ Pour un nombre complexe x, |x| désigne son module et x̄ son conjugué. On note i = −1. Fonctions à valeur dans C Dans ce chapitre, nous sommes amenés à utiliser l’intégrale, par rapport à des mesures de probabilité, de fonctions à valeur dans C. Toute fonction f à valeur dans C peut s’écrire sous la forme : f = fR + ifI (6.1) où fR , fI sont les fonctions à valeur dans R désignant respectivement la partie réelle et la partie imaginaire. On dira qu’une fonction f à valeur dans C est mesurable si les fonctions fR et fI sont mesurables. Elle est par définition intégrable par rapport à une mesure µ si fR et fI sont intégrables. On définit alors l’intégrale de f par : Z Z Z f dµ := fR dµ + i fI dµ . A l’aide de la décomposition (6.1) et des inégalités : |fR | ≤ |f |, |fI | ≤ |f |, |f | ≤ |fR | + |fI | , il est aisé de vérifier que des propriétés établies pour des fonctions à valeur dans R restent valables pour des fonctions à valeur dans C. Par exemple : • une fonction mesurable f à valeur dans C est intégrable par rapport à µ si et seulement Z |f |dµ < ∞ ; • le théorème de convergence dominée (voir théorème 4.8) reste vrai si les fonctions f, fn sont supposées à valeur dans C. 101 CHAPITRE 6. FONCTION CARACTÉRISTIQUE 6.1 102 Définition et propriétés Dans cette section, X = (X1 , · · · , Xd ) désigne un vecteur aléatoire à valeur dans Rd , défini sur un espace de probabilité (Ω, F, P). Définition 6.1.– On appelle fonction caractéristique de la v.a. X la fonction φX : Rd → C définie par Z exp(iht, xi) dPX (x) φX (t) := E (exp(iht, Xi)) = Rd ! ! d d X Y = E exp(i tk Xk ) = E exp(itk Xk ) . k=1 k=1 Comme | exp(iht, Xi)| = 1, la fonction φX est bien définie sur Rd . Elle est définie pour les v.a. discrètes commes les v.a. à valeur réelle ou vectorielle. Dans le cas particulier où X est à valeur dans un espace au plus dénombrable E, on a X exp(iht, ei)P[X = e] ; φX (t) = e∈E dans le cas où X est une v.a. à densité fX (par rapport à la mesure de Lebesgue λd sur Rd ), on a Z φX (t) = exp(iht, xi) fX (x) dx . La définition de la fonction caractéristique ne dépend que de la loi de la v.a. X. En particulier, si deux v.a. ont même loi alors elles ont même fonction caractéristique. Preuve : En conséquence du théorème de transfert (théorème 5.5), on a E(g(X)) = E(g(Y )) pour toute fonction mesurable bornée à valeur dans R (et donc par une extension triviale, à valeur dans C). En particulier, en appliquant cette propriété à la fonction g(x) = exp(iht, xi) (t étant fixé), on en déduit que φX (t) = φY (t). Vue sous l’angle de transformée d’une loi, la fonction caractéristique d’une v.a. n’est autre que la transformée de Fourier de sa loi, qui est définie de la façon suivante : Définition 6.2.– Soit µ une mesure finie sur (Rd , B(Rd )). La transformée de Fourier de µ est la fonction µ̂ : Rd → C définie par Z µ̂(t) := exp(iht, xi) dµ(x) . Autrement dit, comme alternative à la définition 6.1, on peut simplement écrire que la fonction caractéristique d’une v.a. X est φX = PbX . CHAPITRE 6. FONCTION CARACTÉRISTIQUE 103 Remarque : Dans le cas où µ est une mesure sur R admettant une densité f i.e., µ(dx) = R f (x)dx, la définition 6.2 implique que µ̂(t) = eitx f (x)dx. Ainsi, µ̂(−t) est égale à la transformée de Fourier fˆ de la fonction intégrable f , vue en cours MDI-103. Cette remarque justifie la terminologie « transformée de Fourier ». En ce sens, la définition 6.2 est une extension de la transformée de Fourier des fonctions vue en cours d’analyse. Proposition 6.1.– La fonction caractéristique d’une v.a. X vérifie les propriétés suivantes : a) Pour tout t ∈ Rd , |φX (t)| ≤ 1 . En outre, φX (0) = 1 . b) La fonction φX est continue sur Rd . c) Si b ∈ Rp est un vecteur déterministe et A est une matrice déterministe de taille p × d alors AX + b ∈ Rp et pour tout t ∈ Rp , φAX+b (t) = exp(iht, bi) φAX (t) = exp(iht, bi) φX (AT t) . En particulier, si X est une v.a. à valeur dans R et que a, b sont des réels alors φaX+b (t) = exp(itb) φX (at) . d ) Si X, Y sont deux v.a. indépendantes définies sur le même espace de probabilité (Ω, F, P) et à valeurs dans Rd , alors φX+Y = φX φY . Plus généralement, si X1 , · · · , Xn : Ω → Rd sont des v.a. indépendantes, alors : φX1 +···+Xn = n Y φXk k=1 Preuve : a)) On a |φX (t)| ≤ E (|exp(iht, Xi)|) = 1. De plus, φX (0) = E (exp(0)) = 1. b)) La continuité en tout point t ∈ Rd est une conséquence du théorème de convergence dominée (voir théorème 4.8). Soit t ∈ Rd ; nous écrivons pour toute suite (h` )` à valeur dans Rd telle que lim`→+∞ h` = 0, Z φX (t + h` ) − φX (t) = (exp(iht + h` , xi) − exp(iht, xi)) dPX (x) . Par continuité du produit scalaire et de la fonction exponentielle, lim (exp(iht + h` , xi) − exp(iht, xi)) = 0 . `→+∞ R De plus, pour tout h ∈ Rd , |exp(iht + h, xi) − exp(iht, xi)| ≤ 2 et 2 dPX = 2 < ∞. Par suite, le théorème de convergence dominée entraine lim`→+∞ φX (t + h` ) = φX (t), ce qui établit la continuité en t pour tout t ∈ Rd . c)) On écrit en utilisant les propriétés du produit scalaire et de la fonction exponentielle, et en utilisant le fait que A, b sont déterministes φAX+b (t) = E (exp(ihAX + b, ti)) = exp(ihb, ti) E (exp(ihAX, ti)) = exp(ihb, ti) E exp(ihX, AT ti) = exp(ihb, ti) φX (AT t) . CHAPITRE 6. FONCTION CARACTÉRISTIQUE 104 d )) On a pour tout t ∈ Rd , φX+Y (t) = E (exp(iht, Xi) exp(iht, Y i)) = E (exp(iht, Xi)) E (exp(iht, Y i)) = φX (t) φY (t) en utilisant la caractérisation de l’indépendance donnée par le théorème 5.13 (établie pour des fonctions à valeur réelle et donc valable aussi pour des fonctions à valeur dans C). La généralisation à une somme de n v.a. indépendantes est immédiate. 6.2 Fonctions caractéristiques de v.a. usuelles La table 6.1 fournit l’expression des fonctions caractéristiques de plusieurs loi usuelles. Les sept premières expressions sont la conséquence de calculs triviaux que nous omettons ici. Nous fournissons ci-dessous la preuve des trois dernières. Nous commençons par établir l’expression de la fonction caractéristique d’une v.a. normale N (0, 1) ; nous en déduirons celle d’une loi Nd (0, I) puis d’une loi Nd (µ, Γ). Soit Y ∼ N (0, 1). Les conditions de dérivation sous l’intégrale sont vérifiées (voir exercice 45) et on a Z 1 ix exp(itx) exp(−1/2 x2 )dd φ0Y (t) = √ 2π Z Z i t 2 1 = −√ (it − x) exp(itx) exp(− /2 x )dx − √ exp(itx) exp(−1/2 x2 )dx 2π 2π Z i t 2 +∞ 1 = −√ exp(itx) exp(− /2 x ) −∞ − √ exp(itx) exp(−1/2 x2 )dx = −t φY (t). 2π 2π La résolution de l’équation différentielle φY (0) = 1, donne le résultat. φ0Y (t) = −t φY (t) sachant que l’on doit avoir Soit Z ∼ Nd (0, I). Alors par le théorème de Fubini (voir Chapitre 5.3), φZ (t) = √ = = Z 1 d 2π d Y k=1 d Y exp(iht, zi) exp(−1/2 Rd 1 √ 2π d X zk2 ) dz1 · · · dzd k=1 Z exp(itk zk ) exp(−1/2 zk2 ) R dzk = d Y φY (tk ) k=1 exp(−1/2 t2k ) = exp(−1/2 tT t) . k=1 √ Enfin, nous avons établi au Chapitre 5.3 que si Z ∼ Nd (0, I) alors X = µ + ΓZ suit une loi Nd (µ, Γ) (voir exercice 61). L’expression de la fonction caractéristique d’une loi Nd (µ, Γ) est maintenant la conséquence de la Proposition 6.1-c). CHAPITRE 6. FONCTION CARACTÉRISTIQUE 105 Loi Expression de ΦX (t) Mesure de Dirac δa exp(ita) Bernoulli B(p) 1 − p + p exp(it) Binomiale B(n, p) (1 − p + p exp(it))n Géométrique G(p) sur N p 1 − (1 − p) exp(it) Poisson P(λ) λ λ − it Uniforme U([a, b]) exp(itb) − exp(ita) it(b − a) Exponentielle E(λ) λ λ − it Gaussienne réelle N (µ, σ 2 ) avec σ 2 ≥ 0 Gaussienne multivariée Nn (µ, Γ) exp(itµ − 1/2 σ 2 t2 ) exp(iht, µi − 1/2 tT Γt) Gamma Γ(a, b) b b − it a Table 6.1 – Quelques fonctions caractéristiques utiles. Se rapporter aux tables 3.1 et 1.1 pour la définition des lois. Pour la fonction caractéristique d’une loi Nn (µ, Γ) lorsque Γ est définie positive, voir section 6.2 ; lorsque Γ est positive, voir chapitre 7. Par convention, N (a, 0) est la mesure de Dirac en a CHAPITRE 6. FONCTION CARACTÉRISTIQUE 106 Soit X ∼ G(a, b). Par application du théorème de dérivation sous l’intégrale (voir exeria cice 45) suivie d’une intégration par parties, nous avons φ0X (t) = b−it φX (t) dont nous déduisons l’expression de φX en utilisant la condition φX (0) = 1. A noter que si a n’est pas un entier, on prend la détermination continue valant 1 en 0. 6.3 Caractérisation de la loi Nous avons établi (théorème 4.9) que deux lois µ, ν sont égales si et seulement si E (f (X)) = E (f (Y )) pour toute fonction continue bornée (ou pour toute fonction continue à support compact) ; ici X ∼ µ et Y ∼ ν. Le théorème suivant donne une autre caractérisation : µ, ν sont égales si et seulement si E (f (X)) = E (f (Y )) pour toute fonction f de la forme x 7→ exp(iht, xi), t ∈ Rn . La preuve de ce résultat repose sur le lemme suivant. Théorème 6.2.– La fonction caractéristique d’une v.a. détermine sa loi i.e., pour deux vecteurs aléatoires X, Y à valeur dans Rd on a équivalence : a) pour tout t ∈ Rd , φX (t) = φY (t). b) les vecteurs aléatoires X et Y ont même loi. Preuve : Le sens réciproque est trivial étant donnée la définition de la fonction caractéristique : on ne se préoccupe que du sens direct. Plaçons nous pour simplifier dans le cas d = 1. A titre de remarque, signalons que la preuve est déjà connue des élèves dans le cas particulier où X et Y sont deux lois à densité fX et fY : dans le cas où les fonctions caractéristiques sont elles-mêmes intégrables, les densités se déduisent des fonctions caractéristiques par transformée de Fourier de φX et φY . Ainsi, φX = φY implique que fX = fY presque partout, et donc que PX = PY . Dans le cas général, la preuve repose sur la formule d’inversion (voir l’exercice 87) : Z PX (]a, b]) = lim T T →∞ −T e−ita − e−itb φX (t)dt , it (6.2) qui vraie pour tous a, b en lesquels PX n’a pas de masse, c’est-à-dire pour tous a, b hors de l’ensemble DX := {x : PX ({x}) > 0}. D’après l’exercice 34, cet ensemble DX est au plus dénombrable. Donc pour tout a et b hors de DX ∪ DY , on a PX (]a, b]) = PY (]a, b]). Puisque FX (b) = FX (a) + PX (]a, b]), il suffit de faire tendre a vers −∞ pour obtenir : FX (b) = FY (b) (6.3) pour tout point b hors d’un ensemble au plus dénombrable. En utilisant la continuité à droite des fonctions de répartition, on conclut que (6.3) est vraie en tout point. Puisque le fonction de répartition détermine entièrement la loi, le résultat est démontré. CHAPITRE 6. FONCTION CARACTÉRISTIQUE 6.4 107 Caractérisation de l’indépendance Soient (Xk )k≤p des vecteurs aléatoires à valeur dans Rnk , définies sur le même espace de probabilité (Ω, F, P). Théorème 6.3.– Les v.a. X1 , · · · ,Q Xp sont indépendantes si et seulement si pour tout n1 +···+np t = (t1 , · · · , tp ) ∈ R , φX (t) = pk=1 φXk (tk ). Preuve : Supposons que les v.a. sont indépendantes. On a ! p p p Y Y Y φX (t) = E exp(ihtk , Xk i) = E (exp(ihtk , Xk i)) = φXk (tk ) , k=1 k=1 k=1 en utilisant la caractérisation de l’indépendance donnée par le théorème 5.13 dans la seconde égalité. Considérons la réciproque. Soient Y1 , · · · , Yp des v.a. indépendantes et telles que pour tout k, Xk et Yk ont même loi. CommeQles v.a. sont indépendantes, pour tout t = (t1 , · · · , tp ) ∈ Rn1 +···+np , φ(Y1 ,··· ,Yp ) (t) = pk=1 φYk (tk ) ; de plus, comme Xk et Yk ont même loi, d’après le Théorème 6.2 φXk (tk ) = φYk (tk ) pour tout tk ∈ Rnk . Donc pour tout t = (t1 , · · · , tp ) ∈ Rn1 +···+np , φ(Y1 ,··· ,Yp ) (t) = p Y φXk (tk ) = φX (t) . k=1 Le Théorème 6.2 entraine que (Y1 , · · · , Yp ) et (X1 , · · · , Xp ) ont même loi donc en particulier, les v.a. (Xk )1≤k≤p sont indépendantes. 6.5 6.5.1 Calcul de moments Moments et fonction caractéristique Puisque la fonction caractéristique « caractérise la loi », elle détermine également les moments de cette loi. Il se trouve que la fonction caractéristique est un outil souvent commode pour évaluer les moments d’une loi. Théorème 6.4.– Soit X une variable aléatoire réelle possédant un moment d’ordre p (p > 0). Alors φX est de classe C p et l’on a ∂ p φX (t) = ip E (X p exp(itX)) . p ∂t En particulier, les moments sont liés aux dérivées en zero : E(X p ) = (−1)p ip ∂ p φX (0) . ∂tp CHAPITRE 6. FONCTION CARACTÉRISTIQUE 108 Preuve : Nous établissons le résultat suivant : φX (t) = 1 + itE(X) − t2 tp E(X 2 ) + · · · + ip E(X p ) + ξ(t) 2 p! où lim ξ(t)/tp = 0. t→0 Cette égalité se justifie par le développement : exp(itx) − p X ik k=0 tk k x k! tk 1 xk (k − p)! (k − p + 1) · · · (k − 1)k k>p Z 1 Z up Z up−1 Z u2 X tk k k ··· uk−p = i x 1 du1 du2 · · · dup (k − p)! 0 0 0 0 k>p Z u2 X Z 1 Z up Z up−1 tk−p k−p k−p ··· ik−p = ip tp xp x u1 du1 du2 · · · dup (k − p)! 0 0 0 0 k>p Z u2 Z 1 Z up Z up−1 ··· exp(iu1 tx) − 1 du1 du2 · · · dup , = ip tp xp = X ik 0 0 0 0 où l’on a utilisé le théorème Fubini (voir Chapitre 5.3). On montre que l’espérance de ce dernier terme est o(tp ) par application du théorème de convergence dominée (voir Chapitre ??). Généralisation aux vecteurs aléatoires De même, on peut montrer le résultat suivant : Théorème 6.5.– Soit X un vecteur aléatoire admettant un moment d’ordre p (p > 0). t 7→ φX (t) est de classe C p et on a ∂ p φX (t) = ip E Xt1 Xt2 · · · Xtp exp(i ht, Xi) . ∂t1 · · · ∂tp On en déduit aussi une méthode pour le calcul de moments à partir de l’expression de la fonction caractéristique. 6.5.2 Applications Application 1 Nous montrons que si X est une v.a. réelle gaussienne d’espérance µ et de variance σ 2 (σ 2 > 0) i.e., X ∼ N (µ, σ 2 ) alors tous les moments impairs de X − µ sont nuls et les CHAPITRE 6. FONCTION CARACTÉRISTIQUE 109 moments pairs s’expriment à l’aide de σ 2 : pour tout q ∈ N, E (X − µ)2q+1 = 0 , (2q)! E (X − µ)2q = σ 2q (2q − 1)(2q − 3) · · · 3 = σ 2q q . 2 q! (6.4) (6.5) Preuve : On veut calculer E ((X − µ)q ) pour tout q ∈ N. Nous avons établi (exercice 61) que si X ∼ N (µ, σ 2 ) alors σ −1 (X − µ) ∼ N (0, 1). Par suite, nous allons établir (2q)! E Y 2q = (2q − 1)(2q − 3) · · · 3 = q , 2 q! E Y 2q+1 = 0 , (6.6) où Y ∼ N (0, 1). On écrit E (exp(itY )) = E X (itY )n n≥0 n! =E N X (it)k lim N →+∞ k=0 k! ! Y k . Pour permuter limite et espérance, on applique le théorème de convergence dominée P (it)k k (théorème 4.8) en remarquant que | N et que l’espérance k=0 k! Y | ≤ exp(|t||Y |) de ce majorant est finie. Par suite, E (exp(itY )) = lim N →+∞ N X (it)k k=0 X (it)k E Yk = E Yk . k! k! k≥0 D’autre part, d’après le Tableau 6.1 E (exp(itY )) = exp(−1/2 t2 ) = X (−1)n t2n n≥0 2n n! . On en déduit (6.6) par identification. Par convention, une loi gaussienne d’espérance µ et de variance nulle est une masse de Dirac en µ (µ ∈ R). Si X ∼ δµ alors tous ses moments centrés sont nuls et les égalités ci-dessus restent vraies. Ainsi, on a établi que si X ∼ N (µ, σ 2 ), avec σ 2 ≥ 0, on a (6.4) et (6.5). Application 2 Soit m ∈ Rd un vecteur déterministe et Γ une matrice d×d positive déterministe. Montrons a) que la fonction t 7→ exp iht, mi − 1/2 tT Γt est la fonction caractéristique d’un vecteur aléatoire, (6.7) CHAPITRE 6. FONCTION CARACTÉRISTIQUE 110 b) et que ce vecteur aléatoire a pour espérance m et pour matrice de covariance Γ. Preuve : (a) Nous avons établi que lorsque Γ est définie positive, la fonction donnée par (6.7) est la transformée de Fourier d’une loi Nd (m, Γ) (voir Tableau 6.1). L’exercice suivant justifie le fait que lorsque Γ est juste supposée positive, la fonction définie par (6.7) peut encore être lue comme la transformée de Fourier d’une loi. (b) Nous montrons l’expression de l’espérance et de la matrice de covariance par application des résultats du Théorème 6.5.1. Soit k ∈ {1, · · · , n}. En dérivant t 7→ φX (t) par rapport à la k-ième composante tk , on sait d’une part que ∂tk φX |t=0 = iE (Xk ) et d’autre part, ∂tk φX |t=0 = ∂tk exp(itT m − 1/2 tT Γt) |t=0 = imk . Ainsi, E (Xk ) = mk pour tout k ∈ {1, · · · , n}. On considère la dérivée partielle d’ordre 2 : ∂tj tk φX (t). D’une part, on sait que ∂tj tk φX |t=0 = −E (Xj Xk ) . D’autre part, ∂tj tk φX |t=0 = ∂tj tk exp(itT m − 1/2 tT Γt) |t=0 = −Γj,k − mj mk . Par suite, Γj,k = E (Xj Xk ) − mj mk = E (Xj Xk ) − E (Xj ) E (Xk ) = Cov(Xj , Xk ) . Ainsi, Γ est la matrice de covariance du vecteur aléatoire X. CHAPITRE 6. FONCTION CARACTÉRISTIQUE 6.6 111 Exercices . Exercice 85. Soit (Xn , n ≥ 1) une suite de v.a. indépendantes, de loi exponentielle de paramètre λ. Soit Tn = X1 + . . . + Xn . 1. Calculer la loi de (T1 , T2 , · · · , Tn ). 2. En déduire la loi de Tn . 3. Calculer directement la fonction caractéristique de Tn . . Exercice 86. Soit m ∈ Rd un vecteur déterministe et Γ une matrice d × d positive déterministe. On écrit Γ = U ∆U T où U est une matrice orthogonale et ∆ est une matrice diagonale. On suppose que ∆r+1,r+1 = · · · = ∆d,d = 0. P p Montrer que la transformée de Fourier de la loi de m + rk=1 ∆k,k Yk U·,k où les v.a. (Yj )j sont i.i.d. de loi N (0, 1) est donnée par (6.7). U·,k désigne la colonne k de la matrice U . . Exercice 87. Soit X une v.a.r. de loi PX et de fonction caractéristique φX . On veut démontrer la formule d’inversion (6.2). On note IT la quantité à l’intérieur de la limite. Soient a < b deux réels. 1. En invoquant le théorème de Fubini, justifier l’égalité Z +∞ Z T it(x−a) 1 e − eit(x−b) IT = dPX (x) . 2π −∞ it −T RT 2. On pose S(T ) = 0 (sin x)/x dx. On note sgn(x) le signe de x (1 si x > 0, -1 si x < 0 et 0 si x = 0). Montrer que pour tout T > 0, Z 0 3. En déduire que IT = R +∞ ψ(T, x) = −∞ T sin tθ dt = sgn(θ) S(T |θ|) . t ψ(T, x)dPX (x) où sgn(x − a) sgn(x − b) S(T |x − a|) − S(T |x − b|) . π π 4. On admettra (ou on se souviendra) que S(T ) tend vers π/2 quand T → ∞. Montrer que l’intégrande ψ est bornée et que : 0 si x < a ou x > b 1 si x = a ou x = b lim ψ(T, x) = T →+∞ 2 1 si a < x < b . 5. En utilisant le théorème de convergence dominée, en déduire la formule d’inversion (6.2) pour tout points a, b tels que PX ({a}) = PX ({b}) = 0. Chapitre 7 Vecteurs gaussiens On note ha, bi le produit scalaire de deux vecteurs a, b de Rd ; et on note AT la transposée de la matrice A. Par convention, les vecteurs sont des vecteurs-colonne. 7.1 7.1.1 Préliminaires Rappel La loi gaussienne (ou normale) de paramètres m, σ 2 (σ ≥ 0, m ∈ R) - notée N (m, σ 2 ) - est définie comme suit : si σ > 0 : la loi de densité par rapport à la mesure de Lebesgue donnée par 2 1 1 (x − m) √ exp −1/2 . (7.1) σ2 2π σ si σ = 0 : la mesure de Dirac en m. La fonction caractéristique d’une loi gaussienne N (m, σ 2 ) est donnée par (voir Tableau 6.1) t 7→ exp(itm − 1/2 t2 σ 2 ) . 7.1.2 (7.2) Matrice de covariance Soient X1 , · · · , Xd des v.a. réelles. On s’intéresse au vecteur-colonne X = (X1 , . . . , Xd )T . Définition 7.1.– L’espérance de X est définie comme le vecteur des espérances : E(X1 ) .. E(X) := . . E(Xd ) Elle est bien définie si et seulement si toutes les composantes Xk admettent une espérance. 112 CHAPITRE 7. VECTEURS GAUSSIENS 113 Un vecteur aléatoire X est dit d’ordre p si toutes ses composantes X1 , · · · , Xd sont d’ordre p. Cela revient à dire que E (kXkp ) < ∞ où k . k est une norme sur Rd . Remarque : Si X est un vecteur aléatoire de densité f sur Rd telle que lim kxkp f (x) = 0 kxk→∞ pour p > 0, alors X admet tous ses moments (voir l’exercice 48). En particuler, une variable aléatoire gaussienne multivariée X ∼ Nd (m, Γ) possède tous ses moments. Définition 7.2.– On appelle matrice de covariance d’un vecteur X d’ordre 2 la matrice notée Cov(X) dont le coefficient (i, j) vaut Cov(Xi , Xj ) : Cov(X) := (Cov(Xi , Xj ))i,j=1···d . En particulier, le ième coefficient diagonal de Cov(X) vaut Cov(Xi , Xi ) = Var(Xi ). On notera donc les deux propriétés utiles suivantes : – La diagonale de Cov(X) est égale au vecteur des variances ; – Dans le cas où les v.a. X1 , · · · , Xd sont décorrélées, la matrice de covariance est diagonale. Il est naturel de généraliser la définition 7.1 au cas de matrices. Soit (Zi,j )i=1···p,j=1···q une collection de p × q variables aléatoires indexées par i et j. Pour tout ω ∈ Ω, on désigne par Z(ω) la matrice à coefficients réels de taille p × q dont le coefficient (i, j) vaut Zi,j (ω). L’application Z est appelée une matrice aléatoire. On définit E(Z) comme la matrice de taille p × q dont le coefficient (i, j) vaut E(Zi,j ). La preuve de la proposition suivante est laissée à titre d’exercice. Proposition 7.1.– Soit X un vecteur aléatoire d’ordre 2 de taille d, A une matrice constante de taille n × d et b un vecteur constant de taille n. Alors a) E(AX + b) = AE(X) + b ; b) Cov(AX + b) = ACov(X)AT ; c) Cov(X) = E(Xc XcT ) où Xc := X − E(X) est le vecteur recentré. Proposition 7.2.– Cov(X) est une matrice symétrique semi-définie positive. Preuve : On voit immédiatement que Cov(X) est symétrique car Cov(Xi , Xj ) = Cov(Xj , Yi ). d T T T T T Pour h toutxivecteur-colonne de R , on calcule x Cov(X)x = x E(Xc Xc )x = E(x Xc Xc x) = 2 E xT X ≥ 0. CHAPITRE 7. VECTEURS GAUSSIENS 7.2 7.2.1 114 Vecteurs gaussiens : définitions, propriétés Définition Dans la suite de ce chapitre, m ∈ Rd est un vecteur déterministe et Γ est une matrice de covariance d × d (en particulier, Γ est une matrice symétrique, positive, d’après le paragraphe 7.1.2). Nous écrirons m = (m1 , · · · , md ) et noterons Γi,j l’élément (i, j) de la matrice Γ. Soit X un vecteur aléatoire à valeur dans Rd défini sur (Ω, F, P) et possédant des moments d’ordre 2. Définition 7.3.– X est un vecteur gaussien (ou variable gaussienne multivariée ou variable normale multivariée) si et seulement si pour tout a ∈ Rd , la loi de ha, Xi est une loi gaussienne (éventuellement de variance nulle). 7.2.2 Fonction caractéristique Nous avons vu au chapitre 6 que la fonction caractéristique déterminait la loi de X. Le théorème suivant peut être lu comme une alternative à la définition de vecteur gaussien. Théorème 7.3.– Les deux conditions sont équivalentes a) X est un vecteur gaussien d’espérance m et de matrice de covariance Γ. b) la fonction caractéristique du vecteur aléatoire X est t 7→ exp(iht, mi − 1/2 tT Γt). Dans ce cas, on écrira X ∼ Nd (m, Γ). Preuve : Supposons a)). Alors pour tout t ∈ Rd , ht, Xi est une v.a.r. gaussienne d’espérance ht, mi et de variance tT Γt. On en déduit l’expression de la fonction caractéristique en appliquant le formulaire, tableau 6.1. Réciproquement, supposons b)). Identifions la loi de ht, Xi, pour tout t ∈ Rd , en calculant la fonction caractéristique de cette v.a. à valeur dans R. Soit y ∈ R : φht,Xi (y) = E (exp(iy ht, Xi)) = E (exp(ihyt, Xi)) = φX (yt) = exp(ihyt, mi − 1/2 (yt)T Γ(yt)) = exp(iyht, mi − 1/2 y 2 (tT Γt)) . On reconnaît la fonction caractéristique d’une loi gaussienne réelle d’espérance ht, mi et de variance (éventuellement nulle) tT Γt (voir le formulaire Tableau 6.1). Donc X est un vecteur gaussien ; l’expression de son espérance et de sa matrice de covariance sont une conséquence de la section 6.5.2. Ce théorème, combiné au théorème 6.2, montre que la loi d’un vecteur gaussien est entièrement caractérisée par son espérance m et sa matrice de covariance Γ. CHAPITRE 7. VECTEURS GAUSSIENS 115 L’expression de la fonction caractéristique d’un vecteur gaussien est à rapprocher de l’expression obtenue dans la section 6.2 pour les variables gaussiennes multivariées Nd (m, Γ) dans le cas où Γ est définie positive. Puisque la fonction caractéristique caractérise la loi, il est légitime de se demander si, réciproquement, la loi d’un vecteur gaussien possède une densité par rapport à la mesure de Lebesgue sur Rd . Ce n’est pas toujours le cas et tout dépend si Γ est inversible ou pas. Nous reviendrons sur ce point en section 7.6. 7.2.3 Exemples et contre-exemple Puisque les v.a. constantes sont des lois gaussiennes (de variance nulle), tout vecteur constant est un exemple de vecteur gaussien. Un exemple de vecteur gaussien moins trivial est obtenu en considérant des v.a. X1 , · · · , Xd indépendantes de même loi N (0, 1) et en posant X = (X1 , · · · , Xd ). Preuve : X est une loi gaussienne multivariée Nd (0, I) (voir exercice 52) donc, d’après le tableau 6.1, sa fonction caractéristique est donnée par exp(−1/2 ktk2 ). D’après le théorème 7.3, X est un vecteur gaussien. Plus généralement, on peut obtenir un vecteur gaussien par concaténation de v.a. gaussiennes indépendantes (on peut établir rapidement ce résultat en appliquant le résultat énoncé en section 7.5). Si X est un vecteur gaussien, alors tout sous-vecteur est encore un vecteur gaussien. En particulier, toute composante d’un vecteur gaussien est un vecteur gaussien réel i.e., c’est une loi gaussienne (donc soit une v.a. constante, soit une v.a. de densité de la forme (7.1)). La proposition suivante précise le lien entre les paramètres du vecteur gaussien et les paramètres de la loi gaussienne de chaque composante. Proposition 7.4.– Soit X ∼ Nd (m, Γ). Pour tout k ∈ {1, · · · , n}, Xk ∼ N (mk , Γk,k ). Preuve : On a pour tout t ∈ R : φXk (t) = φX ((0, · · · , 0, t, 0, · · · , 0)) = exp(itmk − 1/2 t2 Γk,k ) . D’après le théorème 6.2, la fonction caractéristique caractérise la loi et à droite, on reconnaît la fonction caractéristique d’une loi N (mk , Γk,k ) (voir Eq. (7.2)). Réciproquement, est-il vrai qu’un vecteur aléatoire tel que toutes ses composantes sont des v.a. gaussiennes est un vecteur gaussien ? la réponse est non comme le montre l’exercice 88. CHAPITRE 7. VECTEURS GAUSSIENS 7.3 116 Caractérisation de l’indépendance Nous savons que si les composantes X1 , · · · , Xd d’un vecteur aléatoire X sont indépendantes, alors ces v.a. sont décorrélées et la matrice de covariance de X est une matrice diagonale. Le théorème suivant établit un résultat plus fort en considérant la réciproque : si les composantes X1 , · · · , Xd du vecteur gaussien X sont décorrélées (i.e., la matrice de covariance de X est diagonale) alors ces composantes sont indépendantes. Nous insistons sur le fait que la décorrélation deux à deux d’une famille de v.a. n’entraine pas nécessairement l’indépendance mutuelle de ces v.a. (voir par exemple, l’exercice 88) et que le résultat est ici établi sous des hypothèses précises sur la loi jointe de cette famille de v.a. Théorème 7.5.– Soient (Xk )k≤d des v.a. réelles définies sur (Ω, F, P). Les deux conditions sont équivalentes : a) Le vecteur aléatoire (X1 , · · · , Xd ) est un vecteur gaussien et Cov(Xi , Xj ) = 0 pour tout i 6= j. b) Les v.a. X1 , · · · , Xd sont des v.a. gaussiennes indépendantes. Preuve : Soit Γ la matrice du vecteur aléatoire X = (X1 , · · · , Xd ). Supposons que Γ est de la forme diag(σ12 , · · · , σd2 ), σk ≥ 0. Alors, d’après le théorème 7.3, la fonction caractéristique de X est φX (t) = exp(i d X k=1 tk mk ) exp(−1/2 d X k=1 t2k σk2 ) = d Y exp(itk mk − 1/2 t2k σk2 ) . k=1 Or on sait que chaque composante Xk suit une loi N (mk , σk2 ) (cf. Proposition 7.4). Donc Q φX (t) = dk=1 φXk (tk ). Ainsi, par le théorème 6.3, les v.a. sont indépendantes. Réciproquement, si les v.a. (Xk )k≤d sont indépendantes, alors leur covariance est nulle. Le fait que pour tout t ∈ Rd , ht, Xi est une v.a. gaussienne est établi en section 7.2.3. Corollaire 7.6.– Soit X = (X1 , · · · , Xd ) ∼ Nd (m, Γ). Les v.a. X1 , · · · , Xd sont indépendantes si et seulement si la matrice de covariance Γ est diagonale. L’exercice 88 illustre l’importance de la condition sur la loi jointe des v.a. pour que la décorrélation entraine l’indépendance : dans cet exemple, les composantes X1 et X2 sont deux v.a. gaussiennes mais le vecteur (X1 , X2 ) n’est pas un vecteur gaussien ; ces v.a. sont décorrélées mais elles ne sont pas indépendantes. CHAPITRE 7. VECTEURS GAUSSIENS 7.4 117 Stabilité par transformation affine Proposition 7.7.– Soient b ∈ Rp un vecteur déterministe et A une matrice p × d déterministe. Soit X ∼ Nd (m, Γ). Alors AX + b est un vecteur gaussien (à valeur dans Rp ), d’espérance Am + b et de matrice de covariance AΓAT . Preuve : Calculons la fonction caractéristique de AX + b. Soit t ∈ Rp . On a φAX+b (t) = exp(iht, bi) φX (AT t) . Par le Théorème 7.3, il vient φX (AT t) = exp(ihAT t, mi) exp(−1/2 (AT t)T Γ(AT t)) = exp(iht, Ami)) exp(−1/2 tT (AΓAT )t) . Ainsi, φAX+b (t) = exp(iht, b + Ami)) exp(−1/2 tT (AΓAT )t) , et en utilisant encore le Théorème 7.3, on en déduit que AX + b est un vecteur gaussien d’espérance Am + b et de matrice de covariance AΓAT . Construction d’un vecteur gaussien Le théorème 7.5 prouve l’existence d’un vecteur gaussien centré réduit (i.e., d’espérance nulle et de matrice de covariance égale à l’identité). Nous montrons comment n’importe quel vecteur gaussien Nd (m, Γ) s’obtient par transformation affine d’un vecteur gaussien centré réduit. – Etape 1 : construction d’un vecteur de loi Nd (0, I). Le théorème 7.5 montre que le vecteur Y := (Y1 , · · · , Yd ) où (Yk )k≤d sont des v.a. gaussiennes centrées réduites indépendantes a pour loi Nd (0, I). √ √ T √ – Etape 2 : transformation affine de Y√. Soit une matrice Γ telle que Γ Γ = Γ (comme Γ√est une matrice positive, Γ existe toujours 1 La proposition 7.7 entraine que m + ΓY a pour loi Nd (m, Γ). 7.5 Somme de vecteurs gaussiens indépendants La proposition suivante montre que la somme de vecteurs gaussiens indépendants est encore un vecteur gaussien, dont l’espérance (resp. la matrice de covariance) est la somme des espérances (resp. des matrices de covariance). 1. puisque Γ est une matrice de covariance, il existe une matrice orthogonale Q et une matrice diagonale √ ∆√dont les éléments diagonaux ∆j,j sont positifs ou nuls telles que Γ = Q∆QT . On peut prendre Γ = √ p Q ∆QT où ∆ est la matrice diagonale dont les éléments diagonaux sont ∆j,j ). CHAPITRE 7. VECTEURS GAUSSIENS 118 Il est important de noter que ce résultat n’est vrai que si les variables sont indépendantes ; considérons en effet le contre-exemple suivant. Soit X ∼ N (0, 1) et Y = −X ; notons que Y ∼ N (0, 1) de sorte que X et Y sont deux vecteurs gaussiens. Alors X + Y = 0 (avec probabilité 1) et donc X + Y est un vecteur gaussien de variance nulle (la variance n’est donc pas égale à la somme des variances). Mais X et Y ne sont pas indépendantes puisque E (XY ) = −E X 2 = −1 6= 0 = E (X) E (Y ) . Proposition 7.8.– Soient X (1) , · · · , X (p) des vecteurs aléatoires indépendants tels que X (`) ∼ Nd (m(`) , Γ(`) ). Alors ! p p X X X (1) + · · · + X (p) ∼ Nd m(`) ; Γ(`) . `=1 `=1 Preuve : Pour tout t ∈ Rd , φX (1) +···+X (p) (t) = E exp(i ht, X (1) i + · · · + i ht, X (p) i) = p Y E exp(i ht, X (`) p Y φX (`) (t) i = `=1 `=1 puisque les v.a. (X (`) )`≤p sont indépendantes. En utilisant le formulaire Tableau 6.1 φX (`) (t) = exp iht, m(`) i − 1/2 tT Γ(`) t , donc φX (1) +···+X (p) (t) = exp iht, p X `=1 (`) m i− 1/2 T t { p X Γ(`) }t , `=1 et l’on conclut par application du théorème 6.2 et du formulaire Tableau 6.1. 7.6 La loi d’un vecteur gaussien admet-elle une densité ? Soit X ∼ Nd (m, Γ). On distingue deux cas : Lorsque Γ est inversible. Nous avons établi au chapitre 6 (voir Tableau 6.1 et théorème 6.2) que la loi d’un vecteur gaussien admet une densité : 1 1 exp(−1/2 (x − m)T Γ−1 (x − m))) . √ dp det(Γ) 2π CHAPITRE 7. VECTEURS GAUSSIENS 119 Lorsque Γ est non-inversible. La loi du vecteur gaussien n’admet pas de densité. On peut montrer que P [X − m ∈ Im(Γ)] = 1 ; (7.3) autrement dit, la v.a. X prend ses valeurs dans l’espace m + Im(Γ) avec probabilité 1. Preuve : Notons r le rang de Γ et ur+1 , · · · , ud une base orthonormal de l’espace orthogonal de Im(Γ). Alors pour tout r + 1 ≤ k ≤ d, Var(huk , (X − m)i) = uTk E (X − m)(X − m)T uk = uTk Γuk = 0 . Donc la v.a. huk , X − mi est constante avec probabilité 1, et comme son espérance est nulle, elle vaut zero avec probabilité 1. Ainsi, X − m est, avec probabilité 1, orthogonal au vecteur uk pour tout r + 1 ≤ k ≤ d. Ce qui conclut la démonstration. Par suite, la loi ne peut pas posséder de densité par rapport à la mesure de Lebesgue sur Rd . On dit dans ce cas que le vecteur gaussien est dégénéré. Preuve : En effet, supposons qu’elle en possède une, notée f . On a alors : Z 1 = P [X − m ∈ Im(Γ)] = f (x)dλd (x) = 0 m+Im(Γ) où la dernière égalité vient du fait que dim(Im(Γ)) < d et donc λd (m + Im(Γ)) = 0. Cela conduit à une contradiction. CHAPITRE 7. VECTEURS GAUSSIENS 7.7 120 Exercices . Exercice 88. Soit X et Y deux gaussiennes centrées réduites indépendantes. Montrer que les v.a. X + Y et sin(X − Y ) sont indépendantes. . Exercice 89. Soit deux v.a. indépendantes X ∼ N (0, 1) et Y de loi dPY = 12 (δ−1 + δ1 ). 1. Montrer que Z = Y X est une v.a. gaussienne. 2. Montrer que X et Z sont non corrélées. 3. Si (X, Z) était un vecteur gaussien, quelle serait sa loi ? 4. Calculer la loi de (X, Z). 5. Est-ce que (X, Z) est un vecteur gaussien ? 6. Est-ce que X et Z sont indépendantes ? . Exercice 90. On rappelle que pour a > 0, b > 0, Z 1 Γ(a)Γ(b) ua−1 (1 − u)b−1 du = B(a, b) = . Γ(a + b) 0 On suppose que X1 , . . . , Xn sont des v.a.r., gaussiennes, indépendantes, de même loi N (m, σ 2 ). On pose n n 1X 1X X̄ = Xi , Σ2 = (Xi − m)2 n i=1 n i=1 et n 1X (Xi − X̄)2 . S = n i=1 2 1. Soit In (z) la suite de fonctions définies par Z z 1 1 √ In−1 (w)dw pour n ≥ 1. I0 (z) = √ , In (z) = z z−w 0 Montrer que n+1 1 Γ 2 z n/2−1 . In (z) = n+1 Γ 2 2. Soit Y1 , . . . , Yn des v.a.r., indépendantes, de même loi gaussienne N (0, 1). Calculer la loi de n X Z= Yi2 . i=1 3. Calculer la loi de X̄. CHAPITRE 7. VECTEURS GAUSSIENS 121 4. Calculer la loi de (n/σ 2 )Σ2 . 5. Montrer que X̄ est indépendante du vecteur Z = (X1 − X̄, . . . , Xn − X̄) et que X̄ est indépendante de S 2 . 6. Maintenant on veut calculer la loi de (n/σ 2 )S 2 . Pour cela, supposer d’abord que m = 0 et trouver une matrice orthogonale A telle que Y = AX et que 2 nS = n X Yi2 − Y12 . 1 Ensuite traiter le cas où m 6= 0. N . Exercice 91 (Sphere hardening). Soit XN un vecteur √ gaussien de R , centré, réduit. Soit 0 kXN k, la norme euclidienne de XN et XN = kXN k/ N . 1. Calculer E [(XN0 )2 ] . 2. Calculer Var[(XN0 )2 ]. 3. Montrer que, pour tout η > 0, N →+∞ P(|XN0 − 1| ≥ η) −−−−→ 0. On pourra utiliser l’inégalité de Bienaymé-Tcebycev. . Exercice 92 (Polynômes d’Hermite). Soit X une v.a.r. gaussienne centrée, reduite et ϕ(t, x) = exp(tx). 1. Trouver g(t) telle que g(t)E [ϕ(t, X)] = 1. 2. On pose ψ(t, x) = g(t)ϕ(t, x). Montrer que E [ψ(t, X)ψ(s, X)] = exp(σ 2 ts). 3. Montrer que ψ(t, x) = ∞ X [n/2] X n=0 k=0 n−2k 2 k (−σ ) n x t . (n − 2k)! 2k k! 4. On pose [n/2] Pn (x) = X k=0 xn−2k (−σ 2 )k . (n − 2k)! 2k k! Montrer que E [Pn (X)Pm (X)] = δn, m . Chapitre 8 Convergences On fixe dans ce qui suit un espace probabilisé (Ω, A, P). 8.1 Loi des grands nombres Définition 8.1.– On dit qu’une suite (Xn , n ≥ 1) de v.a. converge P-presque-sûrement (ou P-presque-partout) vers une v.a. X lorsqu’il existe un ensemble A tel que P(Ac ) = 0 et pour tout ω ∈ A, n→+∞ Xn (ω) −−−−→ X(ω). En d’autres termes, il s’agit de la convergence simple à un ensemble de mesure nulle près. Théorème 8.1 (Loi forte des grands nombres).– Soit (Xn , n ≥ 1) une suite de v.a. indépendantes, identiquement distribuées telles que E [|X1 |] < ∞ alors n 1X n→+∞ Xj −−−−→ E [X1 ] , P − p.p. n j=1 8.2 Limité centrée Définition 8.2.– Pour un ensemble ouvert A ∈ Rk , on note ∂A sa frontière définie par ∂A = Ā − A. Pour un intervalle ]a, b[, on a alors ∂A = {a, b}. Pour un pavé ouvert de Rk , la frontière au sens topologique correspond à la notion intuitive de bord. 122 CHAPITRE 8. CONVERGENCES 123 Remarque.– Si Y a même loi que X et si (Xn , n ≥ 1) converge en loi vers X alors (Xn , n ≥ 1) converge aussi vers Y . La convergence en loi, malgré sa présentation, n’est pas une convergence de variables aléatoires mais une convergence des mesures associées aux v.a.. Théorème 8.2.– La convergence presque sûre implique la convergence en loi mais la réciproque est fausse. Démonstration. Si (Xn , n ≥ 1) converge p.s. vers X alors pour toute fonction continue bornée, n→+∞ – f (Xn ) −−−−→ f (X), presque-sûrement, – pour tout n ≥ 1, |f (Xn )| ≤ kf k∞ – et E [kf k∞ ] < ∞, donc toutes les hypothèses du théorème de convergence dominée sont satisfaites, d’où n→+∞ E [f (Xn )] −−−−→ E [f (X)] . D’après la première caractérisation de la convergence en loi, cela signifie que (Xn , n ≥ 1) converge en loi vers X. Construisons un contre-exemple à la réciproque. Soit X une v.a. gaussienne de moyenne nulle. Comme la densité gaussienne est paire, −X suit la même loi que X. Considérons pour tout n ≥ 1, la suite Xn = X. Il est clair que Xn converge en loi vers X donc vers −X. En revanche, Xn ne converge vers −X que sur l’ensemble (X = −X), c’est-à-dire l’ensemble (X = 0), qui est de probabilité nulle puisque la loi gaussienne est absolument continue. Définition 8.3.– On dit qu’une suite (Xn , n ≥ 1) de v.a., à valeurs dans Rk , converge en loi vers X lorsque l’une des propriétés équivalentes suivantes est vérifiée : – Pour toute fonction continue bornée f de Rk dans R, n→+∞ E [f (Xn )] −−−−→ E [f (X)] , – pour tout ensemble ouvert A ∈ Rk tel que P(X ∈ ∂A) = 0, n→+∞ P(Xn ∈ A) −−−−→ P(X ∈ A), – pour tout t ∈ Rk , n→+∞ E eit.Xn −−−−→ E eit.X . Théorème 8.3.– Soit (Xn , n ≥ 1) une suite de v.a. indépendantes, identiquement distribuées telles que E [|X1 |2 ] < ∞ alors √ n n 1X n→+∞ ( Xj − E [X1 ]) −−−−→ N (0, 1), en loi σ n j=1 où σ 2 = Var(X1 ). CHAPITRE 8. CONVERGENCES 8.3 124 Exercices . Exercice 93. 1. Pour z réel positif, on pose Z ∞ e−x xz−1 dx. Γ(z) = 0 Soient 0 < zm < zM , montrer que pour k entier strictement positif, z ∈]zm , zM [, il existe une constante ck (que l’on ne cherchera pas à expliciter) telle que | lnk (x)xz−1 e−x | ≤ ck e−x pour x ≥ 1 ≤ ck ln(x)k xzm −1 pour x ≤ 1. 2. On admet que lnk (x)xzm −1 est intégrable sur [0, 1]. Montrer que Γ est k fois dérivable sur R+ . 3. Pour a, b des réels strictement positifs et k réel positif, montrer que Z +∞ Γ0 (a) b−a xk ln(x)xa−1 e−bx dx = bk − ln(b) . Γ(a) 0 Γ(a) 4. Soit X la variable aléatoire dont la densité est donnée par µ fβ,λ,µ (x) = Kxβ e−λx 1R+ (x). On ne demande pas de calculer K. Calculer la loi de Y = X µ . 5. Soit (X1 , · · · , Xn ) n v.a.r. indépendantes et de même loi que X. Quelle est la limite presque sûre, notée S, du couple n 1 X n 1X Sn = ln(Xj ), Xj . n j=1 n j=1 6. Quelle est la limite de 1 √ Sn − S . n Annexe A Ensembles A.1 Opérations sur les ensembles Un événement est décrit comme un sous-ensemble de Ω. Les opérations sur les événements se ramènent donc aux opérations habituelles sur les ensembles. A.1.1 Rappels Soient A, B, C des ensembles. On rappelle les définitions suivantes. Définition A.1.– Les définitions et notations suivantes sont usuelles. – Le complémentaire de A est défini par Ac = {ω ∈ Ω : ω ∈ / A}. L’événement Ac est réalisé si et seulement si A ne l’est pas. On a ∅ = Ωc . – L’union de A et B est définie par A ∪ B = {ω ∈ Ω : ω ∈ A ou ω ∈ B}. L’événement A ∪ B est réalisé si et seulement si A OU B le sont. – L’intersection de A et B est définie par A ∩ B = {ω ∈ Ω : ω ∈ A et ω ∈ B}. L’événement A ∩ B est réalisé si et seulement si A ET B le sont. – L’ensemble A\B = A ∩ B c est appelé « A privé de B ». Il s’agit de l’ensemble des éléments de A qui n’appartiennent pas à B. – L’ensemble A × B = {(a, b) : a ∈ A, b ∈ B} est appelé le produit cartésien de A et de B. – L’ensemble des parties d’un ensemble Ω est noté P(Ω) ou 2Ω . Proposition A.1.– On rappelle les propriétés suivantes. Commutativité : A ∪ B = B ∪ A et A ∩ B = B ∩ A. Associativité : A ∪ (B ∪ C) = (A ∪ B) ∪ C et A ∩ (B ∩ C) = (A ∩ B) ∩ C. 125 ANNEXE A. ENSEMBLES 126 Distributivité : (A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C) (A ∩ B) ∪ C = (A ∪ B) ∩ (A ∪ C) . et Lois de Morgan : (A ∪ B)c = Ac ∩ B c et (A ∩ B)c = Ac ∪ B c . Deux ensembles A et B sont dits incompatibles ou disjoints si A ∩ B = ∅. A.1.2 Familles d’ensembles Soit I un ensemble non vide. Soit (Ai )i∈I une famille d’ensembles indexés par I. On appelle respectivement union et intersection de la famille (Ai )i∈I les ensembles : [ Ai := {ω : ∃i ∈ I, ω ∈ Ai } i∈I \ Ai := {ω : ∀i ∈ I, ω ∈ Ai } . i∈I Les éléments de la famille (Ai )i∈I sont dits deux à deux disjoints si pour tout i 6= j, Ai et Aj sont disjoints. Proposition A.2.– (Distributivité) ! [ [ Ai ∩ B = (Ai ∩ B) et i∈I i∈I ! \ Ai ∪B = \ (Ai ∪ B) . i∈I i∈I (Lois de De Morgan) !c [ i∈I Le produit cartésien Q i∈I Ai !c = \ i∈I Aci et \ i∈I Ai = [ Aci . i∈I Ai est défini comme l’ensemble des familles (ai )i∈I où ai ∈ Ai . Un ensemble I est dit dénombrable s’il est en bijection avec N (citons par exemple N, N? , Z ou Q). Il est dit au plus dénombrable (ou parfois discret) s’il est fini ou dénombrable. Une famille (Ai )i∈I est dite dénombrable si I est dénombrable. Une partition d’un ensemble Ω est une famille (Ai )i∈I d’ensembles deux à deux disjoints telle que ∪i∈I Ai = Ω. ANNEXE A. ENSEMBLES A.1.3 127 Suites et limites Une suite S d’ensembles (An )n∈N est dite croissante si pour tout n ∈ N, An ⊂ An+1 . L’union n∈N An est aussi appelée la limite de la suite croissante An et on la note limn→∞ An . On utilise la notation An ↑ A pour signifier que (An )n∈N est une suite croissante et que A = limn→∞ An . Une suite d’ensembles (An )n∈N est dite décroissante si pour tout n ∈ N, An+1 ⊂ An . T L’intersection n∈N An est aussi appelée la limite de la suite décroissante An et on la note limn→∞ An . On utilise la notation An ↓ A pour signifier que (An )n∈N est une suite décroissante et que A = limn→∞ An . Une suite est dite monotone si elle est croissante ou décroissante. Remarque : L’annexe B.1 montre que la notion de limite d’une suite d’ensembles peut être étendue à une classe plus large que les seules suites monotones. Pour toute suite (An )n on définit lim supn An et lim inf n An comme la limite des suites respectivement S T décroissantes et croissantes k≥n Ak et k≥n Ak . Lorsque lim supn An = lim inf n An , on note cette quantité limn An . On vérifie que dans le cas de suites monotones, cette définition est bien cohérente avec celle donnée plus haut. A.2 Espaces d’états dénombrables Définition A.2.– Un ensemble E est dit dénombrable s’il est en bijection avec N, l’ensemble des entiers naturels. Il est dit au plus dénombrable s’il est inclus dans un ensemble dénombrable. Quelques exemples : – Les ensembles de cardinal fini sont évidemment au plus dénombrables. Ceci recouvre non seulement les ensembles de la forme {1, · · · , n} mais aussi des produits cartésiens d’ensembles de cette forme ou des ensembles comme celui des permutations sur un ensemble à n éléments. – L’ensemble des entiers relatifs, l’ensemble des rationnels sont des ensembles dénombrables. – La réunion et le produit cartésien de deux ensembles dénombrables sont dénombrables. C’est un résultat non trivial et d’une constant utilité. ANNEXE A. ENSEMBLES A.3 128 Dénombrement Dans cette section, nous ouvrons une parenthèse consacrée à un cas très particulier de mesure de probabilité. Nous faisons ici l’hypothèse que Ω est fini et que P la probabilité uniforme sur Ω, c’est à dire que pour tout événement A, P(A) = nombre d’issues réalisant A |A| = . |Ω| nombre total d’issues Répétons qu’il s’agit d’un cas très particulier de mesure de probabilité : l’évaluation de P(A) s’effectue en dénombrant les occurences d’un événement A. Exemple : Commençons par un exemple simple : a) On lance 6 dés. Calculer la probabilité qu’ils affichent tous une face différente. b) On lance 5 dés. Calculer la probabilité qu’ils affichent tous une face différente. Solution. a) On commence par définir l’univers Ω = {(n1 , · · · , n6 ) : ∀i, ni = 1, · · · , 6} = {1, · · · , 6}6 . L’univers contient |Ω| = 66 éléments. L’événement A dont on cherche la probabilité s’écrit A = {(n1 , · · · , n6 ) : ∀i, ni = 1, · · · , 6 et ∀i 6= j, ni 6= nj }. Dénombrons ses éléments. Il y a 6 façons de choisir n1 . Une fois n1 fixé, il reste 5 façons de choisir n2 6= n1 . Puis 4 façons de choisir n3 , etc. Donc |A| = 6 × 5 × 4 × · · · × 1 = 6!. Finalement, P(A) = 6!/66 = 5/324 ' 0, 015. b) L’univers Ω = {1, · · · , 6}5 contient 65 éléments. L’événement A s’écrit A = {(n1 , · · · , n5 ) : ∀i, ni = 1, · · · , 6 et ∀i 6= j, ni 6= nj }. Il y a 6 façons de choisir n1 . Une fois n1 fixé, il reste 5 façons de choisir n2 6= n1 , etc. Donc |A| = 6 × 5 × 4 × · · · × 2 = 6!. Finalement, P(A) = 6!/65 = 5/54 ' 0, 09. A.3.1 k-uplets Rappelons qu’un k-uplet est une suite à k éléments : (x1 , x2 , · · · , xk ). L’ensemble des kuplets sur un ensemble E est noté E k . Proposition A.3.– Le nombre de k-uplets d’un ensemble à n éléments vaut nk . Citons deux exemples : – Le nombre de résultats possibles d’un lancer de 5 dés vaut 65 . – Le nombre de tirages, avec remise et quand l’ordre compte, de k éléments dans une urne en contenant n vaut nk . A.3.2 Arrangements Définition A.3.– On appelle arrangement de taille k sur un ensemble E tout k-uplet composé d’éléments distincts de E : (x1 , x2 , · · · , xk ) ∈ E k tel que ∀i 6= j, xi 6= xj . ANNEXE A. ENSEMBLES 129 Proposition A.4.– Le nombre d’arrangements de taille k sur ensemble à n éléments vaut : n! Akn := . (n − k)! Citons deux exemples : – Le nombre de lancers de 5 dés produisant des faces toutes différentes vaut A56 = 6!. – Le nombre de tirages, sans remise et quand l’ordre compte, de k éléments dans une urne en contenant n vaut Akn . Cas particulier : k = n. Un arrangement de taille n dans un ensemble contenant n éléments est appelé une permutation. Il y a donc Ann = n! permutations des n éléments de l’ensemble. A.3.3 Combinaisons Définition A.4.– On appelle combinaison de taille k sur un ensemble E une collection non-ordonnée de k-éléments distincts de E : {x1 , · · · , xk } tel que ∀i 6= j, xi 6= xj . Autrement dit, une combinaison est une partie de E dont le cardinal vaut k. Proposition A.5.– Le nombre de combinaisons de taille k sur ensemble à n éléments vaut : n n! . := k!(n − k)! k Par exemple, le nombre de tirages simultanés (c’est à dire sans remise et quand l’ordre ne n compte pas) de k éléments dans une urne en contenant n vaut k . Application : Dans un lot de 1000 ampoules, deux sont défectueuses. On choisit 20 ampoules. Calculer la probabilité de tomber sur les deux ampoules défectueuses. Proposition A.6.– (Triangle de Pascal) n k = n−1 k−1 + n−1 k . Preuve : La preuve s’effectue sans difficulté par récurrence sur n en utilisant l’expression de nk . Toutefois, l’égalité se démontre aussi par un raisonnement simple. Le nombre nk de combinaisons de taille k sur un ensemble à n éléments s’obtient sommant i) le nombre de combinaisons de taille k ne contenant pas le premier élément de l’ensemble (il y en a n−1 de combinaisons de taille k − 1 ne contenant pas le premier k ) et ii) le nombre n−1 élément (il y en a k−1 ). Annexe B Notions d’analyse utiles B.1 B.1.1 Limite supérieure et limite inférieure Limite inférieure et limite supérieure d’une suite La limite inférieure et limite supérieure sont des quantités qu’on définit naturellement pour des suites réelles. La limite inférieure d’une suite , communément appelée liminf, est sa plus petite valeur d’adhérence ; la limite supérieure (limsup) est, elle, sa plus grande valeur d’adhérence. Ces quantités sont toujours définies (elles peuvent néanmoins prendre les valeurs ±∞) et c’est là leur intérêt principal. En effet, contrairement à la limite d’une suite, que l’on ne peut pas manipuler a priori (il faut d’abord montrer la convergence de la suite), on peut toujours manipuler la liminf et la limsup. Ces notions s’étendent naturellement à des suites de fonctions réelles, et à des familles d’ensembles. Notons R la droite réelle complétée (on se réfèrera avec intérêt à la section "Complétion de R" du chapitre introductif du polycopié de MDI-103) : R = R ∪ {−∞, ∞}. Définition B.1.– La limite inférieure et la limite supérieure d’une suite numérique (un , n ∈ N) sont les éléments de R, notés lim inf n→∞ un et lim supn→∞ un et définis par : lim inf un = lim inf up , n→∞ n→∞ p≥n lim sup un = lim sup up . n→∞ n→∞ p≥n On remarque immédiatement que la limite inférieure (resp. supérieure) d’une suite (un ) existe toujours dans R : c’est simplement la limite de la suite croissante αn = inf p≥n up (resp. de la suite décroissante βn = supp≥n up ). On rappelle que ` ∈ R est une valeur d’adhérence de la suite (un ) s’il existe une sous-suite extraite (uφ(n) ) de (un ) telle que limn→∞ uφ(n) = ` Lemme B.1.– La limite inférieure de la suite (un ) est sa plus petite valeur d’adhérence ; sa limite supérieure est sa plus grande valeur d’adhérence. 130 ANNEXE B. NOTIONS D’ANALYSE UTILES 131 Corollaire B.2.– Si lim supn→∞ un = lim inf n→∞ un = ` ∈ R, alors la suite (un ) converge vers `. B.1.2 Limite supérieure et inférieure d’une suite de fonctions Etant donnée une suite de fonctions (fn ) à valeurs R ou R, on peut définir ses limites inférieure et supérieure, en posant, à x fixé : f (x) = lim inf fn (x) , n f (x) = lim sup fn (x) . n→∞ Les fonctions f et f définies ainsi pour chaque x sont naturellement à valeurs R, et héritent des éventuelles propriétés de mesurabilité de la suite de fonctions (fn ) : Lemme B.3.– Si (fn )n∈N est une suite de fonctions mesurables dans R ou R munis de leurs tribus boréliennes respectives B(R) ou B(R) alors f et f sont des fonctions mesurables de R, B(R) . Preuve. on démontre le résultat pour f . On pose βn (x) = supk≥n fn (x). f (x) = inf sup fn (x) = inf βn (x) = lim ↓ βn (x) n k≥n n n Si la fonction βn (x) est mesurable, alors f sera mesurable en tant que limite simple d’une suite de fonctions mesurables. Pour vérifier la mesurabilité de βn (x), il suffit de vérifier que l’ensemble {βn > a} est un ensemble mesurable. Or [ {βn > a} = {fn > a} k≥n {fn > a} est mesurable du fait de la mesurabilité de fn par suite {βn > a} est mesurable et βn est une fonction mesurable Corollaire B.4.– l’ensemble des points où fn converge est un ensemble mesurable. Preuve. {x, fn (x) converge} = {f = f } = {f − f = 0} et l’image réciproque de {0}, ensemble mesurable par f − f , fonction mesurable est un ensemble mesurable. B.1.3 Limite supérieure et inférieure d’une famille d’ensembles Soit (An )n∈N une famille d’ensembles, on définit la limsup et la liminf de la famille (An )n∈N par : T S lim supn An = n∈N k≥n Ak S T lim inf n An = n∈N k≥n Ak ANNEXE B. NOTIONS D’ANALYSE UTILES 132 Remarque 4 : On interprète facilement la limsup de An comme étant l’ensemble des points qui appartiennent à une infinité de An . De même, la liminf des An s’interprète comme l’ensemble des points qui appartiennent à tous les An sauf un nombre fini d’entre eux. On en déduit que lim inf n An ⊂ lim supn An . Exercice (Lien entre lim sup de fonctions et lim sup d’ensembles) Soit (An )n∈N une famille d’ensembles, démontrer que : lim sup 1An = 1lim supn An n [La première lim sup est à interpreter comme lim sup de fonctions indicatrices, la seconde comme lim sup d’ensembles] lim inf 1An = 1lim inf n An n B.2 Séries B.2.1 Généralités sur les séries (Ce paragraphe est inspiré du cours de Sylvie Méléard à l’X). P 1. Soit (un , n P ≥ 0) une suite numérique et Sn = ni=0 ui la somme partielle à l’ordre n. La P série n≥0 un est dite convergente si la limite S de Sn existe ; cette limite est notée n≥0 un : X S = lim Sn = un . n→∞ n≥0 Le nombre un est appelé terme général de la série et la limite S d’une série convergente est appelée sa somme. 2. Le terme général un d’une série convergente tend vers zéro car un = Sn − Sn−1 . La 1 réciproque est fausse : la série de général R n dt n (défini pour n ≥ 1) diverge, i.e. la Pnterme 1 limite de Sn est égale à ∞ car i=1 i ≥ 1 t = ln(n). P P 3. La série n un est dite absolument convergente si la série n |un | converge. P 4. Soit n un une série de terme général positif : un ≥ 0. Alors Sn est croissantePet sa limite existe toujours, bien que pouvant être infinie. On la note encore S = n un mais on ne parlera de série convergente que dans le cas où S < ∞. B.2.2 Séries entières - rappels et calculs de sommes On rappelle donnée une suite réelle (un ), il existe un nombre R ∈ [0, ∞] tel que P qu’étant n la série n≥0 un x converge absolument si |x| < R et diverge si |x| > R. Le nombre R est ANNEXE B. NOTIONS D’ANALYSE UTILES 133 P appelé rayon de convergence de la série entière n≥0 un xn ; il est donné par le critère de Cauchy : 1 = lim sup |un |1/n . R n→∞ Deux exemples bien connus sont la fonction exponentielle : X xn exp(x) = , R=∞, n! n≥0 et la série géométrique : X 1 = xn . 1 − x n≥0 P La fonction f (x) = n≥0 un xn définie pour tout x tel que |x| < R est infiniment dérivable dans l’intervalle ] − R, R[ et sa dérivée est donnée par la dérivation terme à terme de la série : X f 0 (x) = nun xn−1 n≥1 Cette propriété permet le calcul des sommes suivantes : X X 1 1 n−1 = nx et = n(n − 1)xn−2 . 3 (1 − x)2 (1 − x) n≥1 n≥2 Ces sommes permettent le calcul de quantités utiles en probabilité : X X x , nxn = x nxn−1 = 2 (1 − x) n≥0 n≥1 X X X 2 n 2 nx = x n(n − 1)xn−2 + x nxn−1 , n≥0 n≥2 2 = B.3 n≥1 x x x + = . 3 2 (1 − x) (1 − x) (1 − x)3 Convexité Étant donné un espace vectoriel normé X, on dit qu’un ensemble C ⊂ X est convexe si ∀x, y ∈ C, ∀α, β ≥ 0 : α + β = 1, αx + βy ∈ C . Définition B.2.– Une fonction d’un ensemble convexe C ⊂ X à valeurs R est dite convexe si et seulement si la propriété suivante est vérifiée : ∀x, y ∈ C ; ∀α, β ≥ 0, α + β = 1, f (αx + βy) ≤ αf (x) + βf (y) . La fonction est dite strictement convexe dès lors que l’inégalité précédente est stricte pour 0 < α < 1 et x 6= y. ANNEXE B. NOTIONS D’ANALYSE UTILES 134 Les fonctions convexes à valeurs réelles ont de bonnes propriétés de régularité, en particulier, elles admettent en tout point une dérivée à gauche et une dérivée à droite : Lemme B.5.– Soit f : R → R une fonction convexe, alors les dérivées fg0 (x) = lim u↑x f (x) − f (u) x−u et fd0 (x) = lim v↓x f (v) − f (x) v−x existent et vérifient fg0 (x) ≤ fd0 (x). Preuve. Supposons que u < v, alors f (x) − f (u) f (v) − f (x) ≤ . x−u v−x (B.1) Cette inégalité traduit simplement le fait que pour une fonction convexe, le coefficient directeur de la droite entre u et x est plus petit que celui entre v et x. On notera que u et v peuvent être du même côté par rapport à x ou de part et d’autre de x. L’idée pour établir l’inégalité (B.1) est d’exprimer le point intermédiaire comme barycentre des deux autres. Dans le cas où on a, par exemple, u < x < v, alors x−u v−x x−u v−x u+ v ⇒ f (x) ≤ f (u) + f (v) , x= v−u v−u v−u v−u ce qui entraîne immédiatement (B.1)en notant que v−x x−u f (x) = f (x) + f (x) ; v−u v−u les cas x < u < v et u < v < x se traitent de la même manière. (u) Considérons maintenant u < x < v, alors le ratio f (x)−f est croissant lorsque u ↑ x et x−u f (v)−f (x) majoré par v−x pour tout v > x. Par suite la limite fg0 (x) = lim u↑x f (x) − f (u) x−u existe. Le même raisonnement s’adapte pour fd0 (x), et l’inégalité entre les deux dérivées s’obtient immédiatement comme passage à la limite dans (B.1). Une propriété des fonctions convexes définies sur R est particulièrement utile. Pour l’exprimer, introduisons la famille de fonctions affines (∆a,b ; a, b ∈ R) définies par ∆a,b (x) = ax+b et considérons les fonctions affines (les droites) qui minorent f : ∆a,b ≤ f , i.e. ∆a,b (x) ≤ f (x) pour tout x réel. Lemme B.6.– Soit f : R → R une fonction convexe, alors f (x) = sup {∆a,b (x), ∆a,b ≤ f } . ANNEXE B. NOTIONS D’ANALYSE UTILES 135 Autrement dit, f est en chaque point le suprémum de l’ensemble des droites, évaluées en ce point, qui minorent f . Preuve. Considérons maintenant la fonction affine ∆(y) = a(y − x) + f (x) avec fg0 (x) ≤ a ≤ fd0 (x). On a ∆(x) = f (x), reste à vérifier que ∆ ≤ f : cela concluera la preuve du (x) lemme. Si y > x, alors f (y)−f ≥ fd0 (x) ≥ a et ∆(y) ≤ f (y) ; un raisonnement similaire y−x s’applique dans le cas où y < x. Annexe C Approfondissements C.1 Existence de suites de v.a. indépendantes Théorème C.1.– Soit (µn )n∈N? une suite de mesures de probabilité sur B(R). Il existe un espace de probabilité (Ω, F, P) et une suite de v.a. (Xn )n∈N? sur cet espace, tels que : • (Xn )n∈N? est une famille indépendante ; • pour tout n, Xn est de loi µn . • On choisit Ω =]0, 1], F la tribu de Borel sur ]0, 1], P la mesure de Lebesgue sur ]0, 1]. La preuve se déroule alors en trois étapes. Premièrement, on montre que le résultat est vrai pour des lois de Bernoulli de paramètre 1/2. Deuxièmement, grâce à l’existence d’une telle suite de Bernoulli i.i.d., on montre que le résultat est vrai pour des lois uniformes sur [0, 1]. Enfin, on transforme cette suite de v.a. uniforme en une suite de loi arbitraire par la méthode dite d’inversion de la fonction de répartition. Etape 1. Introduisons les intervalles suivants : 1 1 , D12 = , 1 D11 = 0, 2 2 1 1 1 1 3 3 D21 = 0, , D22 = , , D23 = , , D24 = , 1 4 4 2 2 4 4 1 1 1 1 3 3 1 D31 = 0, , D32 = , , D32 = , , D32 = , , 8 8 4 4 8 8 2 etc. Pour tout ω ∈]0, 1] et tout n ∈ N? , il existe un unique entier k tel que ω ∈ Dnk . On pose dn (ω) = 1 si k est pair, dn (ω) = 0 si k est impair. On peut remarquer que la suite P∞ (dn (ω))n∈N? est une représentation binaire de ω, en ce sens que ω = n=1 dn (ω) 2−n . Il est 136 ANNEXE C. APPROFONDISSEMENTS 137 facile de vérifier que pour tout n, dn est une variable aléatoire qui suit la loi uniforme sur −1 {0, 1}. En effet, d−1 n ({0}) et dn ({1}) sont des unions d’intervalles qui ont même mesure de 1 −1 Lebesgue : P(d−1 n ({0})) = P(dn ({1})), autrement dit, Pdn ({0}) = Pdn ({1}) = 2 . De plus, on peut vérifier que pour tout (i1 , · · · , in ) ∈ {0, 1}, # # n n X ik X ik 1 {ω : ∀k = 1, · · · , n, dk (ω) = ik } = , + 2k k=1 2k 2n k=1 L’ensemble ci-dessus a pour mesure de Lebesgue 2−n . La loi jointe de (d1 , · · · , dn ) est égale au produit des lois marginales, ce qui prouve que (dn )n∈N? forme une famille indépendante d’après la section ??. Sur Ω =]0, 1], on sait donc construire une suite i.i.d. de v.a. uniformes sur {0, 1}. Etape 2. On construit une suite de variables i.i.d. suivant la loi uniforme sur l’intervalle [0, 1]. On commence par réordonner les v.a. dn de la manière suivante. Soit ϕ une bijection de N? → N? × N? . Posons Zn,k = dϕ(n,k) . La famille (Zn,k )n,k est une famille i.i.d. de v.a. uniformes sur {0, 1}. On pose pour tout n, Un = ∞ X Zn,k 2−k . k=1 Un est bien une variable aléatoire sur B(R) comme limite en p → ∞ de la suite de v.a. P (p) Un = k≤p Zn,k 2−k (voir la section ??). On montre les deux affirmations suivantes : i) pour tout n, Un suit la loi uniforme sur [0, 1] et ii) la suite de v.a. (Un )n∈N? est indépendante. (p) i) Clairement, Un ∈ [0, 1]. Soit p ≥ 1 fixé. Un prend les valeurs j2−p où 0 ≤ j < 2−p . Comme (Zn,1 , · · · , Zn,p ) suit la loi uniforme sur {0, 1}p , ces 2p valeurs prises par Un sont équiprobables. Pour x fixé dans l’intervalle [0, 1], le nombre de valeurs j2−p tombant dans (p) l’intervalle [0, x] est égal à b2p xc + 1. Ainsi, P[Un ≤ x] = (b2p xc + 1)/2p . On remarque (p) que ([Un ≤ x])p∈N? est une suite décroissante d’événements convergeant vers [Un ≤ x], (p) (p) soit [Un ≤ x] = limp→∞ [Un ≤ x]. Ainsi, P[Un ≤ x] = limp P[Un ≤ x] = x. La fonction de répartition de Un est égale à celle de la loi uniforme sur [0, 1]. On a donc Un ∼ U([0, 1]) pour tout n. ii) Montrons que la famille de v.a. (Un )n∈N? est indépendante. D’après le paragraphe ??, il suffit de montrer que pour tout entier n et pour tout réels x1 , . . . , xn , la fontion de répartition FU1 ···Un (x1 , · · · , xn ) est égale au produit des fonctions de répartitions FU1 (x1 ) · · · FUn (xn ). Autrement dit, il suffit de montrer que : P [U1 ≤ x1 , · · · , Un ≤ xn ] = P [U1 ≤ x1 ] × · · · × P [Un ≤ xn ] . Fixons n et x1 , . . . , xn . Pour les mêmes raisons que ci-dessus, les événements Ap := n \ (p) [Uk ≤ xk ] k=1 (C.1) ANNEXE C. APPROFONDISSEMENTS 138 forment une suite décroissante d’événement convergeant vers A := [U1 ≤ x1 , · · · , Un ≤ xn ]. (p) (p) Or à p fixé, il est immédiat que les variables U1 , · · · , Un sont indépendantes, car elles s’écrivent respectivement comme fonctions des vecteurs h(Z1,1 , · · · , Z i 1,p ), · · · , (Zhn,1 , · · · , Zn,p i) (p) (p) qui sont indépendants. Par conséquent, P(A(p) ) = P U1 ≤ x1 × · · · × P Un ≤ xn . L’égalité (C.1) est obtenue par passage à la limite en p → ∞. Le théorème est donc démontré dans le cas particulier où les mesures µn coïncident toutes avec la loi uniforme sur [0, 1]. Il reste à traiter le cas général. Etape 3. Pour tout n, on définit ϕn (t) = inf{x ∈ R : Fn (x) ≤ t} où Fn (x) := µn (]−∞, x]) est la fonction de répartition associée à µn . On pose Xn = ϕn (Un ). La famille (Xn )n est indépendante et on vérifie sans difficulté que la fonction de répartition de Xn est bien égale à Fn . Le théorème est donc prouvé. Notations ⊥⊥ ( · )T ◦ |Ω| an ↑ a an ↓ a An ↑ A An ↓ A det In P(Ω) ou 2Ω Tr x∨y x∧y Indépendance d’événement, indépendance de variables aléatoires. Transposée d’une matrice ou d’un vecteur. Composition. Cardinal d’un ensemble Ω. La suite réelle (an )n est croissante et converge vers a. La suite réelle (an )n est décroissante et converge vers a. La suite d’ensembles (An )n est croissante et converge vers A i.e., ∪n An = A. La suite d’ensembles (An )n est décroissante et converge vers A i.e., ∩n An = A. Déterminant. Matrice identité de taille n. Tribu des parties sur Ω. Trace. Maximum de x et de y. Minimum de x et de y. 139 Bibliographie [Bil95] P. Billingsley, Probability and measure, Wiley Series in Probability and Mathematical Statistics, John Wiley, 1995. [LMR12] S. Ladjal, E. Moulines, and F. Roueff, Éléments d’analyse fonctionnelle, Telecom ParisTech, polycopié de l’école, 2012. [Rud95] W. Rudin, Principes d’analyse mathématique, Dunod, 1995, Traduit de l’anglais par G. Auliac. 140