Intégration et probabilités Grégory Miermont L3 2014–2017 ENS de Lyon Avant-propos Ces notes correspondent au cours « Intégration et probabilités » donné au second semestre de 2014 à 2017 à l’Ecole Normale Supérieure de Lyon. Les prérequis de ce cours sont les fondamentaux de la théorie de la mesure : mesures positives, intégrales par rapport à une mesure, théorèmes limites usuels, mesure de Lebesgue, espaces L p. Le cours contient deux parties. Outre quelques compléments d’intégration sur la convolution et le changement de variables, la première partie donne les bases de l’analyse de Fourier : séries de Fourier pour les fonctions périodiques sur R, et la transformation de Fourier des fonctions intégrables et des mesures de probabilités sur Rd. La seconde partie est une introduction à la théorie moderne des probabilités, en se focalisant sur les notions fondamentales suivantes : • espaces de probabilités, variables aléatoires • théorèmes limites : lois des grands nombres et théorème central limite. • indépendance Ces points sont illustrés par des exemples concrets, ponctués par deux chapitres de compléments. 3 Table des matières Avant-propos I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Introduction à l’analyse de Fourier . . . . . . . . . . . . . . . . 11 . . . . . . . . . . . . . . . . . . . . 15 . . . . . . . . . . 15 15 16 17 19 2 Séries de Fourier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.1 2.2 2.3 2.4 . . . . . . . 24 25 27 28 28 30 31 . . . . . . . . . . . . . . . . . . . . . 33 1 Quelques compléments d’intégration 1.1 1.2 1.3 1.4 Quelques notations . . Compléments sur les espaces L p Lemme de Riemann-Lebesgue . Convolution . . . . . . . . . . . . Approximations de l’unité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Polynômes et séries trigonométriques . . . . . Série de Fourier d’une fonction . . . . . . . . . Convergence des séries de Fourier dans L2 . Convergence ponctuelle des séries de Fourier 2.4.1 Le cas C 1 par morceaux . . . . . . . . . . 2.4.2 Convergence de Cesaro . . . . . . . . . . 2.5 *Preuve du théorème de Stone-Weierstrass . 3 La transformée de Fourier dans Rd . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Transformée de Fourier d’une fonction intégrable . . . b. Continuité, lemme de Riemann-Lebesgue c. Régularité . . . . . . . . . . . . . . . . . . . . d. Lien avec la convolution . . . . . . . . . . . 3.2 L’exemple de la densité gaussienne. . . . . . . . . . . . 3.3 La formule d’inversion . . . . . . . . . . . . . . . . . . . . 3.4 La transformée de Fourier L2 . . . . . . . . . . . . . . . . 3.5 Transformée de Fourier d’une mesure signée . . . . . . 3.6 Une application à l’analyse de l’équation de la chaleur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 47 48 50 . . . . . . . . . . . . . . . . . . 4.1 4.2 4.3 4.4 . . . . . . . . . . . . . . . . . . 47 . . . . . . . . . . . . . . . . . . 4 Changement de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 34 35 37 37 38 40 42 45 . . . . . . . . . . . . . . . . . . . . . . . . . . . Mesure image . . . . . . . . . . . . Coordonnées polaires dans Rd . . Changement de variables linéaire Changement de variables C 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Table des matières II Bases des probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 5 Bases de la théorie des probabilités . . . . . . . . . . . . . . . . . . . . . 53 5.1 Espaces de probabilités, variables aléatoires . . . . . . . . . Premiers exemples d’espaces de probabilités. . . Une infinité de lancers de pièces ? . . . . . . . . . Variables aléatoires. . . . . . . . . . . . . . . . . . . Variables aléatoires discrètes. . . . . . . . . . . . . . . . . . . . . . Variables aléatoires à densité. . . . . . . . . . . . . . . . . . . . . . 5.2 Espérance d’une variable aléatoire . . . . . . . . . . . . . . . a. Définition et formule de transfert . . . . . . . . b. Caractérisation de la loi à l’aide de l’espérance c. Moments d’une variable aléatoire . . . . . . . . d. Variance et covariance . . . . . . . . . . . . . . . e. Médiane et quantiles . . . . . . . . . . . . . . . . 5.3 Fonctions associées à une variable aléatoire . . . . . . . . . . a. Fonction de répartition . . . . . . . . . . . . . . . b. Fonction génératrice . . . . . . . . . . . . . . . . c. Fonction caractéristique . . . . . . . . . . . . . . d. Transformée de Laplace . . . . . . . . . . . . . . 5.4 Exemples fondamentaux de lois de variables aléatoires . . . a. Lois discrètes . . . . . . . . . . . . . . . . . . . . . Loi uniforme sur un ensemble fini . . . . . . . . . . . . . . . . . . . Loi de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Loi binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Loi géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . b. Lois à densité . . . . . . . . . . . . . . . . . . . . Loi uniforme sur un sous-ensemble mesurable de Rd. . . . . . . Lois exponentielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lois gaussiennes sur R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 53 54 55 56 57 57 57 58 59 60 62 63 63 64 65 66 67 67 67 68 68 68 68 69 69 69 70 6 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 6.1 6.2 6.3 6.4 71 72 73 75 75 75 76 78 80 80 Probabilités conditionnelles élémentaires . . . . . . . . . . . Indépendance d’événements . . . . . . . . . . . . . . . . . . . Indépendance de σ-algèbres . . . . . . . . . . . . . . . . . . . . Indépendance de variables aléatoires . . . . . . . . . . . . . . a. σ-algèbre associée à une variable aléatoire . . . b. Indépendance de variables aléatoires . . . . . . c. Critères d’indépendance de variables aléatoires 6.5 Sommes de variables aléatoires indépendantes . . . . . . . . 6.6 Lemme de Borel-Cantelli . . . . . . . . . . . . . . . . . . . . . 6.6.1 L’énoncé, et un exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Table des matières Exemple. Nombre de « pile » consécutifs . . . . . . . . . . . . . . . . . . . . . . 6.6.2 Lemme « réciproque » . . . . . . . . . . . . . . . . . . . . . . . . . . . Une mesure « uniforme » sur N ? . . . . . . . . . . . . . . . . . . . . . . . . . . Motifs dans une suite de pile ou face . . . . . . . . . . . . . . . . . . . . . . . . . 6.7 Loi du 0-1 de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.8 Complément : existence d’une suite de variables aléatoires indépendantes . . . . . 80 82 83 83 84 86 7 Lois des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 7.1 Différentes notions de convergence pour des variables aléatoires . a. Convergence presque sure . . . . . . . . . . . . . . . . . b. Convergence Lp . . . . . . . . . . . . . . . . . . . . . . . c. Convergence en probabilité . . . . . . . . . . . . . . . . 7.2 La loi forte des grands nombres . . . . . . . . . . . . . . . . . . . . . 7.2.1 Le cas L4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.2 Le cas L2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.3 Le cas L1 par la méthode d’écrêtement . . . . . . . . . . . . . 7.2.4 Le cas L1 : une seconde preuve . . . . . . . . . . . . . . . . . . 7.2.5 Quelques ramifications de la loi des grands nombres . . . . . Cas d’une espérance bien définie, mais infinie . . . . . . Cas où l’espérance n’existe plus nécessairement . . . . . 7.3 Quelques applications . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.1 Marches aléatoires non centrées . . . . . . . . . . . . . . . . . . 7.3.2 Approximation d’intégrales par la méthode de Monte-Carlo 89 89 89 90 92 93 94 95 97 98 98 98 98 98 99 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Convergence en loi et théorème central limite . . . . . . . . . . . . . . 101 8.1 Convergence étroite, convergence en loi . . . . . . . . . . . . . . . . . . . . . 101 8.1.1 Exemples élémentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 Lois sur N . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 Lemme de Scheffé et convergence ponctuelle de densités . . . . 103 Exemple d’approximation de la mesure de Lebesgue . . . . . . . 104 8.1.2 Liens avec les autres notions de convergence. . . . . . . . . . . . . . . 104 Convergence en probabilité . . . . . . . . . . . . . . . . . . . . . . . 104 Convergence en variation totale . . . . . . . . . . . . . . . . . . . . 105 8.1.3 Caractérisations de la convergence en loi . . . . . . . . . . . . . . . . . 105 8.2 Le théorème central limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 Application aux statistiques : estimation paramétrique et intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 8.3 Vecteurs aléatoires gaussiens et théorème central limite multidimensionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 8.3.1 Vecteurs aléatoires gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . 112 8.3.2 Théorème central limite : le cas de Rd . . . . . . . . . . . . . . . . . . . 115 8.3.3 Une application : le test d’adéquation du χ2 . . . . . . . . . . . . . . . 116 8.4 L’inégalité de Hœffding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 9 Récurrence et transience pour la marche aléatoire simple sur Zd . 121 8 Table des matières 10 Processus de branchement . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 Phase sous-critique : m < 1 . . . . . . . . . . . . . . . . . . . . . . . 129 Phase critique : m = 1 . . . . . . . . . . . . . . . . . . . . . . . . . . 129 Phase sur-critique : m > 1 . . . . . . . . . . . . . . . . . . . . . . . . 130 Références . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 Partie I Introduction à l’analyse de Fourier Table des matières 11 Chapitre 1 Quelques compléments d’intégration Quelques notations Pd d Si d > p1 est un entier, notons hx, y i = i=1 xi yi le produit scalaire usuel de R , et |x| = hx, xi la norme euclidienne. On considérera des fonctions mesurables définies sur l’espace mesuré (Rd , B(Rd), λd), où B(Rd) est la tribu borélienne de Rd, et λd est la mesure de Lebesgue. On notera en général Z Z f (x)λd(dx). f (x)dx = Rd Rd Sauf mention contraire, les fonctions considérées seront à valeurs dans le corps C des nombres complexes, lui-même muni de la tribu borélienne. 1.1 Compléments sur les espaces L p Soit p ∈ [1, ∞[. On note L p = L p(Rd , B(Rd), λd) l’ensemble des telles fonctions f mesurables telles que |f | p est intégrable, et on note L∞ l’ensemble des fonctions mesurables essentiellement bornées, c’est-à-dire telles qu’il existe M > 0 tel que λd({|f | > M }) = 0. On note également L p l’ensemble quotient L p/≡, où l’on a noté f ≡ g si λd({f = / p g }) = 0. On le munit de la norme L usuelle notée k·k p. Nous aurons recours au résultat suivant. Si f : Rd → C est une fonction mesurable, et y ∈ Rd, on note τ yf(x) = f (x − y) , x ∈ Rd Lemme 1.1. Pour tout p ∈ [1, ∞] et tout y ∈ Rd, l’application f 7→ τ yf définit une isométrie linéaire de L p sur lui-même. De plus, si 1 6 p < ∞ et si f ∈ L p, l’application y 7→ τ yf est uniformément continue de Rd dans L p. Démonstration. Fixons d’abord y ∈ Rd. Il est évident que deux fonctions f et g sont égales presque partout au sens de Lebesgue si et seulement s’il en est de même de τ yf et τyg, et donc τ y induit bien une transformation de L p, qui est clairement linéaire et préserve la norme (y compris pour p = ∞). On se donne alors p = / ∞. Soit f ∈ L p, et ε > 0. Soit g une fonction continue à support compact telle que kf − g k p < ε/3. Alors pour tout x, y ∈ Rd, on a Z 2ε kτ yf − τxf k p 6 2kf − g k p + kτ yg − τxg k p 6 + |g(z − (x − y)) − g(z)|dz, 3 Rd 13 14 Quelques compléments d’intégration où l’on a utilisé l’inégalité triangulaire et la propriété d’isométrie de τ y et τx, et un changement de variable affine simple. Comme g est à support compact, si l’on suppose que |x − y | 6 1, on voit que la dernière intégrale est égale à la même intégrale restreinte au compact K = V1(supp(g)), où par définition Vr(A) = {x ∈ Rd: inf y∈A |x − y| 6 r} est le r-voisinage fermé de A. Le compact K ne dépend plus de x et y, et par conséquent on conclut que la dernière intégrale ci-dessus (une fois restreinte à K) converge vers 0 lorsque |x − y | → 0, par convergence dominée. On a bien montré qu’il existe un α > 0 tel que |x − y | < α implique que kτ yf − τxf k p 6 ε, comme voulu. Question: où a-t-on utilisé le fait que p < ∞ ? Exemple 1.2. Si A ⊂ R est un ensemble mesurable avec λ(A) > 0, alors l’ensemble A − A = {x − y : x, y ∈ A} contient un voisinage de 0. En effet, supposons sans perte de généralité que λ(A) ∈ ]0, ∞[, quitte à prendre l’intersection avec un intervalle compact assez grand. Alors 1A est dans L1, et par conséquent τh1A converge dans L1 vers 1A lorsque h → 0. Mais τh1A(x) = 1A+h(x) et donc kτh1A − 1A k1 = λ(A∆(A + h)) converge vers 0 lorsque h → 0, où ∆ désigne la différence symétrique. Or on a λ(A ∩ (A + h)) = λ(A ∪ (A + h)) − λ(A∆(A + h)), qui est supérieur à λ(A) − λ(A∆(A + h)), et on conclut que A ∩ (A + h) est non vide car de mesure strictement positive pour tout |h| assez petit. cela revient à dire que h appartient à A − A dès que |h| est assez petit. 1.2 Lemme de Riemann-Lebesgue Le théorème ci-dessous traite du comportement à l’infini de certaines intégrales « oscillantes ». Nous verrons très vite que l’intégrale définie dans l’énoncé est, à quelques détails près, la transformée de Fourier de f en ξ. Théorème 1.3. (Lemme de Riemann-Lebesgue) Pour tout élément f ∈ L1 , l’intégrale Z f (x) exp (ihξ, xi) dx Rd est bien définie pour tout ξ ∈ Rd, et converge vers 0 lorsque |ξ | → ∞. Démonstration. Tout d’abord, il est clair que pour tout ξ, l’intégrale ci-dessus est bien définie puisque |f (x)exp(ihξ, xi)| = |f (x)| est intégrable en x. Q d On démontre d’abord le résultat pour f de la forme f (x) = 1 Q(x), où Q = [a j , bj [ est un pavé. Dans ce cas, j =1 Z d iξjb j Y e − eiξjaj f (x) exp (ihξ, xi) dx = iξ j Rd j =1 15 1.3 Convolution où le j-ème terme du produit s’interprète comme (b j − a j ) si ξ j = 0. Clairement, ce produit tend vers 0 lorsque |ξ | → ∞. Par linéarité, on obtient le même résultat pour les fonctions f qui sont combinaisons linéaires de telles indicatrices. En se restreignant aux pavés Q dyadiques, c’est-à-dire pour lesquels il existe des entiers n, k1, ..., kd tels que ai = ki2−n et bi = (ki + 1)2−n avec les notations ci-dessus, on constate par un argument aisé de compacité que les telles combinaisons linéaires sont denses dans l’ensemble Cc(Rd) des fonctions continues à support compact, pour la norme L1. En utilisant la densité de Cc(Rd) dans L1, on conclut que pour tout f ∈ L1, et pour tout ε > 0, il existe une fonction g qui est une combinaison linéaire d’indicatrices de pavés telle que kf − g k1 < ε. On a alors Z Z , 6 kf − g k1 + g(x) exp (ihξ, xi) dx f (x) exp (ihξ, xi) dx Rd Rd et on déduit que la limite supérieure du membre de gauche lorsque |ξ | → ∞ est majorée par ε. Comme ε est arbitraire, on conclut. On peut avoir recours à une autre méthode, également instructive. Tirant parti de la formule eiπ = −1, on peut réécrire Z Z πξ exp i ξ, x + 2 f (x) exp (ihξ , xi) dx = − f (x)dx |ξ | Rd Rd Z πξ = − exp (ihξ, xi)f x − 2 dx. |ξ | Rd De ce fait, on a Z Z f(x) exp (ihξ , xi) dx = 2 Rd Rd πξ exp (ihξ , xi) f (x) − f x − 2 dx, |ξ | et on déduit par l’inégalité triangulaire que le module est majoré par kτπξ/|ξ |2 f − f k1. Lorsque |ξ | → ∞, on a ξ/|ξ |2 → 0, et par conséquent la preuve découle immédiatement du Lemme 1.1. 1.3 Convolution Soit f , g ∈ L1. Le produit de convolution de f par g, noté f∗g, est défini par la formule Z Z f(y)g(x − y)dy =g∗f (x), f (x − y)g(y)dy = f ∗ g(x) = Rd Rd ce qui a bien un sens à condition que R Rd |f (x − y)g(y)|dy < ∞. Proposition 1.4. La formule ci-dessus est bien définie pour λd-presque tout x, et définit un élément de L1 pour lequel on a kf∗g k1 6 kf k1kgk1. 16 Quelques compléments d’intégration Démonstration. La fonction (x, y) 7→ |f (x − y)g(y)| est mesurable et positive sur l’espace produit Rd × Rd muni de la tribu produit, et de plus, par le théorème de Fubini, son intégrale est Z Z |f (x − y)|dx = kf k1kg k1 < ∞. dy |g(y)| Rd Rd Par conséquent, on déduit des résultats généraux sur les espaces produit que la fonction (x, y) 7→ f (x − y)g(y) est dans L1(Rd × Rd , λd ⊗ λd) et que son intégrale par rapport à la variable y est finie pour λd-presque tout x, et intégrable en la variable x. La majoration de la norme provient alors de l’inégalité triangulaire. Il existe de nombreuses autres situations où la formule définissant la convolution est bien définie. On donne deux tels exemples. Proposition 1.5. Supposons que f ∈ L p et g ∈ L q, où p, q ∈ [1, ∞] et (1/p) +(1/q) = 1. Alors f∗g(x) est bien défini pour tout x, et définit une fonction uniformément continue et bornée sur Rd. Démonstration. Pour le fait que f∗g(x) est bien défini et est borné en x, il suffit de constater que par l’inégalité de Hölder, Z |f (x − y)g(y)|dy 6 kτ−xf k p kg k q =kf k p kg k q , Rd ce qui fait que y 7→ f (x − y)g(y) est bien intégrable pour tout x ∈ Rd. Ensuite, on écrit, toujours par l’inégalité de Hölder, |f∗g(x) − f∗g(y)| 6 kτ−xf − τ−yf k p kg k q et on conclut par le lemme 1.1 si p < ∞, dans le cas contraire on échange les rôles de f et g. On voit dans le résultat précédent la première expression d’un fait général : la convolution a tendance à régulariser les fonctions. Si par exemple f est une fonction de classe Cc∞(Rd), on pourra par exemple montrer aisément que pour tout g ∈ L p(Rd) pour un p ∈ [1, ∞], f ∗g est de classe C ∞(Rd), avec toutes ses dérivées bornées. Dans la suite, nous aurons besoin d’une troisième situation où le produit de convolution est bien défini. Proposition 1.6. Soit f ∈ L1 et g ∈ L p pour un p ∈ [1, ∞]. Alors le produit de convolution f∗g(x) est bien défini pour λd-presque tout x, et définit un élément de L p. De plus, on a kf ∗ gk p 6 kf k1kg k p. Démonstration. Le résultat pour p = ∞ est traité par la proposition précédente. On suppose donc p < ∞, et que f n’est pas nulle presque partout (le résultat est trivial dans le cas contraire). On utilise alors le fait que pour tout x, la mesure |f (x − y)|dy/kf k1 est une mesure de probabilités, ce qu’il permet d’utiliser l’inégalité de Jensen : p Z Z Z Z |f (x − y)| p dy dx |f (x − y)g(y)|dy 6 kf k1 dx |g(y)| p kf k d d d d 1 R R R R 17 1.4 Approximations de l’unité et le majorant vaut kf k1p kg k pp , qui est fini par hypothèse. Cela montre que f∗g(x) est bien défini pour presque tout x, et la conclusion suit aisément par inégalité triangulaire. Enfin, notons que le produit de convolution s’étend aux mesures de la façon suivante. Définition 1.7. Soit µ, ν deux mesures positives finies, ou signées, sur Rd. Le produit de convolution de µ par ν, noté µ∗ν, est la mesure sur Rd définie comme mesure image de la mesure produit µ ⊗ ν par l’application (x, y) 7→ x + y de Rd × Rd dans Rd. Autrement dit, pour toute fonction f mesurable bornée, on a Z Z f (x + y)µ(dx)ν(dy) . f (z)µ∗ν(dz) = Rd Rd ×Rd Notons que si µ(dx) = f (x)dx est absolument continue, avec (nécessairement)f dans L1, le produit de convolution µ∗ν est la mesure absolument continue dont la densité est donnée par f∗ν définie par : Z f (x − y)ν(dy) . f∗ν(x) = Rd La preuve est aisée, et laissée en exercice. Si à son tour ν(dx) = g(x)dx est à densité, on a f∗ν = f∗g. 1.4 Approximations de l’unité Avec les notations de la fin de la section précédente, notons que f∗δ0 = f pour toute fonction f dans L1. On peut montrer (cela sera facile avec la transformée de Fourier) qu’il n’existe pas de fonction g qui puisse remplacer la mesure δ0 dans ce rôle, c’està-dire telle que f∗g = f pour toute fonction f dans L1. Néanmoins, on peut trouver des fonctions qui remplissent presque ce rôle. Il s’agit de fonctions d’intégrale 1 (comme δ0) qui sont « très concentrées » autour de 0, au sens suivant. Définition 1.8. On dit que la suite de fonctions mesurables (γn , n > 0) est une approximation de l’unité si • • • supn>0 kγn k1 < ∞, R γ (x)dx = 1 pour tout n > 0, et Rd n R pour tout δ > 0 on a {|x|>δ } |γn(x)|dx → 0. Une classe importante de partitions de l’unité s’obtient en se donnant une fonction γ ∈ L1 d’intégrale 1, et en posant γn(x) = ndγ(nx), ou plus généralement γn(x) = adnγ(anx) pour une suite (an , n > 0) de limite +∞. Remarquons que si γn > 0 pour tout n, le premier point est impliqué par le second. 18 Quelques compléments d’intégration Proposition 1.9. Soit (γn , n > 0) une approximation de l’unité et f une fonction continue bornée sur Rd. Alors γn ∗ f converge vers f uniformément sur les compacts. Si de plus f est à support compact, alors γn ∗ f converge uniformément sur Rd. Démonstration. Comme γn est positive d’intégrale 1, on a pour tout x ∈ Rd, et tout δ ∈ ]0, 1[, Z |γn ∗ f (x) − f (x)| = γn(y)dy(f (x − y) − f (x)) Z Rd |γn(y)|dy|f (x − y) − f (x)| 6 Rd Z |γn(y)|dy 6 2kf k∞ {|y |>δ } +C sup {|f (x − y) − f (x)|: |y | 6 δ}. où C est un majorant uniforme des normes kγn k1. Si x prend ses valeurs dans un compact K donné, on peut utiliser l’uniforme continuité de f sur le 1-voisinage fermé V1(K) = {x ∈ Rd : ∃y ∈ K , |x − y| 6 1} de K pour obtenir le résultat : pour un ε > 0 donné, on choisit δ ∈ ]0, 1[ tel que le deuxième terme du majorant soit plus petit que ε/2, et on a alors que pour tout n assez grand, le premier terme est majoré par ε/2. Si de plus f est à support compact, on a automatiquement l’uniforme continuité de f partout, et il n’est pas nécessaire de restreindre x à un compact dans l’argument précédent. Proposition 1.10. Fixons p ∈ [1, ∞[. Soit (γn , n > 0) une approximation de l’unité, et f ∈ L p. Alors kγn ∗ f − f k p → 0 lorsque n → ∞. Démonstration. On écrit, en utilisant que γn est d’intégrale 1, p Z Z p γn(y)(f(x − y) − f (x))dy . dx kγn ∗ f − f k p = d d R R Ensuite, on utilise l’inégalité triangulaire, et on divise et remultiplie γn par sa norme 1 pour obtenir que ceci est majoré par Z p Z |γn(y)| p dx kγn k1 |f(x − y) − f (x)|dy Rd kγn k1 Rd comme la mesure |γn(y)|dy/kγn k1 est une mesure de probabilités, on peut majorer par l’inégalité de Jensen, et on trouve le majorant Z Z |γn(y)| p |f (x − y) − f(x)| p dy dx kγn k1 kγ k d d n 1 R R À ce stade, on applique le théorème de Tonelli pour changer l’ordre d’intégration, et on majore kγn k1 uniformément par une constante C, ce qui donne le majorant Z Z p−1 p−1 C |γn(y)|dy kτ yf − f k p 6 2C kf k p |γn(y)|dy Rd +C p−1 {|x|>δ } sup {kτ yf − f k p : |y| 6 δ } 19 1.4 Approximations de l’unité pour tout δ > 0. Si l’on se donne ε > 0, on peut choisir δ > 0 tel que le second terme de droite soit borné supérieurement par ε, par le lemme 1.1. En faisant alors tendre n → ∞ pour ce choix de δ, le premier terme de droite converge vers 0 par définition d’une approximation de l’unité, ce qui donne le résultat. Comme exemple d’application, citons le théorème d’approximation de Weierstrass pour les polynômes. Théorème 1.11. Soit f une fonction continue sur un intervalle compact [a, b]. Alors pour tout ε > 0, il existe un polynôme P réel tel que sup {|f (x) − P (x)|: x ∈ [a, b]} < ε. Démonstration. Quitte à changer f en f (2(b − a)x + (3a − b)/2), on peut supposer que a = 1/4 et b = 3/4 sans perte de généralité. On prolonge la fonction f à R tout entier par la valeur 0 en dehors de [0, 1], et par des fonctions affines sur [0, 1/4] et [3/4, 1] de sorte que la fonction prolongée, encore appelée f , soit continue à support dans [0, 1]. Posons γn(x) = cn(1 − x2)n1{|x|61}, où cn = R 1 −1 1 (1 − x2)n dx R de sorte que R γn = 1. Comme γn > 0, on aura montré que (γn , n > 0) est une R approximation de l’unité si |y|>δ γn(y)dy → 0 pour tout δ > 0. Pour cela, on montre aisément (cn−1 est une intégrale de Wallis d’ordre impair) que q n (2n + 1)! ∼ cn = 2.4n(n!)2 n→∞ π où l’on a utilisé la formule de Stirling pour trouver l’équivalent. On voit donc que pour tout δ ∈ ]0, 1[, Z cn |y |>δ (1 − y 2)n dy 6 2cn (1 − δ 2)n −→ 0, n→∞ ce qui montre bien que (γn , n > 0) est une approximation de l’unité. Or Z 1 f(y)(1 − (x − y)2)n 1{|x− y|61}dy . γn ∗f (x) = cn 0 Pour x, y ∈ [0, 1] on a que |x − y | 6 1, et par conséquen on peut enlever l’indicatrice dans l’intégrale précédente. En développant le produit, on voit qu’en restriction à [0, 1], la fonction γn∗f (x) est un polynôme (en x) de degré au plus 2n. Par la proposition 1.9, on a convergence uniforme vers la fonction f . D’où le résultat. Chapitre 2 Séries de Fourier Dans ce chapitre, on étudie la décomposition d’une fonction périodique de R dans C en termes de « signaux » élémentaires, les fonctions trigonométriques. Nous allons nous concentrer sur les fonctions 2π-périodiques, sachant que toute la discussion de ce chapitre peut être faite dans le cas d’une période quelconque. À l’origine de cette théorie, Fourier s’intéresse à l’équation décrivant la propagation de la chaleur dans R, donnée par ∂u 1 ∂ 2u = ∂t 2 ∂x2 et dont l’inconnue est une fonction u(t, x) de deux variables, décrivant la température d’un milieu donné au point x et au temps t. On s’intéresse de plus à des solutions définies sur un domaine [0, ∞[ × [−π, π]. Fourier note que pour tout n ∈ N et an , bn ∈ R, les fonctions (t, x) 7→ exp (−n2t/2)(an cos (nx) + bn sin (nx)) sont des solutions, ainsi que toute somme d’un nombre fini d’entre elles. Il stipule alors que toute solution est une superposition, éventuellement infinie, de telles solutions élémentaires. Cela pose une double question • sous quelles conditions une série infinie de fonctions de la forme ci-dessus converge-t-elle ? • sous quelles condition une fonction peut-elle se représenter sous la forme d’une telle série ? Dans la suite, on note T = R/2πZ, que l’on identifie à l’intervalle ]−π, π], muni de la restriction de la mesure de Lebesgue λ(dx) = dx1{−π <x6π }/2π. La renormalisation par 2π de la mesure de Lebesgue est utile en de nombreuses occasions, et elle sera systématique. En particulier, si f , g sont deux fonctions intégrables sur T, on adoptera la notation renormalisée Z 1 π f (x − y)g(y)dy . f∗g(x) = 2π −π Une fonction f sur T est naturellement associée à une fonction f˜: R → C périodique de période 2π, et vice-versa. Pour k > 0, on notera C k(T, C) l’espace des fonctions sur T dont l’extension à R tout entier est de classe C k(R, C). On notera L p(T) = Lp(T, B(T), λ). 21 22 Séries de Fourier L’espace L2(T) est muni du produit scalaire hermitien usuel, qui en fait un espace de Hilbert Z 1 π (f , g) = f (x) g(x) dx. 2π −π 2.1 Polynômes et séries trigonométriques Pour tout n ∈ Z, notons en la fonction en(x) = exp (inx), qui est continue et 2πpériodique. Lemme 2.1. La famille (en , n ∈ Z) est orthonormale dans L2(T). Démonstration. Il suffit de constater que si n = / m, π Z 1 π exp (i(n − m)x) (en , em) = = 0, exp (i(m − n)x) = 2π −π i(n − m) −π et que cette même intégrale vaut 1 si m = n. Définition 2.2. Une combinaison linéaire des fonctions (en , n ∈ Z) est appelée un polynôme trigonométrique. Le degré d’un polynôme trigonométrique est la plus grande valeur de |n| pour laquelle le coefficient de en est non nul. P Notons que l’écriture n∈Z cn en d’un polynôme trigonométrique, où (cn , n ∈ Z) est une suite à support fini, est unique, puisque (en , n ∈ Z) est une famille libre. Théorème 2.3. (Théorème d’approximation de Weierstrass) L’espace Vect(en , n ∈ Z) est dense dans C(T, C) : toute fonction continue sur T est limite uniforme d’une suite de polynômes trigonométriques. Ce théorème est la conséquence d’un résultat très général. Théorème 2.4. (Stone-Weierstrass) Soit X un espace topologique compact, et A une algèbre de fonctions continues X → C contenant au moins une fonction constante, stable par conjugaison complexe f 7→ f, et qui sépare les points, au sens où pour tout x, y ∈ X avec x = / y, il existe f ∈ A telle que f (x) = / f (y). Alors A est dense dans C(X , C) pour la norme uniforme. On laisse en exercice le soin de vérifer que le théorème s’applique dans le cas où X = T et où A est l’algèbre des polynômes trigonométriques. Nous donnerons un peu plus loin deux autres preuves, plus directes et ad hoc, du Théorème 2.3. Le théorème de Stone-Weierstrass sera démontré à la fin du chapitre. Une série trigonométrique est une somme infinie de la forme X cn e n . n∈Z Bien sûr une telle série n’est pas définie pour tout choix de (cn , n ∈ Z). On a néanmoins le résultat suivant. 2.2 Série de Fourier d’une fonction 23 Proposition 2.5. Soit (cn , nP∈ Z) une suite sommable de nombres complexes. Alors la série trigonométrique n∈Z cnen converge normalement vers une fonction f continue sur T. De plus, on a que cn = cn(f ) pour tout n ∈ Z. Démonstration. La convergence normale est immédiate puisque ken k∞ = 1. On déduit le résultat du théorème classique d’interversion entre somme et intégrale, conséquence de la convergence dominée. Un exemple important P de séries trigonométriques est donné à partir de séries entières. En effet, si S(z) = n>0 sn z n est une série entière de rayon de convergence P r nsneinx converge R > 0, alors pour tout r ∈ [0, R[, la série S(r eix) = n>0 normalement. Exemple 2.6. La série trigonométrique suivante converge normalement pour tout r ∈ [0, 1[. X 1 − r2 r |n|einx = , 2 1 − 2r cos (x) + r n∈Z on l’appelle le noyau de Poisson, il joue un rôle important en analyse. P Si f = n∈Z cn en est la somme d’une série entière normalement convergente, on peut retrouver le coefficient cn par la formule Z 1 π f (x) e−inxdx= (en , f ). cn = 2π −π Il suffit pour le voir d’intervertir la somme et l’intégrale (ce qui est valide car la série converge uniformément, et l’intégrale est sur un compact), et utiliser le lemme 2.1. Ceci motive la définition ci-dessous. 2.2 Série de Fourier d’une fonction Soit f ∈ L1(T). Le n-ème coefficient de Fourier de f, où n ∈ Z, est par définition le nombre Z 1 π cn(f ) = f (x)exp(−inx)dx. 2π −π Si f ∈ L2(T), ce nombre est bien sûr égal au produit scalaire (en , f ), mais la quantité ci-dessus est bien définie dès que f est intégrable. La définition et le lemme de Riemann-Lebesgue montré au chapitre précédent donnent immédiatement le résultat suivant. Proposition 2.7. Soit f ∈ L1(T). Alors on a que |cn(f )| 6 kf k1 pour tout n ∈ Z. De plus, cn(f ) → 0 lorsque |n| → ∞. Remarque 2.8. En revanche, il n’est pas vrai que toute suite de nombre complexes de limite nulle à l’infinie est la suite des coefficients de Fourier d’une fonction intégrable. 24 Séries de Fourier Pour N > 0, la N -ème somme de Fourier de f est par définition le polynôme trigonométrique N X S Nf = cn(f ) en . n=−N Soit f ∈ L1(T). Notons que l’on a une autre écriture de cette somme, en regroupant les termes deux par deux. En effet, pour tout n > 0, Z 1 π inx −inx f (y)cos(n(x − y))dy cn(f )e + c−n(f )e = π −π = an(f )cos(nx) + bn(f )sin(nx) où 1 an(f ) = π Z π 1 bn(f ) = π f (x)cos(nx) dx , −π Avec la convention a0(f ) = (1/π) SNf (x) = R π −π Z π f (x)sin(nx) dx. −π f (x)dx = 2c0(f ), on obtient ainsi que N a0(f ) X + (an(f ) cos (nx) + bn(f ) sin (nx)) . 2 n=1 On appelle cette expression l’écriture réelle de la somme de Fourier de f . Noter que les coefficients an(f ), bn(f ), sont des nombres complexes en général. Proposition 2.9. Si f est à valeurs réelles, on a an(f ) = 2ℜ(cn(f )), et bn(f ) = −2ℑ(cn(f )). La question que l’on se pose alors est celle de la convergence de SNf , lorsque N → ∞. Un cas particulier relativement simple est quand la suite de coefficients de Fourier est sommable. Proposition 2.10. Soit f ∈ L1(T) telle que la famille P (cn(f ), n ∈ Z) est sommable, 1 c’est-à-dire dans ℓ (Z). Alors sa série de Fourier n∈Z cn(f ) en converge normalement, et est de plus égale à f presque partout. Lemme 2.11. Soit f , g ∈ L1(T) telles que cn(f ) = cn(g) pour tout n ∈ Z. Alors f = g. Démonstration. Posons h = f − g ∈ L1(T), de sorte que cn(h) = 0 pour tout n ∈ Z. Alors on a que pour tout polynôme trigonométrique P , Z 1 P (x)h(x)dx = 0. 2π T R Par le théorème de Weierstrass, on en déduit que T ψ(x)h(x)dx = 0 pour toute fonction ψ continue sur T. En utilisant la densité des fonctions continues dans l’espace L1(T, h(x)dx), on obtient la même identité pour tout ψ dans cet espace. En appliquant le résultat à |h(x)|1{h(x)=/ 0}/h(x), qui est bornée par 1 en module et R donc dans cet espace, on obtient que T |h(x)|dx = 0. Donc h = 0. 2.3 Convergence des séries de Fourier dans L2 25 Démonstration de la proposition 2.10. Le fait que la série trigonométrique P c (f ) en converge normalement vers une fonction continue g telle que cn(g) = n∈Z n cn(f ) pour tout n ∈ Z est une conséquence de la proposition 2.5. On en déduit que f = g presque partout par le lemme 2.11. 2.3 Convergence des séries de Fourier dans L2 La réponse la plus simple à la question précédente est que dans le cadre L2 hilbertien, cette convergence a toujours lieu. Une conséquence du théorème d’approximation de Weierstrass est que la famille {en , n ∈ Z} forme une base hilbertienne de L2(T), c’est-à-dire que tout élément de L2(T) se décompose comme série sur cette base. Rappelons la preuve de ce fait, qui est un résultat général sur les espaces de Hilbert. Théorème 2.12. Pour toute fonction f ∈ L2(T), la famille (cn(f ), n ∈ Z) est de carré sommable, et de plus, l’application f 7→ (cn(f ), n ∈ Z) réalise une isométrie de L2(T) sur ℓ2(Z), muni de la structure hilbertienne usuelle : Z X 1 π 2 kf kL2(T) = |cn(f )|2 = k(cn(f ), n ∈ Z)kℓ22(Z) . |f (x)|2dx = 2π −π n∈Z Cette identité s’appelle égalité de Parseval. Démonstration. Ce résultat est un théorème général sur les espaces de Hilbert munis d’une base hilbertienne, c’est-à-dire une famille orthonormale qui engendre un sous-espace dense. Nous la redonnons dans le cas particulier qui nous intéresse. Pour tout N > 0, soit TN = Vect(en , −N 6 n 6 N ) l’espace des polynômes trigonométriques de degré au plus N . Par définition, la somme de Fourier SNf est la projection orthogonale de f sur TN . On a alors par le théorème de Pythagore kf k22 = kf − SNf k22 + kSNf k22 = kf − SNf k22 + Comme tous les termes sont positifs, on a que pour tout N , et donc kf k22 > kf k22 > N X n=−N X n∈Z N X n=−N |cn(f)|2 . |cn(f )|2 |cn(f)|2 , ce que l’on appelle l’inégalité de Bessel. On utilise alors le théorème d’appproximation de Weierstrass : comme Vect(en , n ∈ Z) est dense dans C(T, C) pour la norme uniforme, la même chose est vraie pour la norme L2, et par densité des fonctions continues dans les fonction L2, on déduit que Vect(en , n ∈ Z) est dense pour la norme L2 dans L2(T). On en déduit que pour tout ε > 0, il existe un polynôme trigonométrique P tel que kf − P k2 < ε. Mais si le degré de P est N0, on voit que kf − SN0 f k2 6 kf − P k2 < ε , 26 Séries de Fourier par la propriété de la projection orthogonale : SN0 f est le point de TN0 le plus proche de f en norme L2. On en déduit immédiatement que SNf → f dans L2(T). Finalement, on a bien que l’inégalité de Bessel est une égalité. Il reste à montrer que l’application f 7→ (cn(f ), n ∈ Z) est surjective sur ℓ2(Z). P Mais si (cn , n ∈ Z) est de carré sommable, alors n∈Z cn en converge dans L2(T) et définit un élément f , tel que cn(f ) = (en , f ) = cn, d’où le résultat. P Corollaire 2.13. Pour tout f ∈ L2(T), on a que la somme n∈Z cn(f) en converge dans L2(T) et est égale à f. C’est également la limite de SNf dans L2(T) lorsque N → ∞. Il convient cependant de ne pas se laisser abuser par l’énoncé précédent. En effet, il ne stipule absolument pas que les deux fonctions X f (x) et cn(f)exp(inx) n∈Z sont égales en tout x, ni même en un seul x : en fait, la convergence de la série à droite en un point donné n’est pas garantie, puisque cn(f ) est seulement supposée de carré sommable. 2.4 Convergence ponctuelle des séries de Fourier La question de savoir si l’on a convergence en un point x de la série de Fourier d’une fonction est un problème en général très difficile. Nous allons donner quelques résultats très partiels en ce sens. De façon évidente à partir de nos résultats sur les séries trigonométriques, on a que SNf converge uniformément vers f dès lors que P |c (f )| < ∞. Nous allons montrer que cela est impliqué par une condition de n∈Z n régularité de f . 2.4.1 Le cas C 1 par morceaux Une remarque importante est que la série de Fourier peut être représentée par un produit de convolution. Définition 2.14. Le noyau de Dirichlet d’ordre N est la fonction DN (x) = N X n=−N einx = sin ((N + 1/2)x) , sin (x/2) x ∈ T. Pour vérifier la formule annoncée, il suffit de constater que la somme est géométrique, et vaut (ei(N +1)x − e−iN x)/(eix − 1) et factoriser haut et bas par eix/2. Lemme 2.15. Soit f ∈ L1(T). La N-ème somme de Fourier de f est donnée par SNf (x) = DN ∗f (x) , x ∈ T. 27 2.4 Convergence ponctuelle des séries de Fourier La preuve est immédiate : par définition Z Z N X 1 π 1 π in(x−y) SNf (x) = f (y)e dy = f (y)DN (x − y) dy . 2π −π 2π −π n=−N Il est assez tentant d’appliquer les résultats sur les approximations de l’unité du chapitre précédent. Malheureusement, la famille (DN , n > 0) n’est pas une approximation de l’unité, même si l’on a la propriété que Z 1 π DN (x) dx = 1, 2π −π ce qui est clair à partir de la définition de DN comme somme de fonctions trigonométriques. Théorème 2.16. Soit f : T → C une fonction de classe C 1(T, C) par morceaux. Pour tout x ∈ T, on a la convergence f (x + ) + f (x − ) ˜ = f (x) , N →∞ 2 SNf (x) −→ où f (x − ), f (x + ) désignent les limites à gauche et à droite de f en x. Démonstration. Fixons x ∈ T. On écrit, en utilisant le fait que DN est une fonction paire Z Z 1 π 1 π f(x − y) DN (y)dy + f (x + y)DN (y)dy . SNf (x) = DN ∗f (x) = 2π 0 2π 0 Comme DN est d’intégrale (normalisée) 1, on en déduit que Z 1 π ˜ f (x − y) + f (x + y) − 2f˜(x) DN (y)dy . SNf (x) − f (x) = 2π 0 Notons g(y) = f (x − y) + f(x + y) − 2f˜(x) /sin (y/2) pour y = / 0, et g(0) = ′ ′ f (x + ) − f (x − ). Alors la fonction g est continue sur T, et Z π 1 1 SNf (x) − f˜(x) = y dy −→ 0 g(y) sin N+ N →∞ 2π 0 2 par le lemme de Riemann-Lebesgue. De même, on montrerait le résultat suivant par la même méthode. Proposition 2.17. Soit f : T → C une fonction Hölder-continue d’exposant α ∈ ]0, 1], c’est-à-dire telle qu’il existe C ∈ ]0, ∞[ avec |f (x) − f (y)| 6 C |x − y |α , x, y ∈ T. Alors SNf (x) converge en tout point vers f. On peut se demander si le résultat précédent peut se renforcer en une convergence uniforme. Clairement, si f n’est pas continue, il n’est pas possible de l’approcher uniformément par une suite de fonctions continues, donc par un polynôme trigonométrique. Nous allons 28 Séries de Fourier Proposition 2.18. Soit f : T → C une fonction de classe C 1(T, C), ou plus généralement continue, et de classe C 1 par morceaux. Alors cn(f ′) = incn(f ) . P |cn(f )| < ∞. En particulier, la série de Fourier converge De plus, on a que n∈Z normalement vers f, et les sommes de Fourier SNf convergent uniformément vers f. Démonstration. L’identité sur les coefficients de Fourier est immédiate par intégration par parties Z π Z π ′ −inx −inx π f (x)e−inx dx , f (x)e dx = [f (x)e ]−π + in −π −π en constatant que le terme de crochet est nul par périodicité. Comme on a supposé que f ′ est une fonction continue sur T, elle est en particulier dans L2 et donc ses coefficients de Fourier forment une famille de carré sommable. Ainsi X |ncn(f )|2 < ∞ . n∈Z Ensuite, on utilise l’inégalité de Cauchy-Schwarz en écrivant cn(f ) = ncn(f )/n : s X X 1 X |ncn(f )|2 · |cn(f )| 6 <∞ n2 n∈Z n∈Z n∈Z et on en déduit que (cn(f ), n ∈ Z) est sommable. De ce fait, les sommes de Fourier SNf convergent uniformément, et la limite est f par le théorème 2.16. Notons que cette proposition n’utilise pas les résultats que nous avons énoncés sur le cas hibertien, à l’exception de l’inégalité de Bessel stipulant que X |cn(g)|2 6 kg k22 n∈Z pour toute fonction g de carré intégrable, ce qui est simplement une conséquence du théoème de Pythagore. Or, en constatant que SNf est un polynôme trigonométrique pour tout N , ceci montre par un argument différent la densité des polynômes trigonométriques dans C 1(T, C) pour la norme uniforme, et donc dans C 0(T, C) (théorème de Weierstrass). 2.4.2 Convergence de Cesaro Enfin, une manière d’obtenir une convergence uniforme pour des fonctions continues est de remplacer la convergence des sommes de Fourier par leur moyenne de Cesaro CNf (x) = S0 f (x) + ··· + SN −1(x) . N Théorème 2.19. Soit f ∈ C 0(T, C). Alors la suite (CNf , N > 1) converge uniformément vers f. 29 2.5 *Preuve du théorème de Stone-Weierstrass Démonstration. On constate d’abord que PN −1 −1 CNf = KN ∗f Dk(x) est le noyau de Féjer . Ceci est une conséquence directe où KN (x) = N k=0 du fait que SNf = DN ∗f et de la définition de CN . On constate alors que k N −1 N −1 1 X ei (k+1)x − e−ikx 1 X X inx e = KN (x) = N eix − 1 N k=0 n=−k k=0 iNx e − 1 1 − e−iNx 1 = − 1 − e−ix N(eix − 1) 1 − e−ix 2−2 cos (Nx) 1 sin2 (Nx/2) = = N |eix − 1|2 N sin2 (x/2) R π À partir de la définition de KN , on voit que −π KN (y)dy = 2π, et par la formule précédente, on a KN > 0. Enfin, on a clairement que pour tout δ ∈ ]0,π[, Z π 2π 1 −→ 0. KN (y)1{|y |>δ }dy 6 2 N sin (δ/2) N →∞ −π Donc (KN , N > 1) est une approximation de l’unité, et le résultat découle de la proposition 1.9. Remarquons que CNf est un polynôme trigonométrique pour tout N , et donc ce résultat nous donne une troisième preuve, encore différente des deux autres, de la densité des polynômes trigonométriques dans C 0(T, C). 2.5 *Preuve du théorème de Stone-Weierstrass On montre d’abord que la fonction x 7→ |x| peut être approximée uniformément sur [−1, 1] par une suite de polynômes réels. Pour cela, on peut utiliser le théorème d’approximation pour les polynômes. Ou bien, on peut utiliser le p de Weierstrass P 2 fait que |x| = 1 − (1 − x ) = n>0 1/2 (−(1 − x2))n, du fait du développement en n √ série entière de la fonction z 7→ 1 − z , où la convergence des sommes partielles de la série a lieu uniformément sur [−1, 1]. Supposons d’abord que l’algèbre A soit formée de fonctions à valeurs réelles. Notre but est de montrer que l’adhérence de A est égale à C 0(X , R), et sans perte de généralitén on peut supposer que A est fermée. Dans ce cas, pour toute fonction f ∈ A, on a que P (f ) ∈ A pour tout polynôme réel P , puisque A contient les fonctions constantes. Comme f est continue sur X compact, elle est bornée, et f /kf k∞ prend ses valeurs dans [−1, 1]. Par le résultat d’approximation de la valeur absolue rappelé plus haut, et comme A est fermée, on en déduit que |f |/kf k∞ ∈ A, et donc |f | ∈ A. On en déduit alors que pour tout f , g ∈ A, les fonctions f ∧g= sont aussi dans A. f + g − |f − g | , 2 f ∨g= f + g + |f − g | 2 30 Séries de Fourier Fixons maintenant une fonction f ∈ C(X , R), et x ∈ X. Pour tout y ∈ X, comme A sépare les points, on peut trouver une fonction gx,y ∈ A telle que gx,y(x) = f (x) et gx,y (y) = f (y). Pour tout ε > 0, il existe alors un voisinage Vx,y de y tel que gx,y(z) > f (z) − ε pour tout z ∈ Vx,y. Par compacité, on peut recouvrir X par un nombre fini de tels voisinages, disons Vx,y1, ..., Vx,yk. Notons gx = max (gx,y1, ..., gx,yk), de sorte qu’on a gx ∈ A par ce que l’on a montré ci-dessus. La construction étant valide pour tout x ∈ X, on obtient une famille de fonctions (gx , x ∈ X) telles que gx(x) = x et gx(z) > f (z) − ε pour tout z ∈ X. Pour tout x, on peut alors trouver un voisinage Vx de x tel que gx(z) < f (z) + ε pour tout z ∈ Vx. Comme précédemment, on peut trouver un sous-recouvrement fini par Vx1, ..., Vxl disons. Si l’on pose g = min (gx1, ..., gxl) ∈ A, on obtient que pour tout z ∈ X, on a f (z) − ε < g(z) < f(z) + ε, c’est-à-dire que kf − gk∞ < ε. D’où le résultat dans le cas où A est constitué de fonctions réelles. Dans le cas complexe, on utilise le fait que A est stable par conjugaison pour obtenir que si f ∈ A, alors ℜf et ℑf sont aussi dans A. Donc A contient une algèbre de fonctions réelles qui séparent les points, et qui contient les fonctions constantes, et donc son adhérence contient C(X , R). Donc l’adhérence de A contient C(X , C) en approchant partie réelle et partie imaginaire de la fonction que l’on essaie d’approcher. Chapitre 3 La transformée de Fourier dans Rd Dans tout ce chapitre, nous travaillerons avec la mesure de Lebesgue sur Rd renormalisée par (2π)d/2, que nous noterons λd(dx) = dx/(2π)d/2, plutôt qu’avec la mesure de Lebesgue standard. La raison de ce choix apparaîtra un peu plus tard. 3.1 Transformée de Fourier d’une fonction intégrable Définitions Soit f ∈ L1 = L1(Rd , B(Rd), λd). Pour tout ξ ∈ Rd, on note Z 1 ˆ f (ξ) = exp (−ihξ, xi)f (x)dx d/2 (2π) Rd Z exp (−ihξ , xi)f (x)λd(dx) = Rd Comme l’intégrande a pour module |f (x)|, qui est intégrable, cette intégrale est bien définie pour tout ξ ∈ Rd. On dit que la fonction fˆ est la transformée de Fourier de f. Plus généralement, si f ∈ L1, alors la formule ci-dessous détermine également une fonction fˆ indépendante du choix du représentant de f dans L1. Par la suite, nous ne préciserons pas toujours si l’on travaille avec une fonction mesurable ou avec une classe de fonctions égales presque partout. Il est légitime de se demander pourquoi la normalisation ci-dessus a été choisie. Notons que formellement, on peut noter fˆ(ξ) = heξ , f iL2 où h., .iL2 est leR produit scalaire hermitien usuel sur L2 = L2(Rd , B(Rd), λd) défini par hf , g iL2 = Rd f(x)g(x)dx/(2π)d/2, et eξ(x) = exp (ihξ , xi). Bien sûr, eξ n’est pas un élément de L2, donc cette écriture est seulement formelle. La raison pour la renormalisation par (2π)d/2 apparaîtra plus clairement plus loin, lorsque l’on verra que l’application f 7→ fˆ est une isométrie sur une partie dense de L2. a. Propriétés élémentaires. La transformée de Fourier est clairement C-linéaire: si f , g sont intégrables et a ∈ C, on a af + g = afˆ + ĝ . Si f est une fonction mesurable, et y ∈ Rd, on note τyf (x) = f (x − y) et e yf (x) = eihy,xi f (x), 31 x ∈ Rd La transformée de Fourier dans Rd 32 Soit f ∈ L1 et y ∈ Rd. Alors τ yf = e−yfˆ , eyf = τyfˆ. et (3.1) La première formule s’obtient par un simple changement de variable, et la seconde est une conséquence immédiate de la définition. Si maintenant M est une matrice de GLd(R), et si g(x) = f (M −1x), où f est toujours supposée intégrable, on a ĝ (ξ) = |det M |fˆ(M ∗ ξ) (3.2) où M ∗ est la matrice transposée de M . À nouveau, ceci s’obtient facilement par un changement de variables3.1 linéaire (poser u = M −1x) dans l’intégrale Z 1 ĝ (ξ) = e−ihξ,xi f (M −1x)dx, (2π)d/2 Rd en notant que hξ, Mui = hM ∗ ξ, ui. Par exemple, pour M la matrice diagonale dont tous les coefficients diagonaux sont égaux à un réel non nul a, on obtient g(x) = f (x/a) et ĝ (ξ) = |a|dfˆ(aξ). (3.3) Pour a = −1, ceci donne, si l’on note Rf (x) = f (−x), la formule Rf (ξ) = fˆ(−ξ) = Rfˆ(ξ). Par ailleurs, notons que fˆ(−ξ) = 1 (2π)d/2 Z e−ihξ,xi f (x)dx = fˆ (ξ), Rd où z̄ est le complexe conjugué de z. On peut réécrire cela sous la forme concise ¯ fˆ = Rf¯ˆ . (3.4) Noter que si f est réelle, alors cela se simplifie en fˆ(ξ) = fˆ(−ξ), et si on suppose que f est réelle et paire, alors clairement fˆ(ξ) = fˆ(−ξ) et on en déduit que fˆ est une fonction paire à valeurs réelles. b. Continuité, lemme de Riemann-Lebesgue Proposition 3.1. Soit f une fonction de L1. Alors la fonction fˆ est continue, et vérifie fˆ 6 kf k1 . ∞ En particulier, l’application linéaire f 7→ fˆ de L1 dans L∞ est continue. Par ailleurs, on a lim fˆ(ξ) = 0. |ξ |→∞ 3.1. Nous verrons au le chapitre suivant quelques compléments concernant le changement de variables, dont une justification de cette formule 3.1 Transformée de Fourier d’une fonction intégrable 33 Noter que la proposition implique en particulier que fˆ est uniformément continue (exercice). Le fait qu’une transformée de Fourier (d’une fonction intégrable) soit nulle à l’infini est appelé Lemme de Riemann-Lebesgue. Noter également le fait suivant: même si l’on suppose que f est un élément de L1, la même conclusion est vraie: rappelons qu’une transformée de Fourier de fonction L1 est bien définie partout, et définit bien une vraie fonction et non une classe de fonctions. En particulier, parler de continuité de fˆ a bien un sens. Démonstration. La continuité est une conséquence triviale de (3.1) et de la continuité sous le signe intégrale. Le fait qu’une transformée de Fourier soit une fonction mesurable bornée implique que, si f , φ sont toutes deux dans L1, alors fφˆ et fˆφ sont dans L1. L’énoncé suivant est appelé « formule de réciprocité ». Proposition 3.2. Soit f , φ ∈ L1. Alors on a Z Z ˆ fˆ(ξ)φ(ξ)dξ. f (x)φ (x)dx = Rd Rd Démonstration. La fonction (x, ξ) 7→ eihξ,xi f (x)φ(ξ) est intégrable par rapport à dxdξ, ce qui est exactement ce dont on a besoin pour appliquer le théorème de Fubini permettant l’interversion suivante: Z Z Z Z dξ dx −ihx,ξ i e φ(ξ) f (x)dx e−ihξ,xi f (x) φ(ξ)dξ = , d/2 (2π) (2π)d/2 Rd Rd Rd Rd ce qui est exactement ce qu’on voulait. c. Régularité Proposition 3.3. Soit f ∈ L1 une fonction telle que x 7→ |x|f (x) est intégrable. Alors la fonction fˆ est de classe C 1(Rd , C) et de plus, pour tout j ∈ {1, 2, ..., d}, on a Z dx ∂fˆ e−ihξ,xiix jf(x) (ξ) = − , ∂ξ j (2π)d/2 Rd qui est la transformée de Fourier de x 7→ ixjf (x). Plus généralement, si x 7→ |x|kf (x) est intégrable pour un entier k > 1, alors fˆ est Pd de classe C k(Rd , C), et pour tout α = (α1, ..., αd) ∈ Nd tel que |α| = j =1 α j 6 k, on a Z ∂ |α| fˆ dx e−ihξ,xi(−ix)αf (x) , αd (ξ) = α1 ∂ξ1 ...∂ξd (2π)d/2 Rd où l’on note par convention xα = xα1 1...xαd d. Pour simplifier, on notera par la suite ∂xαh = ∂ |α|h/∂xα1 1...∂xαd d les dérivées partielles d’une fonction x 7→ h(x). Par exemple, si h est une fonction de deux variables x et y, on pose ∂xh = ∂h/∂x, ou ∂xyh = ∂ 2h/∂x∂y. Démonstration. C’est une conséquence immédiate du théorème de dérivation sous le signe intégrale, en remarquant que |eihξ,xi(ix)αf (x)| 6 |x|k |f (x)|. La transformée de Fourier dans Rd 34 On voit donc qu’une propriété de décroissance à l’infini de f implique une propriété de régularité de fˆ. Nous allons montrer une sorte de propriété duale de celle ci: la régularité de f implique une propriété de décroissance à l’infini de fˆ. Proposition 3.4. Soit f ∈ L1 ∩ C 1(Rd , C) une fonction de classe C 1 intégrable, telle que ∂f /∂x j est intégrable pour tout j ∈ {1, 2, ..., d}. Alors on a ∂f (ξ) = iξ jfˆ(ξ). ∂x j Plus généralement, si l’on suppose qu’il existe un entier k > 1 tel que f ∈ C k(Rd , C) et ∂xαf ∈ L1 pour tout multi-indice α vérifiant |α| 6 k, alors on a, pour ces mêmes multi-indices, ∂xαf (ξ) = (iξ)αfˆ(ξ). Remarque. En réalité l’hypothèse que f est de classe C 1(Rd , C) est superflue, il suffit de supposer que les dérivées partielles considérées existent en tout point (mais pas seulement en presque tout point !). En utilisant le Théorème 7.21 du livre de Rudin, stipulant que si f estR dérivable en tout point d’un intervalle [a, b] et a sa y dérivée f ′ dans L1, alors on a x f ′(z)dz = f (y) − f (x), la preuve ci-dessous s’adapte verbatim. Démonstration. Supposons sans perte de généralité que j = 1. Pour un (x2, x3, ..., xd) ∈ Rd−1 fixé, on a Z y ∂x1 f (z, x2, x3, ..., xd)dz. f (y, x2, x3, ..., xd) − f (x, x2, x3, ..., xd) = x Comme f et ∂x1 f sont supposées intégrables, le théorème de Fubini montre que pour λd−1-presque tout (x2, ..., xd), les fonction x 7→ f (x, x2, ..., xd) et x 7→ ∂x1 f (x, x2, ..., xd) sont intégrables. On déduit de la formule précédente que pour λd−1-presque tout (x2, ..., xd), la fonction x 7→ f (x, x2, ..., xd) admet une limite en ±∞. Comme f est intégrable, cette limite est nulle pour λd−1-presque tout (x2, ..., xd), par une nouvelle application du théorème de Fubini. On écrit alors, en notant x ′ = (x2, ..., xd) et ξ ′ = (ξ2, ..., ξd), Z Z K d/2 −ihξ ′,x ′i ′ (2π) ∂x1 f (ξ) = e dx lim e−iξ1x1∂x1 f (x1, x ′)dx1 d−1 K→∞ −K ZR −ihξ ′,x ′i ′ = e dx Rd−1 ! Z K e−iξ1x1 f (x1, x ′)dx1 + iξ1 × lim [e−iξ1x1 f (x1, x ′)]xx1=K 1=−K K→∞ −K Z ∞ Z ′ ′ e−iξ1x1 f (x1, x ′)dx1 = (2π)d/2iξ1 fˆ(ξ). e−ihξ ,x idx ′ = iξ1 Rd −1 −∞ Ici, on a utilisé le théorème de Fubini à la première et dernière étapes, et les observations précédentes conjointement à une intégration par parties pour les autres étapes. Le résultat plus général s’obtient par une récurrence aisée, qui est laissée au lecteur. 35 3.2 L’exemple de la densité gaussienne. Le lemme de Riemann-Lebesgue appliqué à ∂xαf , conjointement au précédent résultat, donne le résultat suivant. Corollaire 3.5. Si l’on suppose qu’il existe un entier k > 1 tel que f ∈ C k(Rd , C) et ∂xαf ∈ L1 pour tout multi-indice α vérifiant |α| 6 k, alors on a 1 ˆ f (ξ) = o . |ξ |k d. Lien avec la convolution La transformée de Fourier est un morphisme multiplicatif pour la convolution dans L1. Nous noterons, lorsque cela a un sens, Z 1 f ∗g(x) = f (x − y)g(y)dy , d/2 (2π) Rd Z f (x − y)g(y)λd(dy) = Rd avec la normalisation par (2π)d/2, contrairement à la convention adoptée au premier chapitre. Proposition 3.6. Soit f , g ∈ L1 , alors on a f ∗ g (ξ) = fˆ(ξ)ĝ (ξ) pour tout ξ ∈ Rd. Démonstration. On écrit simplement f ∗ g (ξ) = = Z ZRd Rd −ihξ,xi Z f (x − y)g(y)λd(dy) Z e−ihξ,y i g(y)λd(dy), g(y) λd(dy) τyf (ξ) = fˆ(ξ) e λd(dx) Rd Rd où l’on a appliqué le théorème de Fubini dans la deuxième inégalité, (x, y) 7→ e−ihξ,xi f (x − y)g(y) étant clairement intégrable par rapport à dxdy. Cette propriété élémentaire est l’une des plus importantes de la transformée de Fourier. On verra en particulier le rôle qu’elle joue lorsqu’on somme des variables aléatoires indépendantes. 3.2 L’exemple de la densité gaussienne. Pour σ > 0, on note 1 |x|2 gσ(x) = d exp − 2 , σ 2σ x ∈ Rd , que l’on appelle densité gaussienne isotrope dans Rd. Notons que l’on a la relation élémentaire de changement d’échelle suivante : pour tout σ > 0, x 1 gσ(x) = d g1 , x ∈ Rd. (3.5) σ σ La transformée de Fourier dans Rd 36 Proposition 3.7. Pour tout σ > 0, on a que R Rd gσ(x)λd(dx) = 1. Démonstration. Du fait de la relation (3.5), il suffit de montrer ce résultat pour Qd 2 σ = 1. Par ailleurs, comme g1(x) = i=1 exi /2 , le théorème de Tonelli montre qu’il suffit de traiter le cas où d = 1. On utilise alors le théorème de Tonelli et un changement de variables en coordonnées polaires pour obtenir : r=∞ Z 2 Z Z Z π x2 x2 + y 2 r2 r2 − − − − = 2π, e 2 dxdy = rdre 2 e 2 dx = dθ = 2π −e 2 R2 R R+ −π r=0 d’où le résultat. Comme g1 est une fonction positive, noter que pour la relation (3.5) implique que pour toute suite (σn , n > 0) strictement positive de limite nulle, la suite (gσn , n > 0) est une approximation de l’unité. Il est évident que la fonction gσ est une fonction de classe C ∞(Rd , C), et de surcroît que |x|k∂xαgσ(x) est de limite nulle lorsque |x| → ∞ pour tout k > 0 et tout multi-indice α. On dit que gσ est un élément de la classe de Schwartz S. En particulier, gσ et toutes ses dérivées partielles sont dans L1, et on peut bien parler de leur transformée de Fourier. Proposition 3.8. On a, pour tout ξ ∈ Rd, σ 2|ξ |2 1 ĝσ(ξ) = exp − = d g1/σ(ξ). 2 σ Démonstration. Du fait de la relation (3.5), les propriétés usuelles de la transformée de Fourier donnent que ĝσ(ξ) = ĝ1(σξ), et il suffit donc de traiter le cas où σ = 1. Par ailleurs, de façon similaire à la preuve de la proposition 3.7, il suffit, par une application du théorème de Fubini, de montrer le résultat pour d = 1. On suppose donc maintenant que σ = 1, d = 1, et on pose g = g1. Les remarques précédant l’énoncé de la proposition, jointes aux propositions 3.3 et 3.4, montrent que Z Z x2 dx − 2 dx −iξx ′ e−iξxg ′(x) √ = igˆ′(ξ) = −ξ ĝ (ξ). e xe √ = i ĝ (ξ) = −i 2π 2π Rd Rd La fonction ĝ est donc solution de l’équation différentielle h ′(ξ) = −ξh(ξ), et donc on a 2 et comme ĝ (0) = R Rd ĝ (ξ) = ĝ (0)e−ξ /2, ξ ∈ R, √ g(x)dx/ 2π = 1 par la proposition 3.7, on conclut. 3.3 La formule d’inversion Le résultat principal de ce chapitre dit que, lorsque l’on peut prendre la transformée de Fourier de fˆ, cette transformée égale Rf presque partout. 37 3.3 La formule d’inversion Théorème 3.9. Soit f ∈ L1 une fonction telle que fˆ ∈ L1. Alors si l’on pose Z 1 g(x) = eihx,ξ i fˆ(ξ)dξ , d/2 d (2π) R on a que f (x) = g(x) pour λd-presque tout x, c’est-à-dire que f = g dans L1. De façon concise, si Rf (x) = f (−x), ˆ Rfˆ =f Remarque. Noter que ce théorème admet la conséquence suivante, du fait de la proposition 3.1 : si f ∈ L1 est telle que fˆ ∈ L1, alors f (et fˆ) est égale presque partout à une fonction continue de limite nulle à l’infini. Cela restreint donc sensiblement l’ensemble des fonctions auxquelles le théorème précédent est susceptible de s’appliquer ! Avant de donner la preuve, notons qu’une approche naïve consisterait à appliquer la formule de réciprocité (Proposition 3.2) dans la définition de g(x), et à écrire Z 1 g(x) = eihx,·i(y)f (y)dy. d/2 d (2π) R Le problème est que cette expression n’a pas de sens bien défini, car ex = eihx,·i n’est pas un élément de L1. Néanmoins, on peut se convaincre que la seule valeur « naturelle » à donner à ex̂ (y) est 0 si y = / x et +∞ si y = x, ce qui semble indiquer que la « fonction » eˆx est la masse de Dirac en x. On peut donner un sens à cela dans le cadre de la théorie des distributions qui sera étudiée en M1 : en fait, le théorème 3.9 permet de définir eˆx = δx . Démonstration du théorème 3.9. Comme l’approche naïve décrite ci-dessus ne peut pas fonctionner, l’idée est de « lisser » les fonctions considérées par convolution avec une gaussienne. On remplace donc f par fσ = gσ∗f avec les notations du ˆ par la proposition 3.6. En utilisant la paragraphe 3.2, et on rappelle que fˆσ = gˆf σ proposition 3.8 donnant gσ̂ , et la formule de réciprocité, on calcule alors Z Z 1 ihx,ξ i ˆ eihx,ξ i g1/σ(ξ)fˆ(ξ)λd(dξ) (3.6) e fσ(ξ)λd(dξ) = d σ ZRd Rd 1 = d ex g1/σ (y)f (y)λd(dy) Zσ Rd gσ(y − x)f (y)λd(dy) = Rd = fσ , où l’on a utilisé à nouveau la proposition 3.8 et les propriétés élémentaires de la transformée de Fourier à l’avant-dernière étape, et la parité de la fonction gσ à la dernière étape. Lorsque σ → 0, on a que fσ → f dans L1 par la proposition 1.10 et les remarques effectuées après la proposition 3.7. Par ailleurs, 2 2 1 ihx,ξ i e g1/σ(ξ)fˆ(ξ) = eihx,ξ ie−σ |ξ | /2 fˆ(ξ) −→ eihx,ξ i fˆ(ξ), d σ→0 σ La transformée de Fourier dans Rd 38 la convergence étant dominée par fˆ(ξ) , qui est dans L1 par hypothèse. On en conclut que le membre de gauche de (3.9) converge ponctuellement vers g(x) lorsque σ → 0. On en conclut bien que g = f presque partout, et c’est ce qu’on voulait démontrer. Corollaire 3.10. La transformée de Fourier est injective : si f , g ∈ L1 sont telles que fˆ = ĝ, alors f = g. Remarque. Attention au fait que cette égalité est valide dans L1 ! Si f , g sont de vraies fonctions dans L1, alors l’énoncé dit seulement que fˆ = ĝ implique que f = g, λd-presque partout. Démonstration. Si fˆ = ĝ , alors f − g = 0 par linéarité, et comme 0 est évidemment intégrable, on a que f − g = R0̂ = 0. 3.4 La transformée de Fourier L2 La formule d’inversion de la transformée de Fourier L1 est un analogue direct de la proposition 2.10 pour les séries de Fourier. On peut se demander s’il existe également un analogue de la théorie hilbertienne de ces séries. Rappelons que la théorie L2 des séries de Fourier stipule que l’application f 7→ (cn(f ), n ∈ Z) est une isométrie, en fait un isomorphisme d’espaces de Hilbert, de L2(T, B(T), λ) sur ℓ2(Z) par la formule de Bessel-Parseval : X |cn(f )|2. kf k2 = n∈Z Une différence notable entre séries et transformée de Fourier vient du fait que L2(Rd , B(Rd), λd) n’est pas inclus dans L1(Rd , B(Rd), λd), du fait que la mesure λd est infinie, et que la transformée de Fourier d’une fonction f ∈ L2(Rd , B(Rd), λd) n’est pas un objet bien défini a priori . Néanmoins, on a bien la propriété d’isométrie suivante. Proposition 3.11. Soit f ∈ Cc∞(Rd , C) une application infiniment dérivable, et à support compact. Alors fˆ appartient à L2 , et de plus l’application f 7→ fˆ de Cc∞(Rd , C) dans L2 , est une isométrie si l’on munit ces deux espaces de la norme k·k2. Démonstration. Comme f et ses dérivées sont continues à support compact, elles sont dans L1, donc la proposition 3.1 et le corollaire 3.5 impliquent que fˆ est dans tous les ensembles L p pour p ∈ [1, ∞]. Pour montrer la propriété d’isométrie, on écrit, pour f ∈ Cc∞(Rd , C), (et avec Rf (x) = f (−x)), Z Z Z Z ˆ ˆ ˆ fˆ(ξ)fˆ(ξ)dξ = fˆ(ξ)Rf¯ (ξ)dξ = f (x)Rf¯ (x)dx = f (x)f (x)dx Rd Rd Rd Rd où l’on a utilisé (3.4), la formule de réciprocité, puis la formule d’inversion, qui s’applique puisque f¯ˆ ∈ L1. 3.4 La transformée de Fourier L2 39 Comme Cc∞(Rd , C) est dense dans L2, et qu’une isométrie est uniformément continue, on en déduit qu’il existe un unique prolongement continu de f 7→ fˆ de L2 dans L2, qui demeure une isométrie linéaire. Pour le distinguer de la transformée de Fourier classique, on le note F: L2 → L2, que l’on appelle parfois la transformée de Fourier-Plancherel. Théorème 3.12. L’application F prolonge la transformée de Fourier L1 , au sens où, si f ∈ L1 ∩ L2 , alors Ff = fˆ presque partout. De plus, F est une isométrie de L2 sur lui-même. Démonstration. Soit f ∈ L1 ∩ L2, et fσ = gσ ∗ f où gσ est la densité gaussienne du paragraphe 3.2. On sait par la proposition 1.10 que fσ converge vers f dans L1 et dans L2, et de plus, la fonction fσ est de classe C ∞(Rd , C) par une application aisée du théorème de dérivation sous le signe somme, en utilisant que gσ et toutes ses dérivées partielles sont bornées. Pour qu’on puisse lui appliquer la proposition précédente, on tronque fσ en introduisant une fonction ψ de Cc∞(Rd , C), à valeurs dans [0, 1], telle que ψ(x) = 1 si |x| 6 1 et ψ(x) = 0 si |x| > 2. On laisse au lecteur le soin de construire une telle fonction explicitement. Pour tout entier n > 1, posons alors hn(x) = ψ(x/n)f1/n(x), de sorte que hn ∈ Cc∞(Rd) pour tout n. On a alors, pour p ∈ [1, ∞[, khn − f k p 6 kψ(·/n)(f1/n − f )k p + k(1 − ψ(·/n))f k p 1/p Z p |f (x)| 1{|x|>n}λd(dx) 6 kf1/n − f k p + Rd ce qui converge vers 0 lorsque n → ∞. Ceci est valable en particulier pour p = 1 et p = 2, et de la continuité de F : L2 → L2 et de ˆ: · L1 → L∞, on en déduit que Fhn = hˆn converge respectivement dans L2 et dans L∞ vers Ff et fˆ. En particulier, ces deux fonctions sont égales presque partout. Il ne reste plus qu’à démontrer la surjectivité de F . Or on peut construire une seconde application F̃ prolongeant la transformée de Fourier inverse f 7→ Rfˆ de Cc∞(Rd , C) dans L2, qui est une isométrie linéaire pour les mêmes raisons que précédemment. On a alors FF̃f = f pour toute fonction f ∈ Cc∞(Rd , C), et par densité et continuité, on en conclut que la même chose est vraie pour tout f ∈ L2. Donc F est inversible à droite, et en particulier, elle est surjective. Remarque. Attention, si f ∈ L2 on n’a pas en général la formule Z 1 Ff (ξ) = e−ihξ,xi f (x)dx, d/2 (2π) Rd (3.7) car cette formule n’a pas toujours de sens ! En revanche, on peut noter que pour tout A > 0, la formule Z 1 e−ihξ,xi f (x)dx, ξ ∈ Rd FAf (ξ) = d/2 (2π) [−A,A]d La transformée de Fourier dans Rd 40 a bien un sens, puisqu’une fonction dans L2 est localement intégrable par l’inégalité de Cauchy-Schwarz. Comme f 1[−A,A]d converge dans L2 vers f lorsque A → ∞, on en déduit que FAf = F (f1A) converge dans L2 vers Ff , ce qui est une façon de donner un sens à l’intégrale impropre (3.7). 3.5 Transformée de Fourier d’une mesure signée Comme on l’a mentionné brièvement un peu plus haut, la transformée de Fourier s’étend naturellement au-delà des fonctions de L1, et peut être définie même pour des objets qui ne sont pas des fonctions (les distributions). Même si nous n’allons pas traiter de cela ici, il nous sera très utile en théorie des probabilités de manipuler la transformée de Fourier de mesures de probabilités. Il est cependant utile de traiter le cas plus général des mesures signées. Si µ est une telle mesure, on note |µ| la mesure de variation totale associée, et on rappelle qu’il s’agit d’une mesure positive finie, dont la masse totale est notée |µ|(Rd) = kµk, et appelée norme de variation totale de µ. Soit donc µ une mesure signée sur Rd. On définit la transformée de Fourier de µ par la formule Z 1 µ̂(ξ) = e−ihξ,xi µ(dx), ξ ∈ Rd. d/2 (2π) Rd Un cas particulier important sera celui des mesures à densité (sous-entendu par rapport à λd), c’est-à-dire des mesures µ qui s’écrivent sous la forme µ(dx) = f (x)dx/(2π)d/2 pour une fonction f ∈ L1 à valeurs réelles3.2. Il est immédiat par définition que dans ce cas on a µ̂(ξ) = fˆ(ξ). Ceci permet d’étendre strictement le cadre des fonctions L1, au moins à valeurs réelles. De fait, un certain nombre de propriétés que nous avons étudiées dans le cadre L1 restent vraies ici. d Proposition 3.13. La transformée de Fourier d’une mesure de R signéek µ sur R est une fonction continue, et bornée par kµk. De plus, si l’on a Rd |x| |µ|(dx) < ∞, alors µ̂ est de classe C k(Rd , C), et l’on a pour tout multi-indice α tel que |α| 6 k, Z (−ix)αe−ihξ,xi µ(dx). ∂xαµ̂(ξ) = Rd Enfin, si µ et ν sont deux mesures de probabilités, on a la formule de réciprocité Z Z µ̂(ξ)ν(dξ) = ν̂ (x)µ(dx). Rd Rd 3.2. En fait, on pourrait aussi définir la transformée de Fourier d’une mesure complexe, c’est-à-dire d’une application s’écrivant sous la forme µ = µ1 + iµ2, avec µ1 et µ2 des mesures signées. Ceci permettrait d’étendre strictement le cadre L1 étudié ici, et les énoncés de ce paragraphe restent tous vrais dans cette situation. On renvoie au chapitre 6 du livre de Rudin, Real and complex analysis pour les rudiments sur les mesures complexes. 41 3.5 Transformée de Fourier d’une mesure signée La preuve est exactement la même que pour les fonctions L1, et est laissée en exercice. Remarque. Attention, le lemme de Riemann-Lebesgue n’est plus vrai dans ce contexte ! Par exemple, la mesure de Dirac δ0 vérifie δˆ0 = 1, et n’est donc pas de limite nulle en l’infini. Une autre propriété importante qui est conservée est celle de morphisme multiplicatif par rapport à la convolution. Si µ est une mesure signée, rappelons qu’elle peut s’écrire de façon unique sous la forme µ = µ+ − µ− où µ+ et µ− sont deux mesures positives finies de supports disjoints (décomposition de Jordan), auquel cas on a |µ| = µ+ + µ− . La mesure produit de deux mesures signées µ et ν est alors définie comme µ ⊗ ν = µ+ ⊗ ν+ − µ+ ⊗ ν− − µ− ⊗ ν+ + µ− ⊗ ν−, et définit une nouvelle mesure signée, de variation totale |µ| ⊗ |ν |. Dans ce cadre, le théorème de Fubini s’énonce ainsi : Théorème 3.14. Soit µ et ν deux mesures signées, et soit f une fonction mesurable intégrable par rapport à |µ| ⊗ |ν |, alors on a Z Z Z Z Z µ(dx) f (x, y)ν(dy) = ν(dy) f (x, y)µ(dx) = f (x, y)µ ⊗ ν(dxdy). Définition 3.15. La convolution de deux mesures signées µ et ν est la mesure image par l’application (x, y) 7→ x + y de la mesure produit µ ⊗ ν, et on la note µ∗ν. La mesure µ∗ν est caractérisée par le fait que Z Z f (x + y)µ(dx)ν(dy) f (z)µ∗ν(dz) = Rd ×Rd Rd pour toute fonction f mesurable bornée. On laisse au lecteur le soin de montrer que l’opération ∗ est associative et commutative sur l’ensemble des mesures signées, et admet δ0 pour élément neutre. Si µ est une mesure à densité, µ(dx) = f (x)λd(dx), notons que pour toute fonction h mesurable bornée, on a par le théorème de Tonelli Z Z Z h(x + y)f (x)λd(dx )ν(dy) h(z)µ∗ν(dz) = d d R R Rd Z Z f (z − y)ν(dy), h(z)λd(dz) = Rd Rd ce qui signifie que µ∗ν admet une densité par rapport à λd, cette densité étant Z f (x − y)ν(dy). f∗ν(x) = Rd On notera que si à son tour ν est à densité, disons ν(dx) = g(x)λd(dx), alors f ∗ν = f ∗ g. La transformée de Fourier dans Rd 42 Proposition 3.16. Si µ est ν sont deux mesures signées, on a µ∗ν = µ̂ν̂. La preuve est laissée en exercice. On a également une sorte de généralisation de la formule d’inversion. Théorème 3.17. Soit µ une mesure signée telle que µ̂ ∈ L1. Alors µ admet une densité par rapport à λd, qui est égale presque partout à la fonction Z 1 eihx,ξ i µ̂(ξ)dξ , x ∈ Rd. d/2 (2π) Rd Démonstration. La preuve est similaire à celle du théorème 3.9. On remplace à nouveau la mesure µ par la fonction µσ = gσ ∗ µ, où gσ est la densité gaussienne du paragraphe 3.2. On a alors µ̂σ = ĝσ µ̂. Alors les mêmes manipulations que pour la preuve du théorème 3.9 donnent Z Z 1 ihx,ξ i eihx,ξ i g1/σ(ξ)µ̂(ξ)λd(dξ) e µ̂σ(ξ)λd(dξ) = d σ d d R ZR 1 = d ex g1/σ (y)µ(dy) Zσ Rd = gσ(y − x)µ(dy) Rd = µσ(x). Et toujours comme auparavant, le théorème de convergence dominée (par |µ̂ |) montre que la seconde intégrale de cette chaîne d’égalités converge lorsque σ → 0 vers Z 1 eihx,ξ i µ̂(ξ)dξ, d/2 d (2π) R que l’on notera f (x). Notons aussi que ces intégrales sont toutes majorées par kµ̂ k1. Il reste à montrer que f est la densité de µ par rapport à λd. Pour cela, soit h une fonction continue à support compact. On a alors, par une nouvelle application du théorème de Fubini Z Z h(x)µσ(x)λd(dx) = Rd Rd gσ∗h(x)µ(dx). Par ce qui précède, et le théorème de convergence dominée, le membre de gauche R converge vers Rd h(x)f (x)λd(dx). Par ailleurs, comme gσ∗h converge vers h uniformément sur les compacts par la proposition 1.9, tout en restant bornée par khk R ∞, on conclut par convergence dominée que le membre de droite converge vers h(x)µ(dx). Comme ceci est valable pour tout choix de h, continue à supRd port compact, on déduit par un argument de densité que µ(dx) = f (x)λd(dx). Corollaire 3.18. La transformée de Fourier définie sur les mesures signées est une application injective : si µ et ν sont deux mesures signées telles que µ̂ = ν̂, alors µ = ν. Démonstration. Sous ces hypothèses, on a µ − ν = 0, qui est dans L1, et on déduit que µ − ν est à densité, et que cette densité est nulle. Donc µ = ν. 3.6 Une application à l’analyse de l’équation de la chaleur 43 3.6 Une application à l’analyse de l’équation de la chaleur Soit f une fonction intégrable sur Rd. L’équation de la chaleur sur Rd × R+ avec condition initiale f est le système d’équations suivant, d’inconnue une fonction u = u(x, t) sur Rd × R+ : ( 1 ∂tu = 2 ∆u sur Rd × ]0, ∞[ . (3.8) u(·, 0) = f Ici, ∆ désigne le laplacien de Rd agissant sur la première coordonnée : d X ∂ 2u ∆u(x, t) = (x, t). ∂x2j j =1 Cette équation décrit la température u(x, t) au point x et à l’instant t d’un matériau homogène, étant donnée la condition initiale u(x, 0) = f (x). En supposant que la solution u soit assez « régulière » pour qu’on puisse en prendre la transformée de Fourier û = û(ξ , t), en la variable x, et pour que les formules usuelles sur la transformée de Fourier des dérivées partielles de u soient autorisées, on obtient que l’équation de la chaleur revient à |ξ|2 ∂tû = − 2 û sur Rd × ]0, ∞[ û(·, 0) = fˆ On résout cette équation en û(ξ, t) = e −t |ξ|2 2 fˆ(ξ) = g√t (ξ)fˆ(ξ) = g√t ∗f (ξ), où gσ est comme d’habitude la densité gaussienne. Par injectivité de la transformée de Fourier, cela conduit à u = g√t ∗f . Rétrospectivement, le théorème de dérivation sous l’intégrale, joint au fait que la fonction (x, t) 7→ g√t(x) vérifie la première équation de (3.8), implique que u = g√t ∗f la satisfait aussi. En revanche, il convient de s’interroger sur la mesure dans laquelle la condition initiale est bien vérifiée, puisque g0 n’est pas définie a priori. Cependant, les résultats sur les approximations de l’identité montrent que g√t ∗f converge dans L1 vers f , ce qui peut s’interpréter comme une version faible de la condition initiale. Si f est plus régulière, par exemple continue et bornée sur Rd, alors la proposition 1.9 montre que la convergence est au sens ponctuel, et même uniforme sur les compacts. On dit que la fonction (x, t) 7→ g√t (x) est la solution fondamentale de l’équation de la chaleur dans Rd, Bien sûr, nous n’avons pas parlé ici du problème d’unicité de la solution, qui n’est d’ailleurs pas vérifiée ici. La transformée de Fourier est un outil tout aussi commode pour analyser d’autres équations aux dérivées partielles, comme l’équation des ondes ( 1 ∂ttu = 2 ∆u sur Rd × ]0, ∞[ , u(·, 0) = f , ∂tu(·, 0) = g 44 La transformée de Fourier dans Rd ou l’équation de Schrödinger ( 1 i∂tu + 2 ∆u = 0 sur Rd × ]0, ∞[ . u(·, 0) = f On laisse au lecteur le soin de proposer des solutions (plus ou moins) explicites de ces équations. Remarque. La méthode de résolution d’une équation différentielle ou aux dérivées partielles consistant à « passer aux transformées de Fourier » présuppose toujours une régularité et une décroissance à l’infini a priori sur les solutions, et elle peut donner en principe que des solutions particulières. On pourra par exemple s’en convaincre en essayant de trouver une solution à l’équation différentielle y ′ = y + f par cette méthode. Chapitre 4 Changement de variables Ce court chapitre a pour objet de faire quelques commentaires sur la notion de mesure image et de changement de variables. 4.1 Mesure image Rappelons que si (E , E) et (F , F ) sont deux espaces mesurables, si µ est une mesure (disons positive, même si la discussion peut s’étendre naturellement au cas signé) sur (E , E) et si f : E → F est une fonction mesurable (par rapport aux tribus E et F ), alors on peut définir une nouvelle mesure f∗ µ sur (F , F ), appelée la mesure-image de µ par f , par la formule f∗ µ(A) = µ(f −1(A)) , A∈F. De facon équivalente, pour toute fonction g: F → R+ mesurable positive, on a que Z Z g(f (x))µ(dx) . g(y)f∗ µ(dy) = F E Pour le voir, constatons que cette formule est exactement équivalente à la définition dans le cas où g = 1A est une indicatrice, avec A ∈ F , et que l’on déduit la formule ci-dessus par un argument standard, en commençant par les fonctions étagées, puis en passant par une limite monotone à toutes les fonctions mesurables positives. On voit avec cette formule qu’un calcul de mesure image est un « changement de variables », où la variable d’intégration y devient f (x). 4.2 Coordonnées polaires dans Rd Pour calculer des intégrales sur Rd, il est souvent commode d’avoir recours aux coordonnées polaires, surtout lorsque la fonction intégrée ne dépend que de la norme (euclidienne) f (x) = f˜(|x|). C’est-à-dire qu’on veut décrire un point x ∈ Rd \{0} par sa norme et son « argument » (|x|, x/|x|), la quantité x/|x| étant un point Pd de la sphère unité Sd−1 = x ∈ Rd: j =1 x2j = 1 . On munit ce dernier espace de la topologie induite par Rd (ainsi un ouvert de Sd−1 est de la forme U ∩ Sd−1, où U est un ouvert de Rd) et de la tribu borelienne B(Sd−1) associée. La fonction θ: x 7→ x/|x| est continue, donc mesurable, de Rd \ {0} dans Sd−1. On la prolonge de façon arbitraire au point 0, ce qui ne jouera pas de rôle dans ce qui suit. 45 46 Changement de variables Définition 4.1. La mesure uniforme sur Sd−1 est la mesure image de ddx1B d(0,1)(x) par l’application θ, où B d(0, 1) est la boule euclidienne fermée {x ∈ Rd: |x| 6 1}. On la note ωd. Plus explicitement, pour A ∈ B(Sd−1), on a ωd(A) = d Leb({rx: x ∈ A, r ∈ [0, 1]}) . La masse totale de ωd est donnée par ωd(Sd−1) = d Leb(B d(0, 1)) = 2π d/2 , Γ(d/2) de sorte que (ωd(Sd−1), d > 1) = (2, 2π, 4π, 2π 2, ...). En particulier ω1 = δ−1 + δ1 , ω2 est l’image de la mesure de Lebesgue sur ]−π, π] par l’application x 7→ eix, si l’on identifie Rd à C (ce qu’on laisse en exercice), et sa masse totale est 2π, la circonférence du cercle unité. Proposition 4.2. La mesure image de la mesure de Lebesgue sur Rd par l’application ϕ: x 7→ (|x|, x/|x|) (définie de façon arbitraire en x = 0) de Rd dans R+ × Sd−1 est la mesure produit r d−1dr1{r>0}ωd(du). Démonstration. Fixons 0 6 a < b et A ∈ B(Sd−1), et montrons que Z Z d−1 r dr ωd(du) , ϕ∗Leb(]a, b] × A) = ]a,b] A la conclusion s’ensuira par un lemme de classe monotone, puisque les ensembles de la forme ]a, b] × A ci-dessus engendrent la tribu produit, et que l’on peut recouvrir Rd \{0} par une réunion dénombrable de tels ensembles, par exemple ]2n , 2n+1] × Sd−1, n ∈ Z. Or ϕ−1(]a, b] × A) = bC(A)\aC(A) où C(A) = {x ∈ B(0, 1): x/|x| ∈ A} est tel que Leb(C(A)) = ωd(A)/d par définition. Par les propriétés élémentaires de la mesure de Lebesgue, on a donc Z bd − ad ϕ∗Leb(]a, b] × A) = r d−1drωd(A) ωd(A) = d ]a,b] comme voulu. On en déduit le changement de variables en « coordonnées polaires » dans Rd : Z Z Z d−1 ωd(du) f (ru) r dr f (x)dx = Rd R+ Sd−1 pour toute fonction f mesurable positive de Rd dans R. 4.3 Changement de variables linéaire La mesure image de la mesure de Lebesgue par un isomorphisme affine s’exprime très simplement. 4.3 Changement de variables linéaire 47 Proposition 4.3. Soit M ∈ Md(R) une matrice carrée, et a ∈ Rd. Alors pour tout A ∈ B(Rd), on a que Leb(MA + a) = |det (M )|Leb(A) , où MA + a = {Mx + a: x ∈ A}. En particulier, pour a = 0 et A = [0, 1]d, on obtient que la mesure de Lebesgue du parallélépipède déterminé par les vecteurs colonne de M , c’est-à-dire l’ensemble M [0, 1]d, a pour volume |det (M )|. Un déterminant est un volume ! Démonstration. Si M n’est pas inversible, son image est continue dans un hyperplan de Rd, dont la mesure est nulle (par une transformation orthogonale, on peut toujours ramener un tel hyperplan sur {x1 = 0}, dont la mesure est nulle par le théorème de Fubini). On obtient bien le résultat dans ce cas. Donc supposons M ∈ GLd(R). Par invariance de la mesure de Lebesgue par les translations, on peut aussi supposer que a = 0. La formule µ(A) = Leb(M A), avec A ∈ B(Rd), définit de façon évidente une mesure (car M est inversible), qui est de plus invariante par translation puisque pour tout b ∈ Rd, µ(A + b) = Leb(MA + Mb) = Leb(MA) = µ(A). Par conséquent, µ est nécessairement un multiple scalaire de la mesure de Lebesgue, c’est-à-dire qu’il existe c > 0 tel que µ(A) = c Leb(A) pour tout A. Clairement, on a c > 0. Il reste à montrer que c = |det (M )|. Si M ∈ Od(R) est orthogonale, c’est l’invariance de la mesure de Lebesgue par les transformations orthogonales que nous avons déjà utilisé ci-dessus, mais que nous pouvons redémontrer facilement en constatant que Leb(MB(0, 1)) = Leb(B(0, 1)) > 0, puisqu’une transformation orthogonale préserve la norme euclidienne. On en tire immédiatement que c = 1 = |det (M )|. Si M ∈ Sd++(R) est symétrique définie positive, le théorème spectral stipule qu’on peut trouver une matrice orthogonale U telle que MP = P ∆, où ∆ = diag(a1, ..., ad) est la matrice diagonale dont les coefficients diagonaux sont les valeurs propres de M , qui sont strictement positives par hypothèse. On obtient alors que µ(P [0, 1]d) = Leb(MP [0, 1]d) = Leb(P ∆[0, 1]d) = Leb(∆[0, 1]d) où l’on a utilisé le cas précédent. Cette dernière quantité est la mesure du pavé [0, a1] × ... × [0, ad], de mesure a1...ad = det (M ). Mais par ailleurs, ceci vaut c Leb(P [0, 1]d) = c Leb([0, 1]d) = c, en utilisant encore le cas orthogonal. Le résultat s’ensuit. Dans le cas général, on peut écrire M ∈ GLd(R) de façon unique sous la forme M = OS avec O ∈ Od(R) orthogonale, et S ∈ Sd++(R) symétrique définie positive. C’est la décomposition polaire des matrices : il est facile de voir que S est l’unique racine carrée symétrique positive de la matrice M ∗ M , et que O = MS −1 est bien orthogonale dans ce cas... On déduit des deux cas précédents que µ(A) = Leb(OSA) = Leb(SA) = det (S)Leb(A) = |det (M )|Leb(A) . D’où le résultat. 48 Changement de variables 4.4 Changement de variables C 1 Nous concluons par un théorème très utile en pratique. Théorème 4.4. Soit D un ouvert de Rd et f un C 1-difféomorphisme de D sur son image f (D). Alors pour toute fonction g: Rd → R+ mesurable, on a Z Z g(y)dy , g(f (x))J f (x)dx = D f (D) où le Jacobien J f (x) = |det Dfx | est la valeur absolue du déterminant de la différentielle de f en x. Autrement dit, la mesure image de dx1D(x) par f est la mesure dy1f (D)(y)/J f (f −1(y)). La preuve est omise. Partie II Bases des probabilités Chapitre 5 Bases de la théorie des probabilités Dans ce chapitre, nous donnons les premières notions de la théorie moderne des probabilités (issue des années 1930) 5.1 Espaces de probabilités, variables aléatoires L’objet de base de la théorie des probabilités est un espace de probabilités, souvent noté (Ω, F , P) , qui est un espace mesuré, où P est une mesure de probabilités sur (Ω, F), c’està-dire une mesure positive telle que P(Ω) = 1. Intuitivement, les éléments de Ω, parfois appelés « événements élémentaires », correspondent aux issues possibles d’une expérience aléatoire donnée, et les parties mesurables A ⊂ F sont appelés des événements. La quantité P(A) désigne la probabilité que l’événement A soit observé. On dit que l’événement A est presque sûr si P(A) = 1. Premiers exemples d’espaces de probabilités. L’exemple le plus familier et le plus élémentaire d’expérience aléatoire consiste à choisir uniformément un élément dans un ensemble E fini. Un choix naturel d’espace de probabilités adapté est de prendre Ω = E, F = 2Ω la tribu des parties de E, et P la mesure uniforme sur E, définie par X 1 δx , P= card(E) x∈E ou plus explicitement, P(A) = card(A) , card(E) A ⊂ E. Par exemple, si l’on cherche à modéliser un jeu de pile-ou-face équilibré, on peut poser Ω = {0, 1} et F = {∅, {0}, {1}, {0, 1}} = 2Ω, et enfin P = (δ0 + δ1)/2 est la mesure de Bernoulli. Un lancer de n pièces successivement est modélisé par l’espace produit Ω = {0, 1}n, muni de la tribu des parties 2Ω et de la mesure uniforme P({ω1, ..., ωn }) = 1 , 2n qui est aussi la mesure produit des mesures de Bernoulli. De même, un lancer de dé équilibré à 6 faces peut être modélisé en posant P6 Ω = {1, 2, 3, 4, 5, 6}, F = 2Ω et P la mesure uniforme sur Ω : P = 6−1 i=1 δi , et n lancers successifs correspondent à l’espace produit n fois. 51 52 Bases de la théorie des probabilités Une infinité de lancers de pièces ? Il est plus difficile de considérer l’expérience (de pensée !) consistant à jeter une pièce ou un dé une infinité de fois. Il est naturel ∗ de considérer l’espace produit Ω = {0, 1}N de toutes les suites à valeurs dans {0, 1}. Mais cette fois on ne va pas considérer la σ-algèbre de tous les sous-ensembles, qui est trop grande. Si ε1, ..., εn ∈ {0, 1}, notons Aε1,...,εn = {ω = (ω1, ω2, ...) ∈ Ω: ω1 = ε1, ..., ωn = εn } . Soit F la plus petite σ-algèbre rendant mesurable les ensembles Aε1,...,εn pour tout choix de ε1, ..., εn. C’est aussi la plus petite σ-algèbre rendant mesurable les applications de projection Xi: Ω → {0, 1} définies par Xi(ω) = ωi. On dit que F est la σalgèbre produit sur l’espace produit Ω. Enfin, on munit l’espace (Ω, F ) de la mesure produit P, qui est l’unique mesure de probabilités vérifiant P(Aε1,...,εn) = 1 , 2n pour tout ε1, ..., εn ∈ {0, 1}. Notons que, si elle existe, cette mesure est bien unique par le lemme de classe monotone, les événements Aε1,...,εn formant une famille stable par intersection finie, et qui engendre F . L’existence de P est plus subtile. Nous allons la construire explicitement à l’aide d’un espace de probabilités annexe ([0, 1[, B([0, 1[), λ) où λ est la mesure de Lebesgue sur [0, 1[. À tout x ∈ [0, 1[, on associe une suite (ω1(x), ω2(x), ...) donnant le développement dyadique de x : ∞ X ωi(x) x= . 2i i=1 Pour que cette suite soit définie de façon unique, on suppose que l’on choisit si nécessaire la suite (ωi(x), i > 1) de sorte qu’elle ne stationne pas à 1. Ainsi, par exemple, on associe la suite (1, 0, 0, 0...) au nombre 1/2, et non la suite (0, 1, 1, 1, ...). Les applications ωi : [0, 1[ → {0, 1} sont alors mesurables. En effet, si l’on pose θ(x) = 2x − ⌊2x⌋ la partie fractionnaire de 2x, on a la formule explicite ω1(x) = ⌊2x⌋, et pour tout i > 1, ωi(x) = ⌊2θ◦(i−1)(x)⌋ =⌊2ix⌋ − 2⌊2i−1x⌋, où θ◦ i est la composée de θ avec elle-même i fois. De ce fait, l’application ϕ: x 7→ (ω1(x), ω2(x), ...) de ([0, 1[, B([0, 1[) dans (Ω, F ) est mesurable, puisque les applications coordonnées ωi : x 7→ ωi(x) le sont. On laisse au lecteur le soin de vérifier ces assertions. Posons alors P la mesure image de λ par ϕ. On a que pour tout ε1, ..., εn ∈ {0, 1}, P(Aε1,...,εn) = λ(ϕ−1(Aε1,...,εn)) = λ({x ∈ [0, 1[: ω1(x) = ε1, ..., ωn(x) = εn }) = 1 , 2n la dernière égalité s’obtenant en remarquant que ϕ−1(Aε1,...,εn) est le sous-intervalle " n " n X εi X εi 1 , + . 2i 2i 2n i=1 i=1 5.1 Espaces de probabilités, variables aléatoires 53 Ainsi, la mesure P répond bien à la définition de la mesure produit, ce qui donne l’existence de cette dernière. Notons que l’espace (Ω, F , P) que nous venons de construire est d’une complexité similaire à l’espace ([0, 1[, B([0, 1[), λ), au sens précis que ϕ réalise entre ces espaces un isomorphisme d’espaces mesurés. L’inverse de ϕ est en effet mesurable à son tour, et l’on a λ = (ϕ−1)∗P. En ce sens, construire un espace de probabilités modélisant une infinité de lancers de pièces équilibrées est donc du même ordre de difficulté que de construire la mesure de Lebesgue sur R. Exercice. Construire un espace de probabilités modélisant une infinité de lancers de pile-ouface, mais où la probabilité d’obtenir pile est un nombre p ∈ [0, 1] quelconque. Variables aléatoires. Le choix d’un espace de probabilités correspondant à une situation concrète donnée n’est pas (jamais !) unique. Si l’on peut considérer les deux exemples ci-dessus comme « minimaux » en un sens, considérons par exemple l’expérience consistant à jeter deux dés à 6 faces et à observer le résultat de la somme des chiffres indiqués. Une première possibilité consiste à lister les résultats possibles, qui sont Ω1 = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}. On munit Ω1 de la tribu F1 de l’ensemble des parties. Le choix de la mesure de probabilités P1 nécessite un temps de réflexion : l’on pose P1 = δ2 + 2δ3 + 3δ4 + 4δ5 + 5δ6 + 6δ7 + 5δ8 + 4δ9 + 3δ10 + 2δ11 + δ12 . 36 En effet, parmi les 36 possibilités de résultats des deux dés (i, j) ∈ {1, 2, 3, 4, 5, 6}2, où la première coordonnée donne le résultat du premier dé et la seconde coordonnée donne le résultat du second dé, il y en a une, (1, 1), qui donne le résultat 2, deux, (1, 2) et (2, 1), qui donnent le résultat 3, et ainsi de suite. On a donc fait une petite excursion par un autre espace de probabilités, qui est l’espace Ω2 = {1, 2, 3, 4, 5, 6}2, muni de la tribu F2 des parties, et de la mesure de probabilité uniforme P2. Cette tribu modélise le résultat des deux lancers de dés, et quand on s’intéresse seulement à la probabilité P1({k }) que la somme des résultats fasse k ∈ Ω1, on voit que ceci est la probabilité de l’événement {(i, j) ∈ Ω2 : i + j = k}, c’est-à-dire que l’on pose : P1({k }) = P2({(i, j) ∈ Ω2 : i + j = k }). On peut réexprimer cela en introduisant l’application X: Ω2 → Ω1 définie par X((i, j)) = i + j, en disant que pour tout k, P1({k }) = P2(X −1({k})), et ceci reste évidemment valable si l’on remplace {k } par n’importe quelle partie de Ω1. Autrement dit, la mesure P1 est la mesure image de P2 par l’application X. On appelle les applications mesurables entre espaces de probabilités des variables aléatoires, et ces dernières sont, en quelque sorte, les objets qui permettent de passer d’un choix d’espace de probabilités à un autre. Souvent, c’est l’étude des variables aléatoires qui est prépondérante en probabilités, bien plus que l’espace (Ω, F , P), qu’il suffit en général de choisir « assez gros ». Nous reviendrons sur ces considérations plus tard. 54 Bases de la théorie des probabilités Noter que dans le choix de Ω2, nous avons distingué les deux dés, comme s’il y en avait un rouge et un noir par exemple. On aurait pu procéder autrement, et poser Ω3 = {{i, j }: i, j ∈ {1, 2, 3, 4, 5, 6}} l’ensemble des parties de {1, 2, 3, 4, 5, 6} à au plus deux éléments : l’événement élémentaire {i} est interprété par le fait que les deux dés ont donné le résultat i. On pose alors P3({i, j }) = 1/18 si i = / j et P3({i}) = 1/36. La variable aléatoire donnant la somme des dés est l’application X ′ telle que X ′({i, j }) = i + j si i = / j et X3({i}) = 2i. Bien sûr, ce choix est plutôt maladroit, mais il donne le même résultat que ci-dessus : P1 est aussi la mesure image de P3 par X ′. Exercice. Trouver une variable aléatoire X ′′:Ω2 → Ω3 envoyant la mesure P2 sur P3, et telle que X = X ′ ◦ X ′′. Définition 5.1. Une variable aléatoire sur l’espace de probabilités (Ω, F , P) est une application mesurable X: (Ω, F ) → (E , E) où (E , E) est un ensemble mesurable. Remarque. Certains ouvrages appellent variable aléatoire une application mesurable d’un espace de probabilités dans R ou C, et vecteur aléatoire une application mesurable d’un espace de probabilités dans Rd ou Cd, nous préférons ici nous placer dans la plus grande généralité. Définition 5.2. La loi de la variable aléatoire X est alors la mesure image PX = X∗P de P par X, définie par PX (A) = P(X −1(A)) , A ∈ E. C’est une mesure de probabilités sur (E , E), définissant un nouvel espace de probabilités (E , E , PX ). Remarque. Noter que, stricto sensu, une variable aléatoire est seulement définie sur un espace mesurable (Ω, F ) plutôt que sur un espace de probabilités (la mesure P n’intervient pas). En revanche, la loi d’une variable aléatoire en dépend de façon cruciale, et c’est pourquoi on fait rentrer P dans la définition de X pour parler de la loi de X. Les puristes diront qu’une variable aléatoire est un couple (X , P), ou un sextuplet (Ω, F , P, E , E , X), etc... Remarque. On adopte souvent l’écriture suivante PX (A) = P(X ∈ A), c’est-à-dire qu’on écrit X −1(A) = {ω : X(ω) ∈ A} = X ∈ A, ce qui est encore une façon d’effacer le rôle de Ω. Par extension, cela donne l’écriture parfois utilisée PX (dx) = P(X ∈ dx) pour la loi de X. Variables aléatoires discrètes. Notons que, si X est à valeurs dans un ensemble dénombrable E (on parle de variable aléatoire discrète), muni de la tribu 2E , alors on a, pour tout A ⊂ E, X [ X P(X = x) . PX ({x}) = {x} = P(X ∈ A) = PX (A) = PX x∈A x∈A x∈A 55 5.2 Espérance d’une variable aléatoire Autrement dit, la connaissance de la loi de X revient à celle des quantités px = P(X = x), et l’on a X PX (dx) = px δx. x∈E Variables aléatoires à densité. Soit X une variable aléatoire à valeurs dans Rd. On dit que X est à densité si sa loi est absolument continue par rapport à λd. Dans ce cas, le théorème de Radon-Nikodym implique qu’il existe une fonction mesurable positive fX : Rd → R+ d’intégrale 1 par rapport à λd, telle que PX (dx) = fX (x)dx. On appelle cette fonction la densité de (la loi de) X, même si elle n’est définie que λd-presque partout. Remarque. Soit (E , E) un espace mesurable, et µ une mesure de probabilités sur (E , E). On peut naturellement poser la question suivante : existe-t-il un espace de probabilités (Ω, F , P) et une variable aléatoire X: Ω → E sur cet espace, telle que X a pour loi µ, c’est-à-dire que PX = µ. La réponse est oui : il suffit de prendre (Ω, F , P) = (E , E , µ) et de prendre pour X la fonction identité de E. On a bien PX = X∗P = X∗ µ = µ. Définition 5.3. L’application X construite ci-dessus est appelée la variable aléatoire canonique de loi µ. 5.2 Espérance d’une variable aléatoire a. Définition et formule de transfert Soit (Ω, F , P) un espace de probabilités et X: Ω → R une variable aléatoire à valeurs réelles. Si X est positive, ou si X ∈ L1(Ω, F , P) est intégrable, on note Z X(ω)P(dω) E[X] = Ω l’intégrale de X par rapport à P, et on l’appelle l’espérance de X, ou encore la moyenne de X. On définit de même l’espérance d’une variable aléatoire intégrable à valeurs complexes. Plus généralement, si X: Ω → Cd est à valeurs vectorielles, on note E[X] = (E[X1], ..., E[Xd]) où X1, ..., Xd sont les coordonnées de X, qui sont à leur tour des variables aléatoires. Si par exemple X = 1A est l’indicatrice de l’événement A ∈ F , on a E[1A] = P(A). C’est ce dont on s’est servi pour montrer la formule d’inclusion-exclusion. L’espérance hérite des propriétés de linéarité et de positivité de l’intégrale. Proposition 5.4. Pour tout scalaire a et toutes variables aléatoires X et Y, on a E[aX + Y ] = aE[X] + E[Y ] 56 Bases de la théorie des probabilités dès lors que X , Y sont intégrables, ou bien que X , Y , a sont positifs. De plus, si X > 0, on a E[X] > 0 avec égalité si et seulement si X = 0 P-presque partout. La preuve est immédiate. Proposition (Formule de transfert). Soit X: Ω → E est une variable aléatoire à valeurs dans un espace mesurable (E , E), et si f : E → R+ est une application mesurable positive, alors f (X) = f ◦ X est une variable aléatoire positive, et on a Z Z f (x)PX (dx). f (X(ω))P(dω) = E[f (X)] = Ω E Si maintenant f : E → R+ est mesurable, on a que f (X) ∈ L1(Ω, F , P) si et seulement si f ∈ L1(E , E , PX ), et dans ce cas cette même formule reste valable. Démonstration. Pour f de la forme 1A avec A ∈ E c’est juste la définition de la mesure image, et par linéarité on déduit la formule pour toutes les fonctions étagées, puis toutes les fonctions mesurables positives par un argument de convergence monotone. Enfin, on obtient le résultat pour toutes les fonctions f intégrables en décomposant f = f + − f −, où l’on rappelle que x+ = x ∨ 0 et x− = (−x)+. Noter que le dernier membre de la formule de transfert ne fait plus intervenir X qu’à travers sa loi PX , et en particulier, elle ne fait pas intervenir l’espace (Ω, F , P). Comme mentionné plus haut, les probabilistes aiment bien se débarrasser de l’espace de probabilités à la première occasion ! b. Caractérisation de la loi à l’aide de l’espérance Notons que la formule de transfert permet de caractériser efficacement la loi d’une variable aléatoire. Proposition 5.5. Soit X une variable aléatoire à valeurs dans un espace mesurable E. Alors la loi de X est caractérisée par les espérances E[f (X)], où f décrit l’ensemble des fonctions mesurables bornées. Démonstration. La preuve est triviale : si X et X ′ sont deux telles variables aléatoires telles que E[f (X)] = E[f (X ′)] pour toute fonction f mesurable bornée, on prend f = 1A avec A ∈ E pour obtenir que PX (A) = PX ′(A), et donc PX = PX ′ puisque ceci est valable pour tout A ∈ E. Par exemple, soit X = (X1, X2, ..., Xd) une variable aléatoire à valeurs dans Rd. On suppose que la loi de X admet une densité fX . Alors la loi de Xi admet à son tour une densité, donnée par Z fX (x1, ..., xi−1, x, xi+1, ..., xd)dx1...dxi−1dxi+1...dxd . fXi(x) = Rd −1 57 5.2 Espérance d’une variable aléatoire En effet, si h: R → R est une fonction mesurable bornée, on a par le théorème de Fubini (et en notant dxi = dx1···dxi−1dxi+1···dxd) Z h(xi)fX (x1, ..., xd)dx1···dxd E[h(Xi)] = Z ZRd fX (x1, ..., xi−1, x, xi+1, ..., xd)dxi h(x)dx = Rd−1 ZR = h(x) fXi(x)dx R et l’on reconnaît la formule de E[h(Y )] où Y est une variable aléatoire de densité fXi. Noter que fXi est bien une fonction positive d’intégrale 1, ce qu’on obtient en prenant h = 1 dans le calcul précédent. Remarque (lois marginales). En général, si X = (X1, ..., Xd) est une variable aléatoire à valeurs dans un espace produit E1 × ... × Ed, la loi de Xi, qui est une loi sur Ei, est appelée la i-ème loi marginale de X. Il est vrai que la loi de X caractérise la loi de ses marginales : la i-ème loi marginale est en effet la mesure image de PX par la i-ème application de projection E1 × ... × Ed → Ei. En revanche, la réciproque est fausse ! Pour s’en convaincre, on peut prendre X1(i, j) = i et X2(i, j) = j, variables aléatoires définies sur Ω = {0, 1}2, muni de la mesure produit (δ0/2 + δ1/2)⊗2, et constater que X = (X1, X2) et Y = (X1, X1) ont les mêmes lois marginales (uniformes sur {0, 1}), tandis que X et Y n’ont certainement pas même loi, puisque P(X1 = X2) = 1/2 = / 1 = P(X1 = X1). En pratique, il est utile de caractériser la loi d’une variable aléatoire X en calculant E[f (X)] pour le moins de fonctions f possible. Par exemple : Exercice. Soit d > 1 un entier fixé, et H un sous-ensemble de Cc(Rd , R) dense pour la norme uniforme. Si X est une variable aléatoire à valeurs dans Rd, alors sa loi est caractérisée par les espérances (E[f (X)], f ∈ H). On reviendra plus abondamment au paragraphe 5.3 sur d’autres critères de caractérisation de la loi d’une variable aléatoire. c. Moments d’une variable aléatoire Définition 5.6. Soit X une variable aléatoire à valeurs dans R ou C, et k > 0 un nombre entier. Si X ∈ Lk(Ω, F , P), le nombre E[X k] est appelé le moment d’ordre k de X. On appelle également la quantité E[|X |k] le moment absolu d’ordre k de X. Notons encore une fois que le moment d’ordre k ne dépend que de la loi de X, puisque Z k xk PX (dx) E[X ] = R dès que cette intégrale a un sens, par la formule de transfert. ROn parle donc aussi des moments d’une mesure de probabilités µ sur R, égaux à R xkµ(dx) si x 7→ x est dans Lk(R, B(R), µ). 58 Bases de la théorie des probabilités Ainsi, le moment d’ordre 1 de X n’est autre que l’espérance de X , lorsqu’elle est bien définie. Notons que, comme une mesure de probabilités est une mesure finie, l’inégalité de Hölder implique que les espaces L p(Ω, F , P) forment une famille décroissante en p ∈ [0, ∞] (par définition on note L0(Ω, F , P) l’ensemble de toutes les fonctions mesurables, définies P-presque partout). En particulier, si X admet un moment d’ordre k, alors X admet un moment d’ordre k ′ pour tout entier k ′ 6 k. Les moments de variables aléatoires sont des outils très utiles pour étudier la queue de distribution d’une variable aléatoire réelle X, que l’on définit comme la fonction x 7→ P(X > x). Proposition (inégalité de Markov). Soit X une variable aléatoire positive. Alors on a, pour tout réel p > 0, P(X > x) 6 E[X p] , xp x > 0. Démonstration. Quitte à remplacer X par X p, il suffit de traiter le cas p = 1. On a alors E[X1{X >x}] X P(X > x) = E 1{X >x} 6 , X x et on conclut en majorant l’indicatrice par 1. Noter cependant que cette étape intermédiaire est parfois utile. Par ailleurs, en appliquant l’inégalité de Markov à la variable aléatoire positive eλX , on obtient Corollaire (inégalité de Chernov). Soit X une variable aléatoire à valeurs réelles, alors pour tout λ > 0 et tout x ∈ R on a P(X > x) 6 e−λx E[eλX ]. Cette borne est le point de départ de la théorie des grandes déviations de sommes de variables aléatoires indépendantes, dont nous toucherons un mot plus bas. d. Variance et covariance Définition 5.7. Soit X ∈ L2(Ω, F , P) une variable aléatoire de carré intégrable. La quantité Var(X) = E[(X − E[X])2] = kX − E[X]k22 p est appelée la variance de X. La quantité Var(X) = kX − E[X]k2 est appelée l’écart-type de X. Notons que l’écart-type de X est la distance au sens L2 de X à la constante E[X]. Comme par définition E[(X − E[X])·1] = 0, on en déduit que X − E[X] est orthogonale (au sens du produit scalaire dans L2(Ω, F , P)) au sous-espace des fonctions constantes. Par conséquent, l’écart-type est également la distance de X (au sens L2) à ce sous-espace, et Var(X) = inf E[(X − c)2] . c∈R 59 5.2 Espérance d’une variable aléatoire De plus, cet infimum est atteint uniquement en E[X], qui est donc la meilleure approximation possible de X par une constante, au sens des moindres carrés. En développant le carré dans la définition de la variance, et par linéarité de l’espérance, on trouve la formule utile suivante : Var(X) = E[X 2] − E[X]2 , valable pour tout X ∈ L2(Ω, F , P). Notons que, par définition, une variable aléatoire de carré intégrable est constante presque sûrement si et seulement si Var(X) = 0. En appliquant l’inégalité de Markov à la variable aléatoire |X − E[X]| et avec p = 2, on obtient le résultat très utile suivant. Corollaire (inégalité de Bienaymé-Chebychev). Soit X une variable aléatoire dans L2(Ω, F , P). Alors on a, pour tout x > 0, P(|X − E[X]| > x) 6 Var(X) . x2 Ainsi, la variance permet d’estimer la probabilité qu’une variable aléatoire s’écarte de sa moyenne. Définition 5.8. Soit X , Y ∈ L2(Ω, F , P) des variables aléatoires de carré intégrable. La covariance de X et Y est définie par Cov(X , Y ) = E[(X − E[X])(Y − E[Y ])]. La covariance est donc le produit scalaire dans L2(Ω, F , P) des variables aléatoires X − E[X] et Y − E[Y ]. Une formule alternative est donnée par Cov(X , Y ) = E[XY ] − E[X]E[Y ]. On a évidemment Cov(X , X) = Var(X) et Cov(X , Y ) = Cov(Y , X). On appelle parfois corrélation de X et Y la quantité normalisée Corr(X , Y ) = p Cov(X , Y ) , Var(X)Var(Y ) qu’on peut interpréter comme le cosinus de l’angle formé dans l’espace L2(Ω, F , P) par les vecteurs X − E[X] et Y − E[Y ]. C’est une quantité dans [−1, 1] par l’inégalité de Cauchy-Schwarz. Si maintenant X est une variable aléatoire à valeurs dans Rd pour un entier d > 1, on note Xi , 1 6 i 6 d les applications coordonnées de X, qui sont à leur tour des variables aléatoires à valeurs dans R. La matrice de variance-covariance de X est alors donnée par ΣX = (Cov(Xi , X j ))16i,j6d ∈ Md(R) . Il s’agit d’une matrice symétrique positive. En effet, pour tout x ∈ Rd, on a, par linéarité, hx, ΣXxi = Var(hx, X i) > 0 60 Bases de la théorie des probabilités e. Médiane et quantiles Soit X une variable aléatoire à valeurs réelles. Soit α ∈ ]0, 1[. On dit que qα est un α-quantile de la loi de X (ou simplement de X) si P(X 6 qα) > α et P(X > qα) > 1 − α. Notons que tout nombre q est un FX (q)-quantile de X, puisque P(X 6 q) + P(X > q) = 1 + P(X = q) >1. Plus précisément, un même nombre q peut être un α-quantile de X pour différentes valeurs de α. Cela arrive si et seulement si {q} est un atome de PX , et dans ce cas les valeurs correspondantes de α sont [FX (q − ), FX (q)]. Par ailleurs, en général, il n’y a pas unicité d’un α-quantile. Plus exactement, si l’on note qα− = sup {x ∈ R: FX (x) < α} et qα+ = inf { x ∈ R: FX (x) > α} alors l’ensemble des α-quantiles de X est l’intervalle [qα−, qα+]. Si qα− < qα+, alors ]qa−, qα+[ est l’intervalle ouvert maximal où FX est constante égale à α, et l’on a P(qα− < X < qα+) = 0. Enfin, si qα et qβ sont respectivement un α-quantile et un β-quantile de X avec α < β, alors qα < q β . Définition 5.9. On appelle médiane de la loi de X (ou plus simplement médiane de X) un 1/2-quantile de X. De façon équivalente, m est une médiane de X si P(X > m) > 1/2 et P(X 6 m) > 1/2. En général il n’y a pas unicité de la médiane de X. Nous avons vu que l’espérance s’interprète comme meilleure approximation de X par une fonction constante au sens des moindres carrés. Une interprétation similaire de la médiane est possible, mais au sens L1. Proposition 5.10. Soit X une variable aléatoire dans L1. Alors m est une médiane de X si et seulement si E[|X − m|] = inf E[|X − c|] , c∈R c’est-à-dire si m réalise la distance pour la norme L1 de X à l’espace des fonctions constantes. Démonstration. Notons que la fonction φ: c 7→ E[|X − c|] est une fonction convexe sur R, et comme E[|X − c|] > |c| − E[|X |] cette fonction tend vers +∞ quand |c| → +∞. Par conséquent, elle atteint son minimum sur un intervalle [a, b]. Si l’on dérive cette fonction formellement au point c, on obtient E[1{X <c} − 1{X >c}] = P(X < c) − P(X > c). Soyons plus précis : on a pour tout h = / 0, et x, c ∈ R, |x − (c + h)| − |x − c| 61 h 61 5.3 Fonctions associées à une variable aléatoire et l’accroissement (|x − (c + h)| − |x − c|)/h tend vers 1{x<c} − 1{x>c} lorsque h↓0, et vers 1{x6c} − 1{x>c} lorsque h↑0. On en déduit par la convergence dominée que φ est dérivable à gauche et à droite en c, de dérivées φ g′ (c) = P(X < c) − P(X > c) et φd′ (c) = P(X 6 c) − P(X > c) Ces fonctions sont bien sûr croissantes, vérifient φ g′ 6 φd′ , et elles sont non nulles si c est un α-quantile de X avec α = / 1/2. Si c est une médiane de X on a φ g′ (c) 6 0 6 φd′ (c). On conclut que le minimum de φ est atteint exactement aux médianes de X. Toute variable aléatoire admet une médiane même si elle n’admet pas d’espérance, et même si c’est le cas, les deux notions peuvent donner des résultats très différents. Le résultat suivant montre de façon quantitative que si on considère des variables L2, alors espérance et médiane sont proches. Proposition 5.11. Si X p est une variable aléatoire dans L2 et m est une médiane de X, alors |E[X] − m| 6 Var(X) . Démonstration. Pour toute constante c, on a kX − ck1 6 kX − ck2 par l’inégalité de Cauchy-Schwarz. Par conséquent, on obtient infc∈R kX − ck1 6 infc∈R kX − ck2. À gauche, on reconnaît E[|X − m|] pour toute médiane m, et à droite, on reconnaît p Var(X) . On conclut par inégalité triangulaire. 5.3 Fonctions associées à une variable aléatoire Nous allons maintenant associer à une variable aléatoire à valeurs scalaires ou vectorielles un certain nombre de fonctions qui caractérisent la loi des variables considérées a. Fonction de répartition Soit X une variable aléatoire à valeurs dans R, définie sur un espace de probabilités (Ω, F , P). On définit sa fonction de répartition par la formule FX (x) = P(X 6 x), x ∈ R. Par la propriété de continuité des mesures de probabilités par réunion croissante et intersection décroissante, on déduit que FX est une fonction croissante, continue à droite. Plus précisément, la limite à gauche de FX en un point x ∈ R, notée FX (x − ), est donnée par FX (x − ) = P(X < x), ou autrement dit, FX (x) − FX (x − ) = P(X = x). En particulier, la fonction FX est également continue si et seulement si la loi de X est sans atome, puisque P(X = x) = PX ({x}) par définition. En termes de théorie de la mesure, la loi PX de X n’est autre que la mesure de Stieltjes dFX associée à la fonction FX , c’est-à-dire l’unique mesure µ sur R telle que µ(]a, b]) = FX (b) − FX (a) pour tout a 6 b. En particulier la fonction de répartition d’une variable aléatoire réelle X caractérise sa loi. 62 Bases de la théorie des probabilités Proposition 5.12. Soit X et X ′ deux variables aléatoires à valeurs dans R, telles que FX = FX ′. Alors X et X ′ ont la même loi. Noter que, dans l’énoncé précédent, comme dans ceux, similaires, qui sont à venir dans ce chapitre, on ne suppose pas que X et X ′ sont définies sur le même espace de probabilités (Ω, F , P). La fonction de répartition FX est un outil pratique pour calculer des moments. Exercice. Soit X une variable aléatoire positive, et p ∈ [1, ∞[, alors Z ∞ E[X p] = px p−1P(X > x) dx. 0 Notons que la fonction GX (x) = 1 − FX (x − ) = P(X > x) a déjà été considérée plus haut, sous le nom de la queue de distribution de X. b. Fonction génératrice Soit X une variable aléatoire à valeurs dans N= {0, 1, 2...}. On définit sa fonction génératrice comme la série entière X P(X = n)z n . gX (z) = E[z X ] = n∈N Comme par définition la somme des coefficients P(X = n) vaut 1, le rayon de convergence de cette série entière est supérieur ou égal à 1, et la formule ci-dessous est bien définie pour z un nombre complexe dans le disque fermé D̄= {z ∈ C: |z | 6 1}, et définit une fonction continue sur D̄. De plus, gX est analytique sur le disque ouvert D = {z ∈ C: |z | < 1} et l’on a (n) P(X = n) = gX (0) , n! n ∈ N. En particulier, on voit que la fonction génératrice caractérise la loi de X, puisqu’on retrouve à partir de ces quantités toutes les probabilités P(X ∈ A) avec A ⊂ N. Proposition 5.13. Si X et X ′ sont deux variables aléatoires à valeurs dans N telles que gX (z) = gX ′(z) pour tout z ∈ [0, 1](ou plus généralement pour tout z dans un sous-ensemble de D ayant au moins un point d’accumulation), alors X et X ′ ont même loi, c’est-à-dire dans ce cas que P(X = n) = P(X ′ = n) pour tout n ∈ N. Démonstration. On utilise le fait que si les zéros d’une fonction analytique sur un ouvert connexe D ont un point d’accumulation dans D, alors cette fonction est nulle. Un des intérêts de la fonction génératrice est son lien avec les moments de la variable aléatoire X. En effet, le théorème de dérivation sous le signe intégrale (ou le théorème de dérivation des séries entières) montre que pour tout z ∈ D, on a X ′ nP(X = n)z n−1. gX (z) = E[Xz X −1] = n>1 Si l’on prend z ∈ [0, 1[ et que l’on fait tendre z ր 1, le théorème de convergence monotone montre que ′ E[X] = gX (1 − ), 5.3 Fonctions associées à une variable aléatoire 63 et cette limite à gauche existe toujours (elle peut valoir +∞). Plus généralement, on a le résultat suivant. (k) Proposition 5.14. Pour tout k > 0, la limite à gauche de gX en 1 existe dans [0, +∞], et vaut (k) gX (1 − ) = E[X(X − 1)...(X − k + 1)] . Démonstration. En dérivant k fois gX en un point z de D, on trouve X (k) n(n − 1)...(n − k + 1)P(X = n)z n−1, gX (z) = n>k et ceci converge vers la quantité voulue lorsque z converge vers 1 le long de [0, 1[. Noter que l’on aurait pu faire partir la somme de n = 0 plutôt que de n = k, puisque les k premiers termes sont nuls : de même, dans l’énoncé, on peut invariablement ajouter l’indicatrice de l’événement {X > k} dans l’espérance. c. Fonction caractéristique Fixons d > 1 un entier, et soit X une variable aléatoire à valeurs dans Rd. La fonction caractéristique de X est définie par ϕX (ξ) = E[eihξ,X i], ξ ∈ Rd . Par la formule de transfert, ceci n’est autre que Z eihξ,xiPX (dx) = (2π)d/2PX (−ξ) , ϕX (ξ) = Rd où PX est la transformée de Fourier de la loi de X. La propriété d’injectivité de la transformée de Fourier sur les mesures signées implique (c’est bien le moins) que la fonction caractéristique d’une variable aléatoire caractérise la loi de cette variable. Proposition 5.15. Soit X et X ′ deux variables aléatoires à valeurs dans Rd telles que ϕX = ϕX ′. Alors X et X ′ ont même loi. Remarque. Attention, on doit bien supposer que ϕX (ξ) = ϕX ′(ξ) pour tout ξ ∈ Rd. La situation est différente de celle pour les fonctions génératrices. Les propriétés de la transformée de Fourier que nous avons étudiées impliquent que la régularité de la fonction caractéristique est intimement liée à l’existence de moments. Proposition 5.16. Soit X une variable aléatoire à valeurs dans R. Si X admet un moment d’ordre k, alors ϕX est de classe C k(R, C), et l’on a E[X k] = (−i)kϕ(k) X (0) . Démonstration. Sous nos hypothèses, les théorèmes de dérivation sous le signe k iξX intégrale s’appliquent et donnent ϕ(k) ]. On peut aussi appliquer X (ξ) = E[(iX) e la formule de transfert et invoquer les résultats de dérivation des transformées de Fourier. 64 Bases de la théorie des probabilités d. Transformée de Laplace Soit X une variable aléatoire à valeurs dans R+. On peut alors définir sa transformée de Laplace par la formule LX (λ) = E[e−λX ], λ > 0. La transformée de Laplace est étroitement liée à la fonction génératrice : si X est à valeurs dans N, on a LX (λ) = gX (e−λ). Proposition 5.17. Si X et X ′ sont deux variables aléatoires positives telles que LX = LX ′ , alors X et X ′ ont la même loi. Démonstration. Soit A l’ensemble des fonctions de [0, ∞] dans R de la forme Pk x 7→ i=1 ai e−λi x, avec a1, ..., ak dans R et λ1, ..., λk dans R+. Alors A est une algèbre de fonctions continues sur le compact [0, ∞], séparant les points de ce compact. Le théorème de Stone-Weierstrass montre que A est dense dans l’ensemble C([0, ∞], R) des fonctions continues sur R+ admettant une limite à l’infini, pour la norme uniforme. Par linéarité, si LX = LX ′ alors on a E[f (X)] = E[f (X ′)] pour tout f ∈ A, et par densité, le même résultat est valable pour f ∈ C([0, ∞], R). Par un argument d’approximation, on en déduit que P(X ∈ I) = P(X ′ ∈ I) pour tout intervalle ouvert I ∈ R+, c’est-à-dire que PX (I) = PX ′(I) et on conclut par le lemme de classe monotone. Proposition 5.18. La transformée de Laplace d’une variable aléatoire positive est une fonction continue sur R+ , et de classe C ∞(]0, ∞[, R). Par ailleurs, on a pour tout entier k > 0, E[X k] = (−1)kL(k) X (0 + ) , la limite à droite en 0 de L(k) X . Démonstration. La dérivée k-ième de λ 7→ e−λx est (−x)ke−λx, et pour tout intervalle compact I ⊂ ]0, ∞[, on a sup {xke−λx : x ∈ R+, λ ∈ I } < ∞. On peut donc appliquer le théorème de dérivation sous le signe intégrale et obtenir le caractère C ∞ sur ]0, ∞[. La continuité sur R+ est similaire, et utilise juste que e−λx 6 1 pour tout λ, x > 0. Enfin, on déduit que pour tout λ > 0, on a k −λX (−1)kL(k) ], X (λ) = E[X e et on conclut en faisant tendre λ ց 0, et par convergence monotone. Noter que la définition de la transformée de Laplace s’étend verbatim à tout nombre complexe λ tel que ℜ(λ) > 0, et que LX (iξ) = ϕX (ξ) est la fonction caractéristique de X. De plus, la preuve précédente montre que LX est en fait holomorphe sur le demi-plan ouvert {λ ∈ C: ℜ(λ) > 0}. En particulier, ceci implique que pour vérifier que X et X ′ ont même loi, il suffit de montrer que LX (λ) = LX ′(λ) pour tout λ dans un sous-ensemble de R+ ayant au moins un point d’accumulation dans ]0, ∞[. 5.4 Exemples fondamentaux de lois de variables aléatoires 65 On notera aussi que s’il existe ε > 0 tel que E[eεX ] < ∞ (on dit alors que X admet des moments exponentiels), alors la définition de la transformée de Laplace s’étend à tout λ ∈ [−ε, ∞[, et même5.1 à {λ ∈ C: ℜ(λ) > −ε}. Si c’est le cas, le développement en série entière de LX au voisinage de 0 donne, du fait de la proposition 5.18, LX (λ) = X E[X k] k>0 (−λ)k , k! λ ∈ ]−ε, ∞[. On appelle de ce fait LX la fonction génératrice des moments. Corollaire 5.19. Soit X une variable aléatoire positive. Supposons qu’il existe ε > 0 tel que E[eεX ] < ∞. Alors la suite (E[X k], k > 1) des moments de X caractérise sa loi. En particulier, une loi de probabilités sur R à support borné est caractérisée par ses moments. Même si nous avons considéré ici des variables aléatoires positives, toutes les considérations précédentes s’étendent mutatis mutandis à des variables aléatoires réelles telles que E[eλX ] < +∞ pour tout λ dans un intervalle [a, b] contenant 0 et non réduit à un point, auquel cas LX (λ) = E[e−λX ] définit une fonction holomorphe dans la bande {λ ∈ C: ℜ(λ) ∈ ]−b, −a[}. 5.4 Exemples fondamentaux de lois de variables aléatoires Dans toute cette partie, X désignera une variable aléatoire définie sur un espace de probabilités (Ω, F , P). a. Lois discrètes Loi uniforme sur un ensemble fini Soit E un ensemble fini, alors X: Ω → E est de loi uniforme sur E si P(X = x) = 1 , card(E) x ∈ E. Ceci implique évidemment que P(X ∈ A) = card(A)/card(E) pour tout A ⊂ E. Plus généralement, si E est un ensemble fini ou dénombrable et (px , x ∈ E) est une famille de nombres réels positifs de somme 1, on lui associe une loi de probabilité par la formule P(X = x) = px , P c’est-à-dire que P(X ∈ A) = x∈A px. Noter qu’il n’y a pas de loi uniforme sur un ensemble strictement dénombrable ! 5.1. Dans ce cas, la fonction caractéristique ϕX s’étend donc en une fonction holomorphe sur un domaine ouvert de C contenant R. 66 Bases de la théorie des probabilités Loi de Bernoulli Soit p ∈ [0, 1], on dit que X: Ω → {0, 1} suit une loi de Bernoulli de paramètre p (ou encore, que X est une variable aléatoire de Bernoulli de paramètre p) si P(X = 0) = 1 − p. P(X = 1) = p , On a alors E[X] = p, Var(X) = p(1 − p), gX (z) = 1 − p + pz. Pour p = 1/2, c’est la loi uniforme sur {0, 1}. Ceci modélise un lancer d’une pièce, biaisée si p = / 1/2. Loi binomiale Soit n ∈ N, p ∈ [0, 1]. On dit que X: Ω → {0, 1, 2, ..., n} suit une loi binomiale de paramètres (n, p) si n k p (1 − p)n−k , 0 6 k 6 n. P(X = k) = k On a alors E[X] = np, Var(X) = np(1 − p), gX (z) = (1 − p + pz)n. Ceci correspond au nombre de pile lorsqu’on lance n fois une pièce biaisée, avec probabilité p d’obtenir pile. Formellement, c’est la loi de la variable aléatoire X: {0, 1}n → N définie par X(ω1, ..., ωn) = ω1 + ··· + ωn n sur l’espace de probabilités ({0, 1}n , 2{0,1} , Ber(p)⊗n) où Ber(p) = pδ1 + (1 − p)δ0 est la loi de Bernoulli. Nous anticipons un peu sur le prochain chapitre en notant qu’une telle loi est obtenue en prenant la somme de n variables de Bernoulli de paramètre p indépendantes. Loi géométrique Soit p ∈ ]0, 1]. On dit que X: Ω → N suit une loi géométrique de paramètre p si P(X = k) = p(1 − p)k−1, k > 1. On notera que les conventions diffèrent selon les ouvrages : notre choix est motivé par la définition suivante : X a la même loi que le premier temps de succès dans une suite de tirages de variables de Bernoulli indépendantes (un succès étant interprété comme le fait que la variable aléatoire prenne la valeur 1). En effet, si (X1, X2, ...) est une suite de lancers de pile-ou-face biaisés, la variable aléatoire T = inf {k > 1: Xk = 1} a bien la loi voulue, puisque P(T = k) = P(X1 = 0, ..., Xk −1 = 0, Xk = 1) = (1 − p)k −1 p. Noter que la variable aléatoire T est à valeurs dans N ∪ {∞}, puisqu’elle prend la valeur ∞ sur la suite constante égale à 0. Cependant, cette suite n’est pas chargée ∗ par la mesure produit Ber(p)N , et on a donc que P(T < ∞) = 1. On a E[X] = 1/p, Var(X) = (1 − p)/p2, gX (z) = Loi de Poisson pz . 1 − (1 − p)z 67 5.4 Exemples fondamentaux de lois de variables aléatoires Soit θ > 0. On dit que X: Ω → N suit une loi de Poisson de paramètre θ si P(X = k) = e−θ θk , k! k > 0. On a que E[X] = θ, Var(X) = θ, gX (z) = exp (−θ(1 − z)). Mentionnons dès maintenant qu’une variable de loi de Poisson de paramètre θ peut être vue comme une variable de Bernoulli de paramètres n, θ/n pour n très grand : une loi de Poisson correspond donc au nombre d’occurrence d’un phénomène très rare (de probabilité inversement proportionnelle au nombre d’expériences réalisées), et s’appelle parfois la loi des événements rares. En effet, pour tout k fixé, on a, pour tout k > 0 fixé, k θ θ n−k θk n 1− −→ e−θ . n→∞ k n n k! b. Lois à densité Loi uniforme sur un sous-ensemble mesurable de Rd. Soit A ∈ B(Rd) un borélien tel que 0 < λd(A) < ∞. On dit que la variable aléatoire X: Ω → Rd est de loi uniforme sur A si PX (dx) = dx 1A(x). λd(A) Par exemple, si d = 1 et A = [a, b] est un intervalle avec a < b, la loi uniforme est dx1[a,b](x)/(b − a). La fonction de répartition associée est FX (x) = 0 ∨ x−a ∧ 1, b−a x ∈ R, où nous notons x ∨ y = max {x, y } et x ∧ y = min {x, y }. La fonction caractéristique est donnée par ϕX (ξ) = a+b sin ((b − a)ξ) eibξ − eiaξ iξ =e 2 · , (b − a)ξ iξ(b − a) ξ ∈ R\{0}, ϕX (0) = 1. Lois exponentielles Soit θ > 0. La variable aléatoire X: Ω → R suit la loi exponentielle de paramètre θ si PX (dx) = θe−θx 1R+(x) dx. La fonction de répartition est FX (x) = 1 − e−θx pour tout x > 0, et FX (x) = 0 si x < 0. On travaille plutôt avec la queue de distribution GX (x) = e−θx. La propriété fondamentale des variables exponentielles est l’absence de mémoire : si X a une loi exponentielle alors GX (x + y) = GX (x)GX (y) pour tout x, y > 0, ce qui se traduit par P(X > x + y) = P(X > x)P(X > y) ou encore par P(X > x + y|X > x) = P(X > y). 68 Bases de la théorie des probabilités On parle également de « non-vieillissement » de la loi exponentielle. Cette propriété est caractéristique des lois exponentielles (si l’on accepte en plus la masse de Dirac en 0 comme loi exponentielle de paramètre +∞). La fonction caractéristique de X et la transformée de Laplace sont données par ϕX (ξ) = θ , θ − iξ LX (λ) = θ . θ+λ Lois gaussiennes sur R. On a vu que la densité gaussienne gσ(x) = exp (−x2/2σ 2)/(2πσ 2)1/2 est une fonction positive d’intégrale 1 par rapport à la mesure de Lebesgue sur R (on parle de densité de probabilité). On dit que la variable aléatoire X: Ω → R admet une loi gaussienne de moyenne m et de variance σ 2 si sa loi est donnée par PX (dx) = gσ(x − m)dx. Comme on l’a vu au chapitre précédent, sa fonction caractéristique est donnée par σ 2|ξ |2 ϕX (ξ) = exp imξ − . 2 En dérivant, on en déduit que l’espérance de X est m, et sa variance est σ 2, ce qui est cohérent avec la définition. Il est par ailleurs facile de constater que E[eλX ] < ∞ for every λ ∈ R, puisque 2 2 e−x /2σ décroît bien plus vite à l’infini que e−ax, pour tout a > 0. Donc la transformée de Laplace existe bien (au sens étendu que nous avons donné à la fin du paragraphe sur cette transformée), et vaut σ 2 λ2 . LX (λ) = exp −λm + 2 On parlera plus tard, au paragraphe 8.3, de la famille des lois gaussiennes sur Rd. Chapitre 6 Indépendance Dans tout ce chapitre, on fixe l’espace de probabilités (Ω, F , P). 6.1 Probabilités conditionnelles élémentaires Soit (Ω, F , P) un espace de probabilités, et B ∈ F un événement tel que P(B) > 0. On définit alors, pour tout A ∈ F , P(A|B) = P(A ∩ B) , P(B) et on l’appelle probabilité de A sachant B. Comme P(Ω|B) = P(B)/P(B) = 1, on obtient que l’application A 7→ P(A|B) est une mesure de probabilités. Intuitivement, l’espace de probabilités (Ω, F , P(·|B)) est l’espace correspondant à une expérience aléatoire pour laquelle on sait a priori que l’événement B est réalisé. Si A et B sont tous deux des événements tels que P(A)P(B) > 0, alors on obtient facilement la formule de Bayes P(A|B)P(B) P(B |A) = . P(A) Soit I un ensemble d’indices fini ou dénombrable. Si (Bi , i ∈ I) est une partition mesurable de Ω, c’est-à-dire que les ensembles Bi sont des événements deux-à-deux disjoints et de réunion Ω, alors pour tout événement A, on a la formule des probabilités totales X P(A) = P(A|Bi)P(Bi), i∈I où l’on pose par convention P(A|Bi) = 0 si P(Bi) = 0. Cette formule est également aisée à démontrer. À l’aide de cette formule, on peut réécrire la formule de Bayes sous la forme P(A|B)P(B) P(B |A) = . P(A|B)P(B) + P(A|B c)P(B c) 69 70 Indépendance Exemple. Les probabilités conditionnelles sont réputées donner des résultats parfois inattendus. En voici un exemple. Supposons qu’une certaine maladie frappe un individu sur 100, c’est-à-dire qu’un individu donné a une probabilité 0, 01 d’en être affecté. On suppose que l’on dispose d’un test de dépistage de la maladie, mais qu’il n’est fiable qu’à 99%, c’est-à-dire qu’il a une probabilité 0, 01 de donner un résultat positif quand on l’utilise sur un individu sain (faux positif), et une probabilité 0, 01 de donner un résultat négatif quand on l’utilise sur un individu malade. Supposons qu’un individu donné soit testé positif. Quelle est la probabilité qu’il soit effectivement malade ? En notant ⊕ et ⊖ les événements « être diagnostiqué » positif/négatif, et par M , S les événements « être malade/sain », les données du problème sont P(M ) = 1 =1 − P(S), 100 P(⊕|M ) = 99 , 100 P(⊕|S) = 1 . 100 On cherche à calculer P(M |⊕), et la formule de Bayes donne P(⊕|M )P(M ) P(M |⊕) = = P(⊕|M )P(M ) + P(⊕|S)P(S) 99 1 · 100 100 99 1 1 99 · + 100 · 100 100 100 = 1 . 2 En y réfléchissant un peu, comme peu d’individus sont effectivement malades, si toute la population fait le test, il y aura clairement beaucoup plus de faux positifs que de faux négatifs ! Ceci illustre le fait que pour qu’un test soit efficace, il vaut mieux qu’il soit pratiqué a priori sur une population considérée comme « à risque ». 6.2 Indépendance d’événements Soit A, B ∈ F deux événements. On dit que A et B sont indépendants si P(A ∩ B) = P(A)P(B) . Autrement dit, si de plus P(B) > 0, ceci signifie que P(A|B) = P(A), c’est-à-dire que l’information donnée par B n’a aucune influence sur la probabilité que A ait lieu. Plus généralement, si A1, A2, ..., An sont des événements, on dit qu’ils sont indépendants si pour tout I ⊂ {1, 2, ..., n}, on a \ Y Ai = P(Ai) . (6.1) P i∈I i∈I Il convient de faire attention ici : • Si les événements (A1, ..., An) sont indépendants, alors ils sont aussi indépendants deux-à-deux (prendre pour I les paires d’éléments de {1, ..., n}), mais la réciproque n’est pas vraie. Par exemple, si l’on jette deux pièces équilibrées, et qu’on note ω1, ω2 ∈ {0, 1} les résultats (0 face, 1 pile), alors les événements {ω1 = 0}, {ω2 =0}, {ω1 = ω2 } sont indépendants deux-à-deux, mais pas indépendants. On parle parfois « d’indépendance dans leur ensemble » des événements (A1, ..., An) pour insister sur ce point. • Dans la définition, il ne suffit pas de vérifier P(A1 ∩ ... ∩ An) = P(A1)···P(An), puisque par exemple on peut avoir A1 = ∅. 71 6.3 Indépendance de σ-algèbres La définition précédente s’étend à une famille quelconque (A j , j ∈ J) d’événements : on dit que ces événements sont indépendants si l’on a (6.1) pour tout sous-ensemble I ⊂ J fini. Remarque. Si A1, A2, ..., An sont des événements indépendants, alors Ac1, A2, ..., An sont également indépendants. En effet, pour tout 1 < i2 < ... < ik 6 n, on a P(Ac1 ∩ Ai2 ∩ ... ∩ Aik) = P(Ai2 ∩ ... ∩ Aik) − P(A1 ∩ Ai2 ∩ ... ∩ Aik) k Y = (1 − P(A1)) P(Aij) j=2 = P(Ac1)P(Ai2)···P(Aik). Cela suffit clairement pour conclure. 6.3 Indépendance de σ-algèbres Rappelons que si C est une classe de sous-ensembles d’un même ensemble Ω, on note σ(C) la plus petite σ-algèbre contenant C. Par ailleurs, si (Fi , i ∈ I) est une famille quelconque de sous-σ-algèbres d’une même σ-algèbre F, on note [ _ Fi = σ Fi i∈I i∈I la plus petite σ-algèbre contenant toutes les Fi , i ∈ I. Soit F1, ..., Fn des sous-σ-algèbres de F . On dit qu’elles sont indépendantes si et seulement si l’on a ! n n Y \ P P(Ai) , pour tout A1 ∈ F1, ..., An ∈ Fn. Ai = i=1 i=1 Proposition 6.1. Les σ-algèbres F1, ..., Fn sont indépendantes si et seulement si pour tout A1 ∈ F1, ..., An ∈ Fn, les événements A1, ..., An sont indépendants. Démonstration. Le sens direct est le seul sens non trivial à démontrer. Supposons donc que les σ-algèbres F1, ..., Fn sont indépendantes et prenons A1 ∈ F1, ..., An ∈ Fn. Soit I ⊂ {1, ..., n}, posons Bi = Ai si i ∈ I et Bi = Ω si i ∈ / I. Alors pour tout i ∈ {1, ..., n} on a Bi ∈ Fi, et la définition de l’indépendance de σ-algèbres implique que ! n \ n Y Y \ P Ai = P P(Bi) = P(Ai). Bi = i∈I i=1 i=1 Ceci montre que A1, ..., An sont indépendants. i∈I Exercice. Montrer que A1, ..., An sont indépendants si et seulement si les σ-algèbres σ({A1}), ..., σ({An }) sont indépendantes, où σ({A}) = {∅, A, Ac , Ω} est la plus petite σ-algèbre contenant A. 72 Indépendance Plus généralement, si (Fi , i ∈ I) est une famille quelconque de σ-algèbres, on dit qu’elles sont indépendantes si les σ-algèbres (F j , j ∈ J ) sont indépendantes pour toute partie finie J ⊂ I. En pratique, il n’est pas nécessaire de vérifier la formule de factorisation ci-dessus pour tous les événements, comme le montre le résultat suivant. Lemme 6.2. Soit C1, ..., Cn des sous-ensembles des σ-algèbres F1, ..., Fn, stables par intersection finie, contenant Ω, et tels que σ(Ci) = Fi pour tout i ∈ {1, 2, ..., n}. On suppose que pour tout choix de Ci ∈ Ci , i ∈ {1, 2, ..., n} on a ! n n Y \ P P(Ci) . Ci = i=1 i=1 Alors les σ-algèbres F1, ..., Fn sont indépendantes. Démonstration. Fixons C2, ..., Cn dans leurs classes C2, ..., Cn respectives, et notons M1 = {A ∈ F1 : P(A ∩ C2 ∩ ... ∩ Cn) = P(A)P(C2)...P(Cn)}. Alors M1 contient C1 par hypothèse (et donc Ω ∈ M1 en particulier), et est une classe monotone : elle contient ∅, est stable par réunion dénombrable disjointe, et enfin par complémentaire, puisque Ω ∩ C2 ∩ ... ∩ Cn \A ∩ C1 ∩ ... ∩ Cn = Ac ∩ C2 ∩ ... ∩ Cn, et P(Ac) = P(Ω) − P(A). Par le lemme de classe monotone, on a donc M1 = σ(C1) = F1. Ensuite, on fixe A1 ∈ F1 et C3, ..., Cn dans leurs classes respectives C3, ..., Cn, et on note M2 = {A ∈ F2 : P(A1 ∩ A ∩ C3 ∩ ... ∩ Cn) = P(A1)P(A)P(C3)...P(Cn)}. Pour les mêmes raisons que ci-dessus, on a que M2 = F2. En procédant ainsi par récurrence, on obtient que ! n n \ Y Ai = P(Ai) , pour tout A1 ∈ F1, ..., An ∈ Fn , P i=1 i=1 ce qu’on voulait démontrer. On en déduit le lemme de « regroupement par paquets ». Lemme 6.3. Soit (Fi , i ∈ I) une famille de σ-algèbres indépendantes, et (Ij , j ∈ J) W Fi , j ∈ J sont indépendantes. une partition de I. Alors les σ-algèbres i∈I j Démonstration. Soit K ⊂ J un sous-ensemble fini. Il suffit de montrer que les W σ-algèbres i∈Ij Fi , j ∈ K sont indépendantes. Pour cela, on définit C j comme S l’ensemble des intersections finies d’éléments de i∈I j Fi pour tout j ∈ K, et on applique le lemme 6.2. En effet, un élément C j de C j s’écrit sous la forme A1j ∩ ... ∩ j j où les événements Am sont dans des σ-algèbres Fim distinctes, avec im ∈ I j . En Ak(j) choisissant les C j de cette forme, la propriété d’indépendance de (Fi , i ∈ I) implique clairement que ! \ Y k(j) Y Y j Cj = P(Am )= P(C j ) . P j ∈K j ∈K m=1 j ∈K 6.4 Indépendance de variables aléatoires 73 On conclut par le lemme 6.2. 6.4 Indépendance de variables aléatoires a. σ-algèbre associée à une variable aléatoire À toute variable aléatoire X à valeurs dans un espace mesurable (E , E), on associe une σ-algèbre (tribu) σ(X) = {X −1(A): A ∈ E } , qui est une sous-σ-algèbre de F , appelée la σ-algèbre engendrée par la variable aléatoire X. On interprète la σ-algèbre σ(X) comme l’information contenue dans la variable X, ou encore les événements mesurables par rapport à X. Exercice. Soit Y une variable aléatoire à valeurs dans un espace mesurable (E , E), et soit X une variable aléatoire à valeurs dans R telle que X est mesurable par rapport à σ(Y ). Alors il existe un fonction mesurable f de (E , E) dans (R, B(R)) telle que X = f (Y ). [Pour montrer cela on peut commencer par supposer que X est une fonction indicatrice, et on rappelle qu’une fonction mesurable positive est limite croissante de fonctions étagée presque partout.] Plus généralement, si (Xi , i ∈ I) est une famille quelconque de variables aléatoires, on lui associe la tribu engendrée par cette famille comme _ σ(Xi) . σ(Xi , i ∈ I) = i∈I b. Indépendance de variables aléatoires Définition 6.4. Soit X1, ..., Xn des variables aléatoires, respectivement à valeurs dans les espaces mesurables (Ei , Ei), 1 6 i 6 n. On dit que ces variables aléatoires sont indépendantes si les tribus σ(Xi), 1 6 i 6 n sont indépendantes. Ceci signifie que pour tout choix d’ensembles mesurables Ai ∈ Ei , 1 6 i 6 n, on a P(Xi ∈ Ai , 1 6 i 6 n) = n Y i=1 P(Xi ∈ Ai) . (6.2) Plus généralement, on dit que les variables aléatoires d’une famille quelconque (Xi , i ∈ I) sont indépendantes si toutes les sous-familles finies (X j , j ∈ J) avec J fini inclus dans I sont formées de variables aléatoires indépendantes. Remarque. Si les σ-algèbres (Fi , i ∈ I) sont indépendantes, et si les variables aléatoires (Xi , i ∈ I) sont telles que, pour tout i ∈ I, Xi est mesurable par rapport à Fi, alors les variables aléatoires (Xi , i ∈ I) sont indépendantes. Proposition 6.5. Soit X1, X2, ..., Xn des variables aléatoires, respectivement à valeurs dans des espaces mesurables (E1, E1), (E2, E2), ..., (En , En). Ces variables aléatoires sont indépendantes si et seulement si la loi de (X1, X2, ..., Xn) est la loi produit des marginales : P(X1,...,Xn) = PX1 ⊗ PX2 ⊗ ... ⊗ PXn. 74 Indépendance Démonstration. Supposons que X1, X2, ..., Xn sont indépendantes. Par la définition de l’indépendance, les deux mesures de probabilités apparaissant dans l’énoncé de part et d’autre de l’égalité sont égales sur les pavés mesurables de E1 × E2 × ... × En. Elles sont donc égales partout par le lemme des classes monotones. La réciproque est immédiate. Exemple. On a construit au chapitre 5.1 une suite infinie de variables aléatoires indépendantes uniformes sur {0, 1}, à l’aide de l’écriture dyadique d’une variable aléatoire de loi uniforme sur [0, 1[. Corollaire 6.6. Soit X1, ..., Xn des variables aléatoires indépendantes, respectivement à valeurs dans un espace mesurable (Ei , Ei), et pour tout i ∈ {1, ..., n}, soit fi: Ei → R une fonction mesurable. On suppose, ou bien que toutes les fonctions fi sont positives, ou bien que fi ∈ L1(PXi) pour tout i ∈ {1, ..., n}. Alors " n # n Y Y E fi(Xi) = E[fi(Xi)] . i=1 i=1 En particulier, si fi ∈ L1(PXi) pour tout i ∈ {1, ..., n}, alors Qn i=1 fi(Xi) ∈ L1(P). Par exemple, soit X1, ..., Xn des variables aléatoires à valeurs réelles, intégrables, et indépendantes, alors X1···Xn est aussi intégrable et E[X1···Xn] = E[X1]···E[Xn]. Remarque. Soit X , Y deux variables aléatoires indépendantes et dans L2. Alors les variables aléatoires X − E[X] et Y − E[Y ] sont indépendantes et dans L2, et l’on a Cov(X , Y ) = E[(X − E[X])(Y − E[Y ])] = 0. On dit que des variables aléatoires indépendantes sont décorrélées (de corrélation nulle). La réciproque n’est pas vraie. Si (ε, X) sont deux variables aléatoires indépendantes, où P(ε = 1) = P(ε = −1) = 1/2 et où X est une variable aléatoire gaussienne N (0, 1), alors les variables aléatoires X et εX sont décorrélées. En effet, on a facilement E[X] = E[εX] = 0, et Cov(X , εX) = E[εX 2] = E[ε]E[X 2] = 0. Cependant, les variables aléatoires X et εX ne sont clairement pas indépendantes, sinon la loi de (X , εX) serait à densité sur R2. Or il est clair que la loi de (X , εX) est en fait portée par les bissectrices {(x, x) : x ∈ R} ∪ {(x, −x) : x ∈ R}. c. Critères d’indépendance de variables aléatoires Proposition 6.7. Soit X1, ..., Xn des variables aléatoires discrètes, à valeurs dans des ensembles E1, ..., En. Alors ces variables sont indépendantes si et seulement si l’on a, pour tout (x1, ..., xn) dans E1 × ··· × En P(X1 = x1, ..., Xn = xn) = P(X1 = x1)···P(Xn = xn) . La preuve de ce résultat est évidente. 75 6.4 Indépendance de variables aléatoires Proposition 6.8. Soit X1, ..., Xn des variables aléatoires à valeurs dans R. Alors elles sont indépendantes si et seulement si l’on a, pour tout x1, ..., xn ∈ R, P(X1 6 x1, ..., Xn 6 xn) = n Y FXi(xi). i=1 Démonstration. Pour le voir, il suffit d’appliquer le lemme 6.2 en prenant pour Ci la classe des intervalles de la forme ]−∞, x], ou égaux à R tout entier. Noter que la factorisation ci-dessus a encore lieu si l’on prend certains xi = ∞, par la continuité des mesures de probabilités par limite monotone. La réciproque est évidente. Proposition 6.9. Soit X1, ..., Xn sont des variables aléatoires réelles, alors elles sont indépendantes si et seulement si pour tout ξ = (ξ1, ..., ξn) ∈ Rn, on a ϕ(X1,...,Xn)(ξ) = n Y ϕXj(ξ j ) . j =1 Ceci est une application immédiate du lemme 6.6 et de l’injectivité de la transformée de Fourier. Exemple : variables aléatoires gaussiennes. Soit σ > 0 et m = (m1, ..., md) ∈ Rd. On dit que la variable aléatoire X = (X1, ..., Xd) à valeurs dans Rd est gaussienne de moyenne m et de matrice de variance-covariance σ 2Id si la loi de X a pour densité gσ(x − m) par rapport à λd, où gσ(x) = (2πσ 2)−d/2 exp (−|x|2/2σ 2). On note généralement N (m, σ 2Id) cette loi. Par les propriétés de la transformée de Fourier des densités gaussiennes, on a que Y d σ 2 ξ j2 σ 2|ξ |2 = exp im j ξ j − . (6.3) ϕX (ξ) = exp imξ − 2 2 j=1 En prenant ξ = ξ ′ej , où ξ ′ ∈ R et où e j est le j-ème vecteur de la base canonique de Rd, on en déduit en particulier que σ 2(ξ ′)2 ′ ′ ϕXj (ξ ) = exp im j ξ − , 2 c’est-à-dire que X j suit la loi gaussienne N (m j , σ 2) sur R. De plus, la formule 6.3 implique que les variables aléatoires X1, ..., Xd sont indépendantes. Remarquons enfin que l’espérance de X est bien égale à m, et sa matrice de variance-covariance est ΣX = σ 2Id. Ceci peut s’obtenir en dérivant la fonction caractéristique, et nous laissons la vérification en exercice. Pour simplifier, noter que X suit la loi N (m, σ 2Id) si et seulement si X − m suit la loi N (0, σ 2Id). En effet, pour toute fonction f : Rd → R mesurable bornée, Z Z f (x)gσ(x)dx , f (x − m)gσ(x − m)dx = E[f (X − m)] = Rd Rd et la réciproque est similaire. De ce fait, à une translation près par un vecteur de Rd, on peut se ramener à l’étude des lois N (0, σ 2Id). 76 Indépendance Enfin, voici un dernier exemple de critère d’indépendance pratique pour des variables aléatoires à densité. Proposition 6.10. Soit X = (X1, ..., Xd) une variable aléatoire à valeurs dans Rd. On suppose que la loi de X admet une densité fX, et qu’il existe des fonctions mesurables fi: R → R+ pour 1 6 i 6 d telles que fX (x) = d Y fi(xi). i=1 Alors les variables aléatoires X1, ..., Xd sont indépendantes, et il existe des nombres réels ci > 0, 1 6 i 6 d tels que fXi = cifi, où fXi est la densité de la loi de Xi. Rappelons que sous nos hypothèses, les variables Xi sont bien à densité, du fait de la discussion suivant la proposition 5.5. Démonstration. Soit h1, ..., hd : R → R des fonctions mesurables bornées. Alors on a # Z " d d d Z Y Y Y hi(xi)fi(xi)dxi = hi(y)fi(y)dy , hi(Xi) = E Rd i=1 i=1 i=1 Rd −1 R par le théorème de Fubini. Posons ci = f (y)dy . En prenant toutes les i R fonctions hi ≡ 1 dans l’équation précédente, on obtient c1 ···cd = 1, et en particulier, les nombres ci sont tous strictement positifs et finis. On réécrit donc l’équation précédente sous la forme # d Z " d Y Y hi(Xi) = hi(y) cifi(y)dy . E i=1 i=1 Rd En prenant toutes les fonctions hi ≡ 1 sauf une (disons h j ), on déduit de ceci que la loi de X j admet pour densité la fonction c jfj . Enfin, on a obtenu que " d # d Y Y E hi(Xi) = E[hi(Xi)] , i=1 i=1 pour toutes les fonctions hi mesurables bornées, ce qui montre l’indépendance des variables aléatoires X1, ..., Xd. Comme exemple d’application, on peut montrer une nouvelle fois que les composantes d’une variable aléatoire gaussienne N (m, σ 2Id) sont indépendantes. 6.5 Sommes de variables aléatoires indépendantes Soit X et Y deux variables aléatoires à valeurs dans Rd, définies sur un espace de probabilités (Ω, F , P). On suppose X et Y indépendantes. Lemme 6.11. La loi de la variable aléatoire X + Y est la convolée PX ∗PY. 77 6.5 Sommes de variables aléatoires indépendantes Démonstration. Soit f une fonction mesurable bornée. Comme X et Y sont indépendantes, la loi de (X , Y ) est la mesure PX ⊗ PY , et donc Z Z f (z)(PX ∗PY )(dz), f (x + y)PX (dx)PY (dy) = E[f (X + Y )] = Rd Rd ×Rd par définition de la convolée. D’où le résultat. Par récurrence, on en déduit que si X1, X2, ..., Xn sont des variables aléatoires indépendantes à valeurs dans Rd, la loi de la somme X1 + X2 + ··· + Xn est la convolée PX1∗PX2 ∗...∗PXn. En particulier, la fonction caractéristique de X1 + ··· + Xn est donnée par n Y ξ ∈ Rd . ϕX1+···+Xn(ξ) = ϕXi(ξ) , i=1 Si l’on a une suite de variables aléatoires X1, X2, ... indépendantes et de même loi (on abrège cela en i.i.d., pour « indépendantes et identiquement distribuées »), la suite des sommes partielles n X n>0 Xi , Sn = i=1 est appelée une marche aléatoire à pas i.i.d. Notons que si l’on suppose que les variables aléatoires réelles X1, ..., Xn sont de carré intégrable, alors Var(X1 + ··· + Xn) = n X Var(Xi) + 2 X Cov(Xi , X j ). 16i<j6n i=1 En particulier, si les variables aléatoires X1, ..., Xn sont de plus indépendantes, on a Var(X1 + ··· + Xn) = n X Var(Xi) . i=1 Corollaire (loi faible L2 des grands nombres). Soit X1, X2, ... une suite de variables aléatoires réelles indépendantes et de même loi, telles que E[X12] < ∞. Alors X1 + ··· + Xn −→ E[X1] , n→∞ n la convergence ayant lieu dans l’espace L2(Ω, F , P). Démonstration. On constate simplement que, comme E[X1] = E[X2] = ..., 2 X1 + ··· + Xn − E[X1 + ··· + Xn] 2 X1 + ··· + Xn − E[X1] = E E n n X1 + ··· + Xn = Var n n 1X 1 = 2 Var(Xi) = Var(X1) , n n i=1 78 Indépendance ce qui tend vers 0 lorsque n → ∞. On remarquera que l’on a utilisé uniquement le fait que les variables aléatoires X1, ..., Xn ont même espérance et variance, et sont décorrélées, c’est-à-dire que Cov(Xi , X j ) = 0 pour tout i = / j. Comme on l’a vu, cette condition est plus faible que la condition i.i.d. 6.6 Lemme de Borel-Cantelli Si A1, A2, ... est une suite d’événements, on définit \ [ limsup An = An n→∞ k>1 n>k qu’on peut voir comme l’ensemble des ω ∈ Ω qui appartiennent à une infinité des événements An. De même, on pose [ \ liminf An = An n→∞ k>1 n>k qui est l’ensemble des ω ∈ Ω qui appartiennent à tous les événements An, sauf peutêtre un nombre fini d’entre eux. Les sous-ensembles limsupn→∞An et liminfn→∞An sont eux-mêmes des événements. Par ailleurs on a clairement c c c c liminf An = limsupAn . limsup An = liminf An , n→∞ n→∞ n→∞ n→∞ 6.6.1 L’énoncé, et un exemple Le lemme de Borel-Cantelli est une observation simple mais extrêmement utile. P P(An) < ∞, alors Lemme 6.12. Soit A1, A2, ... une suite d’événements. Si n>1 P(limsupn→∞ An) = 0. P Démonstration. L’hypothèse stipule que E n>1 1An < ∞. Ceci implique que P 1 < ∞ presque surement, c’est-à-dire que presque tout ω ∈ Ω n’appartient n>1 An qu’à un nombre fini des événements An. Autrement dit, P(liminfn→∞ Acn) = 1, et on conclut en passant au complémentaire. La conclusion importante du lemme est que P(liminfn→∞ Acn) = 1, c’est-à-dire que les événements Acn ont lieu à partir d’un certain rang. En pratique, si l’on cherche à montrer que des événements ont lieu à partir d’un certain rang, on estime donc les probabilités des complémentaires (An est donc un « mauvais » événement) et on essaie de montrer que ces probabilités sont petites (au sens où elles sont sommables). Illustrons ceci par un exemple instructif. Exemple. Nombre de « pile » consécutifs 79 6.6 Lemme de Borel-Cantelli Soit (X1, X2, ...) une suite de variables aléatoires de Bernoulli de paramètre 1/2 indépendantes. Pour tout n > 1, on note Rn le nombre maximal des Xi consécutifs valant 1, à partir de l’indice n. Formellement Rn = sup {m > 1: Xn = Xn+1 = ... = Xn+m−1 = 1}. Remarquons alors que pour tout K > 0, P(Rn > K) 6 P(Xn = Xn+1 = ... = Xn+K −1 = 1}) = 1 . 2K Prenons K = K(n) = ⌊(1 + ε) log2 (n)⌋ où ε > 0 est fixé. On voit alors que si An = {Rn > K(n)}, on a 1 2 P(An) 6 (1+ε) log (n)−1 6 1+ε 2 n 2 Par conséquent, le lemme de Borel-Cantelli implique que Rn 6 (1 + ε) log2 (n) pour tout n assez grand, disons n > n0(ε) où n0(ε) est aléatoire, mais fini presque surement. En prenant ε de la forme 2−k pour k > 0, on obtient que presque surement, limsup n→∞ Rn 6 1. log2 (n) Notons Mn = max (R1, R2, ..., Rn). Avec la notation ci-dessus, pour tout n > n0(ε), Mn 6 max (R1, ..., Rn0(ε)) ∨ (1 + ε)log2(n) et on déduit que l’on a également limsup n→∞ Mn 6 1. log2 (n) Nous montrons à présent le résultat suivant. Proposition 6.13. On a presque surement Mn = 1. n→∞ log2 (n) lim Par exemple, une suite de 2n lancers de pile ou face contient au moins un bloc ayant environ n valeurs 1 consécutives si n est assez grand. Par exemple, pour 1000 valeurs consécutives, on devrait vraisemblablement trouver des blocs d’environ 10 valeurs identiques consécutives, mais pas beaucoup plus. Démonstration. Fixons ε ∈ ]0, 1[, et notons ln = ⌊(1 − ε)log2(n)⌋, et Nn = ⌊n/ln ⌋. On note alors B j = {jln + 1, jln + 2, ..., (j + 1)ln } pour 0 6 j 6 Nn − 1, de sorte que les ensembles B j sont disjoints deux-à-deux, de cardinal ln et de réunion incluse dans {1, 2, ..., n}. Clairement, s’il existe j ∈ {0, ..., Nn − 1} tel que Xi = 1 pour tout i ∈ B j , alors on a Mn > ln. Montrons donc que cela arrive presque surement à partir d’un certain rang. Pour cela, notons An = {∀j ∈ {0, ..., Nn − 1}, ∃i ∈ Bj : Xi = 0} , 80 Indépendance et notons que par le lemme de regroupement par paquets, les tribus σ(Xi , i ∈ B j ), j ∈ {0, ..., Nn − 1} sont indépendantes. Par conséquent P(An) = = NY n −1 j =0 NY n −1 j =0 = P(∃i ∈ B j : Xi = 0) (1 − P(∀i ∈ Bj : Xi = 1)) 1 1 − ln 2 N n 1 6 1 − 1−ε 2n N n , où l’on a utilisé une nouvelle fois l’indépendance des Xi à la dernière étape. Par conséquent n 1 1 = exp − −1 (1 + o(1)) P(An) = exp Nn ln 1 − 1−ε log2 (n) 2n1−ε 2n ce que l’on peut borner par exp (−nε/2) pour tout n assez grand. Ce majorant est sommable, et le lemme de Borel-Cantelli permet de conclure que Mn > ln à partir d’un certain rang, comme on l’a vu. Ainsi, on obtient que pour tout ε ∈ ]0, 1[ on a liminf n→∞ Mn >1−ε log2 (n) presque sûrement, et on conclut. 6.6.2 Lemme « réciproque » Noter que le lemme de Borel-Cantelli ne fait aucunement intervenir une hypothèse d’indépendance des événements An ! En revanche, une telle hypothèse est nécessaire pour l’énoncé « réciproque » ci-dessous. P P(An) = ∞, Lemme 6.14. Soit A1, A2, ... des événements indépendants. Si n>1 alors P(limsupn→∞ An) = 1. Démonstration. Pour tout k > 1, on a par le théorème de convergence dominée, # " N # ! " N Y Y Y \ c c c 1An = lim E E[1Acn] , Ak = E 1An = lim P n>k n>k N →∞ n=k N →∞ n=k où l’on a utilisé l’indépendance à la dernière étape. Cette limite vaut ! X Y −P(An) = 0, (1 − P(An)) 6 exp n>k n>k où l’on a utilisé la borne 1 − x 6 e−x, et l’hypothèse de divergence de en déduit que ! X \ Ack = 0, P P liminf Acn 6 n→∞ k>1 et on conclut par passage au complémentaire. P P(An). On n>k 81 6.6 Lemme de Borel-Cantelli Exercice. L’hypothèse d’indépendance de ce lemme est indispensable ! Donner un ou des contre-exemples naturels si les événements ne sont pas indépendants. Nous donnons maintenant deux applications de la seconde version du lemme de Borel-Cantelli. Une mesure « uniforme » sur N ? Comme première application, on montre qu’il n’existe pas de mesure de probabilités P « bien répartie » sur N, au sens où P(nN) = 1/n pour tout n > 1. En effet, si tel était le cas, les événements A p = pN seraient tous indépendants lorsque p décrit l’ensemble des nombres premiers. En effet, on aurait, pour tous les nombres p1, ..., pk premiers distincts, k Y 1 P(A p1 ∩ ... ∩ Apk) = P(p1···pkN) = = P(A pi). p1···pk i=1 Comme p 1/p = ∞, où la somme porte sur l’ensemble des nombres premiers, on en déduirait, par la seconde version du lemme de Borel-Cantelli que P-presque tout entier n est dans une infinité des ensembles pN avec p premier, ce qui est clairement impossible. P Motifs dans une suite de pile ou face Donnons une autre application simple de ce lemme. Considérons une suite X1, X2, ... de variables aléatoires de Bernoulli de paramètres respectifs pi. En posant Ai = {Xi = 1} et en applicant les deux lemmes précédents, on obtient P∞ • Si i=1 pi < ∞ alors presque surement, seul un nombre fini des Xi est non nul. P∞ p = ∞ et si les variables aléatoires X1, X2, ... sont indépendantes, • Si i=1 i alors, presque surement, une infinité des variables Xi valent 1. Ceci a une conséquence intéressante sur les nombres réels. Rappelons que, si U est une variable aléatoire de loi uniforme sur [0, 1[, alors la suite X = (X1, X2, ...) de son développement dyadique propre X Xi U= 2i i>1 est une suite de variables aléatoires de loi de Bernoulli de paramètre 1/2, indépendantes. Fixons ε = (ε1, ..., εn) ∈ {0, 1}n une suite finie quelconque, et un entier k > 0, et ∗ posons Aε(k) = {ω ∈ {0, 1}N : (ωk+1, ..., ωk+n) = ε}. Soit Bε = limsupk→∞ {X ∈ Aε(k)} l’événement que la suite ε apparaisse une infinité de fois dans le développement dyadique propre de X. Les événements {X ∈ Aε(k)} = {Xk+1 = ε1, ..., Xk+n = εn }, k > 0 ne sont pas indépendants. En revanche, les événements {X ∈ Aε(kn)}, k > 0 sont respectivement mesurables par rapport aux σ-algèbres σ(Xkn+1, ..., X(k+1)n), qui sont indépendantes par le regroupement par paquets. De plus, P(X ∈ Aε(kn)) = 1/2n pour tout ε et tout k. La somme sur k des probabilités de ces événements est donc infinie, et le deuxième lemme de Borel-Cantelli implique donc que P(Bε) > P limsup {X ∈ Aε(kn)} = 1. k→∞ 82 Indépendance Comme l’ensemble des suites finies de 0 et de 1 est dénombrable, on en déduit que, si B est l’intersection des événements Bε sur toutes les suites finies ε, alors P(B) = 1. Nous avons montré qu’avec probabilité 1, toute suite finie apparaît une infinité de fois dans le développement dyadique de la variable aléatoire U . Autrement dit, presque tout nombre (pour la mesure de Lebesgue) satisfait cette propriété, et contient en particulier une infinité de fois tous les romans du monde codés en binaire, ainsi que ceux qui restent à écrire. On peut y trouver également des tentatives de preuve ou de réfutation assez convaincantes de l’hypothèse de Riemann... 6.7 Loi du 0-1 de Kolmogorov Soit (F1, F2, ...) une suite de σ-algèbres. Notons \ _ G n. Fk et G∞ = Gn = n>1 k>n On dit que G∞ est la σ-algèbre asymptotique associée à la suite (F1, F2, ...). Théorème 6.15. Si les σ-algèbres F1, F2, ... sont indépendantes, alors la tribu asymptotique est triviale au sens où pour tout A ∈ G∞ , on a P(A) ∈ {0, 1}. Démonstration. Par le lemme de regroupement par paquets, on a que Gn+1 est indépendante de Fi, ce pour tout n > 1 et i ∈ {1, 2, ..., n}. Comme G∞ ⊂ Gn+1, on en déduit que G∞ est indépendante de Fi pour tout i > 1. Donc G∞ est indépendante de W F i = G1, à nouveau par le lemme de regroupement par paquets. Mais comme i>1 G∞ ⊂ G1, on en déduit que G∞ est indépendante d’elle-même„ ce qui signifie que P(A) = P(A ∩ A) = P(A)2 pour tout A ∈ G∞, CQFD. Comme exemple d’application, on en déduit le résultat suivant sur une marche aléatoire (Sn , n > 0) à pas i.i.d. X1, X2, ... Proposition 6.16. Soit (Xn , n > 1) une suite de variables aléatoires réelles indépendantes, et soit Sn = X1 + ··· + Xn pour tout n > 1, S0 = 0. Alors les événements n o limsup Sn = ∞ , liminf Sn =−∞ , n→∞ n→∞ sont de probabilité 0 ou 1. Démonstration. Il suffit de montrer le résultat pour le premier événement, quitte à changer la suite (Xn , n > 1) en leurs opposés. On a que pour tout k > 1, {limsupn→∞ Sn = ∞} = {limsupn→∞ (Sn − Sk) = ∞}, et cette dernière limite supérieure est limsup (Xk+1 + Xk+2 + ··· + Xn) , n→∞ 83 6.7 Loi du 0-1 de Kolmogorov W qui est mesurable par rapport à Gk+1 = σ(Xk+1, Xk+2, ...) = i>k+1 σ(Xi). En particulier, {limsupn→∞ Sn = ∞} est mesurable par rapport à la σ-algèbre Gk pour tout k > 1, et donc par rapport à la tribu asymptotique G∞. Comme les σ-algèbres σ(Xi), i > 1 sont indépendantes par hypothèse, la loi du 0-1 de Kolmogorov s’applique et donne le résultat. Corollaire 6.17. Supposons que les variables Xn , n > 1 sont i.i.d. et que 1 . 2 Alors la marche aléatoire Sn = X1 + ··· + Xn oscille, au sens où P limsup Sn = ∞, liminf Sn = −∞ = 1 P(X1 = 1) = P(X1 = −1) = n→∞ n→∞ Démonstration. On sait que les événements {liminfn→∞ Sn = ∞}, {limsupn→∞ Sn = −∞} sont de probabilité 0 ou 1. Mais comme la loi de (Sn , n > 0) est la même que celle de (−Sn , n > 0) par symétrie de la loi des variables aléatoires Xn , n > 0, ces deux événements ont aussi la même probabilité. Nous allons montrer que la suite (Sn , n > 0) n’est pas bornée avec probabilité 1. Ceci signifie que ! n o P limsup Sn = ∞ ∪ liminf Sn = −∞ = 1. n→∞ n→∞ Par conséquent, l’un au moins des deux événements est de probabilité strictement positive. Par les remarques ci-dessus, la probabilité est en fait 1 pour ces deux événements. Il reste à montrer que (Sn , n > 0) n’est pas bornée avec probabilité 1. Introduisons l’événement AK = {|Sn | 6 K pour tout n > 0}, où K est un entier donné. Posons N = 2K + 1, et constatons que [ {XkN +1 = 1, ..., X(k+1)N = 1} ⊂ AcK . k>0 Or P(XkN +1 = 1, ..., X(k+1)N = 1) = 1/2N > 0, et de plus les événements {XkN +1 = 1, ..., X(k+1)N = 1}, k > 0 sont indépendants. Par conséquent, ! Y \ 1 c 1 − N = 0, {XkN +1 = 1, ..., X(k+1)N = 1} = P 2 k>0 k>0 et on en déduit que P(AK ) = 0 pour tout K. En prenant la réunion sur K, on en déduit le résultat. Exercice. Généraliser le résultat précédent à une marche aléatoire Sn = X1 + ··· + Xn à pas i.i.d. dont la loi est symétrique, c’est-à-dire que X1 et −X1 ont même loi, dès que cette loi n’est pas δ0. 84 Indépendance 6.8 Complément : existence d’une suite de variables aléatoires indépendantes Soit (E , E , µ) un espace de probabilités. Rappelons que l’on peut toujours construire une variable aléatoire X de loi µ, en choisissant par exemple la variable aléatoire canonique. Le théorème suivant montre qu’on peut faire beaucoup mieux. Théorème 6.18. Soit (En , En , µn), n > 1 une suite d’espaces de probabilités. Alors il existe un espace de probabilités sur lequel est définie une suite de variables aléatoires (Xn , n > 1) indépendantes, de lois respectives PXn = µn. N Ce théorème est un résultat d’existence de la mesure produit µ = n>1 µn sur l’espace produit E = E1 × E2 × ... muni de la tribu produit E = E1 ⊗ E2 ⊗ ..., qui est la plus petite tribu rendant mesurables les applications de projection de Xn: E → En. Si elle existe, la mesure produit µ est définie par µ(X1 ∈ A1, ..., Xn ∈ An) = n Y µi(Ai) , i=1 A1 ∈ E1, ..., An ∈ En , et une telle mesure est nécessairement unique par le théorème de classe monotone. Sous réserve que cette mesure existe bien, il suffit de prendre pour X = (X1, X2, ...) la variable canonique sur (E , E , µ). Noue n’allons pas montrer ce théorème en toute généralité, mais expliquons comment on peut l’obtenir pour En = R pour tout n > 1. Rappelons que l’on a construit au chapitre 5.1 une suite infinie (Y1, Y2, ...) de variables aléatoires indépendantes uniformes dans {0, 1}. On peut alors réindexer cette suite en (Zn,m : n, m > 1), en prenant une bijection ϕ: N∗ × N∗ → N∗ et en posant Zn,m = Y ϕ(n,m) . La famille (Zn,m : n, m > 1) est clairement formée de variables aléatoires indépendantes uniformes dans {0, 1}. Pour tout n > 1, on pose alors Un = X Zn,m , m 2 m>1 ce qui définit une suite de variables uniformes (Un , n > 1) qui sont respectivement mesurables par rapport à (Zn,m : m > 1), et dont indépendantes par regroupement par paquets. Ces variables aléatoires sont de plus clairement uniformes dans [0, 1] par lemme de classe monotone, puisque la probabilité que Un soit dans l’intervalle dyadique [k2−m , (k + 1)2−m[ est égale à 1 P Zn,1 = ω1, ..., Zn,m = ωm = m 2 P m où k2−m s’écrit i=1 ωi2−i. Pour conclure, on peut utiliser la technique de simulation de variables aléatoires réelles par l’inverse de la fonction de répartition. Soit Fn(x) = µn(]−∞, x]) la fonction de répartition d’une variable aléatoire de loi µn, et Fn−1(u) = inf {x ∈ R: Fn(x) > u} , u ∈ ]0, 1[. 6.8 Complément : existence d’une suite de variables aléatoires indépendantes 85 Notons que pour tout x ∈ R et u ∈ ]0, 1[, on a Fn−1(u) 6 x si et seulement si u 6 Fn(x). En effet, si Fn−1(u) 6 x alors par définition et croissance de Fn, cela implique que Fn(y) > u pour tout y > x. En faisant tendre y vers x par valeurs supérieures, on obtient Fn(x) > u par continuité à droite de Fn. La réciproque est immédiate par définition. Posons alors Xn = Fn−1(Un) , n > 1, ce qui définit une suite de variables aléatoires indépendantes, puisqu’elles sont respectivement mesurables par rapport aux σ-algèbres indépendantes σ(Un). Mais par ailleurs, on a, pour tout x ∈ R, P(Xn 6 x) = P(Un 6 Fn(x)) = Fn(x) , ce qui signifie que Xn a pour fonction de répartition Fn, et donc que Xn a pour loi µn. Le théorème est donc démontré dans le cas où les mesures µn sont définies sur (R, B(R)). Remarque. L’approche présentée ci-dessus peut se généraliser (avec un certain effort !) au cas où les espaces (En , En , µn) sont des espaces métriques séparés complets, munis de leurs tribus boréliennes et d’une mesure de probabilités. Pour autant, le théorème reste vrai sans cette contrainte en plus, et se démontre en toute généralité par une application du théorème de prolongement de mesures de Carathéodory. Chapitre 7 Lois des grands nombres Nous allons maintenant étudier un résultat fondamental en probabilités, stipulant essentiellement qu’une somme de variables aléatoires indépendantes se comporte en première approximation comme sa moyenne. Nous avons déjà vu au chapitre précédent que si l’on a des variables aléatoires X1, X2, ... dans L2 qui sont indépendantes (ou décorrélées) et de même loi, alors X1 + ··· + Xn L2 −→ E[X1]. n→∞ n Nous allons voir de nombreuses variantes de cette loi « faible » des grands nombres. Comme il s’agit d’un résultat asymptotique, nous allons dans un premier temps décrire quelques-uns des modes de convergence de variables aléatoires qui sont usuellement considérés en théorie des probabilités. 7.1 Différentes notions de convergence pour des variables aléatoires Soit (Xn , n > 1) une suite de variables aléatoires, et X une autre variable aléatoire, toutes étant définies sur un espace de probabilités (Ω, F , P), et à valeurs dans R ou C. a. Convergence presque sure p.s. On dit que (Xn , n > 1) converge vers X presque surement, et on note Xn → X, si l’événement {limn→∞ Xn = X } = {limsupn→∞ |Xn − X | = 0} est presque sûr, c’està-dire n o P ω ∈ Ω: lim Xn(ω) = X(ω) n→∞ = 1. Il s’agit d’un mode de convergence intuitif d’un point de vue probabiliste, puisqu’il énonce une propriété (la convergence d’une suite de variables aléatoires) vraie « ω par ω ». C’est (à un ensemble de probabilité nulle près) la convergence ponctuelle des fonctions mesurables Xn vers X. b. Convergence L p Soit p ∈ [1, ∞]. On dit que (Xn , n > 1) converge vers X dans L p si E[|Xn − p X | ] →n→∞ 0. Il s’agit de la convergence usuelle dans l’espace de Banach L p(Ω, F , P) muni de la norme k·k p. 87 88 Lois des grands nombres À l’exception du cas où p = ∞, la convergence dans L p n’implique pas la convergence presque sure. En revanche, les résultats classiques sur les espaces L p impliquent le résultat suivant. Proposition 7.1. Soit (Xn , n > 0) une suite de variables aléatoires convergeant vers X dans L p. Alors il existe une extraction (nk , k > 1) telle que (Xnk , k > 1) converge presque surement vers X. De même, la convergence p.s. de la suite (Xn , n > 0) n’implique pas la convergence dans L p. Néanmoins, pour p ∈ [1, ∞[, le théorème de convergence dominée implique que, si |Xn | < Y avec Y ∈ Lp(Ω, F , P), alors Xn converge vers X dans L p. c. Convergence en probabilité On dit que (Xn , n > 1) converge vers X en probabilité, si pour tout ε > 0 on a On note alors P(|Xn − X | > ε) −→ 0. n→∞ P Xn −→ X . n→∞ Proposition 7.2. Si (Xn , n > 1) converge vers X presque surement ou dans L p (pour un p > 1 donné), alors on a aussi convergence en probabilité. Démonstration. Si (Xn , n > 1) converge presque surement vers X, alors pour tout ε > 0, on peut appliquer le théorème de convergence dominée dans P(|Xn − X | > ε) = E[1{|Xn −X |>ε}], en constatant que l’indicatrice est de limite 0 presque surement. Si l’on a convergence dans L p avec p ∈ [1, ∞[ on applique l’inégalité de Markov : P(|Xn − X | > ε) 6 E[|Xn − X | p] −→ 0. n→∞ εp Si p = ∞ c’est encore plus simple puisque la convergence dans L∞ implique la convergence presque sure. Dans tous les cas, on a montré la convergence en probabilité. Nous montrons maintenant que la convergence en probabilité est associée à une topologie sur les variables aléatoires. Proposition 7.3. Soit L0(Ω, F , P) l’ensemble des variables aléatoires (réelles ou complexes) sur l’espace de probabilités (Ω, F , P), définies à égalité p.s. près. Définissons, pour X , Y ∈ L0(Ω, F , P), d0(X , Y ) = E[|X − Y | ∧ 1]. Alors d0 est une distance sur L0(Ω, F , P), et l’on a que (Xn , n > 1) converge en probabilité vers X si et seulement si cette même suite converge dans (L0(Ω, F , P), d0). De plus, cet espace métrique est complet. On laisse en exercice le fait que d0 est une distance. Si la suite (Xn , n > 1) converge en probabilité, on a pour tout ε > 0 E[|Xn − X | ∧ 1] = E[(|Xn − X | ∧ 1)·(1{|Xn −X |6ε} + 1{|Xn −X |>ε})] 6 ε + P(|Xn − X | > ε), 7.1 Différentes notions de convergence pour des variables aléatoires 89 et donc limsupn→∞ E[|Xn − X | ∧ 1] 6 ε. Donc d0(Xn , X) → 0. D’autre part, on a clairement, pour ε ∈ ]0, 1[, P(|Xn − X | > ε) = P(|Xn − X | ∧ 1 > ε) 6 d0(Xn , X) ε par l’inégalité de Markov. La réciproque s’ensuit immédiatement. Montrons le caractère complet. Pour cela, soit (Xn , n > 1) une suite de Cauchy pour la distance d0. On peut trouver une extraction (nk , k > 1) telle que d0(Xnk+1, Xnk) 6 2−k. On voit alors que # " X X (|Xnk+1 − Xnk | ∧ 1) = d0(Xnk+1, Xnk) < ∞, E k>1 k>1 P de sorte que presque surement, on a k>1 (|Xnk+1 − Xnk | ∧ 1) < ∞, et donc aussi P |Xnk+1 − Xnk | < ∞. On pose alors k>1 X X = Xn 1 + (Xnk+1 − Xnk) , k>1 cette série convergeant avec probabilité 1 par ce qui précède. En particulier, Xnk converge presque surement vers X. On en déduit que Xnk converge aussi en probabilité vers X, et donc pour la distance d0. Comme (Xn , n > 1) est une suite de Cauchy admettant une suite extraite qui converge, on en conclut que X est la limite de (Xn , n > 1) dans l’espace (L0, d0), et que ce dernier est complet. Au cours de la preuve, nous avons montré le résultat suivant, qui est un résultat analogue à un théorème du cours sur les espaces L p. Proposition 7.4. Si (Xn , n > 1) converge en probabilité vers X, alors il existe une extraction (nk , k > 1) telle que (Xnk , k > 1) converge presque surement vers X. Remarque. Nous avons vu que la convergence L p et la convergence en probabilité sont toutes les deux issues de la convergence dans un espace métrique. Il n’en est pas de même (en général) pour la convergence p.s. Exercice. Montrer que si (X , d) est un espace métrique, et si (xn , n > 1) est une suite de X, alors (xn , n > 1) converge vers x ∈ X si et seulement si de toute sous-suite, on peut réextraire une sous-sous-suite qui converge vers x. Déterminer une suite de variables aléatoires (Xn , n > 1) telle que de toute sous-suite on puisse réextraire une sous-sous-suite qui converge presque surement vers 0, mais telle que Xn ne converge pas presque surement. On pourra penser à des variables aléatoires de Bernoulli bien choisies, définies sur l’espace ([0, 1], B([0, 1]), λ) où λ est la mesure de Lebesgue. On peut enfin « remonter » de la convergence en probabilité à une convergence L p si l’on a une hypothèse de moments. Proposition 7.5. Soit q > 1 et (Xn , n > 1) une suite de variables aléatoires bornée dans L q, c’est-à-dire que supn>1E[|Xn | q] < ∞. On suppose que Xn converge en probabilité vers X. Alors pour tout p ∈ [1, q[ on a que Xn converge vers X dans L p. 90 Lois des grands nombres Démonstration. Tout d’abord, notons que la limite X est dans L q. En effet, par la proposition 7.4, il existe une sous-suite (Xnk , k > 1) convergeant vers X presque surement. Le lemme de Fatou donne alors E[|X | q] 6 liminf E[|Xnk | q] < ∞ (7.1) k→∞ puisque la suite (Xn , n > 1) est bornée dans L q. Comme L q ⊂ L p on déduit que X ∈ L p pour tout p ∈ [1, q[. On écrit alors, pour tout ε > 0, E[|Xn − X | p] = E[|Xn − X | p1{|Xn −X |>ε}] + E[|Xn − X | p1{|Xn −X |6ε}] 6 E[|Xn − X | q]p/qP(|Xn − X | > ε)(q −p)/q + ε p où l’on a utilisé à la seconde étape l’inégalité de Hölder pour les exposants q/p et son conjugué q/(q − p). Comme E[|Xn − X | q] p/q est borné par hypothèse et par (7.1), on en déduit que pour tout ε > 0, on a limsup E[|Xn − X | p] 6 ε p . n→∞ C’est ce qu’il fallait démontrer. On obtient le diagramme d’implications suivant : Convergence presque sure À extraction près hypothèse de domination Convergence Lp Convergence en probabilité hypothèse de moments Figure 7.1. Diagramme d’implications 7.2 La loi forte des grands nombres Le but de cette partie est de montrer le théorème suivant. Théorème (Loi forte des grands nombres). Soit X1, X2, ... une suite de variables aléatoires réelles indépendantes et de même loi, dans L1. Alors X1 + ··· + Xn p.s. −→ E[X1] . n→∞ n 7.2 La loi forte des grands nombres 91 Remarquons que ce théorème est également vrai pour des variables aléatoires à valeurs dans Rd, pour tout d > 1 : pour le voir, il suffit d’appliquer le théorème précédent coordonnée par coordonnée. Par ailleurs, on a également la convergence au sens L1, ce qui est un résultat beaucoup plus facile. Proposition 7.6. Sous les mêmes hypothèses, on a également X1 + ··· + Xn L1 −→ E[X1] . n→∞ n Démonstration. Remarquons que si X1 ∈ L2, alors le résultat est une conséquence de la loi faible L2 des grands nombres, puisque la convergence dans L2 implique celle dans L1. Dans le cas général, pour K donné, et i > 1, notons Yi = Xi 1{|Xi |6K } et Zi = Xi 1{|Xi |>K }, de sorte que Xi = Yi + Zi. Comme les variables aléatoires (Yi) sont i.i.d. dans L2, et que les (Zi) sont i.i.d. également et dans L1, on a que pour tout K, Pn Pn Sn Y Z i i E − E[X1] 6 E i=1 − E[Y1] + E i=1 − E[Z1] n n n Pn Y i 6 E i=1 − E[Y1] +2E[|Z1|] . n Donc on a Sn limsup E − E[X1] 62E[|Z1|] . n n→∞ Mais par convergence dominée, on a que ce majorant tend vers 0 lorsque K → ∞. D’où le résultat. Nous allons donner plusieurs approches de la loi forte des grands nombres, sous des hypothèses de moins en moins restrictives, pour donner une idée des diverses méthodes qui permettent d’approcher un tel résultat. D’autres preuves standard de ce résultat font appel à des résultats plus poussés de la théorie ergodique (théorème de Birkhoff) ou de la théorie des martingales. Jusqu’à la fin de la partie 7.2, on suppose que les variables aléatoires X1, X2, ... sont i.i.d. On notera Sn = X1 + ··· + Xn pour simplifier. 7.2.1 Le cas L4 Supposons dans un premier temps que E[X14] < ∞. Notons alors que, quitte à changer Xn en Xn − E[X1], on peut supposer ces variables aléatoires centrées, c’està-dire que E[X1] = 0. Nous allons montrer que presque surement, on a X Sn 4 < ∞. Σ= n n>1 Ceci impliquera alors clairement que Sn/n converge vers 0 presque surement. Pour cela, il suffit de montrer que E[Σ] < ∞. Nous estimons donc 4 n X 1 Sn = 4 E E[Xi1Xi2Xi3Xi4] . n n i1,i2,i3,i4 =1 92 Lois des grands nombres Dans cette dernière somme, notons que si l’un des indices est distinct des trois autres, par exemple i1 ∈ / {i2, i3, i4}, alors l’indépendance implique que E[Xi1Xi2Xi3Xi4] = E[Xi1]E[Xi2Xi3Xi4] = 0. Ne restent dans la somme que les indices pour lesquels {i1, i2, i3, i4} est de cardinal 1 ou 2. On en déduit 4 n 1X Sn 2 X E = 4 E[Xi2]E[X j2] E[Xi4] + 3· 4 n n n 16i<j6n i=1 1 3(n − 1) = 3 E[X14] + E[X12]2 . n n3 Cette dernière quantité est sommable en n > 1. On en déduit donc que Sn/n converge vers 0 presque surement et dans L4. 7.2.2 Le cas L2 Supposons à présent que E[X12] < ∞. Une fois encore, on peut supposer que E[X1] = 0. Nous avons déjà vu que Sn/n converge vers 0 dans L2 (donc dans L1) : c’est la loi faible des grands nombres. On en déduit ainsi qu’il existe une sous-suite le long de laquelle Sn/n converge p.s. vers 0. Essayons d’être plus précis, en considérant explicitement l’extraction (k 2, k > 1). On a 1 Sk2 2 1 E = 4 Var(Sk2) = 2 Var(X1) . 2 k k k Ceci étant sommable en k, on en déduit comme précédemment que Sk2/k 2 converge vers 0 dans L2 et presque surement. Pour se débarrasser de l’extraction, il faut contrôler la suite Sn/n entre deux valeurs consécutives de la suite extraite. Plus exactement, pour ε > 0, on considère 2 Ak = 2 max 2 |Sn − Sk2| > εk , k > 1. k 6n<(k+1) Notons que X P(Ak) 6 k 2 6n<(k+1)2 X 6 k 2 6n<(k+1)2 P(|Sn − Sk2| > εk 2) Var(Sn − Sk2) ε2k 4 par l’inégalité de Bienaymé-Chebychev. Or, Sn − Sk2 = Xk2 +1 + Xk2+2 + ··· + Xn a même loi que Sn−k2 = X1 + ··· + Xn−k2. Pn en déduit que Var(Sn − Sk2) 6 (n − k 2)Var(X1) et donc P(Ak) 6 ((k + 1)2 − k 2)2 Var(X1) . ε2 k 4 Comme (k + 1)2 − k 2 = 2k + 1, on voit que le majorant est sommable en k. Le lemme de Borel-Cantelli implique donc que presque surement, pour tout k assez grand, on a que Mk = max k2 6n<(k+1)2 |Sn − Sk2| 6 εk 2 . 93 7.2 La loi forte des grands nombres Soit alors n ∈ N∗, et k = k(n) ∈ N l’unique entier tel que k 2 6 n < (k + 1)2. On a alors Sn k 2 Sk2 Mk 6 · n n k 2 + k2 et donc, presque surement, Sn limsup 6 ε. n n→∞ Ceci étant valable pour tout nombre rationnel ε > 0, on déduit que Sn/n converge vers 0 presque surement. 7.2.3 Le cas L1 par la méthode d’écrêtement Nous allons donner maintenant une première preuve du théorème 7.2 due à Etemadi. Dans un premier temps, nous remarquons que si l’on écrit Xn = Xn+ − Xn−, alors Sn X1+ + ··· + Xn+ X1− + ··· + Xn− = − n n n où les variables X1+, X2+, ... d’une part et X1−, X2−, ... d’autre part sont i.i.d. et positives, d’espérances finies. Il suffit donc de montrer le théorème pour des variables aléatoires positives, ce que l’on suppose maintenant. Attention, on prendra garde au fait que l’on ne peut plus dès lors supposer les variables centrées ! Nous utilisons maintenant la notion de variable aléatoire tronquée, et posons Yn = Xn1{Xn 6n} . Lemme 7.7. Presque surement, on a que Yn = Xn pour tout n assez grand. Démonstration. Notons que {Xn = Yn } = {Xn 6 n}. Si l’on pose An = {Xn > n} alors Z ∞ X X P(X1 > x)dx = E[X1] < ∞ P(An) = P(X1 > n) 6 n>1 n>1 0 où l’on a utilisé la comparaison entre une somme et une intégrale, puis l’exercice apparaissant en dessous de la proposition 5.12. On en déduit par le lemme de BorelCantelli que, presque surement, Xn 6 n pour tout n assez grand, et on conclut. Ainsi, en notant Tn = Y1 + ··· + Yn, il suffit de montrer que Tn/n converge vers E[X1] presque surement pour obtenir que Sn/n converge également vers E[X1] p.s. À ce stade, on utilise une idée similaire à la preuve de la loi forte des grands nombres dans le cas L2 : nous montrons la convergence de Tn/n le long d’une sous-suite. Cette fois, on fixe α > 1 et on pose k(n) = ⌊αn ⌋. On a alors, par l’inégalité de BienayméChebychev, X 1 X Var(Tk(n)) P(|Tk(n) − E[Tk(n)]| > εk(n)) 6 2 ε k(n)2 n>1 n>1 k(n) 1 X Var(Ym) 6 2 k(n)2 ε n>1 m=1 X 1 1X Var(Ym) 6 2 . k(n)2 ε 1X m>1 n:k(n)>m 94 Lois des grands nombres Comme k(n) > αn/2 pour tout n > 1, on peut comparer la dernière somme à une série géométrique : si n0 est le plus petit entier tel que ⌊αn ⌋ > m X n:k(n)>m X 1 1 4 4 1 6 4 = α−2n0 6 · 2. 2 2n −2 −2 k(n) α 1−α 1−α m n>n0 et l’on obtient qu’il existe une constante C dépendant seulement de α et ε telle que X n>1 P(|Tk(n) − E[Tk(n)]| > εk(n)) 6 C X Var(Ym) . m2 m>1 (7.2) Montrons que cette dernière somme est finie. Pour cela, on écrit (en utilisant une nouvelle fois l’exercice après la proposition 5.12) Z ∞ Z m Z m 2 Var(Ym) 6 E[Ym] = 2yP(Ym > y) dy = 2yP(Xm > y) dy = 2yP(X1 > 0 0 0 y) dy . On en déduit X 1 Z ∞ X Var(Ym) 6 2y1[0,m](y)P(X1 > y) dy m2 0 m2 m>1 m>1 Z ∞ ∞ X 1 2yP(X1 > y)dy 6 m2 0 m=⌈y ⌉ Z ∞ P(X1 > y)dy =C ′E[X1] < ∞ 6 C′ 0 pour une constante universelle C ′, et en utilisant que la somme de Riemann P m −2 est équivalente à y −1 lorsque y → ∞. En combinant cela avec (7.2), le m>⌈y ⌉ lemme de Borel-Cantelli montre que presque surement, pour tout n assez grand, on a |Tk(n) − E[Tk(n)]| 6 ε. k(n) Comme cela est valide pour tout ε > 0 rationnel, on en déduit que |Tk(n) − E[Tk(n)]|/ k(n) converge presque surement vers 0. Ensuite, on déduit que Tk(n)/k(n) converge p.s. vers E[X1], puisque par convergence dominée on a E[Yn] → E[X1], et donc par le lemme de Cesaro, E[Tk(n)]/k(n) → E[X1]. Enfin, si l’on se donne n > 1, soit m = m(n) l’unique entier tel que k(m) 6 n < k(m + 1). On a alors Tk(m+1) k(m + 1) Tk(m) k(m) Tn · 6 6 · . k(m + 1) k(m) n k(m) k(m + 1) En faisant tendre n → ∞ on en déduit que presque surement, 1 Tn Tn E[X1] 6 liminf 6 limsup 6 αE[X1] . α n→∞ n n→∞ n Comme α peut être n’importe quel nombre rationnel strictement plus grand que 1, on conclut. 95 7.2 La loi forte des grands nombres 7.2.4 Le cas L1 : une seconde preuve Nous proposons maintenant une preuve entièrement différente du théorème 7.2. Fixons a > E[X1] et notons Mk = max (Sn − na) . 06n6k Alors la suite (Mk , k > 0) de variables aléatoires est clairement croissante, et converge presque surement vers une limite M = supn>0 (Sn − na) à valeurs dans [0, ∞]. Notons alors que pour tout k > 0, {M = ∞} = {supn>k (Xk+1 + Xk+2 + ··· + Xn − na) = ∞} est un événement mesurable par rapport à σ(Xk+1, Xk+2, ...). Ainsi, ce même événement appartient à la tribu asymptotique des variables aléatoires X1, X2, ... De ce fait, on a P(M = ∞) ∈ {0, 1} par la loi du 0-1 de Kolmogorov. Supposons par l’absurde que l’on ait P(M = ∞) = 1. On note alors S0′ = 0 et Sn′ = X2 + ··· + Xn+1 pour tout n > 1, de sorte que par regroupement par paquets, la suite (Sn′ , n > 0) soit de même loi que (Sn , n > 0), et indépendante de X1 (puisque clairement mesurable par rapport à σ(X2, X3, ...)). On a alors, pour tout k > 1, Mk = 0 ∨ max (Sn − na) 16n6k = 0 ∨ max (Sn+1 − (n+1)a) 06n6k −1 = 0 ∨ max (X1 − a+Sn′ − na) 06n6k −1 = 0 ∨ ((X1 − a) + Mk′ −1) , ′ où Mk−1 = max06n6k−1 (Sn′ − na). Finalement, cela implique ′ ′ Mk − Mk−1 = (X1 − a) ∨ (−Mk−1 ). Notons que Mk est clairement d’espérance finie comme maximum d’un nombre fini de variables aléatoires intégrables. De plus, Mk′ a même loi que Mk (pour s’en convaincre, on peut écrire Mk comme une fonction mesurable de X1, ..., Xk, et constater que Mk′ s’exprime comme la même fonction de X2, ..., Xk+1) et donc ′ ′ E[Mk − Mk−1 ] = E[Mk] − E[Mk−1 ] = E[Mk] − E[Mk−1] = E[Mk − Mk−1] > 0, ′ la suite (Mk , k > 0) étant croissante. D’un autre côté, l’on a que (X1 − a) ∨ (−Mk−1 ) + ′ est dominée par (X1 − a) , et converge presque surement vers (X1 − a) ∨ (−M ), où M ′ est la limite de Mk′ lorsque k → ∞. Mais notons que pour tout x ∈ R, P(M ′ 6 x) = lim P(Mk′ 6 x) = lim P(Mk 6 x) = P(M 6 x) = 0 k k où l’on a utilisé le fait que les événements {M ′ 6 x} et {M 6 x} sont les réunions décroissantes des événements {Mk′ 6 x} et {Mk 6 x} lorsque k → ∞, le fait que Mk et Mk′ ont même loi, et enfin le fait que P(M < ∞) = 0 par hypothèse. On déduit que P(M ′ = ∞) = 1 également, et donc (X1 − a) ∨ (−M ′) = X1 − a presque surement. De cela, on déduit par convergence dominée que E[(X1 − a) ∨ (−Mk′ −1)] −→ E[X1 − a] < 0, k→∞ 96 Lois des grands nombres par hypothèse sur a. Comme on a montré par ailleurs que ces espérances sont toutes positives, on a une contradiction. On en déduit que presque surement, pour tout a rationnel strictement plus grand que E[X1], on a que supn>0 (Sn − na) < ∞, et par conséquent Sn limsup 6 a. n→∞ n En faisant tendre a vers E[X1], on déduit que limsupn→∞ Sn/n 6 E[X1], et quitte à changer Xn en −Xn, on déduit également que liminfn→∞ Sn/n > E[X1] p.s. D’où le résultat. 7.2.5 Quelques ramifications de la loi des grands nombres Cas d’une espérance bien définie, mais infinie La loi forte des grands nombres reste valable dès lors que E[X1] est bien définie, et éventuellement infinie. En effet, si par exemple E[X1+] = ∞ et E[X1−] < ∞, et en écrivant que Sn > (X1+ ∧ K + ··· + Xn+ ∧ K) − (X1− + ··· + Xn−), on voit bien que pour tout K > 0, Sn > E[X1+ ∧ K] − E[X1−] liminf n→∞ n presque surement. Lorsque K → ∞, ce minorant converge vers E[X1] = ∞ par convergence monotone. Cas où l’espérance n’existe plus nécessairement Si X est une variable aléatoire intégrable, alors on a, pour tout x > 0, P(|X | > x) 6 E[|X |1{|X |>x}] , x ce qui s’obtient comme étape intermédiaire dans la preuve de l’inégalité de Markov. Comme le numérateur du majorant tend vers 0 quand x → ∞ par convergence dominée (par |X |), on obtient que P(|X | > x) = o(1/x). En revanche, cette dernière condition n’implique pas en général que X soit intégrable ! On a néanmoins le résultat suivant, que nous énonçons sans preuve. Théorème 7.8. Soit X1, X2, ... une suite i.i.d. de variables aléatoires, vérifiant xP(X1 > x) −→ 0. x→∞ Notons Sn = X1 + ··· + Xn et mn = E[X11{|X1|6n}]. Alors P Sn − mn −→ 0. n→∞ n 7.3 Quelques applications 7.3.1 Marches aléatoires non centrées On obtient comme conséquence immédiate de la loi forte des grands nombres qu’une marche aléatoire non centrée tend vers l’infini. En effet, soit X1, X2, ... des variables aléatoires indépendantes et de même loi, dans L1, et Sn = X1 + ··· + Xn. 97 7.3 Quelques applications Si E[X1] = / 0, on a immédiatement que |Sn | → ∞ presque surement lorsque n→ ∞ par la loi forte des grands nombres. On pourra mettre ce résultat en contraste avec le corollaire 6.17. 7.3.2 Approximation d’intégrales par la méthode de MonteCarlo Supposons que l’on ait à calculer l’intégrale suivante Z f (x)λ(dx) I(f ) = [0,1]d où f: [0, 1]d → R est une fonction intégrable. Soit U1, U2, ... une suite de variables aléatoires indépendantes de loi uniforme sur le cube [0, 1]d. Alors les variables aléatoires f (U1), f (U2), ... sont indépendantes, intégrables et d’espérance I(f ). La loi des grands nombres garantit donc que f (U1) + ··· + f (Un) = I(f ) . n n→∞ lim Ceci fournit donc une méthode d’approximation d’une intégrale sur [0, 1]d, puisque les variables aléatoires Ui sont aisées à simuler, dès lors que l’on dispose d’une fonction « rand » renvoyant (au moins théoriquement) une suite de variables aléatoires indépendantes uniformes sur [0, 1]. En effet, les coordonnées des variables aléatoires Ui sont elles-mêmes indépendantes et uniformes sur [0, 1]. La loi des grands nombres ne dit cependant rien a priori sur la vitesse de conver√ gence vers l’intégrale. On verra au chapitre suivant qu’elle est de l’ordre de 1/ n . Cette vitesse est relativement mauvaise si l’on compare aux méthodes numériques usuelles disponibles pour d = 1 (méthode des trapèze, de Simpson, etc...). Cependant, la méthode présentée ici, dite méthode de Monte Carlo, présente plusieurs avantages : • • son efficacité ne dépend ni de la régularité de f , ni de la dimension si l’on connaît In(f ) = (f (U1) + ··· + f (Un))/n, le calcul de In+1(f ) demande très peu d’opérations, là où des méthodes plus standard demanderaient de raffiner des partitions de [0, 1]. Le premier point est particulièrement important, et de fait, la méthode de Monte Carlo et ses variantes est utilisée presque systématiquement pour estimer des intégrales de grande dimension. Chapitre 8 Convergence en loi et théorème central limite Au chapitre précédent, on a vu que la loi des grands nombres donnait un comportement asymptotique « au premier ordre » de la somme d’une suite de variables aléatoires. Par exemple, si X1, X2, ... est une suite de variables aléatoires indépendantes, de loi de Bernoulli de paramètre 1/2, alors on a presque surement, lorsque n → ∞, X1 + ··· + Xn 1 = + o(1) . n 2 La limite est la constante déterministe 1/2 : un des aspects surprenants de ce résultat est l’émergence d’un « ordre » dans le « désordre » apparent d’une suite de variables aléatoires indépendantes (voir par exemple notre discussion sur l’apparition de tous les motifs finis dans la suite X1, X2, ...) Il est alors légitime de se demander si l’on peut déterminer l’ordre supérieur de la convergence, c’est-à-dire expliciter le terme o(1). C’est là que le caractère aléatoire refait surface : le théorème central limite stipule que pour n grand, N X1 + ··· + Xn loi 1 ≃ + √ 2 2 n n où N est une variable aléatoire aléatoire gaussienne centrée de variance 1. Le terme d’erreur o(1) ci-dessus est donc intrinsèquement aléatoire. Cependant, nous allons devoir expliquer le sens de l’approximation ci-dessus. 8.1 Convergence étroite, convergence en loi La convergence en loi est pour ainsi dire le quatrième mode de convergence fondamental utilisé en théorie des probabilités, avec ceux discutés dans le chapitre précédent. Elle tient pourtant une place à part, car elle concerne non pas les variables aléatoires à proprement parler, mais plutôt leurs lois. Nous notons Cb(Rd) l’espace des fonctions continues bornées sur Rd et à valeurs dans R. Définition 8.1. Une suite (µn) de mesures de probabilités sur Rd converge étroitement vers une mesure de probabilités µ sur Rd si pour toute fonction f ∈ Cb(Rd), on a Z Z f (x)µn(dx) −→ f (x)µ(dx) . Rd n→∞ Rd 99 100 Convergence en loi et théorème central limite On dit qu’une suite (Xn) de variables aléatoires à valeurs dans Rd converge en loi vers la variable aléatoire X sur Rd si la suite (PXn) converge étroitement vers PX. Autrement dit, la suite (Xn) converge en loi vers X si pour toute fonction f ∈ Cb(Rd) l’on a que E[f (Xn)] −→ E[f (X)] . n→∞ Comme remarqué plus haut, la convergence en loi de variables aléatoires est une propriété de leurs lois, plutôt que des variables aléatoires elles-même. Ainsi, si (Xn) converge en loi vers X, alors (Xn) converge également en loi vers n’importe quelle variable aléatoire X ′ de même loi que X ! On notera respectivement (e) µn−→ µ , loi Xn−→X , pour dire qu’une suite de mesures de probabilités converge étroitement vers µ (respectivement, qu’une suite de variables aléatoires converge en loi vers X). 8.1.1 Exemples élémentaires Lois sur N Proposition 8.2. Une suite (µn) de mesures de probabilités sur N converge étroitement vers la mesure de probabilités µ sur N si et seulement si µn(k) → µ(k) pour tout k ∈ N. De façon équivalente, une suite de variables aléatoires (Xn) à valeurs dans N converge en loi vers la variable aléatoire X à valeurs dans N, si et seulement si P(Xn = k) −→ P(X = k) n→∞ pour tout k ∈ N. (8.1) Démonstration. Nous montrons la deuxième formulation de la proposition, en termes de convergence en loi. La condition nécessaire est facile à vérifier. Si (Xn) converge en loi vers X et si f (x) = (1 − |x − k |)+, qui est une fonction continue bornée valant 1 en un entier k et 0 en tout autre entier, on a bien P(Xn = k) = E[f (Xn)] −→ E[f (X)] = P(X = k) lorsque n → ∞. Montrons la condition suffisante, en supposant (8.1). Soit f une fonction continue et bornée sur R. Alors E[f (X)] = X f (k)P(X = k) = f (k)P(X = k) + RN k=0 k∈N où RN vérifie N X |RN | 6 kf k∞ P(X > N ) −→ 0. n→∞ Bien sûr, E[f (Xn)] satisfait une propriété analogue. Soit ε > 0. Choisissons N > 0 tel que |RN | < ε/(2kf k∞). Notons que l’on a P(Xn > N ) = 1 − P(Xn 6 N ) = 1 − N X k=0 P(Xn = k) −→ 1 − n→∞ N X k=0 P(X = k) = P(X > N ) , 101 8.1 Convergence étroite, convergence en loi et par conséquent, on il existe n0 tel que pour tout n > n0, on ait P(Xn > N ) < ε/(2kf k∞). Pour un tel choix de N et n0, on a alors N N X X |E[f (Xn)] − E[f (X)]| 6 f (k)P(Xn = k) − f (k)P(X = k) + ε , k=0 k=0 et donc la limite supérieure du membre de gauche est majorée par ε. On conclut. Par exemple, si Poi(θ) est la loi de Poisson de paramètre θ, et si la suite numé(e) rique (θn) converge vers θ > 0, alors Poi(θn)−→Poi(θ). Lemme de Scheffé et convergence ponctuelle de densités La proposition suivante est une sorte d’analogue « continu » de la proposition précédente. Proposition 8.3. Soit (fn) une suite de densités de probabilités sur Rd. On suppose que fn(x) → f (x) pour presque tout x ∈ Rd, où f est une densité de probabilités. Alors (e) fn(x)dx −→ f (x)dx. n→∞ Démonstration. Sous les hypothèses de la proposition, on a que fn −→ f dans L1(Rd). En effet, ceci s’obtient facilement en appliquant le lemme de Fatou à la suite de fonctions positives hn = fn + f − |fn − f | = 2 f ∧ fn. On obtient ainsi que, sous nos hypothèses, Z Z Z Z |fn − f | > 2 f − limsup hn = 2 liminf Rd Rd Rd Rd liminf fn ∧ f = 2 R En soustrayant on voit que limsup Rd |fn − f | = 0. Ensuite, soit g une fonction continue bornée sur Rd. On a Z Z 6 kgk∞kf − fn k1 −→ 0. g(x)f (x)dx − g(x)f (x)dx n Rd Z f. Rd n→∞ Rd Ainsi, on voit par exemple que les lois exponentielles de paramètre θn convergent étroitement vers la loi exponentielle de paramètre θ > 0 dès lors que θn → θ. Remarque. La convergence étroite est une notion de convergence qui provient d’une topologie (dite topologie étroite) sur l’ensemble des mesures de probabilités sur Rd. Si l’on voit ce dernier comme un sous-espace du dual de l’espace (Cb(Rd), k·k∞), une mesure de probabilités µ étant clairement associée à la forme linéaire continue sur Cb(Rd) Z f 7→ f (x)µ(dx) , Rd alors la topologie étroite est la restriction à ce sous-espace de la topologie dite faible*. 102 Convergence en loi et théorème central limite Terminons avec un exemple « mixte », illustrant comment les lois continues peuvent être approchées étroitement par des lois discrètes. Exemple d’approximation de la mesure de Lebesgue Pour illustrer la notion de convergence étroite, notons que si n µn(dx) = 1 X δk/n , n+1 k=0 alors µn converge étroitement vers la mesure R de Lebesgue sur [0, 1]. En effet, si f est une fonction continue bornée, l’intégrale R f (x)µn(dx) est une somme de Riemann R 1 de f , qui converge vers 0 f (x)dx. Ainsi, une variable aléatoire uniforme sur {0, 1/n, 2/n..., n/n} converge en loi vers une variable aléatoire uniforme sur [0, 1]. 8.1.2 Liens avec les autres notions de convergence. Le lien avec les notions de convergences déjà étudiées est donné par les résultats suivants. Convergence en probabilité Proposition 8.4. Soit (Xn) une suite de variables aléatoires convergeant en probabilité vers X. Alors Xn converge en loi vers X. Démonstration. Supposons que (Xn) converge en probabilités vers X. Supposons par l’absurde que Xn ne converge pas en loi vers X, et donc qu’il existe une fonction f continue bornée, et un ε > 0, tels que |E[f (Xn)] − E[f (X)]| > ε pour tout n dans un ensemble A = {n1, n2, ...} infini, avec n1 < n2 < .... Or on sait que l’on peut extraire une suite extraite de (Xnk) qui converge p.s. vers X. Comme f est continue et bornée, le théorème de convergence dominée montre alors que E[f (Xnk)] −→ E[f (X)] le long de cette sous-suite, ce qui est évidemment absurde. Il existe une situation où la réciproque est vraie. Proposition 8.5. Si la suite de variables aléatoires (Xn) converge en loi vers une variable aléatoire constante p.s. (c’est-à-dire que sa loi est une masse de Dirac), alors elle converge en probabilité. loi Démonstration. Supposons que Xn−→ c où c ∈ Rd est une constante. Fixons ε > 0. Posons f (x) = min (|(x − c)/ε|, 1), de sorte que f est continue, bornée, nulle en c, et vérifiant 1{|x−c|>ε} 6 f(x) pour tout x. Alors P(|Xn − c| > ε) = E[1{|Xn −c|>ε}] 6 E[f (Xn)] −→ E[f (c)] = 0. n→∞ Remarque. Cette dernière propriété peut paraître un peu surprenante au premier abord : en effet, la convergence en loi ne dépend pas de l’espace de probabilités sur lequel on se place, au contraire de la convergence en probabilité. La subtilité est que la probabilité P(|Xn − X | > ε) ne dépend, dans le cas où X est une constante, que de la loi de Xn ! 8.1 Convergence étroite, convergence en loi 103 Convergence en variation totale Comme il a été vu au cours d’intégration du premier semestre, il y a, en plus de la topologie étroite, une autre topologie naturelle sur les mesures de probabilités sur Rd. En effet, on peut voir ces dernières comme un sous-ensemble convexe fermé de l’espace de Banach des mesures signées sur Rd, muni de la norme de variation totale k·k. Plus précisément, supposons que ν soit une mesure signée sur Rd, de masse totale ν(Rd) = 0. Alors pour tout A ∈ B(Rd), on a ν(A) + ν(Ac) = ν(Rd) = 0, et donc 2|ν(A)| = |ν(A) − ν(Ac)| 6 |ν(A)| + |ν(Ac)| 6 kν k , par définition de la variation totale. Mais d’autre part, rappelons que la décomposition de Jordan de ν exprime qu’il existe B ∈ B(Rd) tel que ν(· ∩ B) et −ν(· ∩ B c) sont deux mesures positives finies, et que kν k = ν(B) − ν(B c) = 2ν(B). De cela, on déduit que kν k = 2 sup |ν(A)| . A∈B(Rd) Ainsi, la suite (µn) de mesures de probabilités sur Rd converge vers µ en norme de variation totale si et seulement si |µn(A) − µ(A)| converge vers 0 uniformément en A ∈ B(Rd). Ceci illustre le fait que la convergence en norme de variation totale est beaucoup plus « rigide » que la convergence étroite. Dans le dernier exemple du paragraphe précédent, on a clairement que kµn − µk ne converge pas vers 0, puisque par exemple µn(Q) = 1 et µ(Q) = 0. 8.1.3 Caractérisations de la convergence en loi La définition de la convergence en loi ne fournit pas vraiment de critère pratique pour montrer qu’une suite de variables aléatoires (Xn) donnée converge en loi. Nous allons donc donner plusieurs formulations équivalentes. Théorème 8.6. Soit (Xn) et X des variables aléatoires à valeurs dans Rd. Les propositions suivantes sont équivalentes. 1. La suite (Xn) converge en loi vers X 2. pour toute fonction f bornée et 1-lipschitzienne, on a limn E[f (Xn)] = E[f (X)] 3. pour tout ouvert O de Rd, on a liminfn P(Xn ∈ O) > P(X ∈ O) 4. pour tout fermé F de Rd, on a limsupn P(Xn ∈ F ) 6 P(X ∈ F ) 5. pour tout A ∈ B(Rd) tel que P(X ∈ ∂A) = 0, on a limn P(Xn ∈ A) = P(X ∈ A) 6. pour toute fonction f : Rd → R mesurable bornée, continue PX-presque partout, on a limn E[f (Xn)] = E[f (X)]. Notons que ce théorème admet une reformulation en termes R de convergence étroite de mesures de probabilités : on remplacera E[f (X)] par f dµ, P(X ∈ A) par µ(A), PX par µ, etc. Démonstration. Les implications 1. =⇒ 2. et 6.=⇒1. sont évidentes, de même que l’équivalence entre 3. et 4. par un simple passage au complémentaire. 104 Convergence en loi et théorème central limite Montrons que 2.=⇒4. Soit donc F un fermé de E. Pour tout K > 0, on considère la fonction fF ,K (x) = (1 − Kd(x, F ))+ , qui est lipschitzienne et vérifie 1F 6 fF ,K 6 1. Ainsi, pour tout n ≥ 1 on a P(Xn ∈ F ) 6 E[fF ,K (Xn)], et comme on a supposé 2., on en déduit que limsup P(Xn ∈ F ) 6 E[fF ,K (X)] . Comme fF ,K converge vers 1F ponctuellement et est bornée par 1, on en déduit par convergence dominée que limsupn P(Xn ∈ F ) 6 P(X ∈ F ). Montrons que 3. et 4. impliquent 5. Soit donc A ∈ B(Rd). On applique 3. et 4. aux ensembles A◦ et A (intérieur et adhérence de A), et on trouve P(X ∈ A◦) 6 liminf P(Xn ∈ A◦) ≤ limsup P(Xn ∈ A ) 6P(X ∈ A ) . Mais si l’on a P(X ∈ ∂A) = 0, alors P(X ∈ A◦) = P(X ∈ A ) = P(X ∈ A), et l’on obtient ce que l’on voulait. Montrons enfin que 5.=⇒6. Soit donc f une fonction continue PX -presque partout et bornée. Sans perte de généralité, on peut supposer que f est positive (on peut en effet écrire f = f+ − f− et raisonner sur chaque terme). Soit D l’ensemble des points de discontinuité de f . Notons d’abord que pour toute mesure de probabilités ν sur Rd, on a Z ∞ Z ν({f ≥ y })dy . (8.2) f (x)ν(dx) = Rd 0 C’est en effet une conséquence immédiate du théorème de Fubini, en écrivant l’intégrale Z Z Z Z ∞ ν(dx) Rd ∞ 1[0,f (x)](y)dy = 0 0 dy Rd ν(dx)1{f (x)≥y} . Par ailleurs, pour tout y ≥ 0, notons A y = {x: f (x) ≥ y }. Soit x ∈ A y, de sorte que x est limite d’une suite xn telle que f (xn) ≥ y. Si x ∈ / D, c’est-à-dire si x est point de continuité de f , alors on a aussi f (x) ≥ y. Donc A y ⊆ Ay ∪ D. Par ailleurs, si f (x) > y et x ∈ / D, alors on a également f (x ′) > y pour x ′ dans un voisinage de x. Donc {f > y } \ D ⊆ A◦y . Finalement, on en déduit que ∂A y ⊆ {f = y } ∪ D Par ailleurs, l’ensemble {y ≥ 0: PX ({f = y }) > 0} est au plus dénombrable. Il est en effet la réunion des ensembles {y ≥ 0: PX ({f = y }) ≥ 1/r}, r ≥ 1, qui sont respectivement de cardinal au plus r, puisque les ensembles {f = y } sont deux-àdeux disjoints. Par 6., on en déduit que pour Lebesgue-presque tout y ≥ 0, on a P(Xn ∈ Ay ) → P(X ∈ A y) quand n→ ∞. Donc par convergence dominée, en utilisant (5.2) et le fait que f est bornée, on a Z ∞ Z P(Xn ∈ A y)dy f (x)PXn(dx) = E[f (Xn)] = 0 Rd Z kf k∞ P(Xn ∈ A y)dy = 0 Z kf k∞ P(X ∈ Ay )dy = E[f (X)], −→ n→∞ comme voulu. 0 8.1 Convergence étroite, convergence en loi 105 Remarque. Ce théorème est souvent appelé « théorème du porte-manteau », ce qui peut paraître surprenant. Il semble que cela soit dû au nombre et à la variété des énoncés équivalents qui apparaissent dans son énoncé, comme autant d’habits appartenant à la même notion. Pour rendre les choses encore un peu plus confuses, le mathématicien Patrick Billingsley, dans l’édition de 1999 de son livre Convergence of probability measures, s’est permis la facétie d’attribuer ce résultat à un mathématicien imaginaire du nom de Jean-Pierre Portmanteau, citant un article tout aussi imaginaire de 1915... En réalité, l’énoncé semble remonter à Alexandrov dans les années 1940. On a également la possibilité de restreindre la classe des fonctions-test. Notons Cc(Rd) l’ensemble des fonctions continues à support compact définies sur Rd. Proposition 8.7. Soit H un sous-ensemble de fonctions mesurables bornées définies sur Rd, et dont l’adhérence pour la norme uniforme contient Cc(Rd). Soit (Xn) et X des variables aléatoires à valeurs dans Rd. Si l’on a que E[f (Xn)] −→ E[f (X)] loi pour tout f ∈ H, alors Xn−→X. Démonstration. Supposons dans un premier temps que les hypothèses du théorème sont vérifiées avec H = Cc(Rd). Pour r > 0, soit χr(x) = 0 ∨ (r + 1 − |x|) ∧ 1, de sorte que χr est positive, continue, bornée par 1, égale à 1 sur BRd(0, r) et nulle hors de BRd(0, r + 1). Si f ∈ Cb(Rd) alors fχr ∈ Cc(Rd), et donc E[(fχr)(Xn)] −→ E[(fχr)(X)] par hypothèse. On a alors |E[f(Xn)] − E[f (X)]| 6 |E[(fχr)(Xn)] − E[(fχr)(X)]| +kf k∞(E[(1 − χr)(Xn)] + E[(1 − χr)(X)]) Pour conclure, notons que E[χr(Xn)] → E[χr(X)], et donc limsup |E[f (Xn)] − E[f (X)]| 6 2kf k∞ E[(1 − χr)(X)] 6 2kf k∞ P(|X | > r). n→∞ La quantité de droite converge vers 0 lorsque r → ∞, et on conclut dans ce cas. Dans le cas général où H est un ensemble de fonctions mesurables dense dans Cc(Rd), donnons-nous f ∈ Cc(Rd), et g ∈ H telle que kf − g k∞ 6 ε/2. Alors, comme on a |E[f (X)] − E[g(X)]| 6 kf − gk∞, et de même avec Xn à la place de X, on déduit que limsup |E[f (Xn)] − E[f (X)]| 6 ε + limsup |E[g(Xn)] − E[g(X)]| = ε n→∞ n→∞ par hypothèse. On en conclut que E[f(Xn)] −→ E[f (X)] pour tout f ∈ Cc(Rd), et on conclut par la première partie de la preuve. On déduit des résultats précédents un critère de convergence en loi de variables aléatoires réelles faisant intervenir les fonctions de répartition. Corollaire 8.8. La suite (Xn) de variables aléatoires réelles converge vers la variable aléatoire réelle X si et seulement si FXn(x) −→ FX (x) pour tout x qui est un point de continuité de FX , c’est-à-dire que P(X = x) = 0. 106 Convergence en loi et théorème central limite loi Démonstration. Supposons que Xn−→X. Soit x un point de continuité de FX . On applique le point 5. du théorème 8.6 à l’ensemble A = ]−∞, x], dont la frontière ∂A = {x} n’est pas chargée par PX puisque PX ({x}) = P(X = x). On obtient bien que lim P(Xn 6 x) = P(X 6 x) . n→∞ Réciproquement, supposons que FXn → FX en tout point de continuité de FX . Notons D l’ensemble des points de discontinuité de FX . Alors D est au plus dénombrable. De plus, si a, b ∈ / D et a < b, on a que P(Xn ∈ ]a, b]) = FXn(b) − FXn(a) −→ FX (b) − FX (a) = P(X ∈ ]a, b]). Soit H l’espace vectoriel engendré par les fonctions 1]a,b] avec a, b ∈ R\D. Alors la convergence ci-dessus s’étend, par linéarité de l’espérance, à E[f (Xn)] −→ E[f (X)] pour tout f ∈ H. Comme H est dense dans Cc(Rd) pour la norme uniforme, on conclut par la proposition 8.7. Enfin, nous montrons que la convergence en loi peut être formulée en termes des fonctions caractéristiques. Théorème de Lévy. La suite de mesures de probabilités (µn) sur Rd converge étroitement vers la mesure de probabilités µ si et seulement si pour tout ξ ∈ Rd, on a µ̂n(ξ) −→ µ̂(ξ) . n→∞ Autrement dit, la suite de variables aléatoires (Xn) converge en loi vers X si et seulement si, pour tout ξ ∈ Rd, on a ϕXn(ξ) −→ ϕX (ξ) . n→∞ (e) Démonstration. La condition nécessaire est facile : si µn−→ µ, alors, comme pour d iξx Rtoutiξxξ ∈ R , la fonction x 7→ e Restiξxcontinue et bornée, on a bien que µ̂n(ξ) = e µn(dx) converge vers µ̂(ξ) = e µ(dx). Pour le sens réciproque, supposons que µ̂n → µ̂ ponctuellement. Soit f ∈ Cc(Rd). Si f était la transformée de Fourier d’une fonction ϕ, l’on pouvait écrire Z Z ϕ(ξ)µ̂n(ξ)dξ f(x)µn(dx) = Rd Rd par la formule de réciprocité de la transformation de Fourier, et essayer de passer à la limite dans l’intégrale. L’idée est donc de remplacer f par une fonction proche, qui soit une transformée de Fourier. Soit σ > 0, et soit gσ la densité gaussienne de la loi N (0, σ 2). La transformée de Fourier de gσ ∗ f est (2π/σ 2)d/2 g1/σ fˆ, qui est dans L1. En effet, le fait que f soit à support compact implique que fˆ est bornée, et g1/σ est dans L1. On note Rϕ = (2π/σ 2)d/2 g1/σ fˆ cette fonction, où l’on rappelle la notation Rϕ(x) = ϕ(−x). La formule d’inversion de Fourier implique que ϕ̂ = f , et l’on a donc par la discussion ci-dessus que Z Z gσ ∗ f (x)µn(dx) = ϕ(ξ)µ̂n(ξ)dξ. Rd Rd 107 8.2 Le théorème central limite Comme |µ̂n(ξ)| 6 1 et |ϕ(ξ)| 6 (2π/σ 2)d/2 fˆ ∞ g1/σ(ξ) est intégrable, la convergence dominée montre que ceci converge lorsque n → ∞ vers Z Z ϕ(ξ)µ̂(ξ)dξ = gσ ∗ f (x)µ(dx) , Rd Rd où l’on a utilisé à nouveau la formule de réciprocité. R R Nous avons donc obtenu que h dµn −→ h dµ pour toute fonction h dans l’ensemble H = {gσ ∗ f : f ∈ Cc(Rd) , σ > 0}. Comme on a que gσ ∗ f converge vers f uniformément pour tout f ∈ Cc(Rd) par la proposition 1.9, on obtient que H est dense dans Cc(Rd) pour la norme uniforme, et on conclut par la proposition 8.7. 8.2 Le théorème central limite Si X1, X2, ... sont des variables aléatoires i.i.d. dans L1, la loi des grands nombres stipule que Sn/n converge vers E[X1] p.s. Comme on l’a dit au début du chapitre, on cherche à donner un développement à l’ordre supérieur dans cette convergence, en donnant la vitesse à laquelle la quantité (Sn/n) −E[X1] converge vers 0. Notons que si les variables aléatoires considérées sont en fait dans L2, on a que la variance de Sn est de n Var(X1), ce qui indique que la distance à la moyenne de Sn est typiquement √ de l’ordre de n . Ceci justifie la renormalisation choisie dans l’énoncé suivant. Théorème central limite. Soit (X1, X2, ...) une suite de variables aléatoires réelles dans L2 , indépendantes et de même loi. On suppose que σ 2 = Var(X1) > 0. Soit Sn = X1 + ··· + Xn. Alors on a Sn − nE[X1] loi √ −→ N (0, 1) . n→∞ σ n Démonstration. Quitte à remplacer Xn par Xn − E[X1], on suppose sans perte de généralité que les variables aléatoires sont centrées. Sous l’hypothèse que X1 ∈ L2, la fonction caractéristique ϕX est de classe C 2(R, C), et l’on a, par la formule de Taylor-Young, σ2 ϕX (ξ) = 1 − ξ 2 + o(ξ 2). 2 √ Calculons alors la fonction caractéristique de Sn/σ n : comme les X j , j > 1 sont indépendantes et de même loi, n Y √ √ √ E eiXjξ/σ n = ϕX1(ξ/σ n )n. ϕSn/σ√n (ξ) = E ei(X1 +···+Xn)ξ/σ n = j=1 Donc, pour tout ξ ∈ R, ϕSn/σ √ n ξ2 1 +o . n (ξ) = 1 − 2n n 108 Convergence en loi et théorème central limite Pour n assez grand la quantité entre parenthèses est dans la boule ouverte de rayon 1 centrée en 1, et on peut prendre la détermination principale du logarithme (ne pas oublier que la quantité entre parenthèses est un nombre complexe) 2 ξ ξ2 1 √ ϕSn/σ n (ξ) = exp n Log 1 − −→ exp − . +o n→∞ 2 2n n On reconnaît la transformée de Fourier de la densité gaussienne standard g1, et on conclut par le théorème de Lévy. Voici comment Galton décrit l’impression qu’exerce sur lui ce théorème. I know of scarcely anything so apt to impress the imagination as the wonderful form of cosmic order expressed by the "Law of Frequency of Error". The law would have been personified by the Greeks and deified, if they had known of it. It reigns with serenity and in complete self-effacement, amidst the wildest confusion. The huger the mob, and the greater the apparent anarchy, the more perfect is its sway. It is the supreme law of Unreason. Les Grecs l’auraient déifiée ! Pourquoi cette fascination ? Entre autres, du fait du caractère universel de la loi gaussienne qui est révélé par ce théorème. Sous la simple hypothèse de l’existence d’un moment d’ordre 2, c’est toujours la loi gaussienne qui régit les fluctuations de la somme d’une suite de variables aléatoires indépendantes et de même loi. Il y a aussi une forme de « miracle » dans le fait que la densité de la loi qui apparaît ainsi soit explicite, et aussi simple. Expliquons davantage la signification de ce théorème. Par la caractérisation de la convergence en loi par les fonctions caractéristiques, et comme la loi gaussienne est diffuse et admet donc une fonction caractéristique continue en tout point, on voit que le théorème est équivalent à dire que pour tout x ∈ R, Z x −y 2/2 e Sn − nE[X1] √ √ 6 x −→ dy , P n→∞ σ n 2π −∞ ou encore, que pour tout a, b ∈ R avec a < b, Z b −y 2/2 e Sn − nE[X1] √ √ P a6 6 b −→ dy . n→∞ σ n 2π a Application aux statistiques : estimation paramétrique et intervalles de confiance Cette reformulation a une importance cruciale en statistiques. Pour fixer les idées, la problématique de base de la statistique inférentielle est, étant donnée une réalisation donnée d’une suite de variables aléatoires i.i.d. X1(ω), X2(ω), ..., Xn(ω), de déterminer avec la meilleure précision possible la loi inconnue de ces variables aléatoires, ou certaines fonctions naturelles de cette loi. Par exemple, si l’on veut connaître l’espérance m de X1 (en supposant qu’elle existe), il est naturel de l’estimer à l’aide de la moyenne empirique des observations mn(ω) = X1(ω) + ··· + Xn(ω) , n 8.2 Le théorème central limite 109 dont on sait qu’elle converge pour presque tout ω vers E[X1]. On dit que mn est un estimateur consistant de m. Sous l’hypothèse que X1 est dans L2, le théorème central limite détermine l’erreur asymptotique que l’on commet en assimilant mn à m. Plus précisément, pour tout x > 0 on a Z ∞ −y2/2 σx e √ dy . (8.3) P |mn − m| > √ −→ 2 n→∞ n 2π x Si l’on choisit x = 1, 96, alors le membre de droite est inférieur à 0, 05. Ceci signifie que pour n √ assez grand, l’erreur que l’on commet en assimilant mn à m sera au plus de 1, 96.σ/ n , avec probabilité supérieure à 95%. On dit que l’intervalle 1, 96.σ 1, 96.σ (8.4) mn(ω) − √ , mn(ω) + √ n n est un intervalle de confiance (asymptotique, bilatère) pour m à 95%. Noter que l’on a ici deux niveaux d’incertitude, ce qui est une situation typique en statistiques : • on ne peut évidemment pas prétendre déterminer la valeur exacte de m à l’aide d’un nombre fini d’observations, mais seulement donner un intervalle de valeurs plausibles, et • on ne peut pas être parfaitement certain que m appartient à cet intervalle de confiance, mais seulement déterminer la probabilité qu’il s’y trouve. C’est sans doute avec ces applications statistiques à l’esprit que Galton parle du théorème central limite comme de la « loi de la fréquence des erreurs ». Il y a une confusion fréquemment faite sur le dernier point : comme m n’est pas une variable aléatoire, comment peut-on parler de la probabilité qu’il se trouve dans un intervalle ? Il faut comprendre qu’ici, c’est l’intervalle qui est aléatoire (il dépend de mn(ω), donc des observations). Prenons pour illustrer ceci l’exemple d’un sondage sur une opinion binaire (« oui ou non »). On partage la population française, de N individus, en deux parties de tailles N0 et N1 selon l’opinion (non/oui), et on note p = N1/N la proportion des habitants ayant l’opinion « oui ». C’est ce paramètre p, inconnu, qui intéresse le sondeur. Pour l’estimer, il va contacter un nombre n d’individus très petit devant N (typiquement, n = 1000 dans la vraie vie), et recueillir leur opinion. Si les individus sont choisis indépendamment et uniformément, on voit que la suite X1, X2, ..., Xn des opinions recueillies est i.i.d. de loi de Bernoulli de paramètre p (si l’on déclare que Xi = 1 si le i-ième individu contacté est d’opinion « oui », et Xi = 0 sinon). Pour estimer p à partir des informations recueillies, le sondeur forme la moyenne empirique X1(ω) + ··· + Xn(ω) pn(ω) = , n et en vertu des résultats précédents, il forme l’intervalle de confiance (8.4). Cepenp dant, on doit prendre garde au fait que dans cette situation, σ = p(1 − p) est un paramètre inconnu également. On peut néanmoins le majorer par 1/2, si bien que 0, 98 0, 98 pn(ω) − √ , pn(ω) + √ n n 110 Convergence en loi et théorème central limite est un intervalle de confiance asymptotique à 95% pour p. Pour que ce résultat soit parfaitement valide, il faudrait également estimer l’erreur commise en assimilant le membre de gauche de (8.3) et sa limite lorsque n → ∞. Ce genre d’estimation est possible, par exemple à travers le théorème de Berry-Esseen, même s’il requiert des hypothèses de moment supplémentaires. Néanmoins, ce résultat peut déjà nous √ renseigner sur la qualité d’un sondage auprès de 1000 personnes : on a que 0, 98/ 1000 = 0, 03099..., ce qui signifie que l’intervalle de confiance est de rayon 3%. Autrement dit, avec une probabilité de l’ordre de 95% au mieux, le paramètre p égale le résultat du sondage pn(ω) à plus ou moins 3% près. 8.3 Vecteurs aléatoires gaussiens et théorème central limite multidimensionnel Il existe une extension du théorème central limite au cas de variables aléatoires à valeurs dans Rd. Avant de l’énoncer, nous devons comprendre un peu mieux la nature des variables aléatoires gaussiennes à valeurs dans Rd. 8.3.1 Vecteurs aléatoires gaussiens Rappelons que pour m ∈ R et σ > 0, la loi N (m, σ 2) est la mesure de probabilités sur R de densité 1 (x − m)2 , x ∈ R. exp − 2σ 2 (2πσ 2)1/2 On étend cette définition au cas où σ = 0 en disant que la loi N (m, 0) est δm, ce qui est cohérent avec le fait que gσ soit une approximation de δ0 pour la convolution, lorsque σ → 0. En particulier, si X est une v.a. de loi N (0, σ 2), alors X + m a pour loi N (m, σ 2). Définition 8.9. Un vecteur aléatoire X = (X1, ..., Xd) à valeurs dans Rd est appelé un vecteur aléatoire gaussien si toute combinaison linéaire hξ , X i = ξ1X1 + ··· + ξdXd, avec ξ ∈ Rd est une variable aléatoire gaussienne réelle, c’est-à-dire qu’il existe m ξ ∈ R, σ ξ > 0 tels que hξ , X i a pour loi N (m ξ , σ 2ξ ). Remarque. Attention, cette propriété est plus forte que de stipuler que les variables aléatoires X1, ..., Xd sont des variables gaussiennes. Pour s’en convaincre, soit X une v.a. de loi N (0, 1), et soit ε une v.a. indépendante de X de loi uniforme sur {−1, 1}. Alors X et εX sont toutes deux de loi N (0, 1). En revanche, la loi de X + εX n’est pas gaussienne, car P(X + εX = 0) = P(ε = −1) = 1/2. Donc (X , εX) n’est pas un vecteur aléatoire gaussien. Soit X un vecteur aléatoire gaussien à valeurs dans Rd. Notons m = (m1, ..., md) son espérance, et Σ = (Cov(Xi , X j ), 1 6 i, j 6 d) sa matrice de variance-covariance. Rappelons que Σ est une matrice symétrique positive. Remarquons alors que pour tout ξ ∈ Rd, l’on a que E[hξ, X i] = hξ, mi 8.3 Vecteurs aléatoires gaussiens et théorème central limite multidimensionnel 111 et que Var(hξ, X i) = hΣξ , ξ i. De ce fait, on voit que la loi de hξ , X i, qui est supposée être gaussienne par définition, est N (hξ , mi, hΣξ, ξ i), et est donc entièrement déterminée par m et Σ. De plus, on a que la fonction caractéristique de X est donnée par hΣξ, ξ i ihξ,X i ϕX (ξ) = E[e ] = exp ihξ , mi − , 2 puisque c’est la transformée de Fourier de la loi N (hξ, mi, hΣξ, ξ i) évaluée en 1. À son tour, la fonction ϕX ne dépend que de m, Σ, et par conséquent, pour un couple (m, Σ) donné, la loi d’un vecteur gaussien d’espérance m et de matrice de variancecovariance Σ, si elle existe, est unique. Remarquons que réciproquement, si la fonction caractéristique de X est donnée par (8.9), alors on a bien que X est un vecteur aléatoire gaussien d’espérance m et de matrice de variance-covariance ΣX = Σ. puisque pour tout ξ ∈ Rd, on a alors, en changeant ξ en tξ dans (8.9) avec t ∈ R, on a hΣξ, ξ it2 ithξ,X i E[e ] = exp ithξ, mi − , 2 c’est-à-dire que hξ , mi a pour loi N (hξ, mi, hΣξ , ξ i), d’où l’on tire que pour tout ξ ∈ Rd, E[hξ, X i] = hξ, mi , Var(hξ , X i) = hΣξ, ξ i, et donc m = E[X], et Σ = ΣX . Nous notons N (m, Σ) la loi dont la transformée de Fourier est (8.9), sous réserve qu’elle existe. Nous allons montrer que c’est bien le cas pour tout m ∈ Rd et tout Σ symétrique positive. Pour ce faire, notons que les lois gaussiennes sont préservées par les applications linéaires, comme l’indique le résultat suivant. Lemme 8.10. Soit X un vecteur aléatoire gaussien de loi N (m, Σ) sur Rd. Soit A ∈ Mk,d(Rd). Alors AX est un vecteur aléatoire gaussien à valeurs dans Rk, de loi N (Am, AΣAT ). À ce stade, il faut encore comprendre ce lemme sous la forme « si la loi N (m, Σ) existe, alors la loi N (Am, AΣAT ) existe également. Nous avons énoncé ce résultat en anticipant le résultat de la proposition 8.11. Démonstration. Soit ξ ∈ Rk. Alors on a que hξ, AX i = hATξ, X i et donc T E[eihξ,AX i] = E eihA ξ,X i hΣATξ, ATξ i T = exp ihA ξ , mi − 2 T hAΣA ξ, ξ i = exp ihξ , Ami − , 2 d’où le résultat. 112 Convergence en loi et théorème central limite Proposition 8.11. Soit m ∈ Rd, et Σ ∈ Md(R) une matrice symétrique positive. Alors il existe un vecteur gaussien d’espérance m et de matrice de variance-covariance Σ. Démonstration. Traitons d’abord le cas où m = 0 et où Σ = Id. Il suffit pour cela de prendre un vecteur aléatoire X = (X1, ..., Xd) dont les composantes sont des variables aléatoires i.i.d. de loi N (0, 1) : en effet on a pour tout ξ ∈ Rd ihξ,X i E[e ]= d Y j =1 E[e iξ jXj ]= d Y e − ξ2 j 2 =e − |ξ|2 2 j=1 (on aurait également pu invoquer des résultats déjà connus de la transformée de Fourier de densités gaussiennes sur Rd). Pour traiter le cas général, on se donne (Y1, ..., Yd) de loi N (0, Id). Comme Σ est √ symétrique positive, elle admet une unique racine carrée symétrique positive Σ (on diagonalise Σ = PDP −1 avec D à diagonale positive et P ∈ O(d), et on pose √ √ √ Σ = P D P−1). Posons X = m + Σ Y . Par le lemme 8.10, cette variable aléatoire √ √ T a pour loi N m, Σ Id Σ = N (m, Σ). Il est très utile en pratique de se souvenir qu’une variable aléatoire ayant cette loi peut se définir par une simple transformation linéaire à partir d’une suite de variables i.i.d. (Y1, ..., Yd) de loi N (0, 1), comme on l’a fait dans la preuve précédente. Comme autre application simple du lemme 8.10, notons une propriété fondamentale des lois gaussiennes dans le cas où Σ est une matrice scalaire. Proposition 8.12. Pour tout σ > 0, la loi N (0, σ 2Id) est invariante par l’action du groupe orthogonal de Rd : si X a pour loi N (0, σ 2Id), alors pour tout matrice orthogonale P, PX a même loi que X. Exercice 8.1. Montrer que cette propriété d’invariance caractérise les lois gaussiennes de matrice de variance-covariance scalaire et d’espérance nulle parmi toutes les lois gaussiennes. Une autre propriété cruciale est que, pour les vecteurs aléatoires gaussiens, indépendance et décorrélation sont équivalentes. Proposition 8.13. Soit (X1, ..., Xd , X1′ , ..., Xd′ ′) un vecteur aléatoire gaussien. On suppose que pour tout i, j ∈ {1, 2, ..., d} × {1, 2, ..., d ′}, on a Cov(Xi , X j′ ) = 0. Alors les vecteurs aléatoires gaussiens X = (X1, ..., Xd) et X ′ = (X1′ , ..., Xd′ ′) sont indépendants. Démonstration. Nos hypothèses impliquent que la matrice de variance-covariance Σ(X ,X ′) de (X1, ..., Xd , X1′ , ..., Xd′ ′) est diagonale par blocs de tailles d et d ′. Si ξ , ξ ′ ′ ′ sont respectivement dans Rd et Rd , et (ξ , ξ ′) est le vecteur de Rd+d obtenu en les concaténant, alors en notant m = E[X], m ′ = E[X ′], Σ = ΣX et Σ ′ = ΣX ′, la fonction caractéristique de (X , X ′) est donc donnée par ′ ′ ′ hΣξ, ξ i + hΣ ξ , ξ i ϕ(X ,X ′)((ξ , ξ ′)) = exp ihξ, mi + ihξ ′, m ′i − 2 ce qui se factorise en ϕX (ξ) ϕX ′(ξ ′). On applique alors le critère d’indépendance à l’aide des fonctions caractéristiques. 8.3 Vecteurs aléatoires gaussiens et théorème central limite multidimensionnel 113 Terminons ces généralités sur les vecteurs aléatoires gaussiens en mentionnant que, contrairement au cas de la dimension 1, un vecteur aléatoire de loi N (m, Σ) n’admet pas nécessairement de densité par rapport à la mesure de Lebesgue. Proposition 8.14. Soit m ∈ Rd et Σ une matrice symétrique positive. Si Σ est définie positive, alors la loi N (m, Σ) admet une densité par rapport à la mesure de Lebesgue sur Rd, donnée par 1 hΣ−1(x − m), (x − m)i p , x ∈ Rd. exp − 2 det (2πΣ) Si le rang de Σ est strictement inférieur à d, alors la loi N (m, Σ) est portée par le sous-espace affine m + ΣRd, de dimension rg(Σ). Démonstration. Supposons Σ inversible. Rappelons qu’un vecteur aléatoire X = √ m + Σ Y a la loi voulue, si Y = (Y1, ..., Yd) est de loi N (0, Id), dont la densité est la densité gaussienne g1(x) = (2π)−d/2exp(−|x|2/2) sur Rd. Par la formule du changement de variables (dans le cas d’un isomorphisme linéaire) on a donc, pour toute fonction f mesurable positive, Z √ 1 |y |2 E[f(X)] = f m + Σ y exp − dy 2 (2π)d/2 Rd 2 √ −1 Z dx 1 Σ (x − m) √ , = f (x)exp − d/2 2 (2π) det Σ Rd et on conclut par un réagencement des termes. La seconde partie √ de la proposition consiste à√appliquer le même raisonnement, en posant X = m + Σ Y , et en constatant que Σ Rd = ΣRd, ce que l’on constate aisément en diagonalisant Σ. 8.3.2 Théorème central limite : le cas de Rd Théorème 8.15. Soit X1, X2, ... une suite i.i.d. de variables aléatoires à valeurs dans Rd, dont les coordonnées sont toutes dans L2. On note m = E[X1] et Σ = ΣX. Alors, si Sn = X1 + ··· + Xn , Sn − nm loi √ −→ N (0, Σ) . n n→∞ Démonstration. Soit ξ ∈ Rd. Alors les variables aléatoires hξ, X j i, j > 1 sont i.i.d. De plus, elles sont clairement dans L2, de moyenne hξ , mi et de matrice de variancecovariance hΣξ, ξ i. Le théorème central limite appliqué à ces variables réelles donne que hξ, Sn − nmi loi √ −→ N (0, hΣξ, ξ i). n→∞ n Par le théorème de Lévy (dans le sens facile) ceci implique que pour tout ξ ∈ Rd, hξ , Sn − nmi hΣξ , ξ i √ E exp i −→ exp − . n→∞ 2 n 114 Convergence en loi et théorème central limite √ Mais on reconnaît là la convergence de la fonction caractéristique de (Sn − nm)/ n vers la transformée de Fourier de N (0, Σ), et en utilisant le théorème de Lévy à nouveau, on conclut. Remarque 8.16. Nous voyons ici une autre propriété fascinante du théorème central limite : si la √ matrice de variance-covariance de X1 est scalaire, alors la loi limite de (Sn − nm)/ n est invariante par l’action du groupe orthogonal de Rd. C’est une propriété de symétrie extrêmement forte ! Exercice 8.2. Soit X1, X2, ... des variables aléatoires i.i.d. uniformes dans {−1, 1}, et Sn = X1 + ··· + Xn. Montrer que la probabilité P(Sn > 0, S2n < 0) a une limite lorsque n → ∞, et la calculer. 8.3.3 Une application : le test d’adéquation du χ2 Soit k > 1 un entier fixé. On se donne une suite Y1, Y2, ... i.i.d. de variables aléatoires à valeurs dans {1, 2, ..., k}. On se place du point de vue d’un statisticien qui ignore la loi de Y1. Cette dernière est un vecteur de probabilités p = (p1, p2, ..., pk), qui est donc inconnu de l’observateur. Ce dernier voudrait tester l’hypothèse que p = p0, où p0 est un vecteur de probabilités fixé. Cette hypothèse est appellée l’hypothèse nulle, et est souvent notée H0. Le point de vue du test statistique est en quelque sorte de prendre le point de vue d’un « procès », qui met l’hypothèse H0 à l’épreuve. On va donc supposer H0, et essayer de déduire de nos observations Y1, Y2, ... si cette hypothèse est vraisemblable. Dans le cas contraire, on rejettera H0. Une situation très concrète consiste à disposer d’un dé, et de tester par une série de lancers indépendants s’il est correctement équilibré. Clairement, si on dispose de toutes les observations Y1, Y2, ..., la loi des grands nombres nous permet de retrouver exactement pi comme la limite de Nn(i)/n, où Nn(i) = #{j 6 n: Y j = i}, mais cette situation n’est pas réaliste. Un test asymptotique couramment utilisé est le test d’adéquation du χ2, et qui consiste à introduire la « statistique du χ2 » suivante: 2 (i) k Nn − np0i X χn = . 0 np i i=1 Proposition 8.17. Sous l’hypothèse H0 que la suite Y1, Y2, ... est i.i.d. de loi commune p0 , la variable aléatoire χn converge en loi lorsque n → ∞ vers une loi gamma de paramètres (1/2, (k − 1)/2). Cette dernière loi est encore appelée loi du χ2 à k − 1 degrés de liberté, et est la loi de |X |2 où X est un vecteur gaussien de loi N (0, Ik−1). √ Démonstration. Notons X j = ((1{Yj =i} − pi)/ pi , 1 6 i 6 k), ce qui définit pour chaque j une variable aléatoire à valeurs dans Rk. La suite (X j , j > 1) est clairement i.i.d., bornée et centrée, et l’on a que 2 Pn j =1 X j χn = √ . n 115 8.4 L’inégalité de Hœffding Le théorème central limite multidimensionnel, en plus du fait que la fonction x 7→ |x|2 est continue de Rk dans R, montre que cette variable aléatoire converge vers |G|, où G suite la loi N (0, Σ), où Σ = ΣX1 est la matrice de variance-covariance de X1. Son calcul est facile : √ √ ∗ √ Σ = δi,j − pip j 16i,j 6k = Ik − p p , √ √ où l’on a noté p = ( pi , 1 6 i 6 k). Comme ce vecteur est de norme euclidienne 1, on reconnaît que Σ est la matrice de projection orthogonale sur l’hyperplan √ ⊥ p dans Rk. Cette matrice est sa propre racine carrée, Σ2 = Σ, puisque c’est un projecteur, et par conséquent la variable aléatoire G a même loi que ΣG ′, où G ′ est √ de loi N (0, Ik). Par ailleurs, si A est une matrice orthogonale envoyant p sur le dernier vecteur de la base canonique de Rk, alors AΣG ′ et AG sont de même loi N (0, P ) où P est la matrice de la projection (x1, ..., xk) 7→ (x1, ..., xk−1, 0), et donc AG a même loi que (G1, G2, ..., Gk−1, 0), où les Gi sont indépendantes de loi N (0, 1). Comme par ailleurs la norme de AG égale celle de G, on déduit bien que |G|2 a la 2 même loi que G21 + G22 + ··· + Gk−1 . On laisse en exercice le soin de vérifier que la loi de cette variable aléatoire est celle annoncée. Soit alors α ∈ (0, 1). On se donne xα > 0 tel que P(χ > xα) < α, où χ suit une loi du χ2 à k − 1 degrés de liberté. Le résultat précédent montre que sous l’hypothèse H0, si n est assez grand, on a que P(χn > xα) < α. Le test du χ2 consiste donc à rejeter l’hypothèse H0 si χn > xα, et à la conserver sinon. Le niveau (asymptotique) du test, c’est-à-dire la probabilité d’un faux positif (rejeter H0 alors qu’elle est vraie) est d’au plus α. En pratique, la valeur α = 5% est souvent utilisée. Pour un k fixé, il est aisé de trouver de telles valeurs de xα à l’aide d’outils numériques. À noter que si H0 n’est pas vérifiée, c’est-à-dire que p = / p0, alors la statistique 2 du χ diverge par la loi des grands nombres : χn → ∞ presque surement. De ce fait, l’hypothèse H0 sera bien rejetée avec une probabilité tendant vers 1 si n est assez grand. Cette probabilité est appelée la puissance du test. 8.4 L’inégalité de Hœffding Nous avons vu comment le théorème central limite permet d’obtenir de intervalles de confiance asymptotiques pour des problèmes d’estimation statistique. Un problème important est que ces intervalles de confiance ne sont en effet qu’asymptotiques, et en toute rigueur on ne peut pas les appliquer en pratique à n fixé sans connaissance supplémentaire sur l’erreur commise. Il est donc important de savoir donner des intervalles de confiance non-asymptotiques. Notons que le problème revient in fine à donner une borne la meilleure possible pour des quantités de la forme P(|Sn − E[Sn]| > x) 116 Convergence en loi et théorème central limite où √ Sn = X1 + ··· + Xn est une somme de v.a.i.i.d et x > 0 est typiquement de la forme c n . Bien sûr, la première borne exacte qui vient à l’esprit est celle de BienayméChebychev, qui donne Var(X1) P(|Sn − E[Sn]| > x) 6 n . x2 √ Pour x = c n , on obtient une borne Var(X1)/c2. On voit qu’il s’agit d’une borne relativement mauvaise si on la compare avec la borne asymptotique donnée par le théorème central limite : Z ∞ √ gσ(x)dx lim P(|Sn − E[Sn]| > c n ) = 2 n→∞ c où σ 2 = Var(X1) et gσ est la densité de la loi gaussienne N (0, σ 2). En effet, un calcul élémentaire donne (exercice) Z ∞ 2 2 σe−c /2σ gσ(x)dx 6 2 √ 2 , c 2π c qui est une borne bien meilleure que la borne de Bienaymé-Chebychev pour les grandes valeurs de c. Le théorème suivant montre que, si l’on s’intéresse à des variables aléatoires bornées, il existe une borne non-asymptotique qui permet de faire presque aussi bien que la borne asymptotique. Théorème 8.18. Soit X1, ..., Xn des variables aléatoires indépendantes, respectivement à valeurs dans des intervalles compacts [a1, b1], ..., [an , bn]. Notons Sn = X1 + ··· + Xn. Alors on a, pour tout x > 0, 2x2 . P(Sn − E[Sn] > x) 6 exp − Pn (bi − ai)2 i=1 et de plus, toujours pour x > 0, 2x2 P(|Sn − E[Sn]| > x) 6 2 exp − Pn (bi − ai)2 i=1 . Démonstration. Soit Y une variable aléatoire bornée, disons que Y ∈ [a, b] avec probabilité 1, et d’espérance nulle. Considérons la transformée de log-Laplace de Y , définie par Φ(λ) = ln (E[eλY ]) , λ ∈ R. La fonction Φ est alors de classe C ∞(R), et l’on a Φ ′(λ) = E[YeλY ] , E[eλY ] Φ ′′(λ) = E[Y 2eλY ]E[eλY ] − E[YeλY ]2 . E[eλY ]2 On peut réécrire Φ ′′(λ) sous la forme λY eλY 2 ′′ 2 e Φ (λ) = E Y = Varλ(Y ) , −E Y E[eλY ] E[eλY ] 117 8.4 L’inégalité de Hœffding où nous avons noté Varλ la variance pour la nouvelle mesure de probabilités Pλ définie par eλY , Pλ(A) = E 1A E[eλY ] c’est-à-dire que Pλ est absolument continue par rapport à P, et de dérivée de RadonNikodym donnée par eλY /E[eλY ]. Nous en déduisons d’une part que Φ ′′(λ) > 0 pour tout λ, c’est-à-dire que Φ est convexe, mais également que Φ ′′(λ) = Varλ(Y ) = inf {Eλ[(Y − c)2]: c ∈ R} 6 (b − a)2 , 4 où l’on a noté Eλ l’espérance associée à Pλ, et où l’on a remarqué que la variance de Y est la distance de Y au sous-espace des fonctions constantes dans L2(Ω, F , Pλ), puisque Eλ[Y ] est le projeté orthogonal de Y sur ce sous-espace, et où l’on a pris c = (b − a)/2 pour obtenir la dernière inégalité. De cela, on déduit, en intégrant deux fois entre 0 et λ, et en constatant que Φ(0) = Φ ′(0) = 0, (b − a)2 2 λ , λ ∈ R. (8.5) Φ(λ) 6 8 Montrons maintenant le théorème. On fixe x, λ > 0. En appliquant l’inégalité de Markov, puis en utilisant l’indépendance des variables aléatoires X1, ..., Xn, on a P(Sn − E[Sn] > x) = P(exp"(λ(Sn − E[Sn])) > exp (λx)) !# n X 6 e−λx E exp λ (Xi − E[Xi]) 6 e−λx i=1 n Y E[exp (λ(Xi − E[Xi]))] ! n 2 X (b − a ) i i 6 e−λx exp λ2 . 8 i=1 i=1 À la dernière étape, on a utilisé l’inégalité (8.5) pour les variables aléatoires Xi − E[Xi], qui sont à valeurs dans l’intervalle [ai − E[Xi], bi − E[Xi]], de diamètre bi − ai. P Finalement, on obtient la première inégalité de l’énoncé en choisissant n λ = x/(2 i=1 (bi − ai)2), ce qui revient à minimiser le majorant dans l’inégalité précédente. La seconde inégalité s’obtient en appliquant la première inégalité aux variables aléatoires −X1, ..., −Xn, ce qui donne la même borne que la première pour P(−Sn + E[Sn] > x), et en utilisant le fait que {|Sn − E[Sn]| > x} est la réunion des événements {Sn − E[Sn] > x} et {−Sn + E[Sn] > x}. En particulier, si les variables aléatoires (X1, ..., Xn) sont i.i.d. à valeurs dans [a, b], on obtient que √ 2c2 P(|Sn − E[Sn]| > c n ) 6 2 exp − . (b − a)2 118 Convergence en loi et théorème central limite En reprenant l’exemple des sondages, où X1 est une variable aléatoire p de Bernoulli de paramètre p inconnu, on a a = 0 et b = 1, et en choisissant c = ln (2/δ)/2 de sorte que le majorant précédent soit inférieur à δ, on voit que # " r r ln (2/δ) Sn ln (2/δ) Sn − , + 2n n 2n n est un intervalle de confiance (exact) pour p au niveau δ, c’est-à-dire que la probabilitépque cet intervalle ne contienne pas p est inférieure à δ. Pour δ = 5%, notons que ln (2/δ)/2 = 1, 358..., à comparer avec la valeur numérique 0, 98 que l’on avait obtenue par le théorème central limite. Il est normal d’obtenir un intervalle plus grand, c’est-à-dire moins bon que la valeur asymptotique « idéale ». Chapitre 9 Récurrence et transience pour marche aléatoire simple sur Zd la Un problème important en probabilités est de déterminer le comportement en temps long de processus aléatoires. L’exemple le plus fondamental est celui des marches aléatoires dans Zd. Soit µ une loi de probabilités sur Zd, et X1, X2, ... une suite i.i.d. de loi commune µ. Notons Sn = X1 + ··· + Xn, pour n > 1, et S0 = 0. Considérons l’événement R = limsupn→∞ {Sn = 0} sur lequel (Sn , n > 0) prend une infinité de fois la valeur 0. Si P(R) = 1, on dit que la marche aléatoire est récurrente. Si P(R) = 0, on dit qu’elle est transiente. Proposition 9.1. On a que P(R) ∈ {0, 1}, c’est-à-dire qu’une marche aléatoire est ou bien récurrente, ou bien transiente. Cette dernière propriété ne dépend que de µ. Il est à noter que cette proposition n’est pas une conséquence directe de la loi du 0-1 de Kolmogorov. On peut l’obtenir par un autre type de loi du 0-1, dite loi de Hewitt et Savage, mais nous allons donner une preuve directe de la proposition qui ne fait pas appel à cette loi. Pour tout x ∈ Zd, notons " # X X X ∗n P(Sn = x) = µ (x) = E g(x) = 1{Sn =x} . n>0 n>0 n>0 Ainsi, g(x) est le nombre moyen de fois où Sn vaut x. Notons également H0 = inf {n > 0: Sn = 0} le premier temps de retour en 0. Nous allons voir que g(0) = 1 . 1 − P(H0 < ∞) Pour cela, notons H0(1) = H0, et par récurrence, pour k > 2, H0(k) = inf n > H0(k−1) : Sn = 0 (9.1) de sorte que H0(k) est l’instant du k-ième retour en 0 pour (Sn , n > 0). Notons que l’on note H0(k) = ∞ si l’ensemble sur lequel on prend la borne inférieure est vide, et en particulier si H0(k−1) = ∞. Lemme 9.2. Pour tout k > 1, on a que P H0(k) < ∞ = P(H0 < ∞)k. 119 Récurrence et transience pour la marche aléatoire simple sur Zd 120 Démonstration. La preuve est par récurrence sur k. Pour k = 1 c’est évident par définition. Si c’est vrai au rang k, on a P H0(k+1) < ∞ = P H0(k) < ∞, H0(k+1) < ∞ X = P H0(k) = r, H0(k+1) < ∞ . r>0 (r) Or sur l’événement H0(k) = r , on a que Sn = Xr+1 + Xr+2 + ··· + Xn = Sn−r pour tout n > r, où l’on a noté S0(r) = 0 et Sn(r) = Xr+1 + ··· + Xr+n , n > 1, de sorte que Sn(r); n > 0 est une marche aléatoire de même loi que (Sn , n > 0), tout en étant indépendante de σ(X1, ..., Xr) par le lemme de regroupement par paquets. Toujours en restriction à l’événement H0(k) = r , on a alors que H0(k+1) < ∞ si et seulement si Sn(r) s’annule pour au moins un n > 0, et donc (k) H0 = r, H0(k+1) < ∞ = H0(k) = r ∩ ∃n > 0: Sn(r) = 0 . L’événement à droite de l’intersection est mesurable par rapport à σ Sn(r), n > 0 et est donc indépendant de σ(X1, ..., Xr), tandis que celui de gauche est dans σ(X1, ..., Xr) puisqu’on peut le réécrire comme ) ( r−1 X (k) 1{Sn =0} = k − 1 ∩ {Sr = 0} . H0 = r = n=1 On conclut que les deux événements ci-dessus sont indépendants, et par conséquent X P H0(k+1) < ∞ = P H0(k) = r P ∃n > 0: Sn(r) = 0 r>0 X = P(∃n > 0: Sn = 0) P H0(k) = r r>0 = P(H0 < ∞)P H0(k) < ∞ , où l’on a utilisé le fait que Sn(r), n > 0 et (Sn , n > 0) ont la même loi. On conclut par l’hypothèse de récurrence. Montrons à présent l’égalité (9.1). Pour cela, on constate que X X 1{Sn=0} = 1nH (k) <∞o , n>1 de sorte que " g(0) = 1 + E = X k>0 comme voulu. 0 k>1 X k>1 1n (k) H0 <∞ P(H0 < ∞)k = o # 1 , 1 − P(H0 < ∞) Récurrence et transience pour la marche aléatoire simple sur Zd 121 Nous pouvons maintenant donner la preuve de la proposition 9.1. P • Si P(H0 < ∞) < 1, alors g(0) < ∞ par (9.1). Donc n>0 1{Sn =0} < ∞ avec probabilité 1. On a ainsi que P(R) = 0, et la marche aléatoire est transiente. • Si P(H0 < ∞) = 1, le lemme 9.2 montre que P H0(k) < ∞ = 1 pour tout k > 1. Comme H0(k) < ∞ est l’événement que (Sn , n > 0) prend au moins k + 1 fois la valeur 0, ces événements décroissent vers l’événement R lorsque k → ∞. On obtient donc que P(R) = 1, et la marche est récurrente. Notons au passage que nous avons obtenu le résultat suivant. Proposition 9.3. La marche aléatoire (Sn , n > 0) est récurrente si et seulement si P(H0 < ∞) = 1, et ce si et seulement si g(0) = ∞. Nous allons maintenant donner un résultat important dans le cas particulier de la marche aléatoire simple sur Zd, que nous définissons maintenant. Notons (e1, ..., ed) la base canonique de Rd. La marche aléatoire simple sur Zd est la marche aléatoire correspondant au choix de µ soit donné par µ({x}) = 1 , 2d x ∈ {e1, ..., ed , −e1, ..., −ed }, et µ(x) = 0 si x ∈ / {e1, ..., ed , −e1, ..., −ed }. Ainsi, à chaque pas, la marche aléatoire choisit uniformément au hasard l’un de ses 2d voisins et s’y déplace. Théorème 9.4. La marche aléatoire simple sur Zd est récurrente si d ∈ {1, 2}, et transiente si d > 3. Remarque. Dans le cas où d = 1, nous avons déjà montré ce résultat, qui découle immédiatement du corollaire 6.17, qui découlait de la loi du 0-1 de Kolmogorov. Néanmoins, nous allons redonner une preuve également dans ce cas à l’aide des outils développés dans ce chapitre, car cette preuve resservira pour le cas d = 2. Démonstration. Commençons donc par le cas où d = 1. Dans ce cas, on a immédiatement que P(Sn = 0) = 0 si n est impair, et P(S2n = 0) = P(X1 + ··· + X2n = 0) où X1, X2.... sont i.i.d. avec P(X1 = 1) = P(X1 = −1) = 1/2. L’événement ci-dessus correspond au fait que parmi les valeurs (X1, ..., X2n), exactement n sont égales à −1, et les n autres valent 1. Comme il y a 2n choix des indices correspondants, on n obtient que 1 2n 1 P(S2n = 0) = 2n ∼ √ , n n→∞ πn 2 grâce à la formule de Stirling. On en déduit immédiatement que X P(Sn = 0) =∞, g(0) = n>0 et donc que la marche aléatoire est récurrente. 122 Récurrence et transience pour la marche aléatoire simple sur Zd Dans le cas où d = 2, on a toujours P(Sn = 0) = 0 si n est impair. Pour calculer P(S2n = 0), on a recours à une astuce. Si X1 est une variable aléatoire de loi µ, et si R est la rotation de centre 0 et d’angle π/4 de R2, alors R(X1) est une variable √ aléatoire égale à chacune des √ quatre valeurs 2 /2(±1, ±1) avec même probabilité. Ainsi, R(X1) a même loi que 2 /2(X1′, X1′′) où X1′, X1′′ sont des variables aléatoires indépendantes, réelles, de même loi, telles que P(X1′ = 1) = P(X1′ = −1) = 1/2. √ Finalement, on voit que (R(Sn), n > 0) a même loi que 2 /2(Sn′ , Sn′′), n > 0 , où (Sn′ , n > 0) et (Sn′′, n > 0) sont deux marches aléatoires simples indépendantes à valeurs dans Z. De ce fait, on a que 1 ′ ′′ P(S2n = 0) = P(S2n = 0)P(S2n = 0) ∼ , n→∞ πn en utilisant le cas précédent. On voit une nouvelle fois que g(0) = ∞, et donc la marche est récurrente. L’astuce précédente de fonctionne plus en dimension supérieure à 3. On a donc recours au lemme suivant, valable pour toutes les marches aléatoires sur Zd. Lemme 9.5. La marche aléatoire (Sn , n > 0) est récurrente si et seulement si Z 1 dξ = ∞. ℜ lim 1 − tϕ µ(ξ) t↑1 [−π,π]d Démonstration. En vertu de la discusion précédente, il suffit de montrer que la limite considérée est égale à cg(0) où c est une constante strictement positive finie. Posons X gt(0) = tnP(Sn = 0) n>0 de sorte que gt(0) converge vers g1(0) = g(0) lorsque t↑1 par convergence monotone. On remarque alors que la fonction caractéristique de Sn est µ̂ n puis que Z 1 ϕ µ(ξ)ndξ . (9.2) P(Sn = 0) = (2π)d [−π,π]d Ceci est un fait général : si ν est une loi de probabilités sur Zd, alors X eihξ,xiν({x}) ϕν (ξ) = x∈Zd et donc, par convergence dominée, Z X Z ϕν (ξ)dξ = [−π,π]d x∈Zd eihξ,xiν({x})dξ . [−π,π]d On voit que cette dernière intégrale est nulle dès que l’une des coordonnées de x est non nulle (car ces coordonnées sont entières), et elle vaut (2π)d ν({0}) sinon. En appliquant ceci à µ∗n, de sorte que µ∗n({0}) = P(Sn = 0), on voit que l’on a (9.2). Pour conclure, on somme ces égalités : pour tout t ∈ [0, 1[ Z Z X X 1 1 1 n n t P(Sn = 0) = dξ , (tϕ µ) (ξ)dξ = d d (2π) [−π,π]d (2π) [−π,π]d 1 − tϕ µ(ξ) n>0 n>1 Récurrence et transience pour la marche aléatoire simple sur Zd 123 où la première égalité est justifiée par convergence dominée (c’est la raison pour laquelle on prend t < 1). On obtient le résultat en prenant la partie réelle et en faisant tendre t vers 1. Dans le cas particulier de la marche aléatoire simple, on a d ϕ µ(ξ) = 1X cos (ξk) . d k=1 Ceci est une fonction réelle à valeurs dans [−1, 1] égale à 1 seulement aux points de 2πZd, et l’on voit que (1 − ϕ µ(ξ))−1 est une fonction continue sur [−π, π]d \{0}, équivalente à (|ξ |2/2d)−1 lorsque ξ → 0. Comme d > 3, cette fonction est sommable sur [−π, π]d, et la convergence dominée implique que (notons que dans le cas présent, la partie réelle dans l’intégrale n’est pas nécessaire) Z Z 1 1 lim dξ = < ∞. 1 Pd t↑1 [−π,π]d 1 − tϕ µ(ξ) d cos (ξ ) [−π,π] 1 − k k=1 d Donc la marche aléatoire est transiente. Avec un peu plus de travail, le critère donné dans le lemme 9.5 permet de montrer le caractère récurrent ou transient de marches aléatoires dans Zd beaucoup plus générales. On montre également qu’il est équivalent au critère beaucoup plus naturel Z 1 dξ = ∞, ℜ 1 − ϕ µ(ξ) [−π,π]d ce qui correspond formellement à intervertir limite et intégrale dans l’énoncé, mais ceci nécessite beaucoup plus de travail. Théorème 9.6. Soit (Sn , n > 0) une marche aléatoire sur Z. On suppose que P |k|µ(k) < ∞. k∈Z P kµ(k) = 0. Alors (Sn , n > 0) est récurrente si et seulement si k∈Z PN Démonstration. Notons gN (x) = n=0 P(Sn = x). Alors on note que gN (0) > gN (x) pour tout x ∈ Z. En effet, si l’on note Tx = inf {n > 0: Sn = x}, on a " N # N X X P(Sn = x) = E 1{Sn =x} n=0 n=Tx " N # X X E 1{Sn =x,Tx =k} = k>0 # " n=k N X X 1nS (k) =0o P(Tx = k) = E n=k k>0 6 X n−k " P(Tx = k) E k>0 6 gN (0) N X n=0 1nS (k) =0o n # Récurrence et transience pour la marche aléatoire simple sur Zd 124 où l’on a noté Sn(k) = Xk+1 + ··· + Xk+n, comme au début du chapitre, et où l’on a utilisé l’indépendance de Sn(k), n > 0 et de {Tx = k }, qui est une conséquence du regroupement par paquets. On en déduit que pour tout M > 0, on a X 1 gN (x) . gN (0) > 2M + 1 |x|6M Or X |x|6M gN (x) = N X X P(Sn = x) = n=0 |x|6M N X n=0 P(|Sn | 6 M ) > N X P(|Sn/n| 6 M /N) n=0 La loi des grands nombres montre que P(|Sn/n| 6 a) converge vers 1 pour tout a > 0. En prenant M = aN , on en déduit par le lemme de Cesaro que N X 1 1 g(0) = lim gN (0) > lim . P(|Sn/n| 6 a) = 2a N →∞ N →∞ 2aN + 1 n=0 Comme a > 0 est arbitraire, on conclut que g(0) = ∞, et donc que (Sn , n > 0) est récurrente. Corollaire 9.7. Sous les hypothèses du théorème précédent, si µ est d’espérance nulle, et µ = / δ0 , alors p.s. on a limsup Sn = ∞ n→∞ et liminf Sn = −∞. n→∞ Chapitre 10 Processus de branchement On cherche à modéliser l’évolution d’une population asexuée dont les individus se reproduisent indépendamment les uns des autres, et suivant la même loi. On se donne ainsi une mesure de probabilités µ sur N, et l’on appellera processus de branchement toute suite (Z0, Z1, ...) de variables aléatoires à valeurs dans N telles que pour tout n ∈ N, et pour tout z0, z1, ..., zn−1, x, y ∈ N, on a P(Zn+1 = y |Z0 = z0, Z1 = z1, ..., Zn−1 = zn−1, Zn = x) = µ∗x(y) (10.1) dès lors que cette probabilité est bien définie (c’est-à-dire que l’événement par lequel on conditionne est de probabilité strictement positive), et où l’on a noté µ∗x la convolée de µ avec elle-même x fois. On notera que µ∗x est la loi de ξ1 + ··· + ξx, où les variables aléatoires ξ1, ..., ξx sont indépendantes de loi µ. Ainsi, la suite (Z0, Z1, ...) décrit bien le modèle indiqué ci-dessus : à la génération n, chacun des x individus présents donne naissance à une famille d’individus dont la taille est aléatoire de loi µ, de façon indépendante entre tous les individus. On note également que les formules ci-dessus ne disent rien a priori sur la loi de la taille de la population initiale Z0, qui peut donc être une variable aléatoire quelconque. On peut se demander s’il existe un processus de branchement de loi µ. En voici une construction explicite, utilisant une famille (ξn,i : n > 1, i > 1) de variables aléatoires indépendantes et de même loi µ, ainsi qu’une variable aléatoire Z0 indépendante de la famille précédente. Si l’on connaît la variable aléatoire Zn, on pose alors Zn X Zn+1 = ξn+1,i . i=1 Par récurrence, ceci permet de définir la suite (Z0, Z1, ...), de sorte que Z0, Z1, ..., Zn soit mesurable par rapport à la tribu engendrée par Z0 et les ξm,i avec m ∈ {1, 2, ..., n} et i > 1. En particulier, (ξm,i : m > n, i > 1) est indépendante de (Z0, ..., Zn). On a donc, en notant B = {Zn = x, Zn−1 = zn−1, ..., Z0 = z0}, qui est mesurable par rapport à σ{Z0, ..., Zn }, ! x X P(Zn+1 = y, B) = P ξn+1,i = y, B i=1 ! x X = P ξn+1,i = y P(B) i=1 = µ∗ x(y)P(B) , 125 126 Processus de branchement d’où (10.1) en divisant par P(B) lorsque cette quantité est non nulle. Notons que, d’après la définition, ou par la construction précédente, presque surement, s’il existe n ∈ N tel que Zn = 0, alors Zn+k = 0 pour tout k > 0. On a donc seulement deux possibilités : ou bien Zn > 0 pour tout n > 0, ou bien la suite (Zn) est stationnaire en 0. Notons A = {Zn > 0 pour tout n > 0} l’événement de survie de la population. Quand a-t-on P(A) > 0 ? De quelle façon cette probabilité dépend-elle de Z0 ? Dans un premier temps nous allons supposer que Z0 = 1. Nous allons supposer une fois pourPtoutes que µ = / δ1 pour éviter le cas trivial où Zn = 1 pour tout n. Notons m = k>0 kµ(k) la moyenne de µ, qui est un nombre dans [0, ∞]. Théorème 10.1. Si m 6 1 alors le processus s’éteint presque surement : P(A) = 0. Si m > 1, alors le processus survit avec probabilité positive : P(A) > 0. Ce théorème a été démontré par Bienaymé au milieu du XIXème siècle. Néanmoins, sa preuve ne fut pas publiée, et on n’en retrouve les détails que par reflets dans les ouvrages de son époque. La question fut reposée par Galton vingt ans plus tard, et résolue par Galton et Watson peu après (avec, dit-on, une erreur). Pour le montrer, nous allons avoir recours à la fonction génératrice de la loi µ : X g(s) = µ(k)sk . k>0 Comme on le sait, g est une fonction convexe, croissante sur [0, 1], dérivable sur ]0, 1[, et sa dérivée admet en 1 la limite à gauche g ′(1 − ) = m. Lemme 10.2. Soit (Z0, Z1, ...) un processus de branchement avec Z0 = 1 p.s. Alors la fonction génératrice de Zn est donnée par la composée n fois de g : gZn = g ◦ g ◦ ...◦ g (n fois). Démonstration. Nous montrons cette propriété par récurrence. La propriété est claire pour n = 0 et n = 1, avec la convention que g composée 0 fois avec elle-même est l’identité. Supposons la propriété vraie au rang n. On a alors, pour tout s ∈ [0, 1], X s y P(Zn+1 = y, Zn = x) gZn+1(s) = E[sZn+1] = x,y ∈N X s y P(Zn = x)µ∗x(y) . = x,y ∈N La dernière égalité est une application aisée de (10.1). Rappelons que µ∗x(y) est la probabilité que ξ1 + ··· + ξx = y où ξ1, ..., ξx sont indépendantes de loi µ. En particulier, par indépendance, X s y µ∗x(y) = E[s ξ1 +···+ξx] = E[s ξ1]x = g(s)x. y∈N En réinjectant ceci dans l’expression précédente, on trouve X P(Zn = x)g(s)x = gZn(g(s)) gZn+1(s) = x∈N 127 Processus de branchement et on conclut par hypothèse de récurrence. Notons que gZn(0) = P(Zn = 0), et que cette probabilité croît vers la probabilité q = P(Ac) d’extinction (rappelons que si Zn = 0 alors Zm = 0 pour tout m > n). On en déduit que q est la limite de la suite récurrence qn+1 = g(qn) initiée en q0 = 0. Or, la convexité de g implique que • si m 6 1 alors g a un unique point fixe sur [0, 1], donné par 1. Noter que nous avons utilisé ici le fait que µ(1) < 1, ce qui permet d’éviter le cas trivial où g est la fonction identité. Dans ce cas, la suite (qn), à valeurs dans [0, 1], converge vers q = 1. • Si m > 1 alors g admet exactement deux points fixes sur [0, 1], que l’on note q ′ et 1, avec q ′ < 1. Le point q ′ est alors attractif (0 < g ′(q0) < 1) et le point 1 est répulsif, de plus, la suite (qn) converge vers q ′. On a donc q ′ = q ∈ [0, 1[. Le théorème s’ensuit en notant que P(A) = 1 − q. On voit que l’on a même donné une caractérisation de q, comme étant le plus petit point fixe de g sur [0, 1]. m<1 1 m=1 1 q m>1 1 Figure 10.1. Illustration des trois phases : en noir, la courbe représentative de g, en rouge, l’évolution de la suite récurrente (qn). On distingue trois phases dans le processus de Galton-Watson. Phase sous-critique : m < 1 Dans ce cas, on a extinction presque sure (q = 1), et les propriétés usuelles des suites récurrentes montrent que la probabilité que Zn soit non nul converge vers 0 exponentiellement vite. En effet, on a que 1 − qn 6 mn par applications successives du théorème des accroissements finis, et donc P(Zn > 0) = 1 − qn 6 mn . L’extinction est donc très rapide. Phase critique : m = 1 Dans ce cas, on a toujours extinction presque sure. Néanmoins, la convergence de P(Zn > 0) vers Pour illustrer ceci, P P 0 est typiquement plus lente qu’exponentielle. supposons que k∈N k 2 µ(k) < ∞. Notons que g ′′(1 − ) = k∈N k(k − 1)µ(k) = σ 2 est la variance de la loi µ, puisque m = 1, et cette variance est finie. En développant g au voisinage de 1, on a g(s) = 1 − (1 − s) + (1 − s)2 2 σ + o((1 − s)2) 2 128 Processus de branchement et donc 1 1 σ2 − = + o(1) . 1 − g(s) 1 − s 2 En sommant on obtient donc d’où l’on déduit que σ2 1 − 1 = n + o(n) , 2 1 − qn P(Zn > 0) = 1 − qn = 2 σ2 n (1 + o(1)). La décroissance vers 0 est donc beaucoup plus lente qu’exponentielle. Ce résultat est dû à Kolmogorov. Phase sur-critique : m > 1 Dans ce cas, nous avons vu que le processus survit avec probabilité strictement positive, s’il est issu de Z0 = 1 individu. On peut donner des propriétés plus fines, en décrivant l’allure du processus conditionné par l’événement de survie ou d’extinction. Nous ne donnons pas les preuves ici, mais juste les idées intuitives. Tout d’abord, on peut constater que le processus de branchement jouit d’une propriété de branchement stipulant que, si Z = (Z0, Z1, ...) et Z ′ = (Z0′ , Z1′ , ...) sont deux processus de branchement indépendants, de même loi de reproduction µ, et issus respectivement de Z0 = x et Z0′ = x ′ individus, alors Z + Z ′ = (Z0 + Z0′ , Z1 + Z1′ , ...) est un processus de branchement également (issu de x + y), de loi de reproduction µ. Ceci revient intuitivement à dire que deux « familles » distinctes se reproduisent indépendamment dans le futur, en suivant la dynamique du processus de branchement. De cela, on tire par exemple que si Z0 = x presque surement, alors la probabilité de survie est donnée par P(A) = 1 − q x , puisqu’on a extinction si et seulement si chacune des x lignées indépendantes s’éteint. À quoi ressemble le processus (Z0, Z1, ...) si’il est issu de Z0 = 1, et si on le conditionne à s’éteindre ? Nous affirmons que 1 1 P(Z1 = x |Ac) = P(Z1 = x, Ac) = µ(x)q x = µ(x)q x−1. q q Intuitivement, cela signifie que, si l’on sait que l’ancêtre commun à la population a eu x enfants, alors sa descendance s’éteint si et seulement si les x lignées de ces enfants, qui sont indépendantes, s’éteignent, ce qui arrive avec probabilité q x. On pourrait itérer cet argument, et obtenir le résultat suivant. Proposition 10.3. Conditionnellement à Ac, le processus (Z0, Z1, ...) est un processus de branchement sous-critique de loi de reproduction µ q(x) = q x−1 µ(x), x ∈ N. Noter que la fonction génératrice de µ q n’est autre que g(qs)/q. On l’interprète en disant que c’est la portion de g comprise entre [0, q], remise à l’échelle linéairement pour en faire une fonction de [0, 1] dans lui-même. En particulier, la moyenne de µ q est g ′(q) qui est bien dans [0, 1[, et le processus est sous-critique ! 129 Processus de branchement Que se passe-t-il alors si l’on conditionne le processus par l’événement A de nonextinction ? Cette fois, on a 1 P(Z1 = x, A) 1− q x X 1 x (1 − q)kq x−k µ(x) = k 1− q k=1 1 − qx = µ(x) . 1− q P(Z1 = x|A) = Ici, l’on a exprimé le fait que, si l’ancêtre commun a eu x enfants, la population totale survit si au moins un de ces enfants a une lignée qui survit. Or les x lignées sont indépendantes et ont la probabilité 1 − q de survivre, le nombre de lignées qui survivent suit donc une loi binomiale. On constate alors que la dernière formule définit, lorsque x décrit N∗, une mesure de probabilités sur N∗, dont la fonction génératrice est donnée par g(s) − g(qs) . 1−q Il faut prendre néanmoins garde au fait que chacun des x enfants de l’ancêtre commun ne va pas se reproduire en suivant cette loi : seuls ceux dont la lignée ne s’éteint pas vont être dans ce cas. On peut donc être plus précis dans le calcul précédent, et noter Z1ext le nombre d’individus nés de l’ancêtre commun dont la descendance s’éteint, et Z1surv les autres enfants de l’ancêtre commun. On a alors, pour x > 0 et y > 1. x+ y (1 − q) y −1 q x . P(Z1ext = x, Z1surv = y |A) = µ(x + y) y Ceci se résume plus facilement comme une fonction génératrice à deux variables : X ext surv sx ty P(Z1ext = x, Z1surv = y |A) g surv(s, t) = E sZ1 tZ1 |A = x>0,y>1 k X 1 X k (t(1 − q)) y(sq)k−y µ(k) y 1− q k>1 y=1 1 X µ(k)((sq + t(1 − q))k − (sq)k) = 1 − q k>1 = = g(sq + t(1 − q)) − g(sq) . 1− q Pour s = 1, on obtient la fonction génératrice de Z1surv sachant A, et cette dernière est (g(q + t(1 − q)) − q)/(1 − q). Une nouvelle fois, on interprète cette fonction comme la partie de g comprise entre q et 1, translatée et remise à l’échelle pour en faire la fonction génératrice d’une variable aléatoire. On note µ q la loi de probabilité associée. On constate que cette fonction est nulle en 0, c’est-à-dire que la variable aléatoire associée ne peut pas prendre la valeur 0, et sa dérivée à gauche en 1 est m. On pourrait compléter ce résultat par le résultat suivant, appelé l décomposition de Harris. On ne donne pas pour une fois d’énoncé formel. 130 Processus de branchement Conditionnellement à l’événement A de survie du processus, on peut décrire la population de la façon suivante. On a deux types d’individus, les « mortels » et les « immortels ». Les individus immortels donnent naissance à des individus mortels et immortels selon la loi sur N2 définie par les coefficients de la fonction génératrice g surv(s, t), indépendamment les uns des autres. Les individus mortels engendrent des processus de branchement sous-critiques de loi de reproduction µ q. Enfin, la restriction de la généalogie du processus aux individus immortels forme un processus de branchement sur-critique de loi de reproduction µ q. Références • • P. Barbé, M. Ledoux, Probabilité R. Durrett, Probability: theory and examples • W. Feller, An Introduction to Probability Theory and its Applications, vol. 1 et 2. • G. Grimmett, D. Stirzaker, Probability and random processes • J.-F. Le Gall, Intégration, probabilités et processus aléatoires, notes de cours disponibles sur http://www.math.u-psud.fr/~jflegall/IPPA2.pdf • M. Pinsky, Introduction to Fourier analysis and wavelets • W. Rudin, Real and complex analysis 131