Statistique Mathématique 2 (MATH-F-309, Chapitre #1) Thomas Verdebout Université Libre de Bruxelles 2015/2016 Plan du cours 1. Vecteurs aléatoires. 2. Loi normale multivariée. 3. Inférence dans les modèles gaussiens. 4. Méthodes classiques de l’analyse multivariée. 5. Données directionelles. 6. Modèle linéaire. Chapitre 1 Chapitre 1 1. Vecteurs aléatoires. 1.1. Définition, types de distributions. 1.2. Espérance et moments. 1.3. Indépendance. 1.4. Estimateurs usuels de µ et Σ. 1.5. Modes de convergence, résultats limites. 1.6. Fonction caractéristique. 1.7. Jacobiens. Définition Soit (Ω, A, P) un espace de mesure. Définition: un p-vecteur aléatoire (ou p-v.a.) X est une fonction X : Ω → Rp ω 7→ X (ω) = X1 (ω) . . . Xp (ω) = (X1 (ω), . . . , Xp (ω))0 qui est mesurable, c’est-à-dire qui est telle que pour tout B ∈ Bp , X −1 (B) = {ω ∈ Ω | X (ω) ∈ B} ∈ A. Terminologie: les composantes Xi d’un v.a. X = (X1 , . . . , Xp )0 sont appelées les marginales de X . Les marginales sont elles-mêmes des v.a.. Définition La condition de mesurabilité permet de considérer la distribution P X de X , qui est la mesure de probabilité sur (Rp , Bp ) définie par P X [B] := P[X ∈ B] := P[X −1 (B)], ∀B ∈ Bp . Le p-v.a. X induit donc une correspondance entre les espaces de mesure (Ω, A, P) et (Rp , Bp , P X ). La fonction de répartition de X est définie par F X (x ) = P[X1 ≤ x1 , X2 ≤ x2 , . . . , Xp ≤ xp ], pour tout x = (x1 , . . . , xp )0 . Types de distributions On distingue essentiellement deux grands types de distributions P X : I les distributions absolument continues (par rapport à la mesure de Lebesgue mp ) et I les distributions singulières. Types de distributions Définition: P X est absolument continue (par rapport à mp ) ssi ∀B ∈ Bp tel que mp (B) = 0, on a P X [B] = 0. Le théorème de Radon-Nikodym assure que, pour une telle distribution, il existe une fonction f : Rp → R mesurable (appelée fonction de densité de probabilité (pdf) de X ) telle que Z P X [B] = f (x ) dx , ∀B ∈ Bp . B Propriété d’une pdf: f (x ) ≥ 0 ∀x ∈ Rp et R Rp f (x ) dx = 1. distribution de X valeurs possibles x pdf f (x ) Types de distributions Définition: P X est singulière (par rapport à mp ) ssi ∃N ∈ Bp tel que mp (N) = 0 et P X [N] = 1. Une classe importante de distributions singulières est celle des distributions discrètes: Définition: PX est discrète ssi il existe une collection au plus dénombrable {xi , i ∈ I} de p-vecteurs telle que P X [B] = X P [X = xi ] , ∀B ∈ Bp . i | xi ∈B Une telle distribution est complétement déterminée par la donnée des xi et des probabilités pi = P[X = xi ]. distribution de X valeurs possibles x1 x2 probabilités p1 p2 ... ... Plan du cours 1. Vecteurs aléatoires. 1.1. Définition, types de distributions. 1.2. Espérance et moments. 1.3. Indépendance. 1.4. Estimateurs usuels de µ et Σ. 1.5. Modes de convergence, résultats limites. 1.6. Fonction caractéristique. 1.7. Jacobiens. Espérance et moments Soit X un p-v.a. Soit g : Rp → R une fonction mesurable. Définition: l’espérance de g(X ) est définie par Z E[g(X )] = Z g(X (ω)) dP(ω) = g(x ) dP X (x ), Rp Ω pour peu que la valeur commune de ces intégrales soit finie. En pratique, on calculera ces espérances par Z E[g(X )] = g(x ) f (x ) dx Rp et E[g(X )] = X i∈I dans le cas absolument continu et le cas discret, respectivement. g(xi )pi Espérance et moments Si g : Rp → Rq (q ≥ 2), on prendra l’espérance composante par composante, c’est-à-dire E[g1 (X )] .. E[g(X )] = . . E[gq (X )] En particulier, E[X1 ] . E[X ] = .. . E[Xp ] Remarque: on suivra la même règle si g est à valeurs dans un espace de matrices. Espérance et moments Définition: X a des moments finis d’ordre r (r > 0) ssi E[kX kr ] < ∞. Proposition: (i) E[kX kr ] < ∞ ⇔ (ii) E[|Xi |r ] < ∞ pour tout 1 ≤ i ≤ p ⇔ (iii) E[|v 0 X |r ] < ∞ pour tout v ∈ Rp . Preuve: (i) ⇒ (ii): cela suit de |Xi |r ≤ kX kr . (ii) ⇒ (i): cela suit de kX kr ≤ Pp i=1 r |Xi | ≤ Cp,r Pp i=1 |Xi |r . (i) ⇒ (iii): cela suit de |v 0 X |r ≤ kv kr kX kr . (iii) ⇒ (ii): il suffit de prendre v = ei (le ième vecteur de la base canonique de Rp ). Remarque: en particulier, si X a des moments finis d’ordre 1, on peut parler de son espérance µ := E[X ] = (E[X1 ], . . . , E[Xp ])0 , puisqu’alors |E[Xi ]| ≤ E[|Xi |] < ∞ pour Espérance et moments On veillera toujours dans la suite à imposer les hypothèses les moins fortes possibles en termes de moments. Dans cette optique, le résultat suivant permet “d’ordonner" les hypothèses de moments finis. Proposition: (i) Si E[kX kr ] < ∞ pour un certain r > 0, alors E[kX ks ] < ∞ pour tout 0 < s ≤ r . Preuve: fixons s ∈ (0, r ). Comme la fonction f : R+ t → R 7→ t s /(1 + t r ) est bornée, on a E[kX ks ] ≤ E[Cs,r (1 + kX kr )] = Cs,r (1 + E[kX kr ]) < ∞. Espérance et moments Soit X un p-v.a. avec des moments finis d’ordre 2. Définition: la matrice de variance-covariance de X est Σ = Var[X ] = E[(X − µ)(X − µ)0 ]. Propriétés: I (Σij ) = E[(Xi − µi )(Xj − µj )] = Cov[Xi , Xj ] et (Σii ) = Var[Xi ], ce qui justifie la terminologie. I Σ est bien définie. En effet, |Σij | ≤ |Σii |1/2 |Σjj |1/2 (CS), où |Σii | = E[(Xi )2 ] + µ2i < ∞. I Σ est symétrique et semi-définie positive (pour tout v ∈ Rp , v 0 E[(X − µ)(X − µ)0 ]v = E[v 0 (X − µ)(X − µ)0 v ] = E[|v 0 (X − µ)|2 ] ≥ 0). I Σ = E[XX 0 ] − µE[X 0 ] − E[X ]µ0 + µµ0 = E[XX 0 ] − µµ0 , qui est une expression plus commode pour le calcul de Σ. Espérance et moments Pour un X qui a des moments finis d’ordre 2, on peut donc considérer E[X1 ] .. µ = E[X ] = . E[Xp ] et Σ = Var[X ] = Cov[Xi , Xj ] i,j=1,...,p = Var[X1 ] ... Cov[X1 , Xp ] .. . Cov[X1 , Xp ] .. .. . Var[Xp ] . . ... Espérance et moments Soient X un p-v.a. et Y un q-v.a., qui ont tous deux des moments finis d’ordre 2. Définition: la covariance entre X et Y est Cov[X , Y ] = E[(X − µX )(Y − µY )0 ]. Propriétés: I (Cov[X , Y ])ij = Cov[Xi , Yj ]. I Comme pour Σ, on vérifie facilement que Cov[X , Y ] est bien définie. I Cov[α1 X1 + α2 X2 , Y ] = α1 Cov[X1 , Y ] + α2 Cov[X2 , Y ] et Cov[X , α1 Y1 + α2 Y2 ] = α1 Cov[X , Y1 ] + α2 Cov[X , Y2 ]. I Cov[X , Y ] = E[XY 0 ] − µX µ0Y . I Si p = q, Var[X + Y ] = Var[X ] + Var[Y ] + Cov[X , Y ] + Cov[Y , X ]. Espérance et moments Si on pose Z = (X 0 , Y 0 )0 , on a E[Z ] = E[X ] E[Y ] et Var[Z ] = Var[X ] Cov[Y , X ] Cov[X , Y ] Var[Y ] . Plan du cours 1. Vecteurs aléatoires. 1.1. Définition, types de distributions. 1.2. Espérance et moments. 1.3. Indépendance. 1.4. Estimateurs usuels de µ et Σ. 1.5. Modes de convergence, résultats limites. 1.6. Fonction caractéristique. 1.7. Jacobiens. Indépendance Soient X un p-v.a. et Y un q-v.a. Définition: X et Y sont indépendants (X ⊥ ⊥ Y ) ssi P[X ∈ B1 , Y ∈ B2 ] = P[X ∈ B1 ]P[Y ∈ B2 ], ∀B1 ∈ Bp , ∀B2 ∈ Bq . Remarque: si X ⊥ ⊥ Y , g(X ) ⊥ ⊥ h(Y ) pour tout g, h. En particulier, si X ⊥ ⊥ Y , Xi ⊥ ⊥ Yj pour tout i, j. Indépendance 0 0 0 Proposition: X ⊥ ⊥ Y ⇔ (i) F (X ,Y ) (x , y ) = F X (x )F Y (y ) ∀x , y (X 0 ,Y 0 )0 ⇔ (ii) f (x , y ) = f X (x )f Y (y ) ∀x , y (dans le cas abst continu) ⇔ (iii) E[g(X )h(Y )] = E[g(X )]E[h(Y )] ∀g, h à valeurs réelles. Remarque: si X ⊥ ⊥ Y , on a X − µX ⊥ ⊥ Y − µY , et donc (X − µX )i ⊥ ⊥ (Y − µY )j pour tout i, j. La proposition ci-dessus implique donc que (Cov[X , Y ])ij = E[(X − µX )i (Y − µY )j ] = E[(X − µX )i ]E[(Y − µY )j ] = 0, de sorte que Cov[X , Y ] = 0. Espérance et moments En particulier, si on pose Z = (X 0 , Y 0 )0 , Var[Z ] = Var[X ] 0 0 Var[Y ] , et si p = q, Var[X + Y ] = Var[X ] + Var[Y ]. Par contre, Cov[X , Y ] = 0 n’implique pas que X ⊥ ⊥ Y (exemple aux TP). Extension à plus de deux v.a.: Définitions: (i) X1 , . . . , Xn ⊥ ⊥ ssi ∀B1 ∈ Bp1 , . . . , ∀Bn ∈ Bpn , P[X1 ∈ B1 , . . . , Xn ∈ Bn ] = P[X1 ∈ B1 ] . . . P[Xn ∈ Bn ]. (ii) X1 , X2 , . . . ⊥ ⊥ ssi ∀k ∀i1 < i2 < . . . < ik , Xi1 , . . . , Xik ⊥ ⊥. Plan du cours 1. Vecteurs aléatoires. 1.1. Définition, types de distributions. 1.2. Espérance et moments. 1.3. Indépendance. 1.4. Estimateurs usuels de µ et Σ. 1.5. Modes de convergence, résultats limites. 1.6. Fonction caractéristique. 1.7. Jacobiens. Estimateurs Soient X1 , . . . , Xn des p-v.a. i.i.d., avec des moments finis d’ordre 1. ; on peut estimer µ = E[X ] par µ̂ = X̄ = n 1X Xi . n i=1 Quels sont les propriétés de X̄ ? Proposition: si les Xi ont des moments finis d’ordre 2, (i) E[X̄ ] = µ et (ii) Var[X̄ ] = n1 Σ. Preuve: Pn (i) E[X̄ ] = n1 (ii) Var[X̄ ] = E[Xi ] = µ. Pn X]= i=1 i i=1 1 Var[ n2 1 n2 Pn i=1 Var[Xi ] = 1 nΣ n2 = n1 Σ. Estimateurs Soient X1 , . . . , Xn des p-v.a. i.i.d., avec des moments finis d’ordre 2. ; on peut estimer Σ = Var[X ] = E[(X − E[X ])(X − E[X ])0 ] par Σ̂ = S = n 1 X (Xi − X̄ )(Xi − X̄ )0 . n−1 i=1 Comme X̄ , cet estimateur est sans biais: Proposition: si les Xi ont des moments finis d’ordre 2, E[S] = Σ. Preuve: Soit W = (n − X X 0 − nX̄ X̄ 0 , de sorte que i i i 1)S. On a0 W = P 0 0 E[W ] = E[Xi Xi ] − nE[X̄ X̄ ] = nE[X1 X1 ] − nE[X̄ X̄ 0 ]. i Or Σ = E[X1 X10 ] − µµ0 et n1 Σ = Var[X̄ ] = E[X̄ X̄ 0 ] − µµ0 . Donc E[W ] = n(Σ + µµ0 ) − n( n1 Σ + µµ0 ) = (n − 1)Σ. P Estimateurs Soit X un p-v.a. Soient A une matrice constante m × p et b ∈ Rm . Clairement, E[AX + b] = AE[X ] + b et Var[AX + b] = AVar[X ]A0 . Définitions: (i) Un estimateur T (X1 , . . . , Xn ) de µ = E[X ] est affine-équivariant ssi T (AX1 + b, . . . , AXn + b) = AT (X1 , . . . , Xn ) + b, ∀A, b. (ii) Un estimateur S(X1 , . . . , Xn ) de Σ = Var[X ] est affine-équivariant ssi S(AX1 + b, . . . , AXn + b) = AS(X1 , . . . , Xn )A0 , ∀A, b. Proposition: X̄ et S sont des estimateurs affine-équivariants de µ et Σ, respectivement. Preuve: exercice. Estimateurs Ce qu’on attend avant tout d’un estimateur θ̂n de θ est qu’il soit proche de θ. Il est en fait désirable qu’il soit arbitrairement proche de θ si la taille d’échantillon n est suffisamment grande, c’est-à-dire que θ̂n → θ, si n → ∞. Il nous faut d’abord donner un sens précis à cette convergence... Plan du cours 1. Vecteurs aléatoires. 1.1. Définition, types de distributions. 1.2. Espérance et moments. 1.3. Indépendance. 1.4. Estimateurs usuels de µ et Σ. 1.5. Modes de convergence, résultats limites. 1.6. Fonction caractéristique. 1.7. Jacobiens. Modes de convergence, résultats limites Soit (Ω, A, P) un espace de mesure. Soit (Xn ) une suite de p-v.a. et X un p-v.a. définis sur (Ω, A, P). Pour rappel, dans le cas univarié (p = 1), on peut définir de diverses manières la convergence de (Xn ) vers X : p.s. Xn → X (presque sûrement) ⇔ P[{ω ∈ Ω | Xn (ω) → X (ω)}] = 1. P Xn → X (en probabilité) ⇔ Pour tout ε > 0, P[|Xn − X | > ε] → 0. Lr Xn → X (en norme Lr , r > 0) ⇔ E[|Xn − X |r ] → 0. D Xn → X en loi ⇔ F Xn (x ) → F X (x ) pour tout x ∈ R en lequel F X est continue. Modes de convergence, résultats limites Ces concepts s’étendent aisément au cas multivarié: p.s. Xn → X (presque sûrement) ⇔ P[{ω ∈ Ω | Xn (ω) → X (ω)}] = 1. P Xn → X (en probabilité) ⇔ Pour tout ε > 0, P[kXn − X k > ε] → 0. Lr Xn → X (en norme Lr , r > 0) ⇔ E[kXn − X kr ] → 0. D Xn → X en loi ⇔ F Xn (x ) → F X (x ) pour tout x ∈ Rp en lequel F X est continue. Modes de convergence, résultats limites Les divers liens entre ces concepts de convergence sont maintenus dans le cas général: p.s. Xn → X ⇒ P Xn → ⇓ X Lr ⇐ Xn → X D Xn → X Remarques: p.s. P I Xn → X ⇒ il existe une sous-suite (Xnk ) telle que Xnk → X . I Xn → a, a constant ⇒ Xn → a. I Xn → X et limK →∞ supn≥1 E |Xn |I{|Xn | ≥ K } = 0 ⇔ Xn → X . D P P L1 Modes de convergence, résultats limites Le résultat suivant montre que la convergence p.s. composante par composante implique la convergence p.s. multivariée (et qu’il en va de même pour la convergence en probabilité)... Proposition: soient (Xn ) une suite de p-v.a. et X un p-v.a. Alors p.s. p.s. (i) (Xn )i → Xi ∀i = 1, . . . , p ⇒ (Xn ) → X ; P P (ii) (Xn )i → Xi ∀i = 1, . . . , p ⇒ (Xn ) → X . Preuve: (i) Soient A := {ω ∈ Ω | Xn (ω) → X (ω)} et Ai := {ω ∈ Ω | Xn (ω) i → Xi (ω)}, Pp i = 1, . . . , p. Alors P[Ac ] = P[∪pi=1 Aci ] ≤ i=1 P[Aci ] = 0, de sorte que P[A] = 1 − P[Ac ] = 1. Pp |(Xn )i − Xi |2 > ε2 ] ≤ P[∪pi=1 [|(Xn )i − Xi |2 > ε2 /p]] ≤ Pp √ P[|(Xn )i − Xi | > ε /p] = i=1 P[|(Xn )i − Xi | > ε/ p] → 0, si n → ∞. i=1 (ii) P[kXn − X k > ε] = P[ P p 2 2 i=1 Modes de convergence, résultats limites Il en découle directement que la loi des grands nombres est également valide dans le cas multivarié. Plus précisément: Corollaire: soient X1 , X2 , . . . des p-v.a. i.i.d., avec des moments finis d’ordre 1. Pn Notons µ = E[X1 ] et X̄ (n) := n1 i=1 Xi . Alors p.s. (i) (X̄ (n) ) → µ (loi forte); (ii) (X̄ (n) P ) → µ (loi faible). Remarques: I La moyenne empirique est donc un estimateur fortement convergent pour µ. I On montre de la même manière que, si X1 , X2 , . . . sont i.i.d., Pn 1 avec des moments finis d’ordre 2, S = n−1 (Xi − X̄ )(Xi − X̄ )0 est un i=1 estimateur fortement convergent pour Σ. Modes de convergence, résultats limites A l’inverse des convergences p.s. et en proba, il n’est pas suffisant de considérer la convergence en loi des marginales. D D Plus précisément, il ne suffit pas d’établir que Xn → X et que Yn → Y pour en déduire que Xn Yn D → X Y . Par contre, on a le fameux lemme de Slutzky : D D Lemme: Si Xn → X et Yn → a (a constant), alors Xn Yn D → X . a Modes de convergence, résultats limites Quelques résultats supplémentaires sur la convergence en loi: D D D Proposition: (i) Xn → X et Xn → Y ⇒ X = Y (c’est-à-dire P X = P Y ). (ii) Soit g : Rp → Rq une fonction telle que P[X ∈ Cg ] = 1, où D D Cg = {points de continuité de g}. Alors Xn → X ⇒ g(Xn ) → g(X ). Il découle directement de cette proposition et du lemme de Slutzky le résultat suivant: D D Corollaire: Si Xn → X et Yn → a (a ∈ Rs constant) et si g : Rp+s → Rq est D continue, alors g(Xn , Yn ) → g(X , a). D D En particulier, si les dimensions coïncident, Xn → X et Yn → a impliquent que D D Xn + Yn → X + a, Xn0 Yn → X 0 a, etc. Modes de convergence, résultats limites Le résultat suivant est connu sous le nom de “méthode delta": D Proposition: Soit (Xn ) une suite de p-v.a. telle que νn (Xn − a) → Z , où νn → ∞. Soit g : Rp → Rq une fonction différentiable en a. Alors D i νn (g(Xn ) − g(a)) → Dg(a) Z , où Dg(a) = ( ∂g (a)). ∂xj Modes de convergence, résultats limites Preuve: le lemme de Slutzky implique que D Xn − a = νn−1 [νn (Xn − a)] → 0. D’autre part, l’hypothèse de différentiabilité permet d’écrire g(t) − g(a) = Dg(a)(t − a) + k(t) kt − ak, où la fonction k(.) définie par k(t) = [g(t) − g(a) − Dg(a)(t − a)]/kt − ak I[t6=a] D est continue en t = a. On a donc que k(Xn ) → k(a) = 0. Une nouvelle application du lemme de Slutzky permet de conclure que νn (g(Xn ) − g(a)) = Dg(a)νn (Xn − a) + k(Xn ) kνn (Xn − a)k D → Dg(a)Z + 0 × kZ k = Dg(a)Z . Plan du cours 1. Vecteurs aléatoires. 1.1. Définition, types de distributions. 1.2. Espérance et moments. 1.3. Indépendance. 1.4. Estimateurs usuels de µ et Σ. 1.5. Modes de convergence, résultats limites. 1.6. Fonction caractéristique. 1.7. Jacobiens. Fonction caractéristique Nous définissons maintenant un outil qui, comme nous le verrons, est très puissant pour établir des résultats distributionnels. Définition: la fonction caractéristique du p-v.a. X est la fonction ϕX : Rp t → C 0 7→ E[e it X ]. Remarques: I ϕX est à valeurs dans le disque unité de C 0 (puisque |ϕX (t)| ≤ E[|e it X |] = E[1] = 1). I ϕX (0) = 1; ϕX (t) = ϕX (−t). I ϕX est uniformément continue (ce qui découle de l’inégalité 0 |ϕX (s) − ϕX (t)| ≤ E[|e i(s−t) X − 1|]). Fonction caractéristique Si la loi de X est absolument continue (de densité f X ), Z 0 ϕX (t) = E[e it X ] = 0 e it x f X (x ) dx , Rp de sorte que ϕX est la transformée de Fourier de f X . L’existence de la célèbre formule d’inversion f X (x ) = 1 2π p Z Rp justifie le qualificatif “caractéristique": Proposition: D (i) X = Y ⇔ ϕX (t) = ϕY (t) ∀t ∈ Rp . D (ii) (Xn ) → X ⇔ ϕXn (t) → ϕX (t) ∀t ∈ Rp . 0 e −ix y ϕX (y ) dy Fonction caractéristique Exemple: si X ∼ N (0, 1), ϕX (t) = E[e itX ] = Z e itx R 2 2 1 √ e −x /2 dx = . . . = e −t /2 . 2π 0 Proposition: Soient A ∈ Rq×p , b ∈ Rq . Alors ϕAX +b (t) = e it b ϕX (A0 t) ∀t ∈ Rq . 0 0 0 Preuve: ϕAX +b (t) = E[e it (AX +b) ] = E[e it b e i(A t)0X 0 ] = e it b ϕX (A0 t). D On en déduit que, si X ∼ N (µ, σ 2 ) (X = σZ + µ, où Z ∼ N (0, 1)), 2 ϕX (t) = e itµ ϕZ (σt) = e itµ−(σt) /2 . Remarque: si µ = 0, ϕX est à valeurs réelles. Ceci est en fait une illustration du résultat suivant: D Proposition: ϕX : Rp → R ⇔ X = −X (exercice). Fonction caractéristique Proposition: soient X , Y des p-v.a. indépendants. Alors ϕX +Y (t) = ϕX (t)ϕY (t) ∀t ∈ Rp . Preuve: ϕX +Y (t) = E[e it 0 (X +Y ) 0 0 0 0 ] = E[e it X e it Y ] = E[e it X ]E[e it Y ] = ϕX (t)ϕY (t). Proposition: pour autant que les espérances ci-dessous existent, k E[X1k1 . . . Xp p ] = Preuve: exercice. 1 ∂ k1 +...+kp i k1 +...+kp ∂tk11 . . . ∂tpp k ϕX (t) t=0 Fonction caractéristique D D Théorème (Cramer-Wold): X = Y ⇔ u 0 X = u 0 Y ∀u ∈ S p−1 . Preuve: (⇒) Pour tout t ∈ R, ϕu0X (t) = ϕX (tu) = ϕY (tu) = ϕu0 Y (t). (⇐) Soit t ∈ Rp \{0}. Posons u = t/ktk. Alors ϕX (t) = ϕX (ktku) = ϕu0X (ktk) = ϕu0 Y (ktk) = ϕY (ktku) = ϕY (t). Ceci permet de conclure, puisque ϕX (0) = 1 = ϕY (0). Plan du cours 1. Vecteurs aléatoires. 1.1. Définition, types de distributions. 1.2. Espérance et moments. 1.3. Indépendance. 1.4. Estimateurs usuels de µ et Σ. 1.5. Modes de convergence, résultats limites. 1.6. Fonction caractéristique. 1.7. Jacobiens. Jacobiens Le résultat suivant découle facilement de la formule de changement de variables dans les intégrales multiples. Proposition: soit X un p-v.a. de loi absolument continue (de densité f X ). Soit Y = φ(X ) , où φ est un difféomorphisme. Alors Y est également de loi absolument continue et sa densité est donnée par f Y (y ) = f X (φ−1 (y )) Dφ−1 (y ), ∀y ∈ Rp (où |Dg(y )| désigne la valeur absolue du jacobien de g en y ). Preuve: soit B ∈ Bp . P[Y ∈ B] = P[φ(X ) ∈ B] = P[X ∈ φ−1 (B)] = Z f X (x ) dx , φ−1 (B) ce qui, en posant x = φ−1 (y ), livre Z P[Y ∈ B] = B f X (φ−1 (y )) Dφ−1 (y ) dy .