Chapitre 6 Vecteur aléatoire et indépendance Soit (Ω, A, P) un espace probabilisé. 6.1 Vecteur aléatoire Définition 6.1.1. On dit que X = (X1 , . . . , Xd ) : Ω → Rd est un vecteur aléatoire si X est une application A − B(Rd )-mesurable. Dans ce cas, la fonction PX : B(Rd ) → [0, 1] B 7→ P(X −1 (B)) = P(X ∈ B) définit une mesure de probabilité sur (Rd , B(Rd )) et est appelée loi du vecteur aléatoire X. La démonstration du fait que PX est bien une probabilité est la même que celle concernant les variables aléatoires réelles. Les fonctions de projection πi : Rd → R, x = (x1 , . . . , xd ) 7→ xi sont continues, donc B(Rd ) − B(R)-mesurables. On en déduit que si X = (X1 , . . . , Xd ) est un vecteur aléatoire, alors pour tout i = 1, . . . , d, Xi = πi ◦ X est une variable aléatoire réelle. Définition 6.1.2. Soit X = (X1 , . . . , Xd ) un vecteur aléatoire. On appelle i-éme loi marginale de X la loi de Xi , c’est-à-dire la loi PXi . On a, pour tout B ∈ B(R), PXi (B) = PX (Ri−1 × B × Rd−i ). Exemple 6.1.3. Soit X = (X1 , X2 ) un vecteur aléatoire de loi PX = 41 (δ(0,0) + δ(0,1) + δ(1,0) + δ(1,1) ). Alors les lois marginales de X sont PX1 = 12 (δ0 + δ1 ) et PX2 = 12 (δ0 + δ1 ). Notons que le vecteur aléatoire Y de loi PY = 21 (δ(0,0) + δ(1,1) ) a les mêmes lois marginales que X , mais PY 6= PX . L’exemple précédent montre que la connaissance des lois marginales d’un vecteur aléatoire ne permet pas, en général, de reconstruire la loi de ce vecteur. On rappelle que la mesure de Lebesgue sur Rd est la mesure produit λd = λ ⊗ · · · ⊗ λ (d fois), où λ est la mesure de Lebesgue sur R. Pour un ensemble produit de la forme B1 × · · · × Bd ∈ B(Rd ), on a λd (B1 × · · · × Bd ) = λ(B1 ) · · · λ(Bd ). Définition 6.1.4. Une fonction f : Rd → R est une densité de probabilité sur Rd si CHAPITRE 6. VECTEUR ALÉATOIRE ET INDÉPENDANCE 1. f est positive, 2. f est intégrable par rapport à la mesure de Lebesgue sur Rd , 3. Z Rd f (x1 , . . . , xd ) dλd (x1 , . . . , xd ) = 1. X est un vecteur aléatoire à densité s’il existe une densité de probabilité f telle que pour tout B ∈ B(Rd ), Z PX (B) = f (x1 , . . . , xd ) dλd (x1 , . . . , xd ). B Notons que, comme dans le cas des variables aléatoires réelles, il suffit de vérifier la dernière égalité pour les ensembles du type B =] − ∞, t1 ] × · · · ×] − ∞, td ]. Proposition 6.1.5. Soit X = (X1 , . . . , Xd ) un vecteur aléatoire de densité f . Les lois marginales de X sont des lois à densité et pour tout i = 1, . . . , d, la densité de PXi est donnée par fi (x) = Z Ri−1 ×Rd−i f (x1 , . . . , xi−1 , x, xi+1 , . . . , xd ) dλd−1 (x1 , . . . , xi−1 , xi+1 , . . . , xd ) Démonstration. Pour tout i = 1, . . . , d et B ∈ B(R), par le théorème de Fubini, PXi (B) = PX (Ri−1 × B × Rd−i ) Z = f (x1 , . . . , xd ) dλd (x1 , . . . , xd ) Ri−1 ×B×Rd−i Z Z = f (x1 , . . . , xi−1 , x, xi+1 , . . . , xd ) dλd−1 (x1 , . . . , xi−1 , xi+1 , . . . , xd ) dλ(x). B Ri−1 ×Rd−i La fonction entre parenthèses est donc nécessairement une densité de probabilité de la loi PXi . Exemple 6.1.6. 1) Soit (X1 , X2 ) un vecteur aléatoire de loi uniforme sur [0, 1]2 , c’est-à-dire de densité 1[0,1]2 . Les lois marginales sont toutes les deux des lois uniformes sur [0, 1]. 2) Soit (X1 , X2 ) un vecteur aléatoire de loi uniforme sur le disque unité D(0, 1) = {(x, y) ∈ R2 | x2 + y 2 ≤ 1}, c’est-à-dire de densité π1 1D(0,1) . Les lois marginales sont toutes les deux de densité f (x) = π2 √ 1 − x2 1[−1,1] (x). Si (X1 , . . . , Xd ) est un vecteur aléatoire et g : Rd → R une fonction mesurable, g(X1 , . . . , Xd ) est une variable aléatoire réelle et si cette variable est intégrable, on peut calculer son espérance : Z E(g(X1 , . . . , Xd )) = g(X1 , . . . , Xd ) dP. Ω Le théorème de transfert (théorème 5.1.4) se généralise aux vecteurs aléatoires (même démonstration !) et on a donc E(g(X1 , . . . , Xd )) = Z Rd g(x1 , . . . , xd ) dP(X1 ,...,Xd ) (x1 , . . . , xd ). Proposition 6.1.7 (Changement de variable). Soit X = (X1 , . . . , Xd ) un vecteur aléatoire à valeurs dans un ouvert D de Rd et de densité fX . Soit φ : D → E un C 1 -difféomorphisme 6.2. INDÉPENDANCE de D dans un ouvert E de Rd et U = (U1 , . . . , Ud ) = φ(X1 , . . . , Xd ). Alors U est un vecteur aléatoire de densité donnée par fU (u1 , . . . , ud ) = | det Jφ−1 (u1 , . . . , ud )| fX (φ−1 (u1 , . . . , ud )), −1 ∂φi où la matrice jacobienne est définie par Jφ−1 (u1 , . . . , ud ) = (u1 , . . . , ud ) , avec ∂uj 1≤i,j≤d −1 la notation φ−1 = (φ−1 1 , . . . , φ d ). Démonstration. Pour tout borélien B ⊂ E , par le changement de variable (u1 , . . . , ud ) = φ(x1 , . . . , xd ) (voir cours d’intégration), E(U ∈ B) = P(φ(X) ∈ B) Z 1B ◦ φ(x1 , . . . , xd )fX (x1 , . . . , xd )dλd (x1 , . . . , xd ) = ZD 1B (u1 , . . . , ud )fX (φ−1 (u1 , . . . , ud ))| det Jφ−1 (u1 , . . . , ud )|dλd (u1 , . . . , ud ). = E Une densité de U est donc (u1 , . . . , ud ) 7→ fX (φ−1 (u1 , . . . , ud ))| det Jφ−1 (u1 , . . . , ud )|. Remarque 6.1.8. Nous n’avions pas fait mention de ce résultat pour les variables aléatoires réelles, mais bien sûr il s’applique aussi en dimension 1. Dans ce cas, φ étant une fonction d’un ouvert de R dans un ouvert de R le Jacobien devient simplement |(φ−1 )0 (u)|. Exemple 6.1.9. Soit (X, Y ) un vecteur aléatoire de loi uniforme sur [0, 1]2 . On s’intéresse à la loi de U = XY . Pour cela on introduit le vecteur (U, V ) = (XY, Y ) = φ(X, Y ) où φ :]0, 1[2 → ∆ est un C 1 -difféomorphisme de l’ouvert ]0, 1[2 dans l’ouvert ∆ = {(u, v) ∈]0, 1[2 | u < v}. On a φ−1 (u, v) = ( uv , v) et donc | det Jφ−1 (u, v)| = | v1 |. On en déduit que f(U,V ) (u, v) = 1]0,1[2 1 1 , v = 1∆ (u, v). v v v u On trouve une densité de U comme marginale : fU (u) = Z R f(U,V ) (u, v)dλ(v) = Z 1 u 1 1 (u)dv = − ln(u)1]0,1[ (u). v ]0,1[ 6.2 Indépendance On rappelle que des variables aléatoires réelles X1 , . . . , Xn sont dites indépendantes si pour tout B1 , . . . , Bn ∈ B(R), P(X1 ∈ B1 , . . . , Xn ∈ Bn ) = P(X1 ∈ B1 ) · · · P(Xn ∈ Bn ), c’est-à-dire si les tribus σ(X1 ), . . . , σ(Xn ) sont indépendantes. On obtient immédiatement la définition équivalente suivante. Proposition 6.2.1. Les variables aléatoires réelles X1 , . . . , Xd sont indépendantes si et seulement si la loi du vecteur aléatoire X = (X1 , . . . , Xd ) est la loi produit de ses lois marginales, i.e. PX = PX1 ⊗ · · · ⊗ PXd . On voit donc que dans le cas d’indépendance de ses composantes, les lois marginales permettent de reconstruire la loi du vecteur. CHAPITRE 6. VECTEUR ALÉATOIRE ET INDÉPENDANCE Proposition 6.2.2 (vecteurs discrets). Soit X = (X1 , . . . , Xd ) un vecteur aléatoire discret. Alors les variables X1 , . . . , Xd sont indépendantes si et seulement si pour tout (k1 , . . . , kd ) atome pour X , P(X1 = k1 , . . . , Xd = kd ) = P(X1 = k1 ) · · · P(Xd = kd ). Démonstration. Exprimer la loi PX et les lois PXi comme sommes de mesures de Dirac et remarquer que δ(k1 ,...,kd ) = δk1 ⊗ · · · ⊗ δkd . Notation : si f, g : R → R, on note f ⊗ g : R2 → R, (x, y) 7→ f (x)g(y). Proposition 6.2.3 (vecteurs à densité). 1. Si X1 , . . . , Xd sont des variables aléatoires indépendantes de densités respectives f1 , . . . , fd alors le vecteur aléatoire X = (X1 , . . . , Xd ) admet pour densité la fonction f = f1 ⊗ · · · ⊗ fd . 2. Si le vecteur aléatoire X = (X1 , . . . , Xd ) a pour densité une fonction f et s’il existe des densités de probabilité f1 , . . . , fd de R dans R telles que f = f1 ⊗ · · · ⊗ fd , alors les variables X1 , . . . , Xd sont indépendantes et pour tout i = 1, . . . , d, la loi de Xi a pour densité fi . Démonstration. 1. Par indépendance, puis par le théorème de Fubini, pour tout B1 × · · · × Bd ∈ B(Rd ), PX (B1 × · · · × Bd ) = P(X1 ∈ B1 ) · · · P(Xd ∈ Bd ) Z Z fd (xd ) dλ(xd ) = f1 (x1 ) dλ(x1 ) · · · Bd ZB1 = f1 (x1 ) · · · fd (xd ) dλd (x1 . . . , xd ) B1 ×···×Bd et donc X a pour densité f1 ⊗ · · · ⊗ fd . 2. La forme de f et la proposition 6.1.5 montre que pour tout i = 1, . . . , d, dPXi = fi dλ. De plus, par le théorème de Fubini, pour tout B1 , . . . , Bd ∈ B(R), P(X ∈ B1 × · · · × Bd ) = Z f1 (x1 ) · · · fd (xd ) dλd (x1 . . . , xd ) ZB1 ×···×Bd Z = f1 (x1 ) dλ(x1 ) · · · fd (xd ) dλ(xd ) B1 Bd = P(X1 ∈ B1 ) · · · P(Xd ∈ Bd ). Ce qui prouve l’indépendance de X1 , . . . , Xd . Exemple 6.2.4. 1) Soit (X, Y ) un vecteur aléatoire de densité f (x, y) = e−2y 1[−1,1] (x)1R+ (y), alors X et Y sont indépendantes, X a pour densité fX (x) = 12 1[−1,1] (x) et Y a pour densité fY (y) = 2e−2y 1R+ (y). Autrement dit, X et Y sont deux variables indépendantes de lois respectives U([−1, 1]) et E(2). 2) Soit X et Y deux variables aléatoires indépendantes de loi N (0, 1). On pose U = X +Y 1 − et V = X − Y . Par indépendance, le couple (X, Y ) a pour densité f(X,Y ) (x, y) = 2π e La fonction φ: R2 → R2 (x, y) 7→ (u, v) = (x + y, x − y) x2 +y 2 2 . 6.3. INDÉPENDANCE, ESPÉRANCE ET COVARIANCE u−v est clairement un C 1 -difféomorphisme et φ−1 (u, v) = ( u+v 2 , 2 ). Le calcul du Jacobien 1 −1 donne det Jφ (u, v) = − 2 et on en déduit une densité de (U, V ), f(U,V ) = f(X,Y ) (φ−1 (u, v))| det Jφ−1 (u, v)| = u2 v2 1 − u2 +v2 1 1 4 e = √ e− 4 √ e− 4 . 4π 4π 4π La forme de cette densité montre que U et V sont deux variables aléatoires indépendantes, toutes deux de loi N (0, 2). 3) Soit X et Y deux variables aléatoires indépendantes de loi N (0, 1). On passe en √ coordonnées polaires en posant R = X 2 + Y 2 et Θ = arg(X +iY ) et l’on s’intéresse à la loi de (R, Θ). Encore une fois, par indépendance, le couple (X, Y ) a pour densité f(X,Y ) (x, y) = 1 −x 2π e 2 +y 2 2 . La fonction φ : R2 \ (R+ × {0}) → R∗+ ×]0, 2π[ p (x, y) 7→ (r, θ) = ( x2 + y 2 , arg(x + iy)) est un C 1 -difféomorphisme et φ−1 (r, θ) = (r cos(θ), r sin(θ)). On en déduit que | det Jφ−1 (r, θ)| = r et par suite que r2 1 − (r cos(θ))2 +(r sin(θ))2 1 2 re 1R+ ×[0,2π] (r, θ) = re− 2 1R+ (r) 1[0,2π] (θ) 2π 2π est une densité de (R, Θ). La forme de la densité montre que R et Θ sont indépendantes, Θ 1 1[0,2π] (θ)) et R suit une loi de densité suit une loi uniforme sur [0, 2π] (de densité fΘ (θ) = 2π f(R,Θ) (r, θ) = r2 fR (r) = re− 2 1R+ (r). Notons que l’on obtient facilement (en utilisant soit un changement de variable en dimension 1, soit le calcul de la fonction de répartition) que R2 suit une loi exponentielle de paramètre 21 . 6.3 Indépendance, espérance et covariance Si (X, Y ) est un vecteur aléatoire et g : R2 → R une fonction mesurable. On rappelle qu’en vertu du théorème de transfert, E(g(X, Y )) = Z R2 g(x, y) dP(X,Y ) (x, y). En utilisant le fait qu’en cas d’indépendance, la loi P(X,Y ) est une mesure produit, on obtient la proposition suivante. Proposition 6.3.1. Soit X et Y deux variables aléatoires intégrables. Si X et Y sont indépendantes alors XY est intégrable et E(XY ) = E(X)E(Y ). Attention, la réciproque est fausse. Démonstration. On suppose X et Y indépendantes. On a alors P(X,Y ) = PX ⊗ PY et par le théorème de Fubini (pour des fonctions positives) Z Ω |XY | dP = Z R2 |xy| d(PX ⊗ PY )(x, y) = Z R |x| dPX (x) Z R |y| dPY (y) = E(|X|)E(|Y |) < +∞. On en déduit que XY est intégrable et, encore par Fubini, E(XY ) = Z R2 xy d(PX ⊗ PY )(x, y) = Z R x dPX (x) Z R y dPY (y) = E(X)E(Y ). Contre-exemple pour la réciproque : Soit X une variable aléatoire de loi PX = 13 (δ−1 +δ0 +δ1 ) et Y = X 2 . Alors, on a E(X) = 0 et E(XY ) = E(X 3 ) = 0, d’où E(XY ) = E(X)E(Y ). En revanche, P(X = 0, Y = 1) = 0 6= P(X = 0)P(Y = 1) = 13 · 32 et donc X et Y ne sont pas indépendantes. CHAPITRE 6. VECTEUR ALÉATOIRE ET INDÉPENDANCE Remarque 6.3.2. On a immédiatement que si X1 , . . . , Xn sont des variables aléatoires intégrables et indépendantes alors E(X1 · · · Xn ) = E(X1 ) · · · E(Xn ). Lorsque E(XY ) = E(X)E(Y ) on dit que les variables X et Y sont non corrélées. On introduit la notion de covariance. Définition 6.3.3. Soit X et Y deux variables aléatoires de carrés intégrables. On appelle covariance de X et Y la quantité Cov(X, Y) = E(XY) − E(X)E(Y) = E((X − E(X))(Y − E(Y)). Remarque 6.3.4. 1. L’égalité des deux expressions s’obtient facilement en développant la deuxième et en utilisant la linéarité de l’espérance. 2. L’inégalité de Cauchy-Schwarz (E(|XY |)2 ≤ E(X 2 )E(Y 2 )) assure que si X et Y sont de carrés intégrables, E(XY ) est bien définie. 3. La proposition précédente se traduit en : X et Y indépendantes implique Cov(X, Y) = 0 (et la réciproque est fausse !). 4. Deux variables aléatoires sont non corrélées si Cov(X, Y) = 0. On dira qu’elles sont corrélées dans le cas contraire. 5. Cov(X, Y) = Cov(Y, X) et Cov(X, X) = V(X). 6. Cov est une forme bilinéaire symétrique sur L2 (Ω, A, P). La variance d’une somme de variables aléatoires s’exprime à l’aide des covariances entre ces variables. Cela donne une relation très agréable lorsque les variables sont deux à deux non corrélées. Proposition 6.3.5. Soit (X1 , . . . , Xn ) un vecteur aléatoire. On a V(X1 + · · · + Xn ) = n X V(Xi ) + 2 i=1 X Cov(Xi , Xj ). 1≤i<j≤n En conséquence, si les variables aléatoires X1 , . . . , Xn sont deux à deux non corrélées (par exemple si elles sont indépendantes) alors V(X1 + · · · + Xn ) = n X V(Xi ). i=1 Démonstration. (exercice) Exercice 6.3.6. Déduire de la proposition 6.3.5 une méthode rapide pour montrer que la variance d’une loi B(n, p) vaut np(1 − p). Exercice 6.3.7. Montrer que si (Xn )n≥1 est une suite de variables aléatoires indépendantes de même loi de carré intégrable, alors la variance de n1 (X1 + · · · + Xn ) tend vers 0 quand n → +∞. La distribution de n1 (X1 + · · · + Xn ) (appelée moyenne empirique) a donc tendance à se concentrer de plus en plus proche de son espérance.