Vecteur aléatoire et indépendance Chapitre 6 6.1 Vecteur aléatoire (Ω,

publicité
Chapitre 6
Vecteur aléatoire et indépendance
Soit (Ω, A, P) un espace probabilisé.
6.1 Vecteur aléatoire
Définition 6.1.1. On dit que X = (X1 , . . . , Xd ) : Ω → Rd est un vecteur aléatoire si X est
une application A − B(Rd )-mesurable. Dans ce cas, la fonction
PX : B(Rd ) → [0, 1]
B
7→ P(X −1 (B)) = P(X ∈ B)
définit une mesure de probabilité sur (Rd , B(Rd )) et est appelée loi du vecteur aléatoire
X.
La démonstration du fait que PX est bien une probabilité est la même que celle concernant les variables aléatoires réelles.
Les fonctions de projection πi : Rd → R, x = (x1 , . . . , xd ) 7→ xi sont continues, donc
B(Rd ) − B(R)-mesurables. On en déduit que si X = (X1 , . . . , Xd ) est un vecteur aléatoire,
alors pour tout i = 1, . . . , d, Xi = πi ◦ X est une variable aléatoire réelle.
Définition 6.1.2. Soit X = (X1 , . . . , Xd ) un vecteur aléatoire. On appelle i-éme loi marginale de X la loi de Xi , c’est-à-dire la loi PXi . On a, pour tout B ∈ B(R),
PXi (B) = PX (Ri−1 × B × Rd−i ).
Exemple 6.1.3. Soit X = (X1 , X2 ) un vecteur aléatoire de loi PX = 41 (δ(0,0) + δ(0,1) + δ(1,0) +
δ(1,1) ). Alors les lois marginales de X sont PX1 = 12 (δ0 + δ1 ) et PX2 = 12 (δ0 + δ1 ). Notons que
le vecteur aléatoire Y de loi PY = 21 (δ(0,0) + δ(1,1) ) a les mêmes lois marginales que X , mais
PY 6= PX .
L’exemple précédent montre que la connaissance des lois marginales d’un vecteur aléatoire ne permet pas, en général, de reconstruire la loi de ce vecteur.
On rappelle que la mesure de Lebesgue sur Rd est la mesure produit λd = λ ⊗ · · · ⊗ λ
(d fois), où λ est la mesure de Lebesgue sur R. Pour un ensemble produit de la forme
B1 × · · · × Bd ∈ B(Rd ), on a
λd (B1 × · · · × Bd ) = λ(B1 ) · · · λ(Bd ).
Définition 6.1.4. Une fonction f : Rd → R est une densité de probabilité sur Rd si
CHAPITRE 6. VECTEUR ALÉATOIRE ET INDÉPENDANCE
1. f est positive,
2. f est intégrable par rapport à la mesure de Lebesgue sur Rd ,
3.
Z
Rd
f (x1 , . . . , xd ) dλd (x1 , . . . , xd ) = 1.
X est un vecteur aléatoire à densité s’il existe une densité de probabilité f telle que pour
tout B ∈ B(Rd ),
Z
PX (B) =
f (x1 , . . . , xd ) dλd (x1 , . . . , xd ).
B
Notons que, comme dans le cas des variables aléatoires réelles, il suffit de vérifier la
dernière égalité pour les ensembles du type B =] − ∞, t1 ] × · · · ×] − ∞, td ].
Proposition 6.1.5. Soit X = (X1 , . . . , Xd ) un vecteur aléatoire de densité f . Les lois marginales de X sont des lois à densité et pour tout i = 1, . . . , d, la densité de PXi est donnée
par
fi (x) =
Z
Ri−1 ×Rd−i
f (x1 , . . . , xi−1 , x, xi+1 , . . . , xd ) dλd−1 (x1 , . . . , xi−1 , xi+1 , . . . , xd )
Démonstration. Pour tout i = 1, . . . , d et B ∈ B(R), par le théorème de Fubini,
PXi (B)
= PX (Ri−1 × B × Rd−i )
Z
=
f (x1 , . . . , xd ) dλd (x1 , . . . , xd )
Ri−1 ×B×Rd−i
Z Z
=
f (x1 , . . . , xi−1 , x, xi+1 , . . . , xd ) dλd−1 (x1 , . . . , xi−1 , xi+1 , . . . , xd ) dλ(x).
B
Ri−1 ×Rd−i
La fonction entre parenthèses est donc nécessairement une densité de probabilité de la loi
PXi .
Exemple 6.1.6. 1) Soit (X1 , X2 ) un vecteur aléatoire de loi uniforme sur [0, 1]2 , c’est-à-dire
de densité 1[0,1]2 . Les lois marginales sont toutes les deux des lois uniformes sur [0, 1].
2) Soit (X1 , X2 ) un vecteur aléatoire de loi uniforme sur le disque unité D(0, 1) =
{(x, y) ∈ R2 | x2 + y 2 ≤ 1}, c’est-à-dire de densité π1 1D(0,1) . Les lois marginales sont toutes
les deux de densité f (x) = π2
√
1 − x2 1[−1,1] (x).
Si (X1 , . . . , Xd ) est un vecteur aléatoire et g : Rd → R une fonction mesurable, g(X1 , . . . , Xd )
est une variable aléatoire réelle et si cette variable est intégrable, on peut calculer son espérance :
Z
E(g(X1 , . . . , Xd )) =
g(X1 , . . . , Xd ) dP.
Ω
Le théorème de transfert (théorème 5.1.4) se généralise aux vecteurs aléatoires (même
démonstration !) et on a donc
E(g(X1 , . . . , Xd )) =
Z
Rd
g(x1 , . . . , xd ) dP(X1 ,...,Xd ) (x1 , . . . , xd ).
Proposition 6.1.7 (Changement de variable). Soit X = (X1 , . . . , Xd ) un vecteur aléatoire
à valeurs dans un ouvert D de Rd et de densité fX . Soit φ : D → E un C 1 -difféomorphisme
6.2. INDÉPENDANCE
de D dans un ouvert E de Rd et U = (U1 , . . . , Ud ) = φ(X1 , . . . , Xd ). Alors U est un vecteur
aléatoire de densité donnée par
fU (u1 , . . . , ud ) = | det Jφ−1 (u1 , . . . , ud )| fX (φ−1 (u1 , . . . , ud )),
−1
∂φi
où la matrice jacobienne est définie par Jφ−1 (u1 , . . . , ud ) =
(u1 , . . . , ud )
, avec
∂uj
1≤i,j≤d
−1
la notation φ−1 = (φ−1
1 , . . . , φ d ).
Démonstration. Pour tout borélien B ⊂ E , par le changement de variable (u1 , . . . , ud ) =
φ(x1 , . . . , xd ) (voir cours d’intégration),
E(U ∈ B) = P(φ(X) ∈ B)
Z
1B ◦ φ(x1 , . . . , xd )fX (x1 , . . . , xd )dλd (x1 , . . . , xd )
=
ZD
1B (u1 , . . . , ud )fX (φ−1 (u1 , . . . , ud ))| det Jφ−1 (u1 , . . . , ud )|dλd (u1 , . . . , ud ).
=
E
Une densité de U est donc (u1 , . . . , ud ) 7→ fX (φ−1 (u1 , . . . , ud ))| det Jφ−1 (u1 , . . . , ud )|.
Remarque 6.1.8. Nous n’avions pas fait mention de ce résultat pour les variables aléatoires réelles, mais bien sûr il s’applique aussi en dimension 1. Dans ce cas, φ étant une
fonction d’un ouvert de R dans un ouvert de R le Jacobien devient simplement |(φ−1 )0 (u)|.
Exemple 6.1.9. Soit (X, Y ) un vecteur aléatoire de loi uniforme sur [0, 1]2 . On s’intéresse à
la loi de U = XY . Pour cela on introduit le vecteur (U, V ) = (XY, Y ) = φ(X, Y ) où φ :]0, 1[2 →
∆ est un C 1 -difféomorphisme de l’ouvert ]0, 1[2 dans l’ouvert ∆ = {(u, v) ∈]0, 1[2 | u < v}. On
a φ−1 (u, v) = ( uv , v) et donc | det Jφ−1 (u, v)| = | v1 |. On en déduit que
f(U,V ) (u, v) = 1]0,1[2
1 1
, v = 1∆ (u, v).
v
v
v
u
On trouve une densité de U comme marginale :
fU (u) =
Z
R
f(U,V ) (u, v)dλ(v) =
Z
1
u
1
1 (u)dv = − ln(u)1]0,1[ (u).
v ]0,1[
6.2 Indépendance
On rappelle que des variables aléatoires réelles X1 , . . . , Xn sont dites indépendantes si
pour tout B1 , . . . , Bn ∈ B(R),
P(X1 ∈ B1 , . . . , Xn ∈ Bn ) = P(X1 ∈ B1 ) · · · P(Xn ∈ Bn ),
c’est-à-dire si les tribus σ(X1 ), . . . , σ(Xn ) sont indépendantes. On obtient immédiatement la
définition équivalente suivante.
Proposition 6.2.1. Les variables aléatoires réelles X1 , . . . , Xd sont indépendantes si et
seulement si la loi du vecteur aléatoire X = (X1 , . . . , Xd ) est la loi produit de ses lois
marginales, i.e.
PX = PX1 ⊗ · · · ⊗ PXd .
On voit donc que dans le cas d’indépendance de ses composantes, les lois marginales
permettent de reconstruire la loi du vecteur.
CHAPITRE 6. VECTEUR ALÉATOIRE ET INDÉPENDANCE
Proposition 6.2.2 (vecteurs discrets). Soit X = (X1 , . . . , Xd ) un vecteur aléatoire discret.
Alors les variables X1 , . . . , Xd sont indépendantes si et seulement si pour tout (k1 , . . . , kd )
atome pour X ,
P(X1 = k1 , . . . , Xd = kd ) = P(X1 = k1 ) · · · P(Xd = kd ).
Démonstration. Exprimer la loi PX et les lois PXi comme sommes de mesures de Dirac et
remarquer que δ(k1 ,...,kd ) = δk1 ⊗ · · · ⊗ δkd .
Notation : si f, g : R → R, on note f ⊗ g : R2 → R, (x, y) 7→ f (x)g(y).
Proposition 6.2.3 (vecteurs à densité).
1. Si X1 , . . . , Xd sont des variables aléatoires
indépendantes de densités respectives f1 , . . . , fd alors le vecteur aléatoire X = (X1 , . . . , Xd )
admet pour densité la fonction f = f1 ⊗ · · · ⊗ fd .
2. Si le vecteur aléatoire X = (X1 , . . . , Xd ) a pour densité une fonction f et s’il existe
des densités de probabilité f1 , . . . , fd de R dans R telles que f = f1 ⊗ · · · ⊗ fd , alors les
variables X1 , . . . , Xd sont indépendantes et pour tout i = 1, . . . , d, la loi de Xi a pour
densité fi .
Démonstration.
1. Par indépendance, puis par le théorème de Fubini, pour tout B1 × · · · × Bd ∈ B(Rd ),
PX (B1 × · · · × Bd ) = P(X1 ∈ B1 ) · · · P(Xd ∈ Bd )
Z
Z
fd (xd ) dλ(xd )
=
f1 (x1 ) dλ(x1 ) · · ·
Bd
ZB1
=
f1 (x1 ) · · · fd (xd ) dλd (x1 . . . , xd )
B1 ×···×Bd
et donc X a pour densité f1 ⊗ · · · ⊗ fd .
2. La forme de f et la proposition 6.1.5 montre que pour tout i = 1, . . . , d, dPXi = fi dλ.
De plus, par le théorème de Fubini, pour tout B1 , . . . , Bd ∈ B(R),
P(X ∈ B1 × · · · × Bd ) =
Z
f1 (x1 ) · · · fd (xd ) dλd (x1 . . . , xd )
ZB1 ×···×Bd
Z
=
f1 (x1 ) dλ(x1 ) · · ·
fd (xd ) dλ(xd )
B1
Bd
= P(X1 ∈ B1 ) · · · P(Xd ∈ Bd ).
Ce qui prouve l’indépendance de X1 , . . . , Xd .
Exemple 6.2.4. 1) Soit (X, Y ) un vecteur aléatoire de densité f (x, y) = e−2y 1[−1,1] (x)1R+ (y),
alors X et Y sont indépendantes, X a pour densité fX (x) = 12 1[−1,1] (x) et Y a pour densité
fY (y) = 2e−2y 1R+ (y). Autrement dit, X et Y sont deux variables indépendantes de lois
respectives U([−1, 1]) et E(2).
2) Soit X et Y deux variables aléatoires indépendantes de loi N (0, 1). On pose U = X +Y
1 −
et V = X − Y . Par indépendance, le couple (X, Y ) a pour densité f(X,Y ) (x, y) = 2π
e
La fonction
φ:
R2
→ R2
(x, y) 7→ (u, v) = (x + y, x − y)
x2 +y 2
2
.
6.3. INDÉPENDANCE, ESPÉRANCE ET COVARIANCE
u−v
est clairement un C 1 -difféomorphisme et φ−1 (u, v) = ( u+v
2 , 2 ). Le calcul du Jacobien
1
−1
donne det Jφ (u, v) = − 2 et on en déduit une densité de (U, V ),
f(U,V ) = f(X,Y ) (φ−1 (u, v))| det Jφ−1 (u, v)| =
u2
v2
1 − u2 +v2
1
1
4
e
= √ e− 4 √ e− 4 .
4π
4π
4π
La forme de cette densité montre que U et V sont deux variables aléatoires indépendantes,
toutes deux de loi N (0, 2).
3) Soit X et Y deux variables aléatoires indépendantes de loi N (0, 1). On passe en
√
coordonnées polaires en posant R = X 2 + Y 2 et Θ = arg(X +iY ) et l’on s’intéresse à la loi
de (R, Θ). Encore une fois, par indépendance, le couple (X, Y ) a pour densité f(X,Y ) (x, y) =
1 −x
2π e
2 +y 2
2
. La fonction
φ : R2 \ (R+ × {0}) → R∗+ ×]0, 2π[
p
(x, y)
7→ (r, θ) = ( x2 + y 2 , arg(x + iy))
est un C 1 -difféomorphisme et φ−1 (r, θ) = (r cos(θ), r sin(θ)). On en déduit que | det Jφ−1 (r, θ)| =
r et par suite que
r2
1 − (r cos(θ))2 +(r sin(θ))2
1
2
re
1R+ ×[0,2π] (r, θ) = re− 2 1R+ (r) 1[0,2π] (θ)
2π
2π
est une densité de (R, Θ). La forme de la densité montre que R et Θ sont indépendantes, Θ
1
1[0,2π] (θ)) et R suit une loi de densité
suit une loi uniforme sur [0, 2π] (de densité fΘ (θ) = 2π
f(R,Θ) (r, θ) =
r2
fR (r) = re− 2 1R+ (r). Notons que l’on obtient facilement (en utilisant soit un changement
de variable en dimension 1, soit le calcul de la fonction de répartition) que R2 suit une loi
exponentielle de paramètre 21 .
6.3
Indépendance, espérance et covariance
Si (X, Y ) est un vecteur aléatoire et g : R2 → R une fonction mesurable. On rappelle
qu’en vertu du théorème de transfert,
E(g(X, Y )) =
Z
R2
g(x, y) dP(X,Y ) (x, y).
En utilisant le fait qu’en cas d’indépendance, la loi P(X,Y ) est une mesure produit, on obtient
la proposition suivante.
Proposition 6.3.1. Soit X et Y deux variables aléatoires intégrables. Si X et Y sont indépendantes alors XY est intégrable et E(XY ) = E(X)E(Y ). Attention, la réciproque est
fausse.
Démonstration. On suppose X et Y indépendantes. On a alors P(X,Y ) = PX ⊗ PY et par le
théorème de Fubini (pour des fonctions positives)
Z
Ω
|XY | dP =
Z
R2
|xy| d(PX ⊗ PY )(x, y) =
Z
R
|x| dPX (x)
Z
R
|y| dPY (y) = E(|X|)E(|Y |) < +∞.
On en déduit que XY est intégrable et, encore par Fubini,
E(XY ) =
Z
R2
xy d(PX ⊗ PY )(x, y) =
Z
R
x dPX (x)
Z
R
y dPY (y) = E(X)E(Y ).
Contre-exemple pour la réciproque : Soit X une variable aléatoire de loi PX = 13 (δ−1 +δ0 +δ1 )
et Y = X 2 . Alors, on a E(X) = 0 et E(XY ) = E(X 3 ) = 0, d’où E(XY ) = E(X)E(Y ). En
revanche, P(X = 0, Y = 1) = 0 6= P(X = 0)P(Y = 1) = 13 · 32 et donc X et Y ne sont pas
indépendantes.
CHAPITRE 6. VECTEUR ALÉATOIRE ET INDÉPENDANCE
Remarque 6.3.2. On a immédiatement que si X1 , . . . , Xn sont des variables aléatoires
intégrables et indépendantes alors E(X1 · · · Xn ) = E(X1 ) · · · E(Xn ).
Lorsque E(XY ) = E(X)E(Y ) on dit que les variables X et Y sont non corrélées. On
introduit la notion de covariance.
Définition 6.3.3. Soit X et Y deux variables aléatoires de carrés intégrables. On appelle
covariance de X et Y la quantité
Cov(X, Y) = E(XY) − E(X)E(Y) = E((X − E(X))(Y − E(Y)).
Remarque 6.3.4.
1. L’égalité des deux expressions s’obtient facilement en développant
la deuxième et en utilisant la linéarité de l’espérance.
2. L’inégalité de Cauchy-Schwarz (E(|XY |)2 ≤ E(X 2 )E(Y 2 )) assure que si X et Y sont de
carrés intégrables, E(XY ) est bien définie.
3. La proposition précédente se traduit en : X et Y indépendantes implique Cov(X, Y) =
0 (et la réciproque est fausse !).
4. Deux variables aléatoires sont non corrélées si Cov(X, Y) = 0. On dira qu’elles sont
corrélées dans le cas contraire.
5. Cov(X, Y) = Cov(Y, X) et Cov(X, X) = V(X).
6. Cov est une forme bilinéaire symétrique sur L2 (Ω, A, P).
La variance d’une somme de variables aléatoires s’exprime à l’aide des covariances
entre ces variables. Cela donne une relation très agréable lorsque les variables sont deux à
deux non corrélées.
Proposition 6.3.5. Soit (X1 , . . . , Xn ) un vecteur aléatoire. On a
V(X1 + · · · + Xn ) =
n
X
V(Xi ) + 2
i=1
X
Cov(Xi , Xj ).
1≤i<j≤n
En conséquence, si les variables aléatoires X1 , . . . , Xn sont deux à deux non corrélées (par
exemple si elles sont indépendantes) alors
V(X1 + · · · + Xn ) =
n
X
V(Xi ).
i=1
Démonstration. (exercice)
Exercice 6.3.6. Déduire de la proposition 6.3.5 une méthode rapide pour montrer que la
variance d’une loi B(n, p) vaut np(1 − p).
Exercice 6.3.7. Montrer que si (Xn )n≥1 est une suite de variables aléatoires indépendantes
de même loi de carré intégrable, alors la variance de n1 (X1 + · · · + Xn ) tend vers 0 quand
n → +∞. La distribution de n1 (X1 + · · · + Xn ) (appelée moyenne empirique) a donc tendance
à se concentrer de plus en plus proche de son espérance.
Téléchargement