Vecteurs aléatoires gaussiens

publicité
Université d’Artois
Faculté des Sciences Jean Perrin
Probabilités (Master 1 Mathématiques-Informatique)
Daniel Li
Chapitre 2
Vecteurs aléatoires gaussiens
1
Vecteurs aléatoires
Certaines notions que l’on a définies dans le chapitre précédent que pour
les variables aléatoires réelles se transposent pour les variables aléatoires vectorielles.
On dispose dans Rd du produit scalaire usuel :
hx | yi = x1 y1 + · · · + xd yd
si x = (x1 , . . . , xd ) et y = (y1 , . . . , yd ) ∈ Rd .
1.1
Fonction caractéristique
Si X : Ω → Rd est une variable aléatoire, on définit sa fonction caractéristique ΦX : Rd → C par :
ΦX (u) = E eihu|Xi , ∀u ∈ Rd ,
où hu | Xi (ω) = hu | X(ω)i, ∀ω ∈ Ω. Autrement dit, si X = (X1 , . . . , Xd ) et
u = (u1 , . . . , ud ) :
ΦX (u) = E ei(u1 X1 +···+ud Xd )
Convention. Il est d’usage d’identifier les vecteurs de Rd à des matricescolonnes ; ainsi on écrira le vecteur aléatoire X = (X1 , . . . , Xd ) sous la forme :


X1


X =  ... 
Xd
et alors :
t
X = (X1 · · · Xd )
est une matrice-ligne (noter l’absence maintenant des virgules).
1


u1


Si u =  ... , le produit scalaire s’écrira, en identifiant les éléments de R
ud
à des matrices à une ligne et une colonne, comme le produit des matrices :
hu | Xi = t X.u = t u.X .
Comme lorsque d = 1, on a :
Théorème 1.1 Deux v.a. possédant la même fonction caractéristique ont la
même loi : si X et Y sont deux v.a. à valeurs dans Rd telles que ΦX = ΦY ,
alors PX = PY .
Preuve. Elle est la même que celle faite
dans le cas d = 1, en utilisant l’unité
approchée définie par pa (y) = a1d p ay , a > 0, avec p(y) = p(y1 , . . . , yd ) =
1
·
π d (1+y 2 )···(1+y 2 )
1
d
Corollaire 1.2 Soit Xk : Ω → Rdk , 1 6 k 6 n, des v.a. ; elles sont indépendantes si et seulement si :
Φ[X1 ,...,Xn ) (t1 , . . . , tn ) = ΦX1 (t1 ) · · · ΦXn (tn ) ,
∀tk ∈ Rdk , 1 6 k 6 n.
Preuve. Le Théorème de Fubini donne :
Z
ΦX1 (t1 ) · · · ΦXn (tn ) =
ei(t1 x1 +···+tn xn ) d PX1 ⊗· · ·⊗PXn (x1 , . . . , xn ) ;
Rd1 +···+dn
d’où le résultat, puisque le membre de droite est la f.c d’une v.a. suivant la loi
PX1 ⊗ · · · ⊗ PXn .
1.2
Intégration
On dira que X = (X1 , . . . , Xd ) : Ω → Rd est intégrable (resp., de carré
intégrable, resp. de puissance rème intégrable : X ∈ Lr (Ω; Rd )) si chacune de ses
composantes X1 , . . . , Xd : Ω → R l’est. On notera :
E (X) = E (X1 ), . . . , E (Xd ) ,
ou, matriciellement :


E (X1 )


..
E (X) = 
 .
.
E (Xd )
Il est facile de voir que la v.a. X ∈ Lr (Ω; Rd ) si et seulement si :
E (kXkr ) < +∞.
2
0
Proposition 1.3 Soit A : Rd → Rd une application linéaire, et X : Ω → Rd
un vecteur aléatoire. Alors :
E (AX) = A E (X) .
Dans cette proposition, de la même manière que l’on a identifié les vecteurs
à des matrices-colonnes, on identifie l’application linéaire A à sa matrice ; donc :


α1,1 · · · α1,d

..  .
A =  ...
. 
···
αd0,1
0
αd,d
Preuve. Il suffit de l’écrire ; on a :
AX =
d
X
αk,l Xl
l=1
16k6d0
;
donc :
d
X
αk,l Xl
E (AX) = E
l=1
=
d
X
16k6d0
αk,l Xl E (Xl )
l=1
16k6d0
= A E (X) .
En particulier, pour tout a ∈ Rd , on a :
E ha | Xi = ha | E (X)i ,
ou, autrement écrit :
E (t a.X) = t a.E (X) .
Définition 1.4 Si M = Xk,l
16k6n
16l6s
est une matrice formée de variables aléa-
toires réelles Xk,l : Ω → R, on dit que c’est une matrice aléatoire. On dit
qu’elle est intégrable si chacune des Xk,l l’est, et l’on pose :
E (M ) = E (Xk,l k,l .
Proposition 1.5 Soit M une matrice aléatoire et A et B deux matrices (non
aléatoires ; on dit qu’elles sont déterministes) telles que les produits AM et
M B existent. On a :
E (AM ) = A E (M )
et
E (M B) = E (M ) B .
Preuve. Il suffit de regarder la définition du produit des matrices.
3
Définition 1.6 Si X : Ω → Rd est un vecteur aléatoire de carré intégrable, on
définit sa matrice de covariance, avec les notations matricielles, par :
KX = E
X − E (X) .t X − E (X)
.
On notera que :


X1 − E (X1 )


..
.
X
−
E
(X
)
·
·
·
X
−
E
(X
)
X − E (X) .t X − E (X) = 

1
1
d
d
.
Xd − E (Xd )
est une matrice carrée d’ordre d, dont les termes sont :
Xk − E (Xk ) Xl − E (Xl ) , 1 6 k, l 6 d.
Lorsque X, Y ∈ L2 (Ω) sont deux v.a. réelles de carré intégrable, on définit
leur covariance par :
cov (X, Y ) = E X − E (X) Y − E (Y ) = E (XY ) − E (X) E (Y ) .
Lorsque Y = X, on obtient la variance de X.
Revenant au cas où X = (X1 , . . . , Xd ) est un vecteur aléatoire, on voit que
sa matrice de covariance est :
KX = cov (Xk , Xl )
.
16k,l6d
Proposition 1.7 La matrice de covariance est symétrique et positive. La
forme quadratique associée est non dégénérée si et seulement si, en tant qu’éléments de L2 (Ω, P ), les vecteurs X1 −E (X1 ), . . . , Xd −E (Xd ) sont linéairement
indépendants.
Preuve. La symétrie est évidente.
Rappelons qu’une matrice symétrique est positive si la forme bilinéaire (ou
la forme quadratique)
associée est une forme positive. Il faut donc voir que, pour


u1


tout u =  ...  , on a :
ud
t
u KX u > 0 .
Mais cela résulte du lemme suivant.
Lemme 1.8 Pour tout u ∈ Rd , on a :
t
u KX u = E [hu | X − E (X)i]2
4
.
Preuve. C’est un simple calcul ; grâce à la Proposition 1.3, on a :
t
u KX u = t u E [X −E (X)].t [X −E (X)] u = E t u.[X −E (X)].t [X −E (X)].u ;
d’où le résultat, puisque t u.[X −E (X)] = hu | X −E (X)i et que t [X −E (X)].u =
hX − E (X) | ui = hu | X − E (X)i.
Cette formule montre de plus que la forme quadratique u 7→ t u KX u est
dégénérée si, et seulement si, il existe u 6= 0 tel
que hu | X − E (X)i =
0, ce qui
signifie que l’on a, dans L2 (P ), u1 X1 −E (X1 ) +· · ·+ud Xd −E (Xd ) = 0 pour
des u1 , . . . , ud non tous nuls ; autrement dit, que X1 − E (X1 ), . . . , Xd − E (Xd )
sont linéairement indépendants dans L2 (P ).
Remarque. Il faut bien faire attention que si des v.a.r., non constantes, sont
indépendantes, elles sont linéairement indépendantes (sinon, l’une peut s’exprimer comme combinaison linéaire des autres ; elle ne peut donc être indépendante
de celles-ci), l’inverse est bien sûr loin d’être vrai.
Exemple. Si X suit la loi uniforme sur [0, 1], X et X 2 , qui ne sont, bien sûr,
pas indépendantes, sont linéairement indépendantes, car si aX + bX 2 = 0, alors,
d’une part, en prenant l’espérance, on a a2 + 3b = 0, puisque :
E (X k ) =
Z
1
xk dx =
0
1
;
k+1
mais on a aussi, d’autre part, aX 2 + bX 3 = 0, d’où a3 + 4b ; donc a = b = 0.
Notons que, par définition, la covariance de deux v.a.r. X et Y est le produit
scalaire, dans L2 (P ), des v.a.r. centrées X − E (X) et Y − E (Y ) :
cov (X, Y ) = hX − E (X) | Y − E (Y )i .
La covariance est donc nulle (on dit alors que X et Y sont non corrélées, ou
décorrélées, si et seulement si les v.a.r. centrées X − E (X) et Y − E (Y ) sont
orthogonales. Lorsque X et Y sont indépendantes, on a E (XY ) = E (X)E (Y ) ;
donc cov (X, Y ) = 0. Ainsi :
Proposition 1.9 Si X et Y sont deux v.a.r. indépendantes, alors cov (X, Y ) =
0, et X − E (X) et Y − E (Y ) sont orthogonales dans L2 (P ).
On avait déjà vu cela dans la Remarque suivant le Corollaire 14 du Chapitre 1.
Corollaire 1.10 Si X1 , . . . , Xd : Ω → R sont indépendantes, la matrice de covariance du vecteur aléatoire X = (X1 , . . . , Xd ) est diagonale.
La réciproque est évidemment en général fausse, puisque le fait que la matrice
de covariance soit diagonale signifie seulement que les composantes du vecteur
aléatoire sont deux-à-deux non corrélées.
5
2
Vecteurs aléatoires gaussiens
Rappelons que la loi gaussienne (ou normale) centrée réduite est la loi
N (0, 1) sur R dont la densité est :
fG (x) =
√1
2π
2
e−x
/2
.
2
Si G ∼ N (0, 1), sa f.c. est ΦG (t) = e−t /2 ; son espérance est nulle : E (G) =
0, et sa variance est Var (G) = 1.
Si G ∼ N (0, 1), alors σG + m ∼ N (m, σ 2 ) et, inversement, si X ∼
N (m, σ 2 ), alors G = X−m
∼ N (0, 1).
σ
On conviendra de dire que les constantes sont des gaussiennes dégénérées (correspondant à σ = 0).
On peut “ visualiser une v.a.r.
Ω = − 12 , 12 , muni de sa tribu
mesure de Lebesgue λ.
Soit G la fonction impaire sur
de :
gaussienne centrée réduite G ainsi : prenons
borélienne, avec la probabilité P qui est la
Ω qui, sur 0, 21 , est la fonction réciproque
Z u
2
dx
u 7−→
e−x /2 √
2π
0
On a bien, puisque G−1 est strictement croissante :
Z
P (0 6 G 6 u) = λ([0, G−1 (u)]) = G−1 (u) =
0
6
u
2
e−x
/2
dx
√ ·
2π
Définition 2.1 On dit qu’un vecteur aléatoire X : Ω → Rd est un vecteur
aléatoire gaussien si la v.a.r. ϕ(X) : Ω → R est gaussienne, pour toute
forme linéaire ϕ : Rd → R.
En d’autres termes, si X = (X1 , . . . , Xd ), les v.a.r. a1 X1 +· · ·+ad Xd doivent
être gaussiennes, pour tout choix des nombres réels a1 , . . . , ad .
On dira souvent vecteur gaussien au lieu de “vecteur aléatoire gaussien”.
Il est clair que :
0
Proposition 2.2 Si X : Ω → Rd est un vecteur gaussien et si A : Rd → Rd est
0
une application linéaire, alors AX : Ω → Rd est encore un vecteur gaussien.
0
puisque ψ ◦ A est une forme linéaire sur Rd , pour toute forme linéaire ψ sur Rd .
Il résulte aussi immédiatement de la définition que l’on a :
Proposition 2.3 Si X = (X1 , . . . , Xd ) : Ω → Rd est un vecteur gaussien, alors
chaque v.a.r. Xk : Ω → R, es gaussienne.
puisque les applications (x1 , . . . , xd ) 7→ xk sont des formes linéaires sur Rd .
L’inverse est faux, comme on le verra. Néanmoins, on a :
Théorème 2.4 Soit X1 , . . . , Xd : Ω → R des v.a.r. gaussiennes ; si elles sont
indépendantes, alors le vecteur X = (X1 , . . . , Xd ) est gaussien.
Preuve. Pour tous réels a1 , . . . , ad ∈ R, les v.a.r. a1 X1 , . . . , ad Xd sont encore
gaussiennes et indépendantes ; alors (voir Chapitre 1, Corollaire 5.10), la v.a.r.
a1 X1 + · · · + ad Xd est encore gaussienne.
Théorème 2.5 Si X est un vecteur gaussien, sa fonction caractéristique vaut :
1
ΦX (u) = exp i t u.E (X) − t u KX u ,
2
∀u ∈ Rd ,
où KX est la matrice de covariance de X.
On notera que lorsque X est une v.a.r. gaussienne (d = 1), alors u ∈ R et
u KX u = Var (X)u2 = σ 2 u2 , t u.E (X) = mu ; cette formule étend bien le cas
scalaire.
t
Preuve. L’application x 7→ t u.x = hu | xi est une forme linéaire. La v.a.r. t u.X
est donc gaussienne. Son espérance est m = E (t u.X) = t u.E (X), et sa variance
est σ 2 = Var (t u.X) = t u KX u ; en effet :
Lemme 2.6 Pour tout vecteur aléatoire X, on a : t u KX u = Var (t u.X).
7
Preuve du lemme. On a vu (Lemme 1.8) que t u KX u = E [hu | X −
E (X)i]2 ; mais :
hu | X − E (X)i = t u. X − E (X) = t u.X − t u.E (X) = t u.X − E (t u.X);
donc :
t
u KX u = E [t u.X − E (t u.X)]2 = Var (t u.X) .
Suite de la preuve du Théorème 2.5. Donc, pour tout v ∈ R, on a :
1
Φt u.X (v) = exp ivm − σ 2 v 2 ·
2
Comme :
t
Φt u.X (v) = E eiv( u.X) = E eivhu|Xi ,
on obtient, en prenant v = 1 :
1
ΦX (u) = E eivhu|Xi = Φt u.X (1) = exp i t u.E (X) − t u KX u .
2
Comme corollaire, on obtient le très important résultat suivant.
Théorème 2.7 Si X = (X1 , . . . , Xd ) est un vecteur gaussien, alors ses
composantes sont indépendantes si et seulement si elles sont non corrélées :
cov (Xj , Xk ) = 0, ∀j 6= k.
Autrement dit, si et seulement si X1 − E (X1 ), . . . , Xd − E (Xd ) sont orthogonales dans L2 (P ).
Preuve. Nous savons déjà que des v.a.r. indépendantes sont non corrélées.
Inversement, si elles ne sont pas corrélées, la matrice de covariance de X est
diagonale :
 2

σ1
······






.

,
..
KX = 





0
0
······
σd2
avec σk2 = Var (Xk ). Si l’on note mk = E (Xk ), on a E (X) = (m1 , . . . , md ).
Comme X est un vecteur gaussien, on a, pour u = (u1 , . . . , ud ) ∈ Rd :
1
ΦX (u) = exp ihu | E(X)i − t u KX u
2
1
= exp i(u1 m1 + · · · + ud md ) − (σ12 u21 + · · · σd2 u2d )
2
1 2 2
1
= exp iu1 m1 − σ1 u1 × · · · × exp iud md − σd2 u2d
2
2
= ΦX1 (u1 ) · · · ΦXd (ud ) ,
8
ce qui prouve l’indépendance de X1 , . . . , Xd .
Remarque. Il est indispensable de savoir au préalable que le vecteur X est
gaussien.
Exemple. Soit Y une v.a.r. de loi N (0, 1) et ε une v.a.r. de Rademacher :
P (ε = −1) = P (ε = 1) = 12 , indépendante de Y . Alors :
a) εY ∼ N (0, 1).
En effet, pour tout borélien A de R, on a :
P (εY ∈ A) = P (ε = 1, Y ∈ A) + P (ε = −1, −Y ∈ A) ;
mais l’indépendance donne d’une part :
P (ε = 1, Y ∈ A) = P (ε = 1) P (Y ∈ A) =
1
P (Y ∈ A) ,
2
et, d’autre part :
P (ε = −1, −Y ∈ A) = P (ε = −1) P (−Y ∈ A) =
1
1
P (−Y ∈ A) = P (Y ∈ A) ,
2
2
puisque (−Y ) suit la même loi que Y . On a donc P (εY ∈ A) = P (Y ∈ A), de
sorte que εY suit la même loi que Y .
⊥
⊥
b) cov (Y, εY ) = E (Y.εY ) = E (εY 2 ) = E (ε) E (Y 2 ) = 0 × 1 = 0.
Pourtant, les v.a.r. Y et εY ne sont pas indépendantes (car sinon Y serait
indépendante de (εY )2 = Y 2 , ce qui n’est pas). Il en résulte que le vecteur
X = (Y, εY ) n’est pas gaussien, bien que ses composantes soient des v.a.r.
gaussiennes.
Nous avons vu que toute matrice de covariance est symétrique positive. Inversement, nous allons voir que toute telle matrice est la matrice de covariance
d’un vecteur gaussien. C’est la généralisation de ce qui se passe pour la dimension 1, où la moyenne et la variance d’une v.a.r. gaussienne peuvent être données
arbitrairement. Cela permet aussi d’assurer l’existence de vecteurs gaussiens en
dehors du cas où les composantes sont indépendantes.
Théorème 2.8 (Théorème d’existence) Pour tout m ∈ Rd et toute matrice
réelle K carrée d’ordre d, symétrique positive, il existe un vecteur gaussien de
moyenne m et de matrice de covariance K.
Preuve. Il suffit de le voir pour m = 0.
Nous pouvons choisir à notre gré l’espace de probabilitésur lequel la variable
aléatoire sera définie. Choisissons (Ω, A ) = Rr , Bor (Rr ) , où r est le rang de
la matrice K (on suppose K non nulle, car si K = 0, la variable aléatoire nulle
convient), et munissons-le de la probabilité gaussienne P , de densité :
r
1X 1
1
1
γ(t) = √
exp −
exp − ktk22 .
t2j = √
2 j=1
2
( 2π)r
( 2π)r
9
Considérons la variable aléatoire :
Y0 :
−→
7−→
Ω
t
Rr
t.
C’est évidemment une variable aléatoire gaussienne : sa loi est PY0 = P = γ.λd ,
centrée, de matrice de covariance égale à Ir , la matrice unité d’ordre r.
Comme K est symétrique positive, il existe une matrice (d × r) A telle que
K = A.t A. Alors Y = AY0 : Ω → Rd est un vecteur gaussien (Proposition 2.2),
centré, et sa matrice de covariance est :
E (Y.t Y ) = E (AY0 ).t (AY0 ) = E (A.Y0 .t Y0 .t A) = A.E (Y0 .t Y0 ).t A
= A.Ir .t A = A.t A = K.
La preuve que l’on vient de faire permet d’obtenir facilement le résultat
suivant.
Corollaire 2.9 Un vecteur gaussien X : Ω → Rd possède une densité, par rapport à la mesure de Lebesgue sur Rd , si et seulement si sa matrice de covariance
KX est inversible. Cette densité est alors :
1
1
1
−1
p
exp − t [x − E (X)].KX
.[x − E (X)] .
fX (x) = √
2
( 2π)d |dét KX |
Preuve. On peut d’abord supposer que E (X) = 0 ; ensuite, comme cet énoncé
ne concerne que la loi de la v.a. X, on peut supposer que X est donné par
l’égalité X = AY0 , comme dans la preuve du Théorème 2.8, avec A.t A = KX .
Lorsque KX n’est pas inversible, son rang r est < d ; comme A est de taille
(d × r), elle envoie Rd dans Rr , de sorte que X = AY0 prend ses valeurs, presque
sûrement, dans un sous-espace de Rd de dimension r < d ; X ne peut donc avoir
de densité (ce sous-espace est de mesure de Lebesgue nulle, alors que pour PX ,
il est de mesure 1).
Si KX est inversible, son rang est r = d, et A est inversible. Comme X = AY0 ,
on peut utiliser la formule de changement de variable :
Théorème 2.10 (formule de changement de variable) Soit O un ouvert
0
de Rd et O0 un ouvert de Rd , tels qu’il existe un difféomorphisme ϕ de classe
1
0
C de O sur O . Alors, pour toute fonction f : O → R mesurable positive ou
intégrable, on a :
Z
Z
f (u) du =
f ϕ−1 (v) |Jac ϕ−1 (v)| dv .
O
O0
via son corollaire :
Corollaire 2.11 Sous les hypothèses du Théorème 2.10, soit U : Ω → Rd une
variable aléatoire prenant presque sûrement ses valeurs dans O. Alors, si U a
une densité de probabilité fU , V = ϕ(U ) possède aussi une densité de probabilité,
donnée par :
fV (v) = fU ϕ−1 (v) |Jac ϕ−1 (v)| .
10
Or ici ϕ = A est linéaire ; donc :
|Jac A−1 (y)| = |dét (A−1 )| =
1
1
=p
;
|dét A|
|dét KX |
et par conséquent, puisque Y0 possède la densité fY0 = γ, X possède une densité,
donnée par :
1
1
1
1
p
fX (x) = p
γ(A−1 x) = √
exp − kA−1 xk22 ,
2
( 2π)d |dét KX |
|dét KX |
d’où le résultat, puisque :
kA−1 xk22 = t (A−1 x).(A−1 x) = t x.t A−1 .A−1 .x = t x.(A.t A)−1 .x
−1
.x .
= t x.KX
Preuve du Corollaire 2.11. Pour tout borélien B, on a :
Z
PV (B) =
1IB (v) dPV (v) = E (1IB ◦ V ) = E 1IB ◦ ϕ(U )
0
d
ZR
Z
=
(1IB ◦ ϕ)(u) dPU (u) =
(1IB ◦ ϕ)(u) fU (u) du
d
Rd
ZR
=
1IB (v) fU ϕ−1 (v) |Jac ϕ−1 (v)| dv .
Rd0
3
3.1
Statistique gaussienne
Résultats théoriques
Définition 3.1 On dit qu’une suite (X1 , . . . , Xn ) de variables aléatoires indépendantes et suivant toutes la même loi PX , est un n-échantillon de
la loi PX , ou n-échantillon de X.
On dit aussi que les variables aléatoires X1 , . . . , Xn sont indépendantes
et identiquement distribuées, en abrégé : i.i.d. .
Définition 3.2 Soit (X1 , . . . , Xn ) un n-échantillon d’une v.a.r. X ∈ L2 (P ).
1) La v.a.r.
X1 + · · · + Xn
Xn =
n
est appelée la moyenne empirique de l’échantillon.
2) La v.a.r.
Vn =
1
(X1 − X n )2 + · · · + (Xn − X n )2
n
est appelée la variance empirique de l’échantillon.
11
n
Notons que les Statisticiens préfèrent prendre pour variance empirique n−1
V n,
car son espérance est égale à Var (X) ; on dit que c’est un estimateur sans biais.
Définition 3.3
1) On appelle loi du chi-deux à d degrés de liberté la loi de la somme
de d carrés de gaussiennes centrées réduites indépendantes : Y12 + · · · + Yd2 . On
la note χ2d .
p
2) On appelle loi de Student à d degrés de liberté la loi de X/ K/d,
où X ∼ N (0, 1), K ∼ χ2d et X ⊥⊥ K ( X indépendante de K). On la note Td .
Student est le pseudonyme de William Sealey Gosset (1876–1937).
L’intérêt de ces lois vient du résultat suivant.
Théorème 3.4 (Théorème de Cochran)
Soit (X1 , . . . , Xn ) un n-échantillon gaussien, de loi N (m, σ 2 ), σ > 0.
Alors :
2
1) X n ∼ N m, σn ;
2) σn2 V n ∼ χ2n−1 ;
3) X n et V n sont indépendantes ;
Xn − m
4) q
∼ Tn−1 .
V n /(n − 1)
Remarque. Les points essentiels sont 2) et 3).
On notera que dans le 2), on perd un degré de liberté.
Dans le 2), il est sans doute plus naturel d’écrire :
n
1
V n = 2 (X1 − X n )2 + · · · + (Xn − X n )2 .
2
σ
σ
Preuve. 1) Les v.a.r. X1 , . . . , Xn étant gaussiennes et indépendantes, leur
somme est encore gaussienne.
Donc X n est gaussienne ; de plus : E (X n ) =
1
1
E
(X
)
+
·
·
·
+
E
(X
)
=
×
nm = m, et Var (X n ) = n12 Var (X1 ) + · · · +
1
n
n
n
2
Var (Xn ) = n12 × nσ 2 = σn ·
2) Commençons par nous ramener au cas centré réduit en posant Yk =
Xk −m
; Yk ∼ N (0, 1) et :
σ
1
Xn − m
(Y1 + · · · + Yn ) =
;
n
σ
1
1
Wn =
(Y1 − Y n )2 + · · · + (Yn − Y n )2 = 2 V n .
n
σ
Yn =
Il s’agit donc de montrer que :
nW n ∼ χ2n−1 .
12
Notons pour cela (e1 , . . . , en ) la base canonique de Rn , et choisissons une
autre base orthonormée (f1 , . . . , fn ) de Rn en imposant que :
fn =
e1 + · · · + en
√
·
n
La matrice de passage a donc la forme suivante :

√
· · · · · 1/ n
 ..
..
√
. 1/ n
U =
 .
√
· · · · · 1/ n




et elle est orthogonale, puisque les bases sont orthonormées.
Les v.a.r. Y1 , . . . , Yn étant gaussiennes et indépendantes, le vecteur Y =
(Y1 , . . . , Yn ) est gaussien. Il en résulte que le vecteur t U Y = Z = (Z1 , . . . , Zn )
est aussi gaussien. Comme sa matrice de covariance :
KZ = E (Z.t Z) = E (U Y ).t (t U Y ) = E (t U.Y.t Y.U )
= t U E (Y.t Y ) U = t U.KY .U = t U.In .U = t U.U = In
(puisque U est orthogonale) est l’identité, en particulier diagonale, les composantes de Z sont indépendantes (Théorème 2.7), et de loi N (0, 1).
De plus, comme la matrice U est orthogonale, elle définit une transformation
isométrique de Rn ; donc kY k2 = kZk2 (c’est-à-dire que pour tout ω ∈ Ω, on a
kY (ω)k2Rn = kZ(ω)k2Rn ), soit :
Y12 + · · · + Yn2 = Z12 + · · · + Zn2 ;
√
n
√
d’où, puisque Zn = Y1 +···+Y
= nY n :
n
nW n = (Y1 − Y n )2 + · · · + (Yn − Y n )2
2
= Y12 + · · · + Yn2 − 2(Y1 + · · · Yn ) Y n + nY n
2
= Y12 + · · · + Yn2 − nY n = Z12 + · · · + Zn2 − Zn2
2
= Z12 + · · · + Zn−1
∼ χ2n−1 .
3) Comme Z1 , . . . , Zn sont indépendantes, les deux v.a.r. :
1
Y n = √ Zn
n
et W n =
1 2
2
(Z + · · · + Zn−1
)
n 1
le sont aussi. Donc X n et V n sont aussi indépendantes.
4) Résulte maintenant de ce qui précède et de la définition de la loi de
Student.
13
3.2
Application pratique
Considérons la situation suivante.
Un produit commercialisé est vendu dans des boîtes portant la mention
“contenance 500 grammes”.
En fait, la quantité de produit dans chaque boîte n’est pas rigoureusement
constante et dépend des aléas de la fabrication (fiabilité de la machine, entreautres). La fonction qui à chaque boîte lui associe sa contenance peut donc être
considérée comme une variable aléatoire réelle X. La mention de contenance de
500 grammes annoncée par le fabricant est la moyenne E (X) de cette v.a.r. .
Pour contrôler la contenance, on ne pèse pas toutes les boîtes, mais on effectue des tests. On choisit donc, au hasard, un certain nombre de boîtes dont
on pèse le contenu. Si le nombre total de boîtes est très grand par rapport au
nombre de boîtes choisies, on peut considérer que la situation est la même à
chaque prélèvement, et donc que l’on renouvelle à chaque fois la même opération ; autrement dit, au lieu de considérer que l’on a n valeurs (occurences)
X(ω1 ), . . . , X(ωn ) de la v.a.r. X, on considère que l’on fait n fois la même expérience, et donc que l’on a n v.a.r. X1 , . . . , Xn , ayant toutes la même loi que
X, et dont on mesure une valeur : X1obs = X1 (ω), . . . , Xnobs = Xn (ω). Ces v.a.r.
peuvent de plus être considérées comme indépendantes, puisque l’on choisit les
boîtes au hasard. On a donc un n-échantillon de X.
Nous allons faire (parce c’est plus simple !) l’hypothèse que X suit une loi
normale N (m, σ 2 ). Il n’y a évidemment aucune raison que ce soit réellement
le cas. Néanmoins, on peut le faire, en théorie, de façon approximative, puisque
l’on verra (Théorème Limite Central), qu’en un certain sens, toutes les lois
peuvent être approximées par des gaussiennes (on peut, par exemple, prendre
pour X1 , . . . , Xn , non pas directement les valeurs observées, mais des moyennes
de valeurs de lots observés). C’est le travail du Statisticien de déterminer la loi
suivie, ou, du moins, avec quelle approximation on peut dire que telle loi est
suivie.
L’intérêt de la loi normale est qu’elle est très peu dispersée autour de sa
moyenne (il y a une très petite probabilité que l’on soit loin de sa moyenne).
Définition 3.5 Soit Z une v.a.r., à valeurs dans R. Supposons, pour simplifier,
que sa fonction de répartition FZ soit continue et strictement croissante. Pour
0 6 β 6 1, on note ϕβ l’unique nombre réel vérifiant :
FZ (ϕβ ) = P (Z 6 ϕβ ) = β
(c’est-à-dire que ϕβ = FZ−1 (β)). On dit que c’est le quantile d’ordre β.
Pour β = 1/2, ϕ1/2 est la médiane. ϕ1/4 est le premier quartile et ϕ3/4 le
troisième quartile.
On obtient ces valeurs en utilisant des calculatrices, ou des logiciels ; autrefois, mais encore aujourd’hui, on utilisait des tables de valeurs.
14
Pour Z ∼ N (0, 1) , les valeurs les plus couramment utilisées sont :
ϕ0,975 ≈ 1, 96
et
ϕ0,90 ≈ 1, 282 ,
et surtout :
ϕ0,95 ≈ 1, 645 .
On a ϕ0 = −∞ et ϕ1 = +∞.
Comme la densité de PZ est paire (Z est symétrique), on a :
ϕ1−α = −ϕα .
On a donc :
P (−ϕ1−α 6 Z 6 ϕ1−β ) = 1 − (α + β) .
On peut bien sûr prendre α = β, mais il prendre α 6= β sera aussi utile.
Soit maintenant un n-échantillon (X1 , . . . , Xn ) de la loi N (m, σ 2 ).
2
Comme X n ∼ N m, σn , on a :
Z=
Xn − m
q
∼ N (0, 1) ;
σ2
n
donc :
r
P
−
σ2
ϕ1−α 6 X n − m 6
n
r
σ2
ϕ1−β
n
!
= 1 − (α + β) .
Pour chaque valeur de ω ∈ Ω, l’intervalle :
r
r
σ2
σ2
X n (ω) −
ϕ1−α ; X n (ω) +
ϕ1−β
n
n
est appelé intervalle de confiance pour la moyenne m au niveau 1 − (α + β)
(1 − (α + β) est le niveau de confiance) : il y a une probabilité 1 − (α + β)
que la moyenne m soit dans cet intervalle.
15
Revenons au problème des boîtes de conserve.
Supposons que l’on ait fait n = 10 mesures indépendantes, et que l’on ait
observé les valeurs suivantes :
495 ; 497 ; 498 ; 498 ; 498 ; 501 ; 501 ; 501 ; 502 ; 504 .
Supposons aussi que l’on sache (d’une façon ou d’une autre, par exemple parce
que c’est l’imprécision due à la machine remplissant les boîtes) que l’écart-type
est σ = 1 gramme (en moyenne les contenances s’écartent de la valeur 500
grammes que de 1 gramme).
On a alors :
obs
X n = X 1 0(ω) = 499, 5 .
Choisissons (c’est le testeur qui décide de cela) de prendre un niveau de
confiance de 90% (soit 0, 9). On dit aussi que l’on prend un cœfficient de
sécurité de 90%, ou que l’on se laisse une marge d’erreur de 10%.
Il y a plusieurs façons de procéder.
1) Supposons que l’on veuille être impartial. On prendra alors α = β = 0, 05.
Comme ϕ0,95 ≈ 1, 645, on aura, aux approximations près :
r
r
1
1
−
× 1, 645 6 4999, 5 − m 6
× 1, 645 ,
10
10
soit, puisque
1,645
√
10
≈ 0, 52 :
498, 98 6 m 6 500, 02 .
Cet intervalle de confiance ne permet pas de conclure si la contenance est respectée ou non.
2) Supposons que le test soit fait par le fabricant. Il choisira α = 0 et β =
√
≈ 0, 41, on trouve :
0, 10. Alors, comme ϕ0,90 ≈ 1, 282 et 1,282
10
m > 499, 5 − 0, 41 = 499, 09 .
Avec cette façon de procéder, on ne peut rien conclure, mais un fabricant peu
scrupuleux pourra prétendre qu’il n’y a rien à lui reprocher !
3) Si le test est fait par une association de consommateurs, celle-ci prendra
β = 0 et α = 0, 10. On trouve :
m 6 499, 5 + 0, 41 = 499, 91 .
16
On peut donc dire, avec une confiance de 90%, que le fabricant ne respecte pas
la contenance.
Nous venons de supposer que l’on connaissait l’écart-type. Ce n’est en général
pas le cas. On doit alors utiliser la variance empirique. Rappelons que :
Xn − m
q
∼ Tn−1 .
V n /(n − 1)
En notant tn−1,β les quantiles de cette loi, on a donc :
s
s
!
Vn
Vn
P −
tn−1,α 6 X n − m 6
tn−1,β = 1 − (α + β) .
n−1
n−1
Dans notre exemple, on a :
V
obs
n
10
2
1 X
Xk (ω) − X n (ω) ≈ 6, 65 ;
= V n (ω) =
10
k=1
obs
l’écart-type obervé est donc σ ≈ 2, 58. Comme t9;0,95 ≈ 1, 833, on a, avec un
niveau de confiance de 90% (α = β = 0, 05) : 497, 92 6 m 6 501, 08.
On peut vouloir aussi avoir une estimation de l’écart-type σ. Pour cela, on
utilise que σn2 V n ∼ χ2n−1 . On a donc :
n
P 2 V n 6 χ2n−1,α = α .
σ
Si l’on veut une estimation supérieure, on écrira :
nV n
2
P σ 6 2
= 1 − α.
χn−1,α
Pour α = 0, 05, on aura, avec une sécurité de 95%, en utilisant la valeur χ29;0,05 ≈
3, 325 :
10 × 6, 65
= 20 ,
σ2 6
3, 325
soit σ 6 4, 5.
Si l’on veut une estimation inférieure, on écrira :
nV n
2
P σ > 2
= α;
χn−1,α
alors, en prenant α = 0, 95, on a χ29;0,95 ≈ 16, 919 et, avec une sécurité de 95%,
on a :
10 × 6, 65
≈ 3, 93 ,
σ2 >
16, 919
soit σ > 1, 98.
La différence est importante car le nombre de mesures n = 10 est petit :
10
10
30
30
≈ 17,708
≈ 1, 7 et χ2 30 ≈
3,325 ≈ 3 et 16,919 ≈ 0, 6. Pour n = 30 : χ2
29;0,05
30
42,557
≈ 0, 7.
17
29;0,95
Téléchargement