Université d’Artois Faculté des Sciences Jean Perrin Probabilités (Master 1 Mathématiques-Informatique) Daniel Li Chapitre 2 Vecteurs aléatoires gaussiens 1 Vecteurs aléatoires Certaines notions que l’on a définies dans le chapitre précédent que pour les variables aléatoires réelles se transposent pour les variables aléatoires vectorielles. On dispose dans Rd du produit scalaire usuel : hx | yi = x1 y1 + · · · + xd yd si x = (x1 , . . . , xd ) et y = (y1 , . . . , yd ) ∈ Rd . 1.1 Fonction caractéristique Si X : Ω → Rd est une variable aléatoire, on définit sa fonction caractéristique ΦX : Rd → C par : ΦX (u) = E eihu|Xi , ∀u ∈ Rd , où hu | Xi (ω) = hu | X(ω)i, ∀ω ∈ Ω. Autrement dit, si X = (X1 , . . . , Xd ) et u = (u1 , . . . , ud ) : ΦX (u) = E ei(u1 X1 +···+ud Xd ) Convention. Il est d’usage d’identifier les vecteurs de Rd à des matricescolonnes ; ainsi on écrira le vecteur aléatoire X = (X1 , . . . , Xd ) sous la forme : X1 X = ... Xd et alors : t X = (X1 · · · Xd ) est une matrice-ligne (noter l’absence maintenant des virgules). 1 u1 Si u = ... , le produit scalaire s’écrira, en identifiant les éléments de R ud à des matrices à une ligne et une colonne, comme le produit des matrices : hu | Xi = t X.u = t u.X . Comme lorsque d = 1, on a : Théorème 1.1 Deux v.a. possédant la même fonction caractéristique ont la même loi : si X et Y sont deux v.a. à valeurs dans Rd telles que ΦX = ΦY , alors PX = PY . Preuve. Elle est la même que celle faite dans le cas d = 1, en utilisant l’unité approchée définie par pa (y) = a1d p ay , a > 0, avec p(y) = p(y1 , . . . , yd ) = 1 · π d (1+y 2 )···(1+y 2 ) 1 d Corollaire 1.2 Soit Xk : Ω → Rdk , 1 6 k 6 n, des v.a. ; elles sont indépendantes si et seulement si : Φ[X1 ,...,Xn ) (t1 , . . . , tn ) = ΦX1 (t1 ) · · · ΦXn (tn ) , ∀tk ∈ Rdk , 1 6 k 6 n. Preuve. Le Théorème de Fubini donne : Z ΦX1 (t1 ) · · · ΦXn (tn ) = ei(t1 x1 +···+tn xn ) d PX1 ⊗· · ·⊗PXn (x1 , . . . , xn ) ; Rd1 +···+dn d’où le résultat, puisque le membre de droite est la f.c d’une v.a. suivant la loi PX1 ⊗ · · · ⊗ PXn . 1.2 Intégration On dira que X = (X1 , . . . , Xd ) : Ω → Rd est intégrable (resp., de carré intégrable, resp. de puissance rème intégrable : X ∈ Lr (Ω; Rd )) si chacune de ses composantes X1 , . . . , Xd : Ω → R l’est. On notera : E (X) = E (X1 ), . . . , E (Xd ) , ou, matriciellement : E (X1 ) .. E (X) = . . E (Xd ) Il est facile de voir que la v.a. X ∈ Lr (Ω; Rd ) si et seulement si : E (kXkr ) < +∞. 2 0 Proposition 1.3 Soit A : Rd → Rd une application linéaire, et X : Ω → Rd un vecteur aléatoire. Alors : E (AX) = A E (X) . Dans cette proposition, de la même manière que l’on a identifié les vecteurs à des matrices-colonnes, on identifie l’application linéaire A à sa matrice ; donc : α1,1 · · · α1,d .. . A = ... . ··· αd0,1 0 αd,d Preuve. Il suffit de l’écrire ; on a : AX = d X αk,l Xl l=1 16k6d0 ; donc : d X αk,l Xl E (AX) = E l=1 = d X 16k6d0 αk,l Xl E (Xl ) l=1 16k6d0 = A E (X) . En particulier, pour tout a ∈ Rd , on a : E ha | Xi = ha | E (X)i , ou, autrement écrit : E (t a.X) = t a.E (X) . Définition 1.4 Si M = Xk,l 16k6n 16l6s est une matrice formée de variables aléa- toires réelles Xk,l : Ω → R, on dit que c’est une matrice aléatoire. On dit qu’elle est intégrable si chacune des Xk,l l’est, et l’on pose : E (M ) = E (Xk,l k,l . Proposition 1.5 Soit M une matrice aléatoire et A et B deux matrices (non aléatoires ; on dit qu’elles sont déterministes) telles que les produits AM et M B existent. On a : E (AM ) = A E (M ) et E (M B) = E (M ) B . Preuve. Il suffit de regarder la définition du produit des matrices. 3 Définition 1.6 Si X : Ω → Rd est un vecteur aléatoire de carré intégrable, on définit sa matrice de covariance, avec les notations matricielles, par : KX = E X − E (X) .t X − E (X) . On notera que : X1 − E (X1 ) .. . X − E (X ) · · · X − E (X ) X − E (X) .t X − E (X) = 1 1 d d . Xd − E (Xd ) est une matrice carrée d’ordre d, dont les termes sont : Xk − E (Xk ) Xl − E (Xl ) , 1 6 k, l 6 d. Lorsque X, Y ∈ L2 (Ω) sont deux v.a. réelles de carré intégrable, on définit leur covariance par : cov (X, Y ) = E X − E (X) Y − E (Y ) = E (XY ) − E (X) E (Y ) . Lorsque Y = X, on obtient la variance de X. Revenant au cas où X = (X1 , . . . , Xd ) est un vecteur aléatoire, on voit que sa matrice de covariance est : KX = cov (Xk , Xl ) . 16k,l6d Proposition 1.7 La matrice de covariance est symétrique et positive. La forme quadratique associée est non dégénérée si et seulement si, en tant qu’éléments de L2 (Ω, P ), les vecteurs X1 −E (X1 ), . . . , Xd −E (Xd ) sont linéairement indépendants. Preuve. La symétrie est évidente. Rappelons qu’une matrice symétrique est positive si la forme bilinéaire (ou la forme quadratique) associée est une forme positive. Il faut donc voir que, pour u1 tout u = ... , on a : ud t u KX u > 0 . Mais cela résulte du lemme suivant. Lemme 1.8 Pour tout u ∈ Rd , on a : t u KX u = E [hu | X − E (X)i]2 4 . Preuve. C’est un simple calcul ; grâce à la Proposition 1.3, on a : t u KX u = t u E [X −E (X)].t [X −E (X)] u = E t u.[X −E (X)].t [X −E (X)].u ; d’où le résultat, puisque t u.[X −E (X)] = hu | X −E (X)i et que t [X −E (X)].u = hX − E (X) | ui = hu | X − E (X)i. Cette formule montre de plus que la forme quadratique u 7→ t u KX u est dégénérée si, et seulement si, il existe u 6= 0 tel que hu | X − E (X)i = 0, ce qui signifie que l’on a, dans L2 (P ), u1 X1 −E (X1 ) +· · ·+ud Xd −E (Xd ) = 0 pour des u1 , . . . , ud non tous nuls ; autrement dit, que X1 − E (X1 ), . . . , Xd − E (Xd ) sont linéairement indépendants dans L2 (P ). Remarque. Il faut bien faire attention que si des v.a.r., non constantes, sont indépendantes, elles sont linéairement indépendantes (sinon, l’une peut s’exprimer comme combinaison linéaire des autres ; elle ne peut donc être indépendante de celles-ci), l’inverse est bien sûr loin d’être vrai. Exemple. Si X suit la loi uniforme sur [0, 1], X et X 2 , qui ne sont, bien sûr, pas indépendantes, sont linéairement indépendantes, car si aX + bX 2 = 0, alors, d’une part, en prenant l’espérance, on a a2 + 3b = 0, puisque : E (X k ) = Z 1 xk dx = 0 1 ; k+1 mais on a aussi, d’autre part, aX 2 + bX 3 = 0, d’où a3 + 4b ; donc a = b = 0. Notons que, par définition, la covariance de deux v.a.r. X et Y est le produit scalaire, dans L2 (P ), des v.a.r. centrées X − E (X) et Y − E (Y ) : cov (X, Y ) = hX − E (X) | Y − E (Y )i . La covariance est donc nulle (on dit alors que X et Y sont non corrélées, ou décorrélées, si et seulement si les v.a.r. centrées X − E (X) et Y − E (Y ) sont orthogonales. Lorsque X et Y sont indépendantes, on a E (XY ) = E (X)E (Y ) ; donc cov (X, Y ) = 0. Ainsi : Proposition 1.9 Si X et Y sont deux v.a.r. indépendantes, alors cov (X, Y ) = 0, et X − E (X) et Y − E (Y ) sont orthogonales dans L2 (P ). On avait déjà vu cela dans la Remarque suivant le Corollaire 14 du Chapitre 1. Corollaire 1.10 Si X1 , . . . , Xd : Ω → R sont indépendantes, la matrice de covariance du vecteur aléatoire X = (X1 , . . . , Xd ) est diagonale. La réciproque est évidemment en général fausse, puisque le fait que la matrice de covariance soit diagonale signifie seulement que les composantes du vecteur aléatoire sont deux-à-deux non corrélées. 5 2 Vecteurs aléatoires gaussiens Rappelons que la loi gaussienne (ou normale) centrée réduite est la loi N (0, 1) sur R dont la densité est : fG (x) = √1 2π 2 e−x /2 . 2 Si G ∼ N (0, 1), sa f.c. est ΦG (t) = e−t /2 ; son espérance est nulle : E (G) = 0, et sa variance est Var (G) = 1. Si G ∼ N (0, 1), alors σG + m ∼ N (m, σ 2 ) et, inversement, si X ∼ N (m, σ 2 ), alors G = X−m ∼ N (0, 1). σ On conviendra de dire que les constantes sont des gaussiennes dégénérées (correspondant à σ = 0). On peut “ visualiser une v.a.r. Ω = − 12 , 12 , muni de sa tribu mesure de Lebesgue λ. Soit G la fonction impaire sur de : gaussienne centrée réduite G ainsi : prenons borélienne, avec la probabilité P qui est la Ω qui, sur 0, 21 , est la fonction réciproque Z u 2 dx u 7−→ e−x /2 √ 2π 0 On a bien, puisque G−1 est strictement croissante : Z P (0 6 G 6 u) = λ([0, G−1 (u)]) = G−1 (u) = 0 6 u 2 e−x /2 dx √ · 2π Définition 2.1 On dit qu’un vecteur aléatoire X : Ω → Rd est un vecteur aléatoire gaussien si la v.a.r. ϕ(X) : Ω → R est gaussienne, pour toute forme linéaire ϕ : Rd → R. En d’autres termes, si X = (X1 , . . . , Xd ), les v.a.r. a1 X1 +· · ·+ad Xd doivent être gaussiennes, pour tout choix des nombres réels a1 , . . . , ad . On dira souvent vecteur gaussien au lieu de “vecteur aléatoire gaussien”. Il est clair que : 0 Proposition 2.2 Si X : Ω → Rd est un vecteur gaussien et si A : Rd → Rd est 0 une application linéaire, alors AX : Ω → Rd est encore un vecteur gaussien. 0 puisque ψ ◦ A est une forme linéaire sur Rd , pour toute forme linéaire ψ sur Rd . Il résulte aussi immédiatement de la définition que l’on a : Proposition 2.3 Si X = (X1 , . . . , Xd ) : Ω → Rd est un vecteur gaussien, alors chaque v.a.r. Xk : Ω → R, es gaussienne. puisque les applications (x1 , . . . , xd ) 7→ xk sont des formes linéaires sur Rd . L’inverse est faux, comme on le verra. Néanmoins, on a : Théorème 2.4 Soit X1 , . . . , Xd : Ω → R des v.a.r. gaussiennes ; si elles sont indépendantes, alors le vecteur X = (X1 , . . . , Xd ) est gaussien. Preuve. Pour tous réels a1 , . . . , ad ∈ R, les v.a.r. a1 X1 , . . . , ad Xd sont encore gaussiennes et indépendantes ; alors (voir Chapitre 1, Corollaire 5.10), la v.a.r. a1 X1 + · · · + ad Xd est encore gaussienne. Théorème 2.5 Si X est un vecteur gaussien, sa fonction caractéristique vaut : 1 ΦX (u) = exp i t u.E (X) − t u KX u , 2 ∀u ∈ Rd , où KX est la matrice de covariance de X. On notera que lorsque X est une v.a.r. gaussienne (d = 1), alors u ∈ R et u KX u = Var (X)u2 = σ 2 u2 , t u.E (X) = mu ; cette formule étend bien le cas scalaire. t Preuve. L’application x 7→ t u.x = hu | xi est une forme linéaire. La v.a.r. t u.X est donc gaussienne. Son espérance est m = E (t u.X) = t u.E (X), et sa variance est σ 2 = Var (t u.X) = t u KX u ; en effet : Lemme 2.6 Pour tout vecteur aléatoire X, on a : t u KX u = Var (t u.X). 7 Preuve du lemme. On a vu (Lemme 1.8) que t u KX u = E [hu | X − E (X)i]2 ; mais : hu | X − E (X)i = t u. X − E (X) = t u.X − t u.E (X) = t u.X − E (t u.X); donc : t u KX u = E [t u.X − E (t u.X)]2 = Var (t u.X) . Suite de la preuve du Théorème 2.5. Donc, pour tout v ∈ R, on a : 1 Φt u.X (v) = exp ivm − σ 2 v 2 · 2 Comme : t Φt u.X (v) = E eiv( u.X) = E eivhu|Xi , on obtient, en prenant v = 1 : 1 ΦX (u) = E eivhu|Xi = Φt u.X (1) = exp i t u.E (X) − t u KX u . 2 Comme corollaire, on obtient le très important résultat suivant. Théorème 2.7 Si X = (X1 , . . . , Xd ) est un vecteur gaussien, alors ses composantes sont indépendantes si et seulement si elles sont non corrélées : cov (Xj , Xk ) = 0, ∀j 6= k. Autrement dit, si et seulement si X1 − E (X1 ), . . . , Xd − E (Xd ) sont orthogonales dans L2 (P ). Preuve. Nous savons déjà que des v.a.r. indépendantes sont non corrélées. Inversement, si elles ne sont pas corrélées, la matrice de covariance de X est diagonale : 2 σ1 ······ . , .. KX = 0 0 ······ σd2 avec σk2 = Var (Xk ). Si l’on note mk = E (Xk ), on a E (X) = (m1 , . . . , md ). Comme X est un vecteur gaussien, on a, pour u = (u1 , . . . , ud ) ∈ Rd : 1 ΦX (u) = exp ihu | E(X)i − t u KX u 2 1 = exp i(u1 m1 + · · · + ud md ) − (σ12 u21 + · · · σd2 u2d ) 2 1 2 2 1 = exp iu1 m1 − σ1 u1 × · · · × exp iud md − σd2 u2d 2 2 = ΦX1 (u1 ) · · · ΦXd (ud ) , 8 ce qui prouve l’indépendance de X1 , . . . , Xd . Remarque. Il est indispensable de savoir au préalable que le vecteur X est gaussien. Exemple. Soit Y une v.a.r. de loi N (0, 1) et ε une v.a.r. de Rademacher : P (ε = −1) = P (ε = 1) = 12 , indépendante de Y . Alors : a) εY ∼ N (0, 1). En effet, pour tout borélien A de R, on a : P (εY ∈ A) = P (ε = 1, Y ∈ A) + P (ε = −1, −Y ∈ A) ; mais l’indépendance donne d’une part : P (ε = 1, Y ∈ A) = P (ε = 1) P (Y ∈ A) = 1 P (Y ∈ A) , 2 et, d’autre part : P (ε = −1, −Y ∈ A) = P (ε = −1) P (−Y ∈ A) = 1 1 P (−Y ∈ A) = P (Y ∈ A) , 2 2 puisque (−Y ) suit la même loi que Y . On a donc P (εY ∈ A) = P (Y ∈ A), de sorte que εY suit la même loi que Y . ⊥ ⊥ b) cov (Y, εY ) = E (Y.εY ) = E (εY 2 ) = E (ε) E (Y 2 ) = 0 × 1 = 0. Pourtant, les v.a.r. Y et εY ne sont pas indépendantes (car sinon Y serait indépendante de (εY )2 = Y 2 , ce qui n’est pas). Il en résulte que le vecteur X = (Y, εY ) n’est pas gaussien, bien que ses composantes soient des v.a.r. gaussiennes. Nous avons vu que toute matrice de covariance est symétrique positive. Inversement, nous allons voir que toute telle matrice est la matrice de covariance d’un vecteur gaussien. C’est la généralisation de ce qui se passe pour la dimension 1, où la moyenne et la variance d’une v.a.r. gaussienne peuvent être données arbitrairement. Cela permet aussi d’assurer l’existence de vecteurs gaussiens en dehors du cas où les composantes sont indépendantes. Théorème 2.8 (Théorème d’existence) Pour tout m ∈ Rd et toute matrice réelle K carrée d’ordre d, symétrique positive, il existe un vecteur gaussien de moyenne m et de matrice de covariance K. Preuve. Il suffit de le voir pour m = 0. Nous pouvons choisir à notre gré l’espace de probabilitésur lequel la variable aléatoire sera définie. Choisissons (Ω, A ) = Rr , Bor (Rr ) , où r est le rang de la matrice K (on suppose K non nulle, car si K = 0, la variable aléatoire nulle convient), et munissons-le de la probabilité gaussienne P , de densité : r 1X 1 1 1 γ(t) = √ exp − exp − ktk22 . t2j = √ 2 j=1 2 ( 2π)r ( 2π)r 9 Considérons la variable aléatoire : Y0 : −→ 7−→ Ω t Rr t. C’est évidemment une variable aléatoire gaussienne : sa loi est PY0 = P = γ.λd , centrée, de matrice de covariance égale à Ir , la matrice unité d’ordre r. Comme K est symétrique positive, il existe une matrice (d × r) A telle que K = A.t A. Alors Y = AY0 : Ω → Rd est un vecteur gaussien (Proposition 2.2), centré, et sa matrice de covariance est : E (Y.t Y ) = E (AY0 ).t (AY0 ) = E (A.Y0 .t Y0 .t A) = A.E (Y0 .t Y0 ).t A = A.Ir .t A = A.t A = K. La preuve que l’on vient de faire permet d’obtenir facilement le résultat suivant. Corollaire 2.9 Un vecteur gaussien X : Ω → Rd possède une densité, par rapport à la mesure de Lebesgue sur Rd , si et seulement si sa matrice de covariance KX est inversible. Cette densité est alors : 1 1 1 −1 p exp − t [x − E (X)].KX .[x − E (X)] . fX (x) = √ 2 ( 2π)d |dét KX | Preuve. On peut d’abord supposer que E (X) = 0 ; ensuite, comme cet énoncé ne concerne que la loi de la v.a. X, on peut supposer que X est donné par l’égalité X = AY0 , comme dans la preuve du Théorème 2.8, avec A.t A = KX . Lorsque KX n’est pas inversible, son rang r est < d ; comme A est de taille (d × r), elle envoie Rd dans Rr , de sorte que X = AY0 prend ses valeurs, presque sûrement, dans un sous-espace de Rd de dimension r < d ; X ne peut donc avoir de densité (ce sous-espace est de mesure de Lebesgue nulle, alors que pour PX , il est de mesure 1). Si KX est inversible, son rang est r = d, et A est inversible. Comme X = AY0 , on peut utiliser la formule de changement de variable : Théorème 2.10 (formule de changement de variable) Soit O un ouvert 0 de Rd et O0 un ouvert de Rd , tels qu’il existe un difféomorphisme ϕ de classe 1 0 C de O sur O . Alors, pour toute fonction f : O → R mesurable positive ou intégrable, on a : Z Z f (u) du = f ϕ−1 (v) |Jac ϕ−1 (v)| dv . O O0 via son corollaire : Corollaire 2.11 Sous les hypothèses du Théorème 2.10, soit U : Ω → Rd une variable aléatoire prenant presque sûrement ses valeurs dans O. Alors, si U a une densité de probabilité fU , V = ϕ(U ) possède aussi une densité de probabilité, donnée par : fV (v) = fU ϕ−1 (v) |Jac ϕ−1 (v)| . 10 Or ici ϕ = A est linéaire ; donc : |Jac A−1 (y)| = |dét (A−1 )| = 1 1 =p ; |dét A| |dét KX | et par conséquent, puisque Y0 possède la densité fY0 = γ, X possède une densité, donnée par : 1 1 1 1 p fX (x) = p γ(A−1 x) = √ exp − kA−1 xk22 , 2 ( 2π)d |dét KX | |dét KX | d’où le résultat, puisque : kA−1 xk22 = t (A−1 x).(A−1 x) = t x.t A−1 .A−1 .x = t x.(A.t A)−1 .x −1 .x . = t x.KX Preuve du Corollaire 2.11. Pour tout borélien B, on a : Z PV (B) = 1IB (v) dPV (v) = E (1IB ◦ V ) = E 1IB ◦ ϕ(U ) 0 d ZR Z = (1IB ◦ ϕ)(u) dPU (u) = (1IB ◦ ϕ)(u) fU (u) du d Rd ZR = 1IB (v) fU ϕ−1 (v) |Jac ϕ−1 (v)| dv . Rd0 3 3.1 Statistique gaussienne Résultats théoriques Définition 3.1 On dit qu’une suite (X1 , . . . , Xn ) de variables aléatoires indépendantes et suivant toutes la même loi PX , est un n-échantillon de la loi PX , ou n-échantillon de X. On dit aussi que les variables aléatoires X1 , . . . , Xn sont indépendantes et identiquement distribuées, en abrégé : i.i.d. . Définition 3.2 Soit (X1 , . . . , Xn ) un n-échantillon d’une v.a.r. X ∈ L2 (P ). 1) La v.a.r. X1 + · · · + Xn Xn = n est appelée la moyenne empirique de l’échantillon. 2) La v.a.r. Vn = 1 (X1 − X n )2 + · · · + (Xn − X n )2 n est appelée la variance empirique de l’échantillon. 11 n Notons que les Statisticiens préfèrent prendre pour variance empirique n−1 V n, car son espérance est égale à Var (X) ; on dit que c’est un estimateur sans biais. Définition 3.3 1) On appelle loi du chi-deux à d degrés de liberté la loi de la somme de d carrés de gaussiennes centrées réduites indépendantes : Y12 + · · · + Yd2 . On la note χ2d . p 2) On appelle loi de Student à d degrés de liberté la loi de X/ K/d, où X ∼ N (0, 1), K ∼ χ2d et X ⊥⊥ K ( X indépendante de K). On la note Td . Student est le pseudonyme de William Sealey Gosset (1876–1937). L’intérêt de ces lois vient du résultat suivant. Théorème 3.4 (Théorème de Cochran) Soit (X1 , . . . , Xn ) un n-échantillon gaussien, de loi N (m, σ 2 ), σ > 0. Alors : 2 1) X n ∼ N m, σn ; 2) σn2 V n ∼ χ2n−1 ; 3) X n et V n sont indépendantes ; Xn − m 4) q ∼ Tn−1 . V n /(n − 1) Remarque. Les points essentiels sont 2) et 3). On notera que dans le 2), on perd un degré de liberté. Dans le 2), il est sans doute plus naturel d’écrire : n 1 V n = 2 (X1 − X n )2 + · · · + (Xn − X n )2 . 2 σ σ Preuve. 1) Les v.a.r. X1 , . . . , Xn étant gaussiennes et indépendantes, leur somme est encore gaussienne. Donc X n est gaussienne ; de plus : E (X n ) = 1 1 E (X ) + · · · + E (X ) = × nm = m, et Var (X n ) = n12 Var (X1 ) + · · · + 1 n n n 2 Var (Xn ) = n12 × nσ 2 = σn · 2) Commençons par nous ramener au cas centré réduit en posant Yk = Xk −m ; Yk ∼ N (0, 1) et : σ 1 Xn − m (Y1 + · · · + Yn ) = ; n σ 1 1 Wn = (Y1 − Y n )2 + · · · + (Yn − Y n )2 = 2 V n . n σ Yn = Il s’agit donc de montrer que : nW n ∼ χ2n−1 . 12 Notons pour cela (e1 , . . . , en ) la base canonique de Rn , et choisissons une autre base orthonormée (f1 , . . . , fn ) de Rn en imposant que : fn = e1 + · · · + en √ · n La matrice de passage a donc la forme suivante : √ · · · · · 1/ n .. .. √ . 1/ n U = . √ · · · · · 1/ n et elle est orthogonale, puisque les bases sont orthonormées. Les v.a.r. Y1 , . . . , Yn étant gaussiennes et indépendantes, le vecteur Y = (Y1 , . . . , Yn ) est gaussien. Il en résulte que le vecteur t U Y = Z = (Z1 , . . . , Zn ) est aussi gaussien. Comme sa matrice de covariance : KZ = E (Z.t Z) = E (U Y ).t (t U Y ) = E (t U.Y.t Y.U ) = t U E (Y.t Y ) U = t U.KY .U = t U.In .U = t U.U = In (puisque U est orthogonale) est l’identité, en particulier diagonale, les composantes de Z sont indépendantes (Théorème 2.7), et de loi N (0, 1). De plus, comme la matrice U est orthogonale, elle définit une transformation isométrique de Rn ; donc kY k2 = kZk2 (c’est-à-dire que pour tout ω ∈ Ω, on a kY (ω)k2Rn = kZ(ω)k2Rn ), soit : Y12 + · · · + Yn2 = Z12 + · · · + Zn2 ; √ n √ d’où, puisque Zn = Y1 +···+Y = nY n : n nW n = (Y1 − Y n )2 + · · · + (Yn − Y n )2 2 = Y12 + · · · + Yn2 − 2(Y1 + · · · Yn ) Y n + nY n 2 = Y12 + · · · + Yn2 − nY n = Z12 + · · · + Zn2 − Zn2 2 = Z12 + · · · + Zn−1 ∼ χ2n−1 . 3) Comme Z1 , . . . , Zn sont indépendantes, les deux v.a.r. : 1 Y n = √ Zn n et W n = 1 2 2 (Z + · · · + Zn−1 ) n 1 le sont aussi. Donc X n et V n sont aussi indépendantes. 4) Résulte maintenant de ce qui précède et de la définition de la loi de Student. 13 3.2 Application pratique Considérons la situation suivante. Un produit commercialisé est vendu dans des boîtes portant la mention “contenance 500 grammes”. En fait, la quantité de produit dans chaque boîte n’est pas rigoureusement constante et dépend des aléas de la fabrication (fiabilité de la machine, entreautres). La fonction qui à chaque boîte lui associe sa contenance peut donc être considérée comme une variable aléatoire réelle X. La mention de contenance de 500 grammes annoncée par le fabricant est la moyenne E (X) de cette v.a.r. . Pour contrôler la contenance, on ne pèse pas toutes les boîtes, mais on effectue des tests. On choisit donc, au hasard, un certain nombre de boîtes dont on pèse le contenu. Si le nombre total de boîtes est très grand par rapport au nombre de boîtes choisies, on peut considérer que la situation est la même à chaque prélèvement, et donc que l’on renouvelle à chaque fois la même opération ; autrement dit, au lieu de considérer que l’on a n valeurs (occurences) X(ω1 ), . . . , X(ωn ) de la v.a.r. X, on considère que l’on fait n fois la même expérience, et donc que l’on a n v.a.r. X1 , . . . , Xn , ayant toutes la même loi que X, et dont on mesure une valeur : X1obs = X1 (ω), . . . , Xnobs = Xn (ω). Ces v.a.r. peuvent de plus être considérées comme indépendantes, puisque l’on choisit les boîtes au hasard. On a donc un n-échantillon de X. Nous allons faire (parce c’est plus simple !) l’hypothèse que X suit une loi normale N (m, σ 2 ). Il n’y a évidemment aucune raison que ce soit réellement le cas. Néanmoins, on peut le faire, en théorie, de façon approximative, puisque l’on verra (Théorème Limite Central), qu’en un certain sens, toutes les lois peuvent être approximées par des gaussiennes (on peut, par exemple, prendre pour X1 , . . . , Xn , non pas directement les valeurs observées, mais des moyennes de valeurs de lots observés). C’est le travail du Statisticien de déterminer la loi suivie, ou, du moins, avec quelle approximation on peut dire que telle loi est suivie. L’intérêt de la loi normale est qu’elle est très peu dispersée autour de sa moyenne (il y a une très petite probabilité que l’on soit loin de sa moyenne). Définition 3.5 Soit Z une v.a.r., à valeurs dans R. Supposons, pour simplifier, que sa fonction de répartition FZ soit continue et strictement croissante. Pour 0 6 β 6 1, on note ϕβ l’unique nombre réel vérifiant : FZ (ϕβ ) = P (Z 6 ϕβ ) = β (c’est-à-dire que ϕβ = FZ−1 (β)). On dit que c’est le quantile d’ordre β. Pour β = 1/2, ϕ1/2 est la médiane. ϕ1/4 est le premier quartile et ϕ3/4 le troisième quartile. On obtient ces valeurs en utilisant des calculatrices, ou des logiciels ; autrefois, mais encore aujourd’hui, on utilisait des tables de valeurs. 14 Pour Z ∼ N (0, 1) , les valeurs les plus couramment utilisées sont : ϕ0,975 ≈ 1, 96 et ϕ0,90 ≈ 1, 282 , et surtout : ϕ0,95 ≈ 1, 645 . On a ϕ0 = −∞ et ϕ1 = +∞. Comme la densité de PZ est paire (Z est symétrique), on a : ϕ1−α = −ϕα . On a donc : P (−ϕ1−α 6 Z 6 ϕ1−β ) = 1 − (α + β) . On peut bien sûr prendre α = β, mais il prendre α 6= β sera aussi utile. Soit maintenant un n-échantillon (X1 , . . . , Xn ) de la loi N (m, σ 2 ). 2 Comme X n ∼ N m, σn , on a : Z= Xn − m q ∼ N (0, 1) ; σ2 n donc : r P − σ2 ϕ1−α 6 X n − m 6 n r σ2 ϕ1−β n ! = 1 − (α + β) . Pour chaque valeur de ω ∈ Ω, l’intervalle : r r σ2 σ2 X n (ω) − ϕ1−α ; X n (ω) + ϕ1−β n n est appelé intervalle de confiance pour la moyenne m au niveau 1 − (α + β) (1 − (α + β) est le niveau de confiance) : il y a une probabilité 1 − (α + β) que la moyenne m soit dans cet intervalle. 15 Revenons au problème des boîtes de conserve. Supposons que l’on ait fait n = 10 mesures indépendantes, et que l’on ait observé les valeurs suivantes : 495 ; 497 ; 498 ; 498 ; 498 ; 501 ; 501 ; 501 ; 502 ; 504 . Supposons aussi que l’on sache (d’une façon ou d’une autre, par exemple parce que c’est l’imprécision due à la machine remplissant les boîtes) que l’écart-type est σ = 1 gramme (en moyenne les contenances s’écartent de la valeur 500 grammes que de 1 gramme). On a alors : obs X n = X 1 0(ω) = 499, 5 . Choisissons (c’est le testeur qui décide de cela) de prendre un niveau de confiance de 90% (soit 0, 9). On dit aussi que l’on prend un cœfficient de sécurité de 90%, ou que l’on se laisse une marge d’erreur de 10%. Il y a plusieurs façons de procéder. 1) Supposons que l’on veuille être impartial. On prendra alors α = β = 0, 05. Comme ϕ0,95 ≈ 1, 645, on aura, aux approximations près : r r 1 1 − × 1, 645 6 4999, 5 − m 6 × 1, 645 , 10 10 soit, puisque 1,645 √ 10 ≈ 0, 52 : 498, 98 6 m 6 500, 02 . Cet intervalle de confiance ne permet pas de conclure si la contenance est respectée ou non. 2) Supposons que le test soit fait par le fabricant. Il choisira α = 0 et β = √ ≈ 0, 41, on trouve : 0, 10. Alors, comme ϕ0,90 ≈ 1, 282 et 1,282 10 m > 499, 5 − 0, 41 = 499, 09 . Avec cette façon de procéder, on ne peut rien conclure, mais un fabricant peu scrupuleux pourra prétendre qu’il n’y a rien à lui reprocher ! 3) Si le test est fait par une association de consommateurs, celle-ci prendra β = 0 et α = 0, 10. On trouve : m 6 499, 5 + 0, 41 = 499, 91 . 16 On peut donc dire, avec une confiance de 90%, que le fabricant ne respecte pas la contenance. Nous venons de supposer que l’on connaissait l’écart-type. Ce n’est en général pas le cas. On doit alors utiliser la variance empirique. Rappelons que : Xn − m q ∼ Tn−1 . V n /(n − 1) En notant tn−1,β les quantiles de cette loi, on a donc : s s ! Vn Vn P − tn−1,α 6 X n − m 6 tn−1,β = 1 − (α + β) . n−1 n−1 Dans notre exemple, on a : V obs n 10 2 1 X Xk (ω) − X n (ω) ≈ 6, 65 ; = V n (ω) = 10 k=1 obs l’écart-type obervé est donc σ ≈ 2, 58. Comme t9;0,95 ≈ 1, 833, on a, avec un niveau de confiance de 90% (α = β = 0, 05) : 497, 92 6 m 6 501, 08. On peut vouloir aussi avoir une estimation de l’écart-type σ. Pour cela, on utilise que σn2 V n ∼ χ2n−1 . On a donc : n P 2 V n 6 χ2n−1,α = α . σ Si l’on veut une estimation supérieure, on écrira : nV n 2 P σ 6 2 = 1 − α. χn−1,α Pour α = 0, 05, on aura, avec une sécurité de 95%, en utilisant la valeur χ29;0,05 ≈ 3, 325 : 10 × 6, 65 = 20 , σ2 6 3, 325 soit σ 6 4, 5. Si l’on veut une estimation inférieure, on écrira : nV n 2 P σ > 2 = α; χn−1,α alors, en prenant α = 0, 95, on a χ29;0,95 ≈ 16, 919 et, avec une sécurité de 95%, on a : 10 × 6, 65 ≈ 3, 93 , σ2 > 16, 919 soit σ > 1, 98. La différence est importante car le nombre de mesures n = 10 est petit : 10 10 30 30 ≈ 17,708 ≈ 1, 7 et χ2 30 ≈ 3,325 ≈ 3 et 16,919 ≈ 0, 6. Pour n = 30 : χ2 29;0,05 30 42,557 ≈ 0, 7. 17 29;0,95