Rappels de Statistique et d’Algèbre Linéaire Emmanuel Duguet Septembre 2010 table des matières 1 Moments empiriques et moments théoriques 1.1 Moments empiriques des vecteurs . . . . . . . 1.1.1 Moyenne arithmétique . . . . . . . . . 1.1.2 Variance empirique . . . . . . . . . . . 1.1.3 Ecart-type empirique . . . . . . . . . . 1.1.4 Covariance empirique . . . . . . . . . 1.1.5 Corrélation empirique . . . . . . . . . 1.2 Moments empiriques des matrices . . . . . . . 1.2.1 Moyenne arithmétique . . . . . . . . . 1.2.2 Matrice de covariance empirique . . . 1.3 Convergence en probabilité . . . . . . . . . . 1.4 Inégalité de Bienaymé-Chebichev . . . . . . . 1.5 La loi faible des grands nombres . . . . . . . 1.6 Théorème de la limite centrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 2 3 3 4 4 5 5 5 9 10 12 13 2 Algèbre linéaire 14 2.1 Calcul matriciel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.2 Matrices définies positives . . . . . . . . . . . . . . . . . . . . . . 15 2.3 Produits de Kronecker . . . . . . . . . . . . . . . . . . . . . . . . 16 1 ANNEXE 1 Moments empiriques et moments théoriques 1.1 Moments empiriques des vecteurs Le but de cette section est de se familiariser avec les notations de calcul matriciel, car c’est sous cette forme qu’apparaissent le plus souvent les moments empiriques. Il faut donc savoir les simplifier quand on les recontre dans une expression. 1.1.1 Moyenne arithmétique La moyenne arithmétique d’un vecteur colonne z = (z1 , z2 , ..., zN )0 peut se trouver sous les formes équivalentes suivantes : N z0e z0e 1 X z= 0 = zi , = ee N N i=1 car on a : ⎛ et : ⎜ ⎜ z 0 e = (z1 , z2 , ..., zN ) ⎜ ⎝ 1 1 .. . 1 ⎛ ⎜ ⎜ e0 e = (1, 1, ..., 1) ⎜ ⎝ ⎞ N ⎟ X ⎟ zi , ⎟ = z1 + z2 + ... + zN = ⎠ i=1 1 1 .. . 1 ⎞ ⎟ ⎟ ⎟ = |1 + 1 + {z... + 1} = N. ⎠ N fois 2 3 1.1.2 Variance empirique La variance empirique de la série z, notée Ve (z) , peut se trouver sous les formes équivalentes : N 1 X (zi − z)2 N i=1 Ve (z) = N 1 X 2 2 z − (z) N i=1 i = 1 0 (z − ze) (z − ze) , N z0 z = − (z)2 N = car ⎛ ⎜ ⎜ z − ze = ⎜ ⎝ z1 z2 .. . zN ce qui implique : ⎞ ⎛ ⎟ ⎜ ⎟ ⎜ ⎟−⎜ ⎠ ⎝ z z .. . z ⎞ ⎛ ⎟ ⎜ ⎟ ⎜ ⎟=⎜ ⎠ ⎝ z1 − z z2 − z .. . zN − z ⎛ ⎜ ⎜ 0 (z − ze) (z − ze) = (z1 − z, z2 − z, ..., zN − z) ⎜ ⎝ 2 2 ⎞ ⎟ ⎟ ⎟, ⎠ ⎞ z1 − z z2 − z .. . zN − z 2 = (z1 − z) + (z2 − z) + ... + (zN − z) = N X i=1 ⎟ ⎟ ⎟ ⎠ (zi − z)2 . En posant z = 0, on trouve : z0 z = N X zi2 . i=1 1.1.3 Ecart-type empirique Il s’agit simplement de la racine carrée de la variance empirique. On le note : p σ e (x) = Ve (x). 4 1.1.4 Covariance empirique La covariance empirique entre le vecteur z = (z1 , z2 , ..., zN )0 et le vecteur x = 0 (x1 , x2 , ..., xN ) , Cove (z, x) , s’écrit : Cove (x, z) = = N 1 X (zi − z) (xi − x) N i=1 N 1 X zi xi − z x N i=1 1 0 (z − ze) (x − xe) N z0 x = − z x. N = En effet : ⎛ ⎜ ⎜ (z − ze)0 (x − xe) = (z1 − z, z2 − z, ..., zN − z) ⎜ ⎝ x1 − x x2 − x .. . xN − x ⎞ ⎟ ⎟ ⎟ ⎠ = (z1 − z) (x1 − x) + ... + (zN − z) (xN − x) = N X i=1 (zi − z) (xi − x) . En posant z = 0 = x dans l’expression précédente, on a : z0 x = N X zi xi . i=1 On remarque de plus que lorsque z = x : Cove (x, x) = N 1 X (xi − x) (xi − x) N i=1 N 1 X 2 = (xi − x) N i=1 = Ve (x) . 1.1.5 Corrélation empirique Le coefficient de corrélation linéaire empirique entre les séries z et x, noté ρe (x, z) est défini par : Cove (x, z) Cove (x, z) = ρe (x, z) = p . σ e (x) σ e (z) Ve (x) Ve (z) 5 Il peut donc prendre différentes formes en fonction des expressions que nous avons vu plus haut. On peut faire apparaître son expression dans la définition des différents estimateurs. 1.2 1.2.1 Moments empiriques des matrices Moyenne arithmétique On considère maintenant une matrice X de dimension (N, p) . Chaque ligne de X correspond à une observation et ¡chaque colonne de ¢X corrrespond à une variable. On note ces variables X = X (1) |X (2) | . . . |X (p) . On a : X= ⎛ X 0e 1 ⎜ ⎜ = ⎜ N N ⎝ |{z} (p,1) 1.2.2 X (1)0 X (2)0 .. . X (p)0 ⎞ ⎛ ⎟ 1 ⎜ ⎜ ⎟ ⎜ ⎟e = N⎝ ⎠ X (1)0 e X (2)0 e .. . X (p)0 e ⎞ ⎛ ⎟ ⎜ ⎟ ⎜ ⎟=⎜ ⎠ ⎝ x1 x2 .. . xp ⎞ ⎟ ⎟ ⎟. ⎠ Matrice de covariance empirique Contrairement au cas univarié, on définit une matrice qui contient à la fois les variances et les covariances des variables. Les variances sont sur la diagonale de la matrice de covariance. On a : Ve (X) = X 0X 0 −XX N On peut définir la matrice des produits croisés des variables explicatives X 0 X à partir du modèle écrit par observations ou par variables. Selon le contexte une expression peut s’avérer plus pratique que l’autre, et il faut pouvoir passer facilement entre les différentes expressions. 6 Par rapport aux variables, on a: ⎛ (1)0 ⎞ X ⎜ X (2)0 ⎟ ³ ´ ⎟ ⎜ X 0 X = ⎜ . ⎟ X (1) |X (2) |...|X (p) (N,p)(N,p) ⎝ .. ⎠ X (p)0 ⎛ ⎜ ⎜ =⎜ ⎝ ⎛ ⎜ ⎜ =⎜ ⎜ ⎝ X (1)0 X (1) X (1)0 X (2) .. . X (1)0 X (2) X (2)0 X (2) .. . ... ... .. . X (1)0 X (p) X (2)0 X (p) .. . X (p)0 X (1) X (p)0 X (2) ... X (p)0 X (p) PN 2 x PNi=1 i1 x xi2 i1 i=1 .. . PN i=1 xi1 xip PN i=1 xi1 xi2 P N 2 i=1 xi2 .. . PN i=1 xi2 xip ... ... .. . ... ⎞ ⎟ ⎟ ⎟ ⎠ PN xi1 xip Pi=1 N i=1 xi2 xip .. . PN 2 i=1 xip ⎞ ⎟ ⎟ ⎟ ⎟ ⎠ La matrice des moments empiriques non centrés de X est définie par : ⎞ ⎛ PN PN ... N −1 i=1 xi1 xip N −1 i=1 x2i1 P ⎟ ⎜ −1 PN ... N −1 N ⎜ N X 0X i=1 xi1 xi2 i=1 xi2 xip ⎟ ⎟ ⎜ =⎜ .. .. .. ⎟ N . . . ⎠ ⎝ P P N N −1 −1 2 N ... N i=1 xi1 xip i=1 xip On en déduit la matrice de covariance empirique : ⎛ ⎜ ⎜ Ve (X) = ⎜ ⎜ ⎝ PN N −1 i=1 x2i1 P N −1 N i=1 xi1 xi2 .. . PN −1 N i=1 xi1 xip ... ... .. . ... PN N −1 i=1 xi1 xip P N −1 N i=1 xi2 xip .. . PN 2 −1 N i=1 xip ⎛ ⎞ x1 ⎜ x2 ⎟ ¡ ⎜ ⎟ −⎜ . ⎟ ⎝ .. ⎠ xp ⎞ ⎟ ⎟ ⎟ ⎟ ⎠ x1 x2 ··· xp ¢ 7 ⎛ ⎜ ⎜ =⎜ ⎜ ⎝ ⎛ ⎜ ⎜ =⎜ ⎜ ⎝ PN N −1 i=1 x2i1 P N −1 N i=1 xi1 xi2 .. . P N N −1 i=1 xi1 xip ... ... .. . ... PN N −1 i=1 xi1 xip P N −1 N i=1 xi2 xip .. . P N N −1 i=1 x2ip P 2 2 N −1 N i=1 xi1 − x1 P N −1 N i=1 xi1 xi2 − x1 x2 .. . P N −1 N x i=1 i1 xip − x1 xp ... ... .. . ... On obtient donc finalement : ⎛ Ve (x1 ) ⎜ Cove (x1 , x2 ) ⎜ Ve (X) = ⎜ .. ⎝ . ⎞ ⎛ ⎟ ⎜ ⎟ ⎜ ⎟−⎜ ⎟ ⎝ ⎠ x21 x1 x2 .. . ... ... .. . x1 xp x2 xp .. . x1 xp ... x2p P N −1 N xi1 xip − x1 xp Pi=1 N N −1 i=1 xi2 xip − x2 xp .. . P 2 2 N −1 N i=1 xip − xp ⎞ ⎟ ⎟ ⎟ ⎠ ⎞ ⎟ ⎟ ⎟ ⎟ ⎠ Cove (x1 , x2 ) Ve (x2 ) .. . ... ... .. . Cove (x1 , xp ) Cove (x2 , xp ) .. . Cove (x1 , xp ) Cove (x2 , xp ) ... Ve (xp ) ⎞ ⎟ ⎟ ⎟ ⎠ Par rapport aux observations. La matrice de covariance empirique peut s’écrire : N 1 X 0 0 (X) = X Xi − X X Ve N i=1 i on a : N X Xi0 Xi = i=1 = ⎛ ⎜ ⎜ (xi1 , xi2 , ..., xip ) ⎜ ⎝ i=1 N X ⎛ N ⎜ X ⎜ ⎜ ⎝ i=1 ⎛ ⎜ ⎜ =⎜ ⎜ ⎝ xip ⎞ ⎟ ⎟ ⎟ ⎠ x2i1 xi1 xi2 .. . xi1 xi2 x2i2 .. . ... ... .. . xi1 xip xi2 xip .. . xi1 xip xi2 xip ... x2ip PN 2 x PNi=1 i1 i=1 xi1 xi2 .. . PN i=1 xi1 xip = X 0X xi1 xi2 .. . PN i=1 xi1 xi2 P N 2 i=1 xi1 .. . PN i=1 xi2 xip ... ... .. . ... ⎞ ⎟ ⎟ ⎟ ⎠ PN xi1 xip Pi=1 N i=1 xi2 xip .. . PN 2 i=1 xip ⎞ ⎟ ⎟ ⎟ ⎟ ⎠ 8 On retrouve donc le même résultat que précédemment. De même pour les produits croisés entre les variables explicatives et la variable expliquée, on a : ⎛ ⎜ ⎜ =⎜ ⎝ (N,p)(N,1) X0 y X (1)0 X (2)0 .. . X (p)0 ⎞ ⎛ ⎟ ⎜ ⎟ ⎜ ⎟y = ⎜ ⎠ ⎝ ⎛ PN i=1 xi1 yi ⎟ ⎜ PN xi2 yi i=1 ⎟ ⎜ ⎟=⎜ . ⎠ ⎝ .. PN X (p)0 y i=1 xip yi X (1)0 y X (2)0 y .. . ⎞ ⎞ N ⎟ X ⎟ = X 0 yi . ⎟ ⎠ i=1 i Les moments centrés donnent donc : Cove (X, y) = N 1 X 0 X 0y Xi yi − X y = − X y. N i=1 N Le vecteur correspondant est égal à : ⎛ ⎜ ⎜ Cove (X, y) = ⎜ ⎝ ⎛ ⎜ ⎜ =⎜ ⎝ ⎛ ⎜ ⎜ =⎜ ⎝ ⎛ ⎜ ⎜ =⎜ ⎝ P N −1 N xi1 yi Pi=1 N −1 N i=1 xi2 yi .. . P N −1 N i=1 xip yi P N −1 N xi1 yi Pi=1 N −1 N i=1 xi2 yi .. . PN N −1 i=1 xip yi ⎞ ⎞ ⎟ ⎜ ⎟ ⎜ ⎟−⎜ ⎠ ⎝ ⎛ ⎟ ⎜ ⎟ ⎜ ⎟−⎜ ⎠ ⎝ PN N −1 i=1 xi1 yi − x1 y P N −1 N i=1 xi2 yi − x2 y .. . PN N −1 i=1 xip yi − xp y Cove (x1 , y) Cove (x2 , y) .. . Cove (xp , y) ⎛ x1 y x2 y .. . xp y x1 x2 .. . xp ⎞ ⎟ ⎟ ⎟y ⎠ ⎞ ⎟ ⎟ ⎟ ⎠ ⎞ ⎟ ⎟ ⎟ ⎠ ⎞ ⎟ ⎟ ⎟. ⎠ Sous certaines conditions, les moments empiriques que nous venons de voir convergent en probabilité vers les moments théoriques correspondants. Ce point est examiné dans la section suivante. 9 1.3 Convergence en probabilité définition 1.1 Soit bbN une variable aléatoire dont la réalisation dépend du nombre d’observations disponibles dans un échantillon (noté N ). On dit que cette suite de variables aléatoires bbN converge en probabilité vers une valeur b lorsque le nombre d’observations N tend vers l’infini, si elle vérifie la propriété suivante : ¯ h¯ i ¯ ¯ ∀ε > 0, Pr ¯bbN − b¯ > ε −→ 0. N→+∞ La convergence en probabilité de bbN vers b est notée de manière abrégée par l’expression : Plim bbN = b, où Plim est l’abréviation de “probability limit” (i.e., limite en probabilité). Elle s’écrit également : P bbN −→ b. N →+∞ Cette définition signifie que l’évènement “bbN s’écarte de b d’une distance supérieure à ε” est de probabilité nulle (i.e., impossible) lorsque N → +∞. Cette propriété s’étend à certaines fonctions de bbN , comme le montre le théorème suivant. THÉORÈME 1.1 [Slutsky] Soit bbN une suite de variables aléatoires qui converge en probabilité vers b : Plim bbN = b, et soit g (.) une fonction continue définie au point b. On a : ³ ´ ³ ´ Plim g bbN = g Plim bbN = g (b) . Les définitions précédentes et le théorème de Slutsky s’étendent au cas vectoriel en raisonnant composante par composante. En particulier le théorème de Slutsky permet de simplifier considérablement le calcul des limites en probabilités. Prenons deux estimateurs convergents, b a d’un paramètre a et bb d’un paramètre b. On a : Plim b a + bb = Plim b a + Plim bb = a + b, car la fonction g (a, b) = a + b est continue et les estimateurs convergent en probabilité. De même, en utilisant les fonctions g (a, b) = ab, g (a, b) = a/b (pour b 6= 0) on obtient les propriétés : Plim b a bb = Plim b a Plim bb = a b, b a a Plim b a Plim = = , b 6= 0. bb b Plim bb 10 1.4 Inégalité de Bienaymé-Chebichev Le théorème suivant est très important. Il nous permet notamment de démontrer la loi des grands nombres et le fait que la convergence en moyenne quadratique implique la convergence en probabilité...en une seule ligne. THÉORÈME 1.2 [Inégalité de Bienaymé-Chebichev] Soit Z une variable de carré intégrable, on a : ∀δ > 0, Pr [|Z| ≥ δ] ≤ preuve : Soit la variable de Bernoulli : D= ½ 1 ¡ 2¢ E Z . δ2 1 si |Z| ≥ δ 0 sinon son espérance mathématique est égale à : E (D) = 1 × Pr [|Z| ≥ δ] + 0 × Pr [|Z| < δ] = Pr [|Z| ≥ δ] . D’autre part : 1. Si |Z| ≥ δ on a D = 1 donc : |Z| Z2 ≥ 1 ⇒ 2 ≥ D = 1. δ δ 2. Si |Z| < δ on a D = 0 donc : |Z| Z2 ≥ 0 ⇒ 2 ≥ D = 0. δ δ donc dans tous les cas on a : µ 2¶ Z Z2 ≥ E (D) ≥ D ⇒ E δ2 δ2 1 ¡ ¢ ⇔ 2 E Z 2 ≥ Pr [|Z| ≥ δ] . δ Remarque 1.1 En posant Z = X − E (X) , on obtient l’expression : ∀δ > 0, Pr [|X − E (X)| ≥ δ] ≤ i h car V (X) = E (X − E (X))2 . 1 V (X) , δ2 ¤ 11 La convergence en probabilité est parfois difficile à vérifier directement, on utilise alors une conditions suffisante, qui correspond en fait à la convergence en moyenne quadratique. définition 1.2 Soit bbN une variable aléatoire dont la réalisation dépend du nombre d’observations disponibles dans un échantillon (noté N ). On dit que cette suite de variables aléatoires bbN converge en moyenne quadratique vers une valeur b lorsque le nombre d’observations N tend vers l’infini, si elle vérifie une des deux propriétés équivalentes suivantes : ∙³ ´2 ¸ 1. E bbN − b → 0 lorsque N → +∞. ³ ´ 2. E bbN → b et On note ce résultat : ³ ´ V bbN → 0 bbN lorsque N → +∞. m.q. −→ b. N →+∞ Cette définition porte directement sur la distance entre bbN et b. Elle impose que cette distance s’annule quand le nombre d’observations devient suffisamment grand. L’équivalence entre les deux définitions vient du développement suivant :1 ∙³ ´2 ¸ i h ³ ´i2 h = V bbN − b + E bbN − b E bbN − b ³ ´ ³ ³ ´ ´2 = V bbN + E bbN − b ≥ 0. Les deux termes précédents sont positifs ou nuls donc pour que³ l’expression ´ s’annule lorsque N → +∞, il faut que l’on ait simultanément V bbN → 0 et ³ ´ E bbN → b. propriété 1.1 Soit bbN une suite de variables aléatoires, on a : bbN m.q. −→ b N →+∞ ⇒ Plim bbN = b, la convergence en moyenne quadratique implique la convergence en probabilité. preuve : C’est une conséquence de l’inégalité de Bienaymé-Chebichev. En posant Z = bbN − b et δ = ε > 0 dans le théorème [1.2] , on obtient : ∙³ ¯ h¯ i ´2 ¸ 1 ¯ ¯ ∀ε > 0, 0 ≤ Pr ¯bbN − b¯ ≥ ε ≤ 2 E bbN − b −→ 0. N →+∞ ε ¤ 1 On rappelle que : V(X) = E X 2 − E(X)2 ⇔ E X 2 = V(X) +E(X)2 . Ici on pose X =e bn − b. 12 1.5 La loi faible des grands nombres Cette section permet de faire le lien entre les moments empiriques que nous avons vu plus haut et la convergence en probabilité que nous venons de voir. Elle signifie que sous certaines conditions, les moments empiriques convergent en probabilité vers les moments théoriques correspondants. On l’appelle loi faible des grands nombres, car la convergence en probabilité est également appelée convergence faible. La version de cette loi que nous utilisons est due à Markov (cf. Petrov 1995, p.134). THÉORÈME 1.3 [Markov] Soit (X1 , .., XN ) une suite de variables aléatoires qui admettent une espérance mathématique E (Xk ) = mk pour toute valeur de k ∈ {1, ..., N } , et qui vérifient la propriété suivante : # "N X 1 Xk → 0 lorsque N → +∞, V N2 k=1 alors " # N N 1 X 1 X Plim Xk − mk = 0. N N k=1 k=1 preuve : P Il suffit de poser Z = N −1 N k=1 (Xk − mk ) dans l’inégalité de BienayméChebichev (théorème [1.2]) : ¯ # # "N "¯ N N ¯ ¯1 X X 1 1 X ¯ ¯ Xk − mk ¯ ≥ δ ≤ 2 2 V Xk −→ 0. ∀δ > 0, Pr ¯ N →+∞ ¯ ¯N N δ N k=1 k=1 k=1 En effet, on a : N 1 X [E (Xk ) − mk ] = 0 N k=1 # " # " N N N 1 X 1 X 1 X Xk − mk = V Xk V (Z) = V N N N E (Z) = k=1 k=1 k=1 h i PN PN car N −1 k=1 mk est une quantité certaine et que l’on a :V N −1 k=1 Xk = i hP N N −2 V X . k k=1 ¤ Une moyenne arithmétique de variable aléatoires converge donc vers la moyenne des espérances mathématiques des variables aléatoires, à condition que la varih i PN −1 ance de leur moyenne V N k=1 Xk tende vers 0 lorsque N → +∞. 13 Exemple 1.1 On considère un échantillon de variables (X1 , ..., Xk ) indépendantes, d’espérance et de variance constantes : ∀k, mk = m et V (Xk ) = σ2 . Sous hypothèse d’indépendance, on obtient la condition suivante : # "N N X N σ2 σ2 1 X 1 X ) = = = (X → 0 quand N → +∞. V V k k N2 N2 N2 N k=1 k=1 −1 PN −1 D’autre part N (N × m) = m. On a donc le résultat de k=1 mk = N convergence suivant : Plim X = m, la moyenne empirique converge vers l’espérance mathématique commune des variables (X1 , ..., Xk ) . Exemple 1.2 On considère un échantillon de variables (X1 , ..., Xk ) indépendantes de variances différentes et finies : V (Xk ) = σ 2k . La moyenne arithméP 2 tique de ces variances N −1 N k=1 σ k = σ est également finie. En effet : σ≤ max σ 2k qui est finie. k=1,...,N ce qui implique : # "N N X 1 σ 1 X 2 X σk = = →0 V k N2 N2 N k=1 quand k=1 N → +∞. On en déduit que : Plim X = Plim N 1 X E (Xk ) . N k=1 1.6 Théorème de la limite centrale Le théorème suivant nous permet de déterminer la loi asymptotique de la plupart de nos estimateurs. THÉORÈME 1.4 (Liapunov) Soit u1 , u2 , ..., uN une suite de variables aléatoires indépendantes d’espérances mathématiques E (ui ) = μi et de variances respectives V (ui ) = E (ui − μi )2 = σ 2i 6= 0, i = 1, ..., n. On suppose également que le moment absolu d’ordre trois existe E |ui − μi |3 = β i ∀i. Soient : ÃN ÃN !1/3 !1/2 X X 2 βi , DN = σi , BN = i=1 i=1 alors, si lim BN /DN = 0 lorsque N → +∞, on a : N X ui − μ i i=1 DN −→ N (0, 1) . N→+∞ ANNEXE 2 Algèbre linéaire 2.1 Calcul matriciel On considère une matrice A = [Aij ] de format (m, n) . 1. La transposée de A, notée A0 , est définie par A0 = [Aji ] , on intervertit donc les lignes et les colonnes. 2. A est de plein rang colonne si ses colonnes sont linéairement indépendantes. C’est-à-dire si : ∀α ∈ IRn , Aα = 0 ⇒ α = 0. 3. A est de plein rang ligne si ses lignes sont linéairement indépendantes (i.e., si A0 est de plein rang colonne). On considère maintenant deux matrices A de format (m, n) et B de format (r, p) . 1. Le produit matriciel de A par B n’existe que si le nombre de colonnes de A est égal au nombre de lignes de B : n = r. Dans ce cas, on le note F = AB et il est de format (m, p) . 2. Les élements de la matrice produit F = [Fij ] = AB sont définis comme les produits scalaires de la i−ème ligne de A et de la j−ième colonne de B. 3. AB n’est généralement pas égal à BA, le produit matriciel n’est pas commutatif. 4. A (B + C) = AB + BC. 5. (A + B) C = AC + BC. 6. (AB)0 = B 0 A0 . 14 15 On considère maintenant deux matrices carrées A de format (m, m) et B de format (r, r) . 1. Une matrice est carrée si elle a autant de lignes que de colonnes. 2. Une matrice carrée A est symétrique si A0 = A. 3. La trace d’une matrice carrée AP est définie par la somme de ses élements m diagonaux. On la note tr (A) = i=1 Aii . 4. tr (A + B) = tr (A) + tr (B) . 5. Si ABC est une matrice carrée et si les formats sont compatibles : tr (ABC) = tr (CAB) = tr (BCA) . Il n’est pas nécessaire que chaque matrice soit carrée à l’intérieur des produits précédents. 6. Si A est une matrice carrée de plein rang (ligne ou colonne), elle admet une inverse notée A−1 telle que AA−1 = A−1 A = I. −1 7. Si les matrices A et B sont inversibles : (AB) = B −1 A−1 . 8. Une matrice carrée A est idempotente si A2 = A. 2.2 Matrices définies positives définition 2.1 Une matrice A de format (m, m) est semi définie positive lorsque : ∀α ∈ IRm , s (α, A) = α0 Aα ≥ 0. définition 2.2 Une matrice A de format (m, m) est définie positive lorsque : ∀α ∈ IRm , α 6= 0, s (α, A) = α0 Aα > 0. La propriété suivante est utile pour comparer les variances des différents estimateurs. propriété 2.1 Soit X(n,p) une matrice quelconque, alors X 0 X est semi définie positive. preuve : En posant A = X 0 X, on obtient : 0 2 s (α, X 0 X) = α0 X 0 Xα = (Xα) (Xα) = kXαk ≥ 0. | {z } | {z } (1,n) (n,1) ¤ La propriété suivante est utile pour montrer l’existence de certains estimateurs. 16 propriété 2.2 Soit X(n,p) une matrice de plein rang colonne, rang (X) = p, alors X 0 X est définie positive (donc de rang égal à p). preuve : La matrice X est de plein rang colonne : ∀α ∈ IRp , X 0α = 0 ⇒ α = 0 donc kXαk2 ne peut être nul que dans le cas α = 0. En conséquence : ∀α ∈ IRp , α 6= 0, kXαk2 > 0. 2.3 ¤ Produits de Kronecker Soient deux matrices A = [Aij ] de format (a, b) et B = [Bij ] de format (c, d) . Le produit de Kronecker de la matrice A par la matrice B, noté A ⊗ B, donne une matrice F = [Fij ] de format (ac, bd) . Cette matrice est définie par : ⎞ ⎛ A1,1 B A1,2 B · · · A1,b B ⎜ A2,1 B A2,2 B · · · A2,b B ⎟ ⎟ ⎜ F = [Aij B] = ⎜ ⎟, .. .. .. .. ⎠ ⎝ . . . . Aa,1 B Aa,2 B ··· Aa,b B chaque élément originel de la matrice A se voit multiplié par la totalité de la matrice B. Chacun des éléments de la matrice ci-dessus est donc de dimensions égales à celles de B, et C est de format (ac, bd) . Les propriétés suivantes sont valables sous réserve que les formats des matrices autorisent les multiplications matricielles indiquées. 1. Dans le cas général (A ⊗ B) n’est pas égal à (B ⊗ A) , le produit de Kronecker n’est donc pas commutatif. 2. 0 ⊗ A = 0. 3. A ⊗ 0 = 0, mais attention, le format de ce 0 n’est pas nécessairement le même que celui de la propriété précédente. 4. A ⊗ (B + C) = A ⊗ B + A ⊗ C. 5. (A + B) ⊗ C = A ⊗ B + B ⊗ C. 6. ∀ (x, y) ∈ IR2 , (xA) ⊗ (yB) = xy (A ⊗ B) . 7. (A ⊗ B) (C ⊗ D) = (AC ⊗ BD) . 0 8. (A ⊗ B) = (A0 ⊗ B 0 ) . 9. Si A et B sont inversibles : (A ⊗ B)−1 = A−1 ⊗ B −1 . 10. tr (A ⊗ B) = tr A. tr B.