Tests du khi-deux Table des matières A La loi multinomiale 1 B Le test du khi-deux d’ajustement 4 C Le test du khi-deux d’indépendance 7 D Test du khi-deux d’homogénéité 9 E Adéquation de donnée à une loi équirépartie A 10 La loi multinomiale Rappel 1 (Formule du multinôme) Soient k ∈ N∗ , a1 , ..., ak des éléments de C et n ∈ N∗ . Si l’on pose Dnk k = {(n1 , ..., nk ) ∈ N : k X ni = n}, i=1 on a l’égalité (a1 + ... + ak )n = X (n1 ,...,nk )∈Dnk n! an1 1 an2 2 ...ank k . n1 !n2 !...nk ! Définition 2 P Soient k, n ∈ N∗ et p1 , ..., pk des éléments de l’intervalle ]0, 1[ vérifiant ki=1 pi = 1. La loi multinomiale M = M(n, p1 , ..., pk ) sur Dnk , de densité associée m, est définie par ∀(n1 , ..., nk ) ∈ Dnk m(n1 , ..., nk ) = n! pn1 1 pn2 2 ...pnk k . n1 !n2 !...nk ! Propriété 3 a) E(M) = (np1 , ..., npk ) n b) Γn = Γ(M) = (γi,j ) désigne la matrice de covariance de M, on a les égalités : n γi,i = npi (1 − pi ) et si i 6= j 1 n γi,j = −npi pj c) Si πi désigne l’application de Dnk dans [0..n] définie par πi (n1 , ..., nk ) = ni , la mesure image de M(n, p1 , ..., pk ) par πi est la loi binomiale B(n, pi ). En effet avec l’interprétation ci-dessous cette mesure image est la loi de la variable Nin . Modèle probabiliste Soit (Xn )n≥1 une suite indépendante de variables aléatoires définies sur un espace probabilisé (Ω, F, P ) et à valeurs dans un ensemble E = {a1 , a2 , ..., ak } de cardinal k. On suppose que les variables ont toutes la même loi donnée par : ∀i ∈ [1..k] P (X1 = ai ) = pi . Si l’on définit des variables aléatoires N1n , ..., Nkn par ∀i ∈ [1..k] ∀ω ∈ Ω Nin (ω) = card{j ∈ [1..n] : Xj (ω) = ai } = n X 1{ai } ◦ Xj (ω), j=1 alors la variable N n = (N1n , ..., Nkn ) est à valeurs dans Dnk et sa loi est M(n, p1 , ..., pk ). Rappel 4 (Loi du khi-deux) Pour tout entier k ≥ 1 la loi du khi-deux à k degrés de liberté, notée χ2k , est la loi d’une somme X12 + ... + Xk2 , où les variable X1 , ..., Xk sont indépendantes et de loi N (0, 1). Théorème 5P n [N n − np ]2 i i La suite converge en loi vers une loi du khi-deux à k − 1 degrés de liberté. npi i=1 Preuve Posons pour tout entier n ≥ 1 Yn = (1{a1 } ◦ Xn , ..., 1{ak } ◦ Xn )t . La suite (Yn )n≥1 est indépendante, les variables Yn ayant toutes la même loi et étant de carré intégrable. Posons Π = EY1 = (p1 , ..., pk )t ∈ Mk,1 (R) et Γ = Γ(Y1 ) = (γij ) ∈ Mk,k (R), où γi,i = pi (1 − pi ) et si i 6= j γi,j = −pi pj . √ Le théorème limite central implique que la suite Zn = (Yi − nΠ)/ n converge en loi vers une loi normale N (0, Γ). n P Soit f l’application de Mk,1 (R) dans [0, +∞[ qui à (x1 , ..., xk )t associe x2i /pi . Comme i=1 Yi − EYi = (1{a1 } ◦ Xi − p1 , ..., 1{a} ◦ Xi − pk )t , 2 on a n X Yi − nΠ = i=1 n X (Yi − EYi ) i=1 n X =( = i=1 (N1n [1{a1 } ◦ Xi − p1 ], ..., n X [1{ak } ◦ Xi − pk ])t i=1 − np1 , ..., Nkn − npk ), n [N n − np ]2 P i i . si bien que f (Zn ) = npi i=1 L’application f étant continue, la suite f (Zn ) converge en loi vers la loi d’une d’une variable de la forme f (U ), où U = (U1 , ..., Uk )t a pour loi N (0, Γ). √ Soit V = (Vi , ..., Vk )t , où Vi = Ui / pi . Avec ces notations f (U ) = n X Ui2 /pi i=1 = n X Vi2 . i=1 Posons ∆ = diag(p1 , ..., pk ) ; on vérifie que Γ(U ) = Γ = ∆ − ΠΠt = (γij ). Comme cov(Vi , Vj ) = √ 1 1 cov(Ui , Uj ) = √ γij , pi p j pi pj on voit que Γ(V ) = Ik − M M t , où Ik désigne la matrice unité d’ordre k et M le vecteur √ √ √ Π = ( p1 , ..., pk )t . k P Puisque kM k = p1 = 1, il existe une matrice orthogonale A telle que i=1 AM = (0, ..., 0, 1)t = u ∈ Mk,1 (R). On remarque que uut = diag(0, ..., 0, 1). La loi du vecteur AV est une loi normale centrée de covariance Γ(AV ) = AΓ(V )At = A(Ik − M M t )At = AAt − AM M t At = Ik − (AM )(AM )t = Ik − uut = Ik − diag(0, ..., 0, 1) = diag(1, 1, ..., 1, 0). On constate que la loi de AV est celle d’un vecteur W = (W1 , ..., Wk−1 , 0)t , où (W1 , ..., Wk−1 ) est un échantillon de taille k − 1 de la loi N (0, 1). 3 Finalement les égalités k X Vj2 = kV k2 = kAV k2 = (AV )t (AV ), j=1 jointes au fait que AV a même loi que W , montrent que f (U ) = k P Vi2 possède la même loi j=1 que W t W = k−1 P Wj2 , cette loi étant la loi du khi-deux à k − 1 degrés de liberté. j=1 B Le test du khi-deux d’ajustement Un certain phénomène peut prendre N valeurs a1 , ..., aN selon une loi inconnue. La probabilité d’apparition de ai vaut πi , i ∈ [1..N ]. On pose E = {a1 , a2 , ..., aN }, et on appelle P la probabilité définie sur E par P ({ai }) = πi . On cherche à savoir si cette probabilité inconnue P est égale ou différente d’une probabilité P0 connue, P0 étant définie sur E par P0 ({ai }) = pi , i ∈ [1..N ] ; on supposera que pour tout i dans [1..N ] pi 6= 0. Cela revient à tester l’hypothèse H0 : P = P0 contre l’hypothèse H1 : P 6= P0 . Définissons des applications Ni de E n dans [0..n], i ∈ [1..N ], par ∀(e1 , ...en ) ∈ E n Ni (e1 , ..., en ) = n X 1{ai } (ek ) = card{k ∈ [1..n] : ek = ai }. k=1 On réalise n mesures indépendantes x1 , ..., xn , puis on pose pour tout i ∈ [1..N ] ni = Ni (x1 , ..., xn ) = n X 1{ai } (xk ) = nombre de fois où l’on a observé ai . k=1 Si l’hypothèse H0 est vérifiée, on a pour tout i ∈ [1..N ] πi = pi ; les fréquences observées fi = nni sont alors proches des pi , donc les effectifs observés ni sont proches des npi . Modèle probabiliste Les mesures x1 , ..., xn sont modélisées par un échantillon de taille n de variables aléatoires (X1 , ..., Xn ) définies sur un espace probabilisé (Ω, F, P ) et à valeurs dans l’ensemble E = {a1 , a2 , ..., aN }, ayant sous H0 la loi P0 , définie par ∀i ∈ [1..N ] P (X1 = ai ) = pi . Statistique de test La partie A suggère de prendre pour statistique de test l’application n d : E → R+ , (e1 , ..., en ) → d(e1 , ..., en ) = N X [Ni (e1 , ..., en ) − npi ]2 i=1 4 npi . Définition 6 Les produits npi , i ∈ [1..N ], sont appelés les effectifs attendus sous l’hypothèse H0 . Définition 7 On appelle distance (du khi-deux) entre effectifs observés et effectifs attendus le réel d(x1 , ..., xn ) = N X (ni − npi )2 i=1 npi , avec ni = Ni (x1 , ..., xn ). Si l’hypothèse H0 est vérifiée d(x1 , ..., xn ) tend à être petite ; on aura donc tendance à rejeter H0 quand d(x1 , ..., xn ) est grande. Autrement dit la région de rejet a priori pour la statistique d est de la forme [c, +∞[. Mise en œuvre du test 1. Calculer d(x1 , ..., xn ). 2. La région de rejet a posteriori est [d(x1 , ..., xn ), +∞[. 3. La p-valeur vaut PH0 (d(X, ..., Xn ) ∈ [d(x1 , ..., xn ), +∞[) = PH0 (d(X1 , ..., Xn ) ≥ d(x1 , ..., xn )) 4. Pour n assez grand, du fait de la convergence en probabilité de la variable d(X1 , ..., Xn ) = N X [Ni (X1 , ..., Xn ) − npi ]2 i=1 npi vers une loi de khi-deux à N − 1 degrés de liberté, on a approximativement PH0 (d(X1 , ..., Xn ) ≥ d(x1 , ..., xn )) ' χ2N −1 ([d(x1 , ..., xn ), +∞[). La p-valeur sera en conséquence prise égale à γ = χ2N −1 ([d(x1 , ..., xn ), +∞[). Remarque 8 Si l’on s’est fixé a priori un niveau α ∈]0, 1[, on rejette H0 au niveau α si α > γ, on ne rejette pas H0 au niveau α si α ≤ γ. Condition d’applicabilité Le test ne s’applique que si n ≥ 30 et si pour tout i ∈ [1..N ] npi ≥ 5. Si ce n’est pas le cas, il faut regrouper des classes. Remarque 9 Si le calcul des effectifs attendus nécessite de déterminer k paramètres de la population, on utilise un loi du khi-deux à N − 1 − k degrés de liberté. 5 Remarque 10 Si l’on note nai le iime effectif attendu npi , la distance d(x1 , ..., xn ) peut s’écrire d(x1 , ..., xn ) = N X n2 i a n i=1 i − N. Réalisation avec R Si p0 = (p1 , ..., pN ) désigne la probabilité correspondant à H0 , a = np0 = (na1 , ..., naN ) le vecteur des effectifs attendus et o = (n1 , ..., nN ) celui des effectifs observés, chisq.test(o, p = ρ) ou chisq.test(o, p = a, rescale.p = T RU E) renvoie la distance de khi-deux, le nombre de degré de liberté et la p-valeur. Exemple 11 On a effectué 200 mesures indépendantes d’un phénomène prenant les valeurs 0, 1 ,2 ,3 et 4. Les résultats sont consignés dans la deuxième ligne du tableau ci-dessous. Effectifs observés Loi B(a ; 0, 55) 0 1 2 3 4 5 40 65 80 10 0, 041 0, 200 0, 367 0, 299 0, 091 Effectifs attendus sous B(a ; 0, 55) 8, 20 Loi B(a ; 0, 5625) 40, 09 73, 51 59, 89 18, 30 0, 037 0, 188 0, 363 0, 311 0, 100 Effectifs attendus sous B(a ; 0, 5625) 7, 33 37, 68 72, 67 62, 29 20, 02 Première question : le phénomène obéit-il à la loi B(a ; 0, 55) ? La distance calculée à partir des effectifs observés et des effectifs attendus sous B(a ; 0, 55) vaut 2 (40−40,09)2 (65−73,51)2 (80−59,89)2 (10−18,30)2 da = (5−8,20) + + + + ' 12, 75. 8,20 8,20 73,51 59,85 18,30 On s’assure que les conditions d’applicabilité sont vérifiées. Puisque N = 5, on détermine la p-valeur à l’aide de la loi du khi-deux à 5 − 1 = 4 degrés de liberté. La p-valeur est proche de χ24 ([12.75, +∞[) ' 0.0126 = γ. Comme 0, 01 < γ on ne rejetterait pas H0 au niveau 0, 01 ; par contre on rejetterait H0 au niveau 0, 025 puisque γ < 0, 025. Deuxième question : le phénomène obéit-il à un loi binomiale ? Cette loi binomiale est nécessairement de la forme B(4, p), où p est un réel de [0, 1] à déterminer. Pour estimer p on remarque que la moyenne d’une loi B(4, p) est 4p. La moyenne 1 450 calculée à partir des 200 mesures vaut 200 (5×0+40×1+65×2+80×3+10×4 = 200 = 2, 25. On estime p en égalant ces deux moyennes : 4p = 2, 25, ce qui donne p = 0, 5625. 6 La distance calculée à partir des effectifs observés et des effectifs attendus sous B(a ; 0, 5625) vaut 11, 74. Comme on estimé un paramètre, la p-valeur se détermine à l’aide da la loi du khi-deux à 5 − 1 − 1 = 3 degrés de liberté. La p-valeur est proche de χ23 ([11, 74, +∞[) ' 0.0083 = γ. Puisque γ < 0, 01 on rejette H0 au niveau 0,01, et a fortiori au niveau 0, 025. C Le test du khi-deux d’indépendance Introduction 12 Le tableau ci dessous croise deux caractères A et B, possédant chacun trois modalités, respectivement A1 , A2 , A3 et B1 , B2 , B3 . B B1 B2 B3 n1• A A1 n11 n12 n13 n1• A2 n21 n22 n23 n2• A3 n31 n32 n33 n3• n•j n•1 n•2 n•3 N n11 La fréquence de la modalité A1 dans la population est f1• = et la fréquence de la N modalité A1 dans la modalité B1 est n11 n11 N f11 = = . n•1 N n•1 f•1 En conséquence la modalité A1 est sous-représenté (resp. sur-représenté) dans la modalité B1 si f11 < f1• ⇐⇒ f11 < f1• × f•1 f•1 (resp. si f11 > f1• × f•1 ). Définition 13 Soit T un tableau de contingence de dimension n × p, croisant deux caractères A et B, n d’effectifs nij et de fréquence nij = Nij , N désignant l’effectif total. 1. On dit que les caractères A et B sont indépendants si ∀i ∈ [1..n] ∀j ∈ [1..p] fij = fi• × f•j . 7 2. On appelle tableau de contingence théorique associé au tableau T le tableau T de dimension n × p de fréquences fi• × f•j , donc de fréquences marginales fi• et f•j . 3. Si A1 , ..., An désignent les modalités de A et B1 , ..., Bp celles de B, on dit que la modalité Ai est sous-représenté (resp. sur-représenté) dans la modalité Bj si fij < fi• × f•j (resp. si f11 > f1• × f•1 ). Par symétrie la modalité Ai est sous-représenté (resp. sur-représenté) dans la modalité Bj si et seulement si la modalité Bj est sur-représenté (resp. sous-représenté) dans la modalité Ai . Test d’indépendance On a observé dans un échantillon de taille n d’une population deux caractères X et Y , quantitatifs ou qualitatifs. Les p modalités du caractère X sont notées x1 , ..., xp et les q modalités du caractère Y sont notées y1 , ..., yq . Les données sont consignées dans un tableau de contingence des effectifs. Y y1 yj yq x1 o11 o1j o1q o1• xi oi1 oij oiq xp op1 opj opq op• o•1 o•j o•q X On désire tester contre oi• n H0 : les caractères X et Y sont indépendants H1 : les caractères X et Y ne sont pas indépendants. Si les caractères X et Y sont indépendants dans l’échantillon, on a pour tout couple (i, j) oij oi• o•j oi• o•j = × ⇐⇒ oij = . n n n n Définition 14 oi• o•j On appelle effectifs attendus (sous entendu : sous H0 ) les réels aij= , 1 ≤ i ≤ p et n 1 ≤ j ≤ q. 8 Définition 15 On appelle distance du khi-deux entre effectifs observés (oij ) et effectifs attendus (aij ) le réel p X q X (oij − aij )2 di = . a ij i=1 j=1 Si les caractères X et Y sont indépendants dans la population, ils le sont approximativement dans l’échantillon ; la distance di est alors petite. Par conséquent plus di sera grande, plus on aura tendance à rejeter H0 . Définition 16 Le degré de liberté associé au tableau de contingence est l’entier ν = (p − 1)(q − 1). Mise en œuvre du test On procède comme pour le test du khi-deux d’ajustement en calculant la p-valeur γ = χ2ν ([di , +∞[) ; on rejette alors H0 au niveau α si α ≥ γ, et dans le cas contraire on ne rejette pas H0 . Réalisation avec R Si M désigne la matrice (oij ), chisq.test(M ) donne la distance di , le degré de liberté ν et la p-valeur. D Test du khi-deux d’homogénéité Dans une population donnée on observe un caractère à q modalités b1 , ..., bq , chaque individu possédant une et une seule de ces q modalités. On prélève dans cette populaton p échantillons, dont on répartit les individus selon les q modalités. Les résultats sont résumés dans un tableau de contingence. b1 bj bq Echantillon 1 o11 o1j o1q o1• Echantillon i oi1 oij oiq Echantillon p op1 opj opq op• o•1 o•j o•q Modalités 9 oi• n On désire tester H0 : les échantillons sont homogènes contre H1 : les échantillons sont significativement différents. Mise en œuvre du test Elle est formellement identique à celle du test du khi-deux d’indépendance. E Adéquation de donnée à une loi équirépartie Dans les manuels de terminale le test du khi-deux d’ajustement à une loi équirépartie prend le nom d’ajustement à une loi équirépartie. En voici un exemple tiré du manuel de terminale de la collection Indice de l’éditeur Bordas. On dispose d’une pièce de monnaie, et on désire tester H0 : la pièce est équilibrée contre H1 : la pièce n’est pas équilibrée, au niveau α = 0, 1. On réalise pour cela l’expérience qui consiste à jeter 200 fois une pièce de monnaie ; on a obtenu les résultats suivants, où ni désigne le nombre d’apparition de la face i. i 1 2 3 4 5 6 ni 31 38 40 32 28 31 On calcule 6 X ni 1 31 1 38 1 31 1 d = ( − )2 = ( − )2 + ( − )2 + ... + ( − )2 ' 0, 00268. 200 6 200 6 200 6 200 6 i=1 2 On répète 1000 fois cette expérience ; on obtient ainsi 1000 réels d21 , ..., d21000 , et on suppose que le neuvième décile de cette suite est 0, 00789. Comme d2 < 0, 00789 on ne rejette pas H0 au niveau α = 0, 1. Explications Soient X1 , ..., X200 des variables aléatoires modélisant les lancers sous l’hypothèse H0 . Ces variables sont indépendantes et ont sur E = {1, 2, 3, 4, 5, 6}. P6pourNiloi l’équirépartition 1 2 2 2 La variable associée à d est D = i=1 ( 200 − 6 ) , où Ni = 200 X 1{i} (Xk ) = card{k ∈ [1..200] : xk = i}. k=1 La statistique utilisée est donc l’application t de E 200 dans [0, +∞[ qui à (x1 , ..., x200 ) associe 200 P P ni t(x1 , ..., x200 ) = 6i=1 ( 200 − 61 )2 , où ni = 1{i} (xk ) = card{k ∈ [1..200] : xk = i}. k=1 La région de rejet associée à t est de la forme [g, +∞[. 10 Pour obtenir un risque de première espèce égal à 0, 1 il faudrait pouvoir déterminer g de façon que P (D2 ≥ g) = 0, 1, ce qui n’est pas possible en général puisque la variable D2 est discrète. Il existe par contre un plus petit réel g pour lequel P (D2 > g) ≤ 0, 1 ou de façon équivalente tel que P (D2 ≤ g) ≥ 0, 9, à savoir le plus petit neuvième décile de D2 que l’on notera γ0,9 . Comme γ0,9 est (sans doute) proche du neuvième décile empirique 0, 00789, on a 0, 1 ≥ P (D2 > γ0,9 ) ' P (D2 > 0, 00789). 11