Master Mathématiques et Applications Spécialité Statistique Septembre 2015 Fiche 8 Tests du χ2 1 Test d’ajustement à une loi multinomiale L’objectif est de tester l’adéquation d’un échantillon (N1 , . . . , Nm ) de taille totale n = N1 +· · ·+Nm à une loi multinomiale M(n; p1 , . . . , pm ) où les pi sont connus. Autrement dit, on veut tester H0 : (N1 , . . . , Nm ) ∼ M(n; p1 , . . . , pm ) 1.1 vs H1 : (N1 , . . . , Nm ) ≁ M(n; p1 , . . . , pm ). Principe Pour ce faire, on construit la statistique de test suivante : 2 Ni m m − p X X i n (Ni − npi )2 = , Tn = n pi npi i=1 i=1 qui mesure en un certain sens la distance entre effectifs observés et effectifs théoriques. On peut montrer que, sous l’hypothèse H0 , L Tn −−−→ χ2m−1 , n→∞ tandis que, sous H1 , p.s. Tn −−−→ +∞. n→∞ On rejette donc H0 si l’observation tn de la statistique de test prend une grande valeur. 1.2 Winter is coming On a relevé les dates de naissance d’un échantillon de personnes puis regroupé ces naissances par saison, ce qui donne le tableau suivant : Nombre de naissances Automne 380 Hiver 435 Printemps 483 Eté 410 On veut tester si les naissances sont uniformément réparties sur les saisons de l’année. 1. Visualiser les données, par exemple via la fonction barplot. 2. Proposer un test de niveau asymptotique 5% permettant de répondre à cette question. Effectuer le test “à la main”. 3. Tracer la densité de la loi du khi-deux qui intervient dans ce test. Superposer à ce graphe le(s) quantile(s) définissant l’intervalle d’acceptation de H0 , ainsi que l’observation de la statistique de test. 4. Retrouver le résultat du test à l’aide de la fonction chisq.test. 1 Test du χ2 d’indépendance 2 Le but est cette fois de tester l’indépendance entre deux variables qualitatives. On considère que les données sont contenues dans un tableau de contingence (nij )1≤i≤I,1≤j≤J . 2.1 Principe Pour tester l’indépendance de deux variables qualitatives, on teste l’hypothèse nulle H0 : “les deux variables sont indépendantes” contre l’hypothèse alternative H1 : “les deux variables ne sont pas indépendantes”. Pour cela, on construit la statistique de test suivante : J I X X (nij − Nij )2 , Tn = Nij i=1 j=1 où nij est l’effectif observé pour la modalité i de la première variable et la modalité j de la seconde, Nij correspond à l’effectif sous l’hypothèse d’indépendance, I et J étant les nombres de modalités de chacune des variables. Ainsi, n représentant l’effectif total, nous avons P P nij j nij et p̂•j = i . Nij = np̂i• p̂•j avec p̂i• = n n On peut montrer que, sous l’hypothèse H0 , L Tn −−−→ χ2(I−1)×(J−1) , n→∞ tandis que, sous H1 , p.s. Tn −−−→ +∞. n→∞ On rejette donc H0 si l’observation tn de la statistique de test prend une grande valeur. 2.2 Not even God could sink this ship Le Titanic a emporté à son bord 325 passagers en première classe, 285 en deuxième classe, 706 passagers en troisième classe et 885 membres d’équipage. Parmi les survivants, on comptait 203 passagers en première classe, 118 en deuxième classe, 178 en troisième classe et 212 membres d’équipage. Y a-t-il un lien entre le fait d’avoir survécu et la classe ? 1. Créer sur R la matrice : C1 C2 C3 E survie 203 118 178 212 mort 122 167 528 673 2. Donner les différentes étapes du test permettant de répondre à cette question. Effectuer le test “à la main”. 3. Effectuer le test en question à l’aide de la fonction chisq.test. 4. Retrouver “à la main” la p-value donnée en sortie du test. 2