Tests du χ2 1 Test d`ajustement `a une loi multinomiale

publicité
Master Mathématiques et Applications
Spécialité Statistique
Septembre 2015
Fiche 8
Tests du χ2
1
Test d’ajustement à une loi multinomiale
L’objectif est de tester l’adéquation d’un échantillon (N1 , . . . , Nm ) de taille totale n = N1 +· · ·+Nm
à une loi multinomiale M(n; p1 , . . . , pm ) où les pi sont connus. Autrement dit, on veut tester
H0 : (N1 , . . . , Nm ) ∼ M(n; p1 , . . . , pm )
1.1
vs
H1 : (N1 , . . . , Nm ) ≁ M(n; p1 , . . . , pm ).
Principe
Pour ce faire, on construit la statistique de test suivante :
2
Ni
m
m
−
p
X
X
i
n
(Ni − npi )2
=
,
Tn = n
pi
npi
i=1
i=1
qui mesure en un certain sens la distance entre effectifs observés et effectifs théoriques. On peut
montrer que, sous l’hypothèse H0 ,
L
Tn −−−→ χ2m−1 ,
n→∞
tandis que, sous H1 ,
p.s.
Tn −−−→ +∞.
n→∞
On rejette donc H0 si l’observation tn de la statistique de test prend une grande valeur.
1.2
Winter is coming
On a relevé les dates de naissance d’un échantillon de personnes puis regroupé ces naissances par
saison, ce qui donne le tableau suivant :
Nombre de naissances
Automne
380
Hiver
435
Printemps
483
Eté
410
On veut tester si les naissances sont uniformément réparties sur les saisons de l’année.
1. Visualiser les données, par exemple via la fonction barplot.
2. Proposer un test de niveau asymptotique 5% permettant de répondre à cette question. Effectuer le test “à la main”.
3. Tracer la densité de la loi du khi-deux qui intervient dans ce test. Superposer à ce graphe le(s)
quantile(s) définissant l’intervalle d’acceptation de H0 , ainsi que l’observation de la statistique
de test.
4. Retrouver le résultat du test à l’aide de la fonction chisq.test.
1
Test du χ2 d’indépendance
2
Le but est cette fois de tester l’indépendance entre deux variables qualitatives. On considère que
les données sont contenues dans un tableau de contingence (nij )1≤i≤I,1≤j≤J .
2.1
Principe
Pour tester l’indépendance de deux variables qualitatives, on teste l’hypothèse nulle H0 : “les deux
variables sont indépendantes” contre l’hypothèse alternative H1 : “les deux variables ne sont pas
indépendantes”. Pour cela, on construit la statistique de test suivante :
J
I X
X
(nij − Nij )2
,
Tn =
Nij
i=1 j=1
où nij est l’effectif observé pour la modalité i de la première variable et la modalité j de la seconde,
Nij correspond à l’effectif sous l’hypothèse d’indépendance, I et J étant les nombres de modalités
de chacune des variables. Ainsi, n représentant l’effectif total, nous avons
P
P
nij
j nij
et
p̂•j = i
.
Nij = np̂i• p̂•j
avec
p̂i• =
n
n
On peut montrer que, sous l’hypothèse H0 ,
L
Tn −−−→ χ2(I−1)×(J−1) ,
n→∞
tandis que, sous H1 ,
p.s.
Tn −−−→ +∞.
n→∞
On rejette donc H0 si l’observation tn de la statistique de test prend une grande valeur.
2.2
Not even God could sink this ship
Le Titanic a emporté à son bord 325 passagers en première classe, 285 en deuxième classe, 706
passagers en troisième classe et 885 membres d’équipage. Parmi les survivants, on comptait 203
passagers en première classe, 118 en deuxième classe, 178 en troisième classe et 212 membres
d’équipage. Y a-t-il un lien entre le fait d’avoir survécu et la classe ?
1. Créer sur R la matrice :
C1 C2 C3
E
survie 203 118 178 212
mort
122 167 528 673
2. Donner les différentes étapes du test permettant de répondre à cette question. Effectuer le
test “à la main”.
3. Effectuer le test en question à l’aide de la fonction chisq.test.
4. Retrouver “à la main” la p-value donnée en sortie du test.
2
Téléchargement