Procdure de tlchargement du logiciel R

publicité
R-Commander : Notions du chapitre 3
Estimation et tests d’hypothèses : problèmes à un échantillon
1) Présentation du jeu de données…………………………………………2
2) Estimation et test sur une moyenne μ…………………………….…….3
a)
b)
c)
d)
Test bilatéral et intervalle de confiance…………………….3
Tests unilatéraux……………………………………………4
Quantiles et probabilités de la loi de Student……………….5
Vérification de la normalité………………………………....7
• Graphique quantile-quantile
• Test de Shapiro et Wilk
3) Estimation d’une variance σ2…..……………………………………….8
a) Estimation ponctuelle……………………………………….8
b) Quantiles de la loi du khi-deux……………………………...8
4) Estimation et test sur une proportion p.…………………………..….10
a) Test bilatéral et intervalle de confiance…………………….10
b) Tests unilatéraux…………………………………………....12
c) Quantiles et probabilités de la loi normale………………....12
1
1) Présentation du jeu de données
Considérons le jeu de données Oiseaux.xls utilisé dans les exercices du chapitre 3. Il
est constitué de diverses mesures sur un échantillon de 49 oiseaux :
- la survie ou non à un traitement
- la longueur de l'oiseau
- l'étendue des ailes
- la longueur de la tête
- la longueur de l'humérus
- la longueur du sternum.
En voici un aperçu.
À l’aide des statistiques descriptives (voir chapitre 1), on peut calculer la moyenne et
l’écart type des variables continues :
On pourrait éventuellement construire des graphiques pour illustrer la dispersion de
chaque variable. Il est important de faire une bonne exploration des données avant de
se lancer dans l’analyse ou l’inférence sur les paramètres.
2
2) Estimation et test sur une moyenne μ
Les tests d’hypothèses et les intervalles de confiance s’obtiennent à partir des mêmes
fenêtres de commandes. Dans le cas d’une moyenne μ, le seul test disponible est le test
utilisant la loi de Student (appelé t-test univarié), pour lequel on suppose que les données
sont issues d’une loi normale dont on ignore la variance σ2 (cette dernière est estimée par
la variance échantillonnale S2).
a) Test bilatéral et intervalle de confiance
L’intervalle de confiance et le test bilatéral pour l’étendue moyenne μ s’obtiennent par
la même série de commandes.
•
•
•
•
•
sélectionner la variable d’intérêt ;
spécifier l’hypothèse alternative Moyenne de la population = mu0
(on devrait lire Moyenne de la population ≠ mu0 pour bien représenter H1) ;
préciser la valeur de μ0 dans la case Hypothèse nulle
(ceci influence le test seulement, et non l’intervalle de confiance) ;
spécifier la valeur de 1-α désirée dans la case Niveau de confiance
(ainsi la valeur du seuil α en sera automatiquement déduite) ;
cliquer sur OK.
Testons par exemple si l’étendue moyenne diffère de 240 mm, au seuil de 1%.
3
Les résultats apparaissent dans la fenêtre de sortie :
•
L’intervalle de confiance à 99% est [239.38 ; 243,27].
•
Pour réaliser le test bilatéral, la valeur observée de la statistique Tobs doit être
positionnée par rapport à la loi de Student à 48 degrés de liberté.
x − μ0 241.3265 − 240
Tobs =
=
= 1.8323
s/ n
5.0678 / 49
•
Puisque le test est bilatéral et que Tobs est positif, le p-value a été obtenu en
calculant la quantité suivante :
2 × P (t n −1 > Tobs ) = 2 × P(t 48 > 1.8323) = 2 × 0.03656 = 0.07312 .
•
L’hypothèse H0 : μ = 240 n’est pas rejetée au seuil de α = 0.01, car le p-value
est supérieur à 0.01. (H0 ne serait pas rejetée à 5% non plus, mais serait rejetée
à 10%.)
b) Tests unilatéraux
Les commandes à entrer sont presque les mêmes que pour les tests bilatéraux, à
l’exception de l’hypothèse alternative, qui doit cette fois être spécifiée selon le test :
•
•
Moyenne de la population < mu0 pour un test unilatéral à gauche (H1 : μ < μ0)
Moyenne de la population > mu0 pour un test unilatéral à droite (H1 : μ > μ0)
On montre ci-dessous un exemple pour tester si l’étendue moyenne est supérieure à
240, au seuil de 1%. (H0 : μ=240 versus H1 : μ > 240, avec α = 0.01). Remarquons que
le seuil observé est la moitié du seuil pour le test bilatéral : P(t48 > 1.8323) .
Notons que l’intervalle de confiance calculé ici n’est pas l’intervalle dont nous avons
discuté. Nous n’en tiendrons pas compte.
4
c) Quantiles et probabilités de la loi de Student
•
On peut aussi calculer séparément les quantités formant l’intervalle de confiance :
s
x ± t n −1,α / 2
n
La moyenne, l’écart-type et la taille d’échantillon s’obtiennent en calculant les
statistiques descriptives. Il ne manque que le quantile d’ordre 1-α/2 de la loi de
Student à n-1 degrés de liberté, tn-1,α/2.
On montre ci-dessous que, pour l’intervalle de confiance à 99%, t48, 0.005 = 2.6822.
5
•
De même, on peut calculer la probabilité associée au p-value d’un test, une fois
que la statistique Tobs est calculée. Voici comment obtenir P(t48 > 1.8323) (le pvalue est le double de cette probabilité pour le test bilatéral).
6
d) Vérification de la normalité
Le test de Student a comme postulat la normalité des observations. Pour s’assurer de la
validité des conclusions, il est bon de vérifier si nos données sont normales. Nous
avons vu 3 techniques pour poser un diagnostic : l’histogramme, le graphique
quantile-quantile et le test de Shapiro et Wilk.
• Graphique quantile-quantile
Un tel graphique peut servir à vérifier l’adéquation des données à n’importe quel
modèle statistique. Celui qui nous intéresse est la loi normale. Il suffit donc de cocher
la distribution normale et de juger si le graphique forme bien une droite ou non.
7
• Test de Shapiro et Wilk
On effectue le test par la série de commandes Statistiques – Résumés – Test de
normalité Shapiro-Wilk.
On rejettera la normalité des données si le p-value est inférieur au seuil α que l’on se
fixe pour ce test (qui peut être différent du α choisi pour le test de Student). Ici, on
accepterait le modèle normal pour nos données pour tous les choix raisonnables de α.
3) Estimation d’une variance σ2
L’intervalle de confiance et les tests sur une variance ne sont pas disponibles dans RCommander. Il faut donc calculer les quantités séparément.
a) Estimation ponctuelle
La variance de la population, σ2, est estimée par la variance échantillonnale S2. On
obtient cette valeur via les statistiques descriptives. Dans le cas de la variable Étendue,
l’écart-type s = 5.0678, donc l’estimation de la variance est s2 = 25.683.
b) Quantiles de la loi du khi-deux
L’intervalle de confiance pour σ2 de niveau 1- α contient les quantiles d’ordre α/2 et
1-α /2 de la loi du khi-deux à n-1 degrés de liberté.
⎡ (n − 1) S 2
⎢ 2
⎢⎣ χ n −1, α / 2
,
(n − 1) S 2 ⎤
⎥
χ n2−1,1−α / 2 ⎥⎦
8
On montre ci-dessous comment obtenir ces quantiles pour n=49 et α = 0.05 :
On a calculé :
χ n2−1,1−α / 2 = χ 482 , 0.975 = 30.75
et
χ n2−1, α / 2 = χ 482 ,0.025 = 69.02
L’intervalle de confiance à 95% serait alors :
⎡ (n − 1) S 2
⎢ 2
⎢⎣ χ n −1, α / 2
,
(n − 1) S 2 ⎤
⎡ 48 × 25.683
,
⎥ = ⎢
2
χ n −1,1−α / 2 ⎥⎦
⎣ 69.02
48 × 25.683 ⎤
=
30.75 ⎥⎦
[17.86 , 40.09]
9
4) Estimation et test sur une proportion p
Les tests d’hypothèses et les intervalles de confiance s’obtiennent à partir des mêmes
fenêtres de commandes. Dans le cas d’une proportion, le test dont nous avons discuté est
le test approximatif utilisant le théorème limite central, donc valide pour les grandes
tailles d’échantillon.
a) Test bilatéral et intervalle de confiance
On s’intéresse à la proportion de décès après un traitement dans la population : p.
•
sélectionner la variable binaire d’intérêt (SURVIE) ;
•
spécifier l’hypothèse alternative Proportion de la population = p0
(on devrait lire Proportion de la population ≠ p0 pour bien représenter H1);
•
préciser la valeur de p0 dans la case Hypothèse nulle
(ceci influence le test seulement, et non sur l’intervalle de confiance) ;
•
spécifier la valeur de 1-α désirée dans la case Niveau de confiance
(ainsi la valeur du seuil α sera automatiquement déduite) ;
•
préciser que l’on souhaite le test avec approximation normale ;
•
cliquer sur OK.
10
Les résultats apparaissent dans la fenêtre de sortie :
•
On précise d’abord le nombre de oui et de non dans l’échantillon.
La proportion échantillonnale de non (i.e. de décès) est pˆ = 28 / 49 = 0.5714 .
•
L’intervalle de confiance à 95% (en jaune) est [0.433 ; 0.700].
•
Pour le test bilatéral (en vert), la valeur observée de la statistique Zobs est
présentée au carré, identifiée X-squared en référence à la loi du khi-deux.
Z obs =
•
pˆ − p0
0.5714 − 0.6
=
= −0.408
0.6(1 − 0.6)
p0 (1 − p0 )
49
n
(= −
2
0.1667 = − χ obs
)
Puisque le test est bilatéral et que Zobs est négatif, le p-value a été obtenu en
calculant la quantité suivante :
2 × P ( Z < Z obs ) = 2 × P( Z < −0.408) = 2 × 0.3415 = 0.683 .
• L’hypothèse H0 : p = 0.6 n’est pas rejetée au seuil de α = 0.05, car le p-value
est supérieur à 0.05.
11
b) Tests unilatéraux
Les commandes à entrer sont presque les mêmes que pour le test bilatéral, à
l’exception de l’hypothèse alternative, qui doit cette fois être spécifiée selon le test :
•
•
Proportion de la population < p0 pour un test unilatéral à gauche (H1 : p < p0)
Proportion de la population > p0 pour un test unilatéral à droite (H1 : p > p0)
On montre ci-dessous un exemple pour tester si la proportion de décès est inférieure à
0.6, au seuil de 5%. (H0 : p=0.6 versus H1 :p < 0.6, avec α = 0.05).
Remarquons que le seuil observé est la moitié du seuil pour le test bilatéral :
P ( Z < −0.408) = 0.3415.
Notons que l’intervalle de confiance calculé ici n’est pas l’intervalle dont nous avons
discuté. Nous n’en tiendrons pas compte.
c) Quantiles et probabilités de la loi normale
Comme pour les autres tests, les quantités requises pour conduire un test d’hypothèses
ou pour construire un intervalle de confiance peuvent être calculées séparément. Pour
obtenir les quantiles ou les probabilités associées à la loi normale, voir le document
sur le chapitre 2.
12
Téléchargement