Feuille de TP #2 : Tests avec R

publicité
Feuille de TP #2 : Tests avec R
Statistiques - Master I
2004-5
1. L’approximation normale de la distribution binomiale. Soient X1 , X2 , ... , Xn des variables aléatoires iid avec
P (Xi = 1) = p
P (Xi = 0) = 1 − p.
Soit Sn = X1 + X2 + ... + Xn . Alors Sn suit une loi binomiale de paramètres n et p avec moyenne
np et variance np(1 − p) tel que
P (Sn ≤ N ) =
N X
n
k=1
k
pk (1 − p)n−k .
Selon le théorème de la limite centrale, pour p fixée
lim P (Sn ≤ x) = Φ
n→∞
x − np
p
np(1 − p)
!
.
Lorsque n est petit, nous obtenons une meilleure approximation à l’aide de la correction de continuité
!
x + 12 − np
P (Sn ≤ x) ≈ Φ p
.
np(1 − p)
Écrire un programme qui vérifiera cet approximation. Commencer avec une loi binomiale de paramètres p = 0.5 et n = 8, puis augmenter n à 40 et tracer la fonction de répartition binomiale
superposée sur la loi normale limite sans et avec la correction de continuité. Ensuite, simuler une loi
binomiale (toujours avec p = 0.5 et n = 8) avec une taille d’échantillon égale à 50, 100, 1000 et
5000. Superposer les histogrammes obtenus sur la densité normale limite.
2. Tests : lisez les sections suivantes de la chapitre « Tests Statistiques » (TS) de SMEL et faites un
résumé de
(a) Statistiques de test.
(b) Tests non paramétriques - valeur d’un quantile, Kolmogorov-Smirnov.
(c) Tests sur des échantillons gaussiens - valeurs de l’espérance et variance, tests de Fisher et
Student.
3. Exécuter l’exemple de la page 12 de « Langage R ».
4. Graphiques de quantiles et de probabilité normale. La fonction qqnorm est une fonction générique,
dont la méthode par défaut est la production d’un graphique normal de quantiles (inverse de la fonction de répartition) - les quantiles empiriques (en abscisse) et les quantiles normales (en ordonnée).
La fonction qqline rajoute une droite qui passe entre le premier et le troisième quartile. La fonction
qqplot produit un graphique QQ de deux jeux de données. Des paramètres graphiques peuvent être
donnés comme arguments à ces commandes.
(a) Refaire l’exemple des éruptions d’un geyser (p. 2 « Langage R ») et noter l’usage de ces 3
commandes.
1
(b) Charger les données precip et tracer un graphique de probabilité normale. Conclusions ?
(c) Simuler un jeux de données normales avec µ = 3 et σ = 2 et tracer le graphique de probabilité
normale.
5. Afin de tester la normalité, il faut exécuter des tests en plus des graphiques de probabilité normale. Simuler et tester à l’aide des tests de Kolmogorov-Smirnov (ks.test) et Shapiro-Wilks
(shapiro.test)
(a) 100 variables aléatoires issues d’une loi normale avec µ = 6 et σ = 3.
(b) 100 variables aléatoires issues d’une loi uniforme entre 2 et 4.
(c) 100 variables aléatoires issues des lois t avec 3, 4, 5 et 10 degrés de liberté.
6. La variable mesurée est la longueur de la mâchoire inférieure (en mm) de dix chacals mâles et dix
femelles conservés au British Museum. Nous voulons savoir si il y a une différence entre les sexes
dans cette espèce pour cette variable. Les données sont
mal <- c(120,107,110,116,114,111,113,117,114,112
fem <- c(110,111,107,108,110,105,107,106,111,111)
(a) Les données sont-elles issues d’une distribution normale ? [combiner les deux variables afin de
tester toute la population, hist, qqnorm, qqline, ks.test]
(b) Les variances sont-elles égales ? Vérifier à l’aide d’un test F (var.test).
(c) Vérifier graphiquement l’égalité des moyennes. Pour cela, créer un plan avec deux niveaux «
M » et « F »
plan <- as.factor(rep(c(”M”,”F”),c(10,10)))
pop <- c(mal,fem)
moy <- tapply(pop,plan,mean)
et tracer un graphiques de boîte et un graphique de points comme suit :
boxplot(split(pop,plan))
dotchart(pop,group=plan,gdata=moy,gpch=19)
(d) Maintenant, exécuter un test t. Noter que sous l’hypothèse de l’égalité des variances, le test t
est équivalent à l’analyse de variance (ANOVA)
anova(lm(pop~plan))
7. Voici deux jeux de données sur la chaleur latente de fusion de glace (cal/gm)
Méthode A : 79.98 80.04 80.02 80.04 80.03 80.03 80.04 79.97 80.05 80.03 80.02 80.00 80.02
Méthode B : 80.02 79.94 79.98 79.97 79.97 80.03 79.95 79.97
(a) Lire les données dans R.
(b) Comparer les distributions à l’aide d’un boxplot(A, B). Conclusions ?
(c) Tester pour l’égalité des moyennes avec t.test(A, B).Quelles sont les hypothèse de ce
test ? Conclusions ?
(d) Tester l’hypothèse d’égalité des variances à l’aide de var.test(A, B). Conclusions ?
(e) Appliquer un test-t classique qui suppose l’égalité des variances. Conclusions ?
(f) Tous les tests ci-dessus supposent la normalité des deux échantillons. Appliquer un test de rang
signé, wilcox.test(A, B). Quelles sont les hypothèses de ce test ? Conclusions ?
(g) Tester la normalité des données avec qqplot() et des tests appropriés. Conclusions ?
2
Téléchargement