UFR Sciences et Techniques Année 2007-2008 Master 1 de Mathématiques Statistiques

publicité
UFR Sciences et Techniques
Année 2007-2008
Master 1 de Mathématiques
Statistiques
Feuille de TD no 5
Comparaison de plusieurs échantillons gaussiens, analyse de la variance
Exercice 1
(modèle général)
On considère k échantillons numérotés i = 1, . . . , k l’échantillon no i Xi1 , . . . Xin contient n
valeurs indépendantes issues d’une loi N (µi , σ 2 ). On pose N = nk le nombre total de valeurs
considérées. Les échantillons sont indépendants les uns des autres et de même variance σ 2 .
On considère les moyennes suivantes
(
P
Xi• = n1 nj=1 Xij moyenne du i-ième échantillon
P
P
X•• = N1 i,j Xi,j = k1 ki=1 Xi• moyenne générale
1) Montrer qu’en écrivant
Xij − X•• = (Xij − Xi• ) + (Xi• − X•• )
et en élevant au carré, on obtient l’égalité suivante T 2 = R2 + L2 , où
P
 2
= i,j (Xij − X•• )2
variation totale
 T
P
R2
= i,j (Xij − Xi• )2
variation intragroupe
P
 2
variation intergroupe.
L = ki=1 n(Xi• − X•• )2
2) Sous l’hypothèse H0 : µ1 = . . . , µk d’égalité des moyennes théoriques, trouver la loi de la
variable aléatoire T 2 .
Exercice 2
(signification géométrique des variables R2 et L2 )
Soit
X = (X11 , . . . , X1n , X21 , . . . , X2n , . . . , Xk1 , . . . , Xkn )
le vecteur de RN obtenu en mettant bout à bout les k échantillons et soit
Y = (X1• , . . . , X1• , . . . , Xk• , . . . , Xk• )
le vecteur de RN obtenu à partir de X en remplaçant les variables par la moyenne empirique
correspondante des variables de la même classe et
X = (X•• , . . . , X•• ),
le vecteur de RN dont toutes les composantes sont égales à X•• .
1) Calculer ||X − X||2 , ||X − Y ||2 et ||Y − X||2 ?
2) Montrer que les vecteurs X − Y et Y − X sont orthogonaux dans RN .
3) On considère le sous-espace vectoriel V de RN engendré par les vecteurs v1 dont les n
premières composantes sont égales à 1 et les autres sont égales à 0, v2 dont les n premières
composantes sont égales à 0, les n suivantes valent 1 et les autres 0, etc ..., et enfin vn a
toutes ses composantes nulles sauf les n dernières égales à 1.
a) Montrer que Y − X est la projection orthogonale de X − X sur V .
b) En déduire que les variables aléatoires R2 et L2 sont indépendantes et déterminer leurs
lois.
Exercice 3
(Le test d’analyse de variance)
On reprend les notations est les hypothèses des exercices 1) et 2).
1) Sous l’hypothèse H0 , montrer que la variable aléatoire F =
dont on précisera les degrés de liberté.
N −k L2
k−1 R2
suit une loi de Fisher
2) Si l’hypothèse H0 est fausse, c’est la variation intragroupe L2 qui sera le terme prépondérant dans la somme T 2 = R2 + T 2 donc la valeur que prendra F aura tendance à être plus
grande que celle qu’elle prendrait sous l’hypothèse H0 . De cette observation qualitative, déduire un test d’égalité des moyennes théoriques des échantillons considérés dans l’exercice 1.
Exercice 4
(Tester l’égalité de performances)
On veut déterminer s’il y a de réelles différences de niveau entre 4 lycées différents. Pour
étudier cette question, on recueille les scores obtenus par 10 élèves tirés au hasard dans
chaque établissement à qui on a fait subir une série d’épreuves résumées par une note sur
100. On a observé les résultats suivants
lycée
lycée
lycée
lycée
1
2
3
4
73
84
69
65
57
95
80
58
95
96
73
82
78
62
62
86
86
80
50
35
61
87
71
52
80
100
84
70
98
74
66
79
64
85
52
43
78
77
73
60
Les scores moyens des 4 lycées sont respectivement de 77, 84, 68 et 63. On voudrait savoir
si les différences observées entre ces moyennes sont dues au hasard (c’est à dire les lycées
sont équivalents) ou non.
Exercice 5
(suite de l’exercice 3 de la feuille 4)
On reprend les notations de l’exercice 3 de la feuille 4 et on note comme dans le cours par
fn1 ,n2 ,α la borne de la queue d’ordre α de la loi de Fischer de paramètres n1 et n2 et on pose
r
1
Rα =
f3,6,α ||U − UA ||2 .
2
Calculer la probabilité de l’événement
||UA − m|| ≤ Rα
et en déduire une sphère de confiance de m au niveau de confiance 1 − α.
Téléchargement