UFR Sciences et Techniques Année 2007-2008 Master 1 de Mathématiques Statistiques Feuille de TD no 5 Comparaison de plusieurs échantillons gaussiens, analyse de la variance Exercice 1 (modèle général) On considère k échantillons numérotés i = 1, . . . , k l’échantillon no i Xi1 , . . . Xin contient n valeurs indépendantes issues d’une loi N (µi , σ 2 ). On pose N = nk le nombre total de valeurs considérées. Les échantillons sont indépendants les uns des autres et de même variance σ 2 . On considère les moyennes suivantes ( P Xi• = n1 nj=1 Xij moyenne du i-ième échantillon P P X•• = N1 i,j Xi,j = k1 ki=1 Xi• moyenne générale 1) Montrer qu’en écrivant Xij − X•• = (Xij − Xi• ) + (Xi• − X•• ) et en élevant au carré, on obtient l’égalité suivante T 2 = R2 + L2 , où P 2 = i,j (Xij − X•• )2 variation totale T P R2 = i,j (Xij − Xi• )2 variation intragroupe P 2 variation intergroupe. L = ki=1 n(Xi• − X•• )2 2) Sous l’hypothèse H0 : µ1 = . . . , µk d’égalité des moyennes théoriques, trouver la loi de la variable aléatoire T 2 . Exercice 2 (signification géométrique des variables R2 et L2 ) Soit X = (X11 , . . . , X1n , X21 , . . . , X2n , . . . , Xk1 , . . . , Xkn ) le vecteur de RN obtenu en mettant bout à bout les k échantillons et soit Y = (X1• , . . . , X1• , . . . , Xk• , . . . , Xk• ) le vecteur de RN obtenu à partir de X en remplaçant les variables par la moyenne empirique correspondante des variables de la même classe et X = (X•• , . . . , X•• ), le vecteur de RN dont toutes les composantes sont égales à X•• . 1) Calculer ||X − X||2 , ||X − Y ||2 et ||Y − X||2 ? 2) Montrer que les vecteurs X − Y et Y − X sont orthogonaux dans RN . 3) On considère le sous-espace vectoriel V de RN engendré par les vecteurs v1 dont les n premières composantes sont égales à 1 et les autres sont égales à 0, v2 dont les n premières composantes sont égales à 0, les n suivantes valent 1 et les autres 0, etc ..., et enfin vn a toutes ses composantes nulles sauf les n dernières égales à 1. a) Montrer que Y − X est la projection orthogonale de X − X sur V . b) En déduire que les variables aléatoires R2 et L2 sont indépendantes et déterminer leurs lois. Exercice 3 (Le test d’analyse de variance) On reprend les notations est les hypothèses des exercices 1) et 2). 1) Sous l’hypothèse H0 , montrer que la variable aléatoire F = dont on précisera les degrés de liberté. N −k L2 k−1 R2 suit une loi de Fisher 2) Si l’hypothèse H0 est fausse, c’est la variation intragroupe L2 qui sera le terme prépondérant dans la somme T 2 = R2 + T 2 donc la valeur que prendra F aura tendance à être plus grande que celle qu’elle prendrait sous l’hypothèse H0 . De cette observation qualitative, déduire un test d’égalité des moyennes théoriques des échantillons considérés dans l’exercice 1. Exercice 4 (Tester l’égalité de performances) On veut déterminer s’il y a de réelles différences de niveau entre 4 lycées différents. Pour étudier cette question, on recueille les scores obtenus par 10 élèves tirés au hasard dans chaque établissement à qui on a fait subir une série d’épreuves résumées par une note sur 100. On a observé les résultats suivants lycée lycée lycée lycée 1 2 3 4 73 84 69 65 57 95 80 58 95 96 73 82 78 62 62 86 86 80 50 35 61 87 71 52 80 100 84 70 98 74 66 79 64 85 52 43 78 77 73 60 Les scores moyens des 4 lycées sont respectivement de 77, 84, 68 et 63. On voudrait savoir si les différences observées entre ces moyennes sont dues au hasard (c’est à dire les lycées sont équivalents) ou non. Exercice 5 (suite de l’exercice 3 de la feuille 4) On reprend les notations de l’exercice 3 de la feuille 4 et on note comme dans le cours par fn1 ,n2 ,α la borne de la queue d’ordre α de la loi de Fischer de paramètres n1 et n2 et on pose r 1 Rα = f3,6,α ||U − UA ||2 . 2 Calculer la probabilité de l’événement ||UA − m|| ≤ Rα et en déduire une sphère de confiance de m au niveau de confiance 1 − α.