Université Jean Monnet L. P. Gestion de la Production Industrielle I U T de ROANNE G. Simonnet ANALYSE DE LA VARIANCE I. Présentation de la méthode : 1) L’idée : Au début du XXe siècle, R. Fischer développe la méthodologie des plans d’expérience. Pour valider l’utilité d’un facteur, il met au point un test permettant d’assurer que des échantillons différents sont de nature différentes. Ce test est basé sur l’analyse de la variance (des échantillons), et nommé ANOVA (analyse normalisée de la variance). L’idée est de tester l’hypothèse H0 : ‘les échantillons sont représentatifs d’une même population (d’une même loi statistique)’ ; Autrement dit, les variations constatées entre les valeurs des différents échantillons sont dues essentiellement au hasard. Pour cela on étudie la variabilité des résultats dans les échantillons et entre les échantillons. Nous étudierons le cas d’échantillons de même taille, mais la méthode s’adapte à des échantillons de tailles différentes. 2) Notations et vocabulaire : Nous prenons k échantillons de n valeurs chacun. Notations: i est l’indice d’échantillon (de 1 à k), j l’indice de l’observation(de 1 à n) xij : valeur de la jème observation de l’échantillon i xi : moyenne de l’échantillon i N : nombre total d’observation N = k.n x : moyenne des N valeurs = moyenne des x i 2 . 1 ) La variance globale La variance globale est la variance estimée en considérant l’ensemble des N essais comme un seul échantillon. VT (x ij x)² ij ( N 1) . Le nombre de degré de liberté (ddl) est égal à : N - 1 = T. A priori, la variance globale n’a pas une grande signification, car les individus sont pris de façon groupée, par échantillons dans des sous - populations. C’est la quantité (x ij x)² QT qui ij retiendra notre attention : elle donne la somme des carrés des écarts à la moyenne. On l’appelle la somme des carrés totale, ou la variation totale. 2 . 2 ) La variance entre échantillons La variance entre échantillons (c a d entre les moyennes des échantillons) est l’estimateur de la variance des moyennes des échantillons: VE xi x i k 1 2 (On estime la variance due au facteur éventuel qui différencie les échantillons). Comme la variance des individus (2 ) vaut n fois celle des 1 2 moyennes n , on utilise plus généralement VA = n V E = n ( x i x )² i k 1 A = k – 1, la variation expliquée, ou somme des carrés entre échantillon est n QA A . ( le ddl est (x x)² Q i A) i 2 . 3 ) La variance résiduelle La variance résiduelle (VR), ou variance à l’intérieur des échantillons est l’effet des facteurs non contrôlés (autres que celui qui fait changer d’échantillon). C’est la moyenne des variances des échantillons. 1 VR = k i (x ij xi ) 2 j n 1 (x ij xi )² ij k.(n1) QR R Le nombre de degrés de liberté par colonne étant de n-1, le nombre de colonnes étant k, le ddl est donc R = k.(n-1). Quant à la variation résiduelle QR (x x )² , elle mesure la variation due à la ij i ij dispersion au sein des échantillons. 2 . 4 ) Bilan QT ( xij x)² T N 1 kn 1 VT ij On a donc : Q A n ( x i x)² A k 1 VA R k (n 1) VR i QR ( xij xi )² ij QT T QA A QR R 3) La théorie du test : En statistique descriptive, on montre que, pour une population répartie entre plusieurs classes, la variance totale est la somme de la variance expliquée (entre les moyennes) et de la variance résiduelle. Ici, cette relation n’est pas conservée, car on n’a pas la population totale, et ce sont d’ailleurs les variances d’échantillon qui sont calculées. Mais on voit facilement que : T A R QT QA QR Dans l’hypothèse où le facteur expliqué (celui qui amène à changer d’échantillon) n’a pas d’influence (c’est notre hypothèse H0), VE est un estimateur de la variance de la moyenne d’un 2 , donc VA (soit n VE) est un estimateur de la variance 2 de la population. Mais on échantillon n montre que VR, lui aussi est un estimateur de 2. VA soit à peu près égal à 1. On considèrera donc que H0 VR V V est vérifiée lorsque A sera aux alentours de 1, et on rejettera H0 lorsque A sera beaucoup plus VR VR On s’attend donc à ce que le rapport 2 grand que 1 (ou proche de 0). En pratique, lorsque H0 est faux VA est presque sûrement plus grand que VR et on ne retient que la règle proche de 1 ou beaucoup plus grand que 1. Reste à préciser la limite entre acceptation et rejet de H 0. Pour cela, nous allons faire une hypothèse supplémentaire : On suppose que la population est Normale. Dans ce cas, VA suit une VR loi de Fischer à A et R degrés de liberté. Pour un risque t (%) donné, les tables de Fischer – Snédecor vont nous donner la valeur limite telle que P{ VA < ) = 1 – t . Et le test est : VR VA < : on accepte H0 , c a d les échantillons peuvent provenir de la même population, le VR facteur expliqué n’a pas apparemment d’influence. VA > : on rejette H0 , c a d les échantillons ne peuvent pas provenir de la même population, VR le facteur expliqué a une influence significative. II. Mise en oeuvre : 1) Méthode : Après avoir choisi le seuil de risque t, on calcule les sommes de carrés et les degrés de liberté (les variances s’en déduisent). On regroupe les résultats dans un « tableau d’analyse de la variance » : Variations somme des carrés ddl variances F n ( xi x ) 2 k-1 VA Calculé : VA entre échantillons VR i résiduelles (x i i, j j (x totale x i ) k(n-1) 2 i, j VR Théorique (choisi pour 1 = k - 1, 2 = N – k et au risque t) x) 2 Conclusion N-1 i, j 2) Exemple : On analyse les résultats de trois méthodes de fabrication, sur des échantillons de 10 pièces. La qualité du produit final est notée de 1 à 10 : Procédé 1 Procédé 2 Procédé 3 9 9 8 8 9 9 9 8 8 8 9 8 10 9 7 8 9 8 8 8 8 7 7 8 9 9 9 8 9 8 Les valeurs du procédé 3 semblent faibles. Y – a – t’il une différence entre les trois méthodes ? L’ANOVA nous permet de répondre à cette question. Nous prendrons un seuil de risque de 5%, et nous supposerons que la mesure de qualité suit une loi Normale (beaucoup de petits effets contribuent à la qualité finale). On construit le tableau de résultats à l’aide des valeurs globales 3 (moyenne et écart – type de toutes les valeurs : 8,37 et 0,7184( n-1 ) d’où VT = 0,5161 et QT = 14,97 ) et par échantillon : moyenne variance (n-1)2 Procédé 1 8,4 0,7111 Procédé 2 8,6 0,4889 Procédé 3 8,1 0,3222 Ce qui nous donne d’une part la variance des moyennes (n)2 = 0,0422, qui multipliée par 3, puis par 10 (n) donne QA = 1,27 ; d’autre part, la moyenne des variances d’échantillon V R = 0,5074, qui multipliée par R degrés de liberté donne QR = 13,70. On aurait pu aussi calculer les sommes de carrés directement par les formules. On obtient le tableau : variations somme des carrés ddl entre échantillons 1,27 2 résiduelles 13,70 27 totale 14,97 29 on a pris 1=2, 2=27 et le risque de 5%. variances F 0,635 calculé 1,25 0,5074 Théorique 3,36 On accepte H0 La valeur calculée 1,25 est inférieure au seuil 3,36, donc, au risque 5%, on doit conclure que les valeurs ne dépendent pas de l’échantillon choisi. Donc rien ne permet de conclure que les méthodes ont des résultats de qualités différentes. Le hasard seul peut aboutir à des valeurs faibles comme celles du troisième échantillon. 4