ce que vous devez savoir - Les

publicité
Université Jean Monnet
L. P. Gestion de la Production Industrielle
I U T de ROANNE
G. Simonnet
ANALYSE DE LA VARIANCE
I. Présentation de la méthode :
1) L’idée :
Au début du XXe siècle, R. Fischer développe la méthodologie des plans d’expérience. Pour
valider l’utilité d’un facteur, il met au point un test permettant d’assurer que des échantillons
différents sont de nature différentes. Ce test est basé sur l’analyse de la variance (des échantillons), et
nommé ANOVA (analyse normalisée de la variance).
L’idée est de tester l’hypothèse H0 : ‘les échantillons sont représentatifs d’une même
population (d’une même loi statistique)’ ; Autrement dit, les variations constatées entre les valeurs des
différents échantillons sont dues essentiellement au hasard. Pour cela on étudie la variabilité des
résultats dans les échantillons et entre les échantillons.
Nous étudierons le cas d’échantillons de même taille, mais la méthode s’adapte à des
échantillons de tailles différentes.
2) Notations et vocabulaire :
Nous prenons k échantillons de n valeurs chacun.
Notations:
i est l’indice d’échantillon (de 1 à k), j l’indice de l’observation(de 1 à n)
xij : valeur de la jème observation de l’échantillon i

xi : moyenne de l’échantillon i
N : nombre total d’observation N = k.n
x : moyenne des N valeurs = moyenne des x i
2 . 1 ) La variance globale
La variance globale est la variance estimée en considérant l’ensemble des N essais comme un
seul échantillon. VT 
 (x
ij
 x)²
ij
( N 1)
. Le nombre de degré de liberté (ddl) est égal à : N - 1 = T.
A priori, la variance globale n’a pas une grande signification, car les individus sont pris de
façon groupée, par échantillons dans des sous - populations. C’est la quantité
 (x
ij
 x)²  QT qui
ij
retiendra notre attention : elle donne la somme des carrés des écarts à la moyenne. On l’appelle la
somme des carrés totale, ou la variation totale.
2 . 2 ) La variance entre échantillons
La variance entre échantillons (c a d entre les moyennes des échantillons) est l’estimateur de
la variance des moyennes des échantillons: VE 

xi  x
i
k 1

2
(On estime la variance due au facteur
éventuel qui différencie les échantillons). Comme la variance des individus (2 ) vaut n fois celle des
1
 2
moyennes 
 n

 , on utilise plus généralement VA = n V E =


n
( x
i
 x )²

i
k 1
A = k – 1, la variation expliquée, ou somme des carrés entre échantillon est n
QA
A
.
( le ddl est
 (x x)²  Q
i
A)
i
2 . 3 ) La variance résiduelle
La variance résiduelle (VR), ou variance à l’intérieur des échantillons est l’effet des facteurs
non contrôlés (autres que celui qui fait changer d’échantillon). C’est la moyenne des variances des
échantillons.
1
VR = 
k i
 (x
ij
 xi ) 2

j
n 1
 (x
ij
 xi )²
ij
k.(n1)

QR
R
Le nombre de degrés de liberté par colonne étant de n-1, le nombre de colonnes étant k, le ddl est
donc R = k.(n-1). Quant à la variation résiduelle QR 
 (x x )² , elle mesure la variation due à la
ij
i
ij
dispersion au sein des échantillons.
2 . 4 ) Bilan
QT   ( xij  x)²   T  N  1  kn  1 VT 
ij
On a donc :
Q A  n  ( x i  x)²
 A  k 1
VA 
 R  k (n  1)
VR 
i
QR   ( xij  xi )²
ij
QT
T
QA
A
QR
R
3) La théorie du test :
En statistique descriptive, on montre que, pour une population répartie entre plusieurs classes,
la variance totale est la somme de la variance expliquée (entre les moyennes) et de la variance
résiduelle. Ici, cette relation n’est pas conservée, car on n’a pas la population totale, et ce sont
d’ailleurs les variances d’échantillon qui sont calculées. Mais on voit facilement que :
 T   A  R
QT  QA  QR
Dans l’hypothèse où le facteur expliqué (celui qui amène à changer d’échantillon) n’a pas
d’influence (c’est notre hypothèse H0), VE est un estimateur de la variance de la moyenne d’un
 2 
 , donc VA (soit n VE) est un estimateur de la variance 2 de la population. Mais on
échantillon 

 n 
montre que VR, lui aussi est un estimateur de 2.
VA
soit à peu près égal à 1. On considèrera donc que H0
VR
V
V
est vérifiée lorsque A sera aux alentours de 1, et on rejettera H0 lorsque A sera beaucoup plus
VR
VR
On s’attend donc à ce que le rapport
2
grand que 1 (ou proche de 0). En pratique, lorsque H0 est faux VA est presque sûrement plus grand que
VR et on ne retient que la règle proche de 1 ou beaucoup plus grand que 1.
Reste à préciser la limite entre acceptation et rejet de H 0. Pour cela, nous allons faire une
hypothèse supplémentaire : On suppose que la population est Normale. Dans ce cas,
VA
suit une
VR
loi de Fischer à A et R degrés de liberté. Pour un risque t (%) donné, les tables de Fischer –
Snédecor vont nous donner la valeur limite  telle que P{

VA
<  ) = 1 – t . Et le test est :
VR
VA
<  : on accepte H0 , c a d les échantillons peuvent provenir de la même population, le
VR
facteur expliqué n’a pas apparemment d’influence.

VA
>  : on rejette H0 , c a d les échantillons ne peuvent pas provenir de la même population,
VR
le facteur expliqué a une influence significative.
II. Mise en oeuvre :
1)
Méthode :
Après avoir choisi le seuil de risque t, on calcule les sommes de carrés et les degrés de liberté (les
variances s’en déduisent). On regroupe les résultats dans un « tableau d’analyse de la variance » :
Variations
somme des carrés
ddl
variances
F
n  ( xi  x ) 2
k-1
VA
Calculé : VA
entre échantillons
VR
i
résiduelles
 (x
i
i, j
j
(x
totale
 x i ) k(n-1)
2
i, j
VR
Théorique
(choisi pour 1 = k - 1,
2 = N – k et au risque
t)
 x) 2
Conclusion
N-1
i, j
2) Exemple :
On analyse les résultats de trois méthodes de fabrication, sur des échantillons de 10 pièces. La
qualité du produit final est notée de 1 à 10 :
Procédé 1
Procédé 2
Procédé 3
9
9
8
8
9
9
9
8
8
8
9
8
10
9
7
8
9
8
8
8
8
7
7
8
9
9
9
8
9
8
Les valeurs du procédé 3 semblent faibles. Y – a – t’il une différence entre les trois méthodes ?
L’ANOVA nous permet de répondre à cette question. Nous prendrons un seuil de risque de
5%, et nous supposerons que la mesure de qualité suit une loi Normale (beaucoup de petits effets
contribuent à la qualité finale). On construit le tableau de résultats à l’aide des valeurs globales
3
(moyenne et écart – type de toutes les valeurs : 8,37 et 0,7184( n-1 ) d’où VT = 0,5161 et QT = 14,97 )
et par échantillon :
moyenne
variance (n-1)2
Procédé 1
8,4
0,7111
Procédé 2
8,6
0,4889
Procédé 3
8,1
0,3222
Ce qui nous donne d’une part la variance des moyennes (n)2 = 0,0422, qui multipliée par 3,
puis par 10 (n) donne QA = 1,27 ; d’autre part, la moyenne des variances d’échantillon V R = 0,5074,
qui multipliée par R degrés de liberté donne QR = 13,70.
On aurait pu aussi calculer les sommes de carrés directement par les formules. On obtient le
tableau :
variations
somme des carrés ddl
entre échantillons 1,27
2
résiduelles
13,70
27
totale
14,97
29
on a pris 1=2, 2=27 et le risque de 5%.
variances
F
0,635
calculé 1,25
0,5074
Théorique 3,36
On accepte H0
La valeur calculée 1,25 est inférieure au seuil 3,36, donc, au risque 5%, on doit
conclure que les valeurs ne dépendent pas de l’échantillon choisi. Donc rien ne permet de conclure
que les méthodes ont des résultats de qualités différentes. Le hasard seul peut aboutir à des valeurs
faibles comme celles du troisième échantillon.
4
Téléchargement