Université Jean Monnet I U T de ROANNE
L. P. Gestion de la Production Industrielle G. Simonnet
1
ANALYSE DE LA VARIANCE
I. Présentation de la méthode :
1) L’idée :
Au début du XXe siècle, R. Fischer développe la méthodologie des plans d’expérience. Pour
valider l’utili d’un facteur, il met au point un test permettant d’assurer que des échantillons
différents sont de nature différentes. Ce test est basé sur l’analyse de la variance (des échantillons), et
nommé ANOVA (analyse normalisée de la variance).
L’idée est de tester l’hypothèse H0 : ‘les échantillons sont représentatifs d’une même
population (d’une même loi statistique)’ ; Autrement dit, les variations constatées entre les valeurs des
différents échantillons sont dues essentiellement au hasard. Pour cela on étudie la variabilité des
résultats dans les échantillons et entre les échantillons.
Nous étudierons le cas d’échantillons de même taille, mais la méthode s’adapte à des
échantillons de tailles différentes.
2) Notations et vocabulaire :
Nous prenons k échantillons de n valeurs chacun.
Notations:
i est l’indice d’échantillon (de 1 à k), j l’indice de l’observation(de 1 à n)
xij : valeur de la jème observation de l’échantillon i
xi
: moyenne de l’échantillon i
N : nombre total d’observation N = k.n
x
: moyenne des N valeurs = moyenne des
x
i
2 . 1 ) La variance globale
La variance globale est la variance estimée en considérant l’ensemble des N essais comme un
seul échantillon.
)1(
(
N
xx
Vij ij
T
. Le nombre de degré de liberté (ddl) est égal à : N - 1 = T.
A priori, la variance globale n’a pas une grande signification, car les individus sont pris de
façon groupée, par échantillons dans des sous - populations. C’est la quantité
T
ij ij Qxx
(
qui
retiendra notre attention : elle donne la somme des carrés des écarts à la moyenne. On l’appelle la
somme des carrés totale, ou la variation totale.
2 . 2 ) La variance entre échantillons
La variance entre échantillons (c a d entre les moyennes des échantillons) est l’estimateur de
la variance des moyennes des échantillons:
 
Vx x
k
E
i
i
2
1
(On estime la variance due au facteur
éventuel qui différencie les échantillons). Comme la variance des individus (2 ) vaut n fois celle des
2
moyennes
n
2
, on utilise plus généralement VA = n V E =
n x x
kQ
i
i A
A
(
1
. ( le ddl est
A = k 1, la variation expliquée, ou somme des carrés entre échantillon est
)
2 . 3 ) La variance résiduelle
La variance résiduelle (VR), ou variance à l’intérieur des échantillons est l’effet des facteurs
non contrôlés (autres que celui qui fait changer d’échantillon). C’est la moyenne des variances des
échantillons.
VR =
R
R
ij iij
i
jiij Q
nk
xx
n
xx
k
)1.(
(
1
)(
12
Le nombre de degrés de liberté par colonne étant de n-1, le nombre de colonnes étant k, le ddl est
donc R = k.(n-1). Quant à la variation résiduelle
(
ij iijRxxQ
, elle mesure la variation due à la
dispersion au sein des échantillons.
2 . 4 ) Bilan
On a donc :
R
R
RR
ij iijR
A
A
AA
i
i
A
T
T
TT
ij ijT
Q
VnkxxQ
Q
VkxxnQ
Q
VknNxxQ
)1((
1(
11(
3) La théorie du test :
En statistique descriptive, on montre que, pour une population répartie entre plusieurs classes,
la variance totale est la somme de la variance expliquée (entre les moyennes) et de la variance
résiduelle. Ici, cette relation n’est pas conservée, car on n’a pas la population totale, et ce sont
d’ailleurs les variances d’échantillon qui sont calculées. Mais on voit facilement que :
RATRAT QQQ
Dans l’hypothèse le facteur expliqué (celui qui amène à changer d’échantillon) n’a pas
d’influence (c’est notre hypothèse H0), VE est un estimateur de la variance de la moyenne d’un
échantillon
n
2
, donc VA (soit n VE) est un estimateur de la variance 2 de la population. Mais on
montre que VR, lui aussi est un estimateur de 2.
On s’attend donc à ce que le rapport
R
A
V
V
soit à peu près égal à 1. On considèrera donc que H0
est vérifiée lorsque
R
A
V
V
sera aux alentours de 1, et on rejettera H0 lorsque
R
A
V
V
sera beaucoup plus
3
grand que 1 (ou proche de 0). En pratique, lorsque H0 est faux VA est presque sûrement plus grand que
VR et on ne retient que la règle proche de 1 ou beaucoup plus grand que 1.
Reste à préciser la limite entre acceptation et rejet de H0. Pour cela, nous allons faire une
hypothèse supplémentaire : On suppose que la population est Normale. Dans ce cas,
R
A
V
V
suit une
loi de Fischer à A et R degrés de liberté. Pour un risque t (%) donné, les tables de Fischer
Snédecor vont nous donner la valeur limite telle que P{
R
A
V
V
< ) = 1 t . Et le test est :
R
A
V
V
< : on accepte H0 , c a d les échantillons peuvent provenir de la même population, le
facteur expliqué n’a pas apparemment d’influence.
R
A
V
V
> : on rejette H0 , c a d les échantillons ne peuvent pas provenir de la même population,
le facteur expliqué a une influence significative.
II. Mise en oeuvre :
1) Méthode :
Après avoir choisi le seuil de risque t, on calcule les sommes de carrés et les degrés de liberté (les
variances s’en déduisent). On regroupe les résultats dans un « tableau d’analyse de la variance » :
Variations
somme des carrés
ddl
variances
F
entre échantillons
n x x
i
i( )
2
k-1
VA
Calculé :
R
A
V
V
siduelles
( )
,
x x
i j i
ji
2
k(n-1)
VR
Théorique
(choisi pour 1 = k - 1,
2 = N k et au risque
t )
totale
( )
,
,x x
i j
i j
2
N-1
Conclusion
2) Exemple :
On analyse les résultats de trois méthodes de fabrication, sur des échantillons de 10 pièces. La
qualité du produit final est notée de 1 à 10 :
Procédé 1
9
8
9
8
10
8
8
7
9
8
Procédé 2
9
9
8
9
9
9
8
7
9
9
Procédé 3
8
9
8
8
7
8
8
8
9
8
Les valeurs du procédé 3 semblent faibles. Y a t’il une différence entre les trois méthodes ?
L’ANOVA nous permet de répondre à cette question. Nous prendrons un seuil de risque de
5%, et nous supposerons que la mesure de qualité suit une loi Normale (beaucoup de petits effets
contribuent à la qualité finale). On construit le tableau de résultats à l’aide des valeurs globales
4
(moyenne et écart type de toutes les valeurs : 8,37 et 0,7184( n-1 ) d’où VT = 0,5161 et QT = 14,97 )
et par échantillon :
moyenne
variance (n-1)2
Procédé 1
8,4
0,7111
Procédé 2
8,6
0,4889
Procédé 3
8,1
0,3222
Ce qui nous donne d’une part la variance des moyennes (n)2 = 0,0422, qui multipliée par 3,
puis par 10 (n) donne QA = 1,27 ; d’autre part, la moyenne des variances d’échantillon VR = 0,5074,
qui multipliée par R degrés de liberté donne QR = 13,70.
On aurait pu aussi calculer les sommes de carrés directement par les formules. On obtient le
tableau :
variations
somme des carrés
ddl
variances
F
entre échantillons
1,27
2
0,635
calculé 1,25
résiduelles
13,70
27
0,5074
Théorique 3,36
totale
14,97
29
On accepte H0
on a pris 1=2, 2=27 et le risque de 5%.
La valeur calculée 1,25 est inférieure au seuil 3,36, donc, au risque 5%, on doit
conclure que les valeurs ne dépendent pas de l’échantillon choisi. Donc rien ne permet de conclure
que les méthodes ont des résultats de qualités différentes. Le hasard seul peut aboutir à des valeurs
faibles comme celles du troisième échantillon.
1 / 4 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !