Analyse de variance à deux facteurs (plan inter-sujets à deux

1
Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9
L’analyse de variance à un facteur permet de vérifier, moyennant certaines hypothèses, si un
facteur (un critère de classification, celui qui définit les groupes ou les échantillons
indépendants) a un effet significatif sur la variable X étudiée. L’analyse de variance à 2 ou
plusieurs facteurs généralise cette méthode lorsque nous avons plus d’un critère de
classification.
Remarque : on présente souvent dans la littérature le problème de l’analyse de variance à un
facteur sous la forme d’un modèle linéaire comme suit :
Xij = µ + aj + eij
où Xij est le score observé du sujet i dans le traitement j, µ la moyenne de la population totale,
j
αl’effet du traitement j, et eij la valeur de l’erreur de mesure.
µ et j
α sont des constantes qui garderaient les mêmes valeurs respectives si on mesurait
plusieurs fois le score du sujet i dans la condition j. Par contre, la valeur de l’erreur
changerait à chaque nouvelle mesure du même sujet et différerait d’un sujet à l’autre.
Pour la simplicité, nous nous limiterons au cas de deux facteurs, mais la méthode se
généralise aisément à plusieurs facteurs.
Prenons l’exemple suivant :
Nous étudions le stress (score de stress = variable X) au sein d’une société. Nous repérons les
employés suivant leur âge (>/< 50 ans : 1
er facteur à 2 niveaux) et leur niveau de
responsabilité (techniciens, cadres inférieurs et cadres supérieurs : second facteur à 3
niveaux). Nous définissons ainsi un plan d’expérience à 2 facteurs (ou deux critères de
classification) ; on parle encore de plan factoriel 2 x 3 (2 niveaux sur le premier facteur et
trois niveaux sur le second).
Nous appellerons le premier facteur, le facteur A et le second, le facteur B.
Une cellule correspond à un certain niveau du facteur A et un certain niveau du facteur B (par
exemple les cadres inférieurs de moins de 50 ans).
Dans chaque cellule les sujets sont différents (lorsqu’il s’agit des mêmes sujets on parle de
plan à mesures répétées : ceci fera l’objet d’une prochaine séance de TP).
Lorsqu’il y a le même nombre de sujets dans chaque cellule on parlera d’un plan balancé ou
équilibré sinon nous dirons que le plan est non balancé ou non équilibré.
Si nous avons 6 sujets par cellule, nous pouvons visualiser la situation de notre exemple par le
tableau suivant :
< 50 ans > 50 ans
Techniciens XXXXXX XXXXXX
Cadre Inf. XXXXXX XXXXXX
Cadre Sup. XXXXXX XXXXXX
2
Nous allons nous intéresser à la moyenne de X dans chacune des cellules et sur les marges.
Dans l’exemple considéré, nous obtenons :
< 50 ans > 50 ans
Techniciens 15,0000 9,6667 12,3333
Cadre Inf. 15,1667 15,8333 15,5000
Cadre Sup. 14,5000 26,1667 20,3333
14,8889 17,2222 16,0556
Trois types d’effets, donc de sources de variation, entrent en jeu :
1. L’effet principal du facteur Age (cf moyennes marginales des colonnes): compte non
tenu du niveau de responsabilité, l’âge a-t-il un effet sur le stress ? Donc, 14,89 est-il
statistiquement différent de 17,22 ? Si oui, nous aurons montré la présence d’un effet
du facteur « âge ». Ceci est en fait l’objet de l’ANOVA à 1 facteur.
2. L’effet principal du facteur Niveau responsabilité (cf moyennes marginales des
lignes). Compte non tenu de l’âge, le niveau de responsabilité a-t-il un effet sur le
stress ? Donc, 12.33, 15.5 et 20.33 sont-ils statistiquement différents ? Si oui, nous
aurons montré la présence d’un effet du facteur Niveau de responsabilité.
3. L’interaction entre le facteur Age et le facteur niveau de responsabilité. Ici on ne
s’intéresse plus aux marges, mais aux cellules. Les 6 moyennes sont donc prises en
compte. On se demande si l’effet de l’âge est le même quel que soit le niveau du
facteur Niveau de responsabilité, ou si l’effet du niveau de responsabilité est le même
à chaque niveau du facteur Age. Quand un facteur n’a pas les mêmes effets simples
principaux à tous les niveaux de l’autre facteur, les deux facteurs sont dits en
interaction. Une interaction entre 2 facteurs A et B est souvent indiquée par un signe
de multiplication : A X B.
Les effets principaux et les interactions sont indépendants. Il est donc possible d’obtenir des
effets principaux significatifs sans interaction significative entre les facteurs ; il est aussi
possible d’obtenir une interaction significative sans aucun effet principal significatif.
Graphiquement si nous représentons les moyennes à travers les niveaux de responsabilités en
fixant la tranche d’âge, nous obtenons les 2 trajectoires suivantes :
3
Cadre Sup.Cadre Inf.Techn.
Niveau de responsabilité
25,00
20,00
15,00
10,00
Estimated Marginal Means
>50ans
<50ans
Tranche d'âge
Estimated Marginal Means of Score de stress
L’examen de ce type de graphique permet de mettre en évidence la présence d’une interaction
entre les deux facteurs principaux.
Sous sa forme linéaire, ce problème de l’analyse de variance à deux facteurs s’exprime
comme suit :
Xijk = µ + aj+ ßk + ?jk + eijk
µ est la moyenne générale de X, aj l’effet du traitement j, ßk l’effet du traitement k, ?jk
l’effet de l’interaction des traitements j et k, et eijk est un terme d’erreur. Si le facteur A n’a
pas d’effet, tous les aj sont nuls. Si le facteur B n’a pas d’effet, tous les ßk sont nuls et s’il n’y
a pas d’effet de l’interaction, tous les ?jk sont nuls.
Principe de l’analyse de variance à 2 facteurs.
On se propose de tester trois hypothèses différentes :
1. H0 il n’y a pas d’effet principal du facteur A
H1 il y a un effet principal du facteur A
2. H0 il n’y a pas d’effet principal du facteur B
H1 il y a un effet principal du facteur B
3. H0 il n’y a pas d’interaction entre les facteurs A et B
H1 il y a une interaction entre les facteurs A et B.
Comme dans l’ANOVA à un facteur pour répondre à ces questions, nous partons de la
décomposition de la variabilité totale de X.
SStotal = SSA + SSB + SSA*B + SSwithin
Notations :
Chaque cellule du plan est repérée par deux indices j et k qui renvoient au niveau j du facteur
A et au niveau k du facteur B.
Xijk est le ième individu de la cellule (j,k)
M est la moyenne générale de X sur l’ensemble des observations,
4
M j k est la moyenne de X dans la cellule (j,k)
M . k est la moyenne de X dans l’ensemble des cellules du niveau k du facteur B,
M j . est la moyenne de X dans l’ensemble des cellules du niveau j du facteur A,
njk = nombre de sujets dans la cellule (j,k) (nous noterons n dans le cas des plans balancés)
n . k = le nombre de sujets dans l’ensemble des cellules du niveau k du facteur B,
n j . = le nombre de sujets dans l’ensemble des cellules du niveau j du facteur A,
N = Nombre total de sujets,
J = nombre de modalités du facteur A,
K = nombre de modalités du facteur B
La formule de décomposition de la variation totale pour un plan équilibré est la suivante :
∑∑∑
++
+
+
=
kj i jkijk
kkj
jjk
kkk
jjj
kj i ijk
MX
MMMM
MMn
MMn
MX
(
(n
(
(
(
..jk
..
..
De manière résumée cette somme se réécrit :
SStotal = SSA + SSB + SSA*B + SSwithin
A chaque somme de carrés est associée un nombre de degrés de liberté :
Somme : SStotal = SSA +SSB + SSA*B + SSwithin
d.l. N-1 J-1 K-1 (J-1)(K-1) N-(J.K)
N = Nombre total de sujets,
J = nombre de modalités du facteur A,
K = nombre de modalités du facteur B
Les ratios SS/d.l. définissent les MS (carrés moyens)
MSA = SSA / (J-1), MSB = SSB / (K-1), MSA*B = SSA*B / [(J-1).(K-1)],
MSwithin = SSwithin / (N-1)
Sous l’hypothèse nulle les ratios MSA/MSwithin, MSB/MSwithin, MSA*B/MSwithin se distribuent
suivant une loi F de Fisher-Snédecor :
MSA = FJ-1 , N-1
MSB = FK-1 , N-1
MSA*B = F(J-1)(K-1) , N-1
Hypothèses : Comme dans l’ANOVA à 1 facteur, nous supposerons que la variable X se
distribue normalement (suivant une loi Normale) dans chaque cellule (j,k) avec la même
variance s² et que les observations sont indépendantes les une des autres (on vérifiera l’allure
normale par un graphique « box-plot » de X dans chaque cellule). Les échantillons (de chaque
cellule) sont indépendants les uns des autres.
5
Comparaisons multiples.
Comme en analyse de variance à un facteur, on peut procéder à des comparaisons a priori et a
posteriori (post hoc) lorsque l’ANOVA détecte un ou des effets significatifs. Il est important
de toujours contrôler le niveau global de l’erreur lors de comparaisons a priori. Ce contrôle se
fait automatiquement par SPSS dans le cas des comparaisons « post hoc ». Notons encore que
les comparaisons post hoc proposées par SPSS ne permettent pas des comparaisons entre les
moyennes de deux cellules ; Seules les comparaisons des effets principaux (entre tous les
niveaux d’un facteur sur les marges) sont proposées au niveau des tests « post hoc ».
Si l’on souhaite faire des comparaisons non planifiées de moyennes entre 2 cellules
n’envisager que s’il y a une interaction significative), il convient de passer par un test de
Tukey dans une ANOVA à 1 facteur sur la variable croisée A*B (créée par « Transform
compute … »). Si cette nouvelle variable possède beaucoup de modalités les tests post hoc
seront fort conservateurs (et peu puissants).
Il est encore possible de faire les comparaisons des moyennes aux différents niveaux d’un
facteur pour un niveau fixé de l’autre (faire « select cases ») ; c’est l’examen d’une trajectoire
dans le graphique des moyennes décrit ci-dessus. Ces comparaisons se font par un test de
Tukey dans une ANOVA à 1 facteur après avoir sélectionné les sujets au niveau donné du
second facteur. On peut répéter ainsi l’opération pour tous les niveaux du second facteur. Ce
type de test permet de déterminer à quel niveau d’un facteur un autre facteur du plan exerce
ses effets. On parle, dans ce cas, de tests sur les effets simples.
Alternatives.
L’analyse de variance est une procédure robuste qui admet sans trop de problèmes des
déviations légères par rapport aux conditions de normalité et d’homogénéité des variances.
Notons encore qu’il n’existe pas de test non paramétrique universellement reconnu lorsque la
condition de normalité est gravement violée.
Effet de taille.
Dans l’ANOVA 1 facteur, nous avons défini l’effet de taille par η² comme la proportion de la
variance de X expliquée par le facteur : η² = SSfacteur / SStotal
Dans l’ANOVA à 2 facteurs, nous pouvons définir un effet de taille (complet) pour chaque
source de variation (facteur A, facteur B et interaction A*B).
η²A = SSA / SStotal , η² B = SSB / SStotal , η² A*B = SSA*B / SStotal (Ces effets de taille ne sont pas
fournit par SPSS).
Par contre, SPSS détermine l’effet de taille partiel η² partiel (Partial eta square)
η²p(A) = SSA / (SSA + SSwithin) , η² p(B) = SSB / (SSB + SSwithin), η² A*B = SSA*B / (SSA*B +
SSwithin)
1 / 20 100%