Analyse de variance à deux facteurs (plan inter-sujets à deux

1

Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9

L’analyse de variance à un facteur permet de vérifier, moyennant certaines hypothèses, si un

facteur (un critère de classification, celui qui définit les groupes ou les échantillons

indépendants) a un effet significatif sur la variable X étudiée. L’analyse de variance à 2 ou

plusieurs facteurs généralise cette méthode lorsque nous avons plus d’un critère de

classification.

Remarque : on présente souvent dans la littérature le problème de l’analyse de variance à un

facteur sous la forme d’un modèle linéaire comme suit :

Xij = µ + aj + eij

où Xij est le score observé du sujet i dans le traitement j, µ la moyenne de la population totale,

j

αl’effet du traitement j, et eij la valeur de l’erreur de mesure.

µ et j

α sont des constantes qui garderaient les mêmes valeurs respectives si on mesurait

plusieurs fois le score du sujet i dans la condition j. Par contre, la valeur de l’erreur

changerait à chaque nouvelle mesure du même sujet et différerait d’un sujet à l’autre.

Pour la simplicité, nous nous limiterons au cas de deux facteurs, mais la méthode se

généralise aisément à plusieurs facteurs.

Prenons l’exemple suivant :

Nous étudions le stress (score de stress = variable X) au sein d’une société. Nous repérons les

employés suivant leur âge (>/< 50 ans : 1

er facteur à 2 niveaux) et leur niveau de

responsabilité (techniciens, cadres inférieurs et cadres supérieurs : second facteur à 3

niveaux). Nous définissons ainsi un plan d’expérience à 2 facteurs (ou deux critères de

classification) ; on parle encore de plan factoriel 2 x 3 (2 niveaux sur le premier facteur et

trois niveaux sur le second).

Nous appellerons le premier facteur, le facteur A et le second, le facteur B.

Une cellule correspond à un certain niveau du facteur A et un certain niveau du facteur B (par

exemple les cadres inférieurs de moins de 50 ans).

Dans chaque cellule les sujets sont différents (lorsqu’il s’agit des mêmes sujets on parle de

plan à mesures répétées : ceci fera l’objet d’une prochaine séance de TP).

Lorsqu’il y a le même nombre de sujets dans chaque cellule on parlera d’un plan balancé ou

équilibré sinon nous dirons que le plan est non balancé ou non équilibré.

Si nous avons 6 sujets par cellule, nous pouvons visualiser la situation de notre exemple par le

tableau suivant :

< 50 ans > 50 ans

Techniciens XXXXXX XXXXXX

Cadre Inf. XXXXXX XXXXXX

Cadre Sup. XXXXXX XXXXXX

2

Nous allons nous intéresser à la moyenne de X dans chacune des cellules et sur les marges.

Dans l’exemple considéré, nous obtenons :

< 50 ans > 50 ans

Techniciens 15,0000 9,6667 12,3333

Cadre Inf. 15,1667 15,8333 15,5000

Cadre Sup. 14,5000 26,1667 20,3333

14,8889 17,2222 16,0556

Trois types d’effets, donc de sources de variation, entrent en jeu :

1. L’effet principal du facteur Age (cf moyennes marginales des colonnes): compte non

tenu du niveau de responsabilité, l’âge a-t-il un effet sur le stress ? Donc, 14,89 est-il

statistiquement différent de 17,22 ? Si oui, nous aurons montré la présence d’un effet

du facteur « âge ». Ceci est en fait l’objet de l’ANOVA à 1 facteur.

2. L’effet principal du facteur Niveau responsabilité (cf moyennes marginales des

lignes). Compte non tenu de l’âge, le niveau de responsabilité a-t-il un effet sur le

stress ? Donc, 12.33, 15.5 et 20.33 sont-ils statistiquement différents ? Si oui, nous

aurons montré la présence d’un effet du facteur Niveau de responsabilité.

3. L’interaction entre le facteur Age et le facteur niveau de responsabilité. Ici on ne

s’intéresse plus aux marges, mais aux cellules. Les 6 moyennes sont donc prises en

compte. On se demande si l’effet de l’âge est le même quel que soit le niveau du

facteur Niveau de responsabilité, ou si l’effet du niveau de responsabilité est le même

à chaque niveau du facteur Age. Quand un facteur n’a pas les mêmes effets simples

principaux à tous les niveaux de l’autre facteur, les deux facteurs sont dits en

interaction. Une interaction entre 2 facteurs A et B est souvent indiquée par un signe

de multiplication : A X B.

Les effets principaux et les interactions sont indépendants. Il est donc possible d’obtenir des

effets principaux significatifs sans interaction significative entre les facteurs ; il est aussi

possible d’obtenir une interaction significative sans aucun effet principal significatif.

Graphiquement si nous représentons les moyennes à travers les niveaux de responsabilités en

fixant la tranche d’âge, nous obtenons les 2 trajectoires suivantes :

3

Cadre Sup.Cadre Inf.Techn.

Niveau de responsabilité

25,00

20,00

15,00

10,00

Estimated Marginal Means

>50ans

<50ans

Tranche d'âge

Estimated Marginal Means of Score de stress

L’examen de ce type de graphique permet de mettre en évidence la présence d’une interaction

entre les deux facteurs principaux.

Sous sa forme linéaire, ce problème de l’analyse de variance à deux facteurs s’exprime

comme suit :

Xijk = µ + aj+ ßk + ?jk + eijk

où µ est la moyenne générale de X, aj l’effet du traitement j, ßk l’effet du traitement k, ?jk

l’effet de l’interaction des traitements j et k, et eijk est un terme d’erreur. Si le facteur A n’a

pas d’effet, tous les aj sont nuls. Si le facteur B n’a pas d’effet, tous les ßk sont nuls et s’il n’y

a pas d’effet de l’interaction, tous les ?jk sont nuls.

Principe de l’analyse de variance à 2 facteurs.

On se propose de tester trois hypothèses différentes :

1. H0 il n’y a pas d’effet principal du facteur A

H1 il y a un effet principal du facteur A

2. H0 il n’y a pas d’effet principal du facteur B

H1 il y a un effet principal du facteur B

3. H0 il n’y a pas d’interaction entre les facteurs A et B

H1 il y a une interaction entre les facteurs A et B.

Comme dans l’ANOVA à un facteur pour répondre à ces questions, nous partons de la

décomposition de la variabilité totale de X.

SStotal = SSA + SSB + SSA*B + SSwithin

Notations :

Chaque cellule du plan est repérée par deux indices j et k qui renvoient au niveau j du facteur

A et au niveau k du facteur B.

Xijk est le ième individu de la cellule (j,k)

M est la moyenne générale de X sur l’ensemble des observations,

4

M j k est la moyenne de X dans la cellule (j,k)

M . k est la moyenne de X dans l’ensemble des cellules du niveau k du facteur B,

M j . est la moyenne de X dans l’ensemble des cellules du niveau j du facteur A,

njk = nombre de sujets dans la cellule (j,k) (nous noterons n dans le cas des plans balancés)

n . k = le nombre de sujets dans l’ensemble des cellules du niveau k du facteur B,

n j . = le nombre de sujets dans l’ensemble des cellules du niveau j du facteur A,

N = Nombre total de sujets,

J = nombre de modalités du facteur A,

K = nombre de modalités du facteur B

La formule de décomposition de la variation totale pour un plan équilibré est la suivante :

∑∑∑

∑∑

∑

−

++−−

+−

=−

kj i jkijk

kkj

jjk

kkk

jjj

kj i ijk

MX

MMMM

MMn

MX

)²(

)²(n

)²(

..jk

..

De manière résumée cette somme se réécrit :

SStotal = SSA + SSB + SSA*B + SSwithin

A chaque somme de carrés est associée un nombre de degrés de liberté :

Somme : SStotal = SSA +SSB + SSA*B + SSwithin

d.l. N-1 J-1 K-1 (J-1)(K-1) N-(J.K)

N = Nombre total de sujets,

J = nombre de modalités du facteur A,

K = nombre de modalités du facteur B

Les ratios SS/d.l. définissent les MS (carrés moyens)

MSA = SSA / (J-1), MSB = SSB / (K-1), MSA*B = SSA*B / [(J-1).(K-1)],

MSwithin = SSwithin / (N-1)

Sous l’hypothèse nulle les ratios MSA/MSwithin, MSB/MSwithin, MSA*B/MSwithin se distribuent

suivant une loi F de Fisher-Snédecor :

MSA = FJ-1 , N-1

MSB = FK-1 , N-1

MSA*B = F(J-1)(K-1) , N-1

Hypothèses : Comme dans l’ANOVA à 1 facteur, nous supposerons que la variable X se

distribue normalement (suivant une loi Normale) dans chaque cellule (j,k) avec la même

variance s² et que les observations sont indépendantes les une des autres (on vérifiera l’allure

normale par un graphique « box-plot » de X dans chaque cellule). Les échantillons (de chaque

cellule) sont indépendants les uns des autres.

5

Comparaisons multiples.

Comme en analyse de variance à un facteur, on peut procéder à des comparaisons a priori et a

posteriori (post hoc) lorsque l’ANOVA détecte un ou des effets significatifs. Il est important

de toujours contrôler le niveau global de l’erreur lors de comparaisons a priori. Ce contrôle se

fait automatiquement par SPSS dans le cas des comparaisons « post hoc ». Notons encore que

les comparaisons post hoc proposées par SPSS ne permettent pas des comparaisons entre les

moyennes de deux cellules ; Seules les comparaisons des effets principaux (entre tous les

niveaux d’un facteur sur les marges) sont proposées au niveau des tests « post hoc ».

Si l’on souhaite faire des comparaisons non planifiées de moyennes entre 2 cellules (à

n’envisager que s’il y a une interaction significative), il convient de passer par un test de

Tukey dans une ANOVA à 1 facteur sur la variable croisée A*B (créée par « Transform –

compute … »). Si cette nouvelle variable possède beaucoup de modalités les tests post hoc

seront fort conservateurs (et peu puissants).

Il est encore possible de faire les comparaisons des moyennes aux différents niveaux d’un

facteur pour un niveau fixé de l’autre (faire « select cases ») ; c’est l’examen d’une trajectoire

dans le graphique des moyennes décrit ci-dessus. Ces comparaisons se font par un test de

Tukey dans une ANOVA à 1 facteur après avoir sélectionné les sujets au niveau donné du

second facteur. On peut répéter ainsi l’opération pour tous les niveaux du second facteur. Ce

type de test permet de déterminer à quel niveau d’un facteur un autre facteur du plan exerce

ses effets. On parle, dans ce cas, de tests sur les effets simples.

Alternatives.

L’analyse de variance est une procédure robuste qui admet sans trop de problèmes des

déviations légères par rapport aux conditions de normalité et d’homogénéité des variances.

Notons encore qu’il n’existe pas de test non paramétrique universellement reconnu lorsque la

condition de normalité est gravement violée.

Effet de taille.

Dans l’ANOVA 1 facteur, nous avons défini l’effet de taille par η² comme la proportion de la

variance de X expliquée par le facteur : η² = SSfacteur / SStotal

Dans l’ANOVA à 2 facteurs, nous pouvons définir un effet de taille (complet) pour chaque

source de variation (facteur A, facteur B et interaction A*B).

η²A = SSA / SStotal , η² B = SSB / SStotal , η² A*B = SSA*B / SStotal (Ces effets de taille ne sont pas

fournit par SPSS).

Par contre, SPSS détermine l’effet de taille partiel η² partiel (Partial eta square)

η²p(A) = SSA / (SSA + SSwithin) , η² p(B) = SSB / (SSB + SSwithin), η² A*B = SSA*B / (SSA*B +

SSwithin)

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

Analyse de variance à deux facteurs (plan inter-sujets à deux

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Analyse de variance à deux facteurs (plan inter-sujets à deux

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib