Analyse de variance à deux facteurs (plan inter-sujets à deux

publicité
Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs)
TP9
L’analyse de variance à un facteur permet de vérifier, moyennant certaines hypothèses, si un
facteur (un critère de classification, celui qui définit les groupes ou les échantillons
indépendants) a un effet significatif sur la variable X étudiée. L’analyse de variance à 2 ou
plusieurs facteurs généralise cette méthode lorsque nous avons plus d’un critère de
classification.
Remarque : on présente souvent dans la littérature le problème de l’analyse de variance à un
facteur sous la forme d’un modèle linéaire comme suit :
Xij = µ + a j + eij
où Xij est le score observé du sujet i dans le traitement j, µ la moyenne de la population totale,
α j l’effet du traitement j, et eij la valeur de l’erreur de mesure.
µ et α j sont des constantes qui garderaient les mêmes valeurs respectives si on mesurait
plusieurs fois le score du sujet i dans la condition j. Par contre, la valeur de l’erreur
changerait à chaque nouvelle mesure du même sujet et différerait d’un sujet à l’autre.
Pour la simplicité, nous nous limiterons au cas de deux facteurs, mais la méthode se
généralise aisément à plusieurs facteurs.
Prenons l’exemple suivant :
Nous étudions le stress (score de stress = variable X) au sein d’une société. Nous repérons les
employés suivant leur âge (>/< 50 ans : 1er facteur à 2 niveaux) et leur niveau de
responsabilité (techniciens, cadres inférieurs et cadres supérieurs : second facteur à 3
niveaux). Nous définissons ainsi un plan d’expérience à 2 facteurs (ou deux critères de
classification) ; on parle encore de plan factoriel 2 x 3 (2 niveaux sur le premier facteur et
trois niveaux sur le second).
Nous appellerons le premier facteur, le facteur A et le second, le facteur B.
Une cellule correspond à un certain niveau du facteur A et un certain niveau du facteur B (par
exemple les cadres inférieurs de moins de 50 ans).
Dans chaque cellule les sujets sont différents (lorsqu’il s’agit des mêmes sujets on parle de
plan à mesures répétées : ceci fera l’objet d’une prochaine séance de TP).
Lorsqu’il y a le même nombre de sujets dans chaque cellule on parlera d’un plan balancé ou
équilibré sinon nous dirons que le plan est non balancé ou non équilibré.
Si nous avons 6 sujets par cellule, nous pouvons visualiser la situation de notre exemple par le
tableau suivant :
< 50 ans
> 50 ans
Techniciens
XXXXXX
XXXXXX
Cadre Inf.
XXXXXX
XXXXXX
Cadre Sup.
XXXXXX
XXXXXX
1
Nous allons nous intéresser à la moyenne de X dans chacune des cellules et sur les marges.
Dans l’exemple considéré, nous obtenons :
< 50 ans
> 50 ans
Techniciens
15,0000
9,6667
12,3333
Cadre Inf.
15,1667
15,8333
15,5000
Cadre Sup.
14,5000
26,1667
20,3333
14,8889
17,2222
16,0556
Trois types d’effets, donc de sources de variation, entrent en jeu :
1. L’effet principal du facteur Age (cf moyennes marginales des colonnes): compte non
tenu du niveau de responsabilité, l’âge a-t- il un effet sur le stress ? Donc, 14,89 est- il
statistiquement différent de 17,22 ? Si oui, nous aurons montré la présence d’un effet
du facteur « âge ». Ceci est en fait l’objet de l’ANOVA à 1 facteur.
2. L’effet principal du facteur Niveau responsabilité (cf moyennes marginales des
lignes). Compte non tenu de l’âge, le niveau de responsabilité a-t-il un effet sur le
stress ? Donc, 12.33, 15.5 et 20.33 sont-ils statistiquement différents ? Si oui, nous
aurons montré la présence d’un effet du facteur Niveau de responsabilité.
3. L’interaction entre le facteur Age et le facteur niveau de responsabilité. Ici on ne
s’intéresse plus aux marges, mais aux cellules. Les 6 moyennes sont donc prises en
compte. On se demande si l’effet de l’âge est le même quel que soit le niveau du
facteur Niveau de responsabilité, ou si l’effet du niveau de responsabilité est le même
à chaque niveau du facteur Age. Quand un facteur n’a pas les mêmes effets simples
principaux à tous les niveaux de l’autre facteur, les deux facteurs sont dits en
interaction. Une interaction entre 2 facteurs A et B est souvent indiquée par un signe
de multiplication : A X B.
Les effets principaux et les interactions sont indépendants. Il est donc possible d’obtenir des
effets principaux significatifs sans interaction significative entre les facteurs ; il est aussi
possible d’obtenir une interaction significative sans aucun effet principal significatif.
Graphiquement si nous représentons les moyennes à travers les niveaux de responsabilités en
fixant la tranche d’âge, nous obtenons les 2 trajectoires suivantes :
2
Estimated Marginal Means of Score de stress
Tranche d'âge
<50ans
>50ans
Estimated Marginal Means
25,00
20,00
15,00
10,00
Techn.
Cadre Inf.
Cadre Sup.
Niveau de responsabilité
L’examen de ce type de graphique permet de mettre en évidence la présence d’une interaction
entre les deux facteurs principaux.
Sous sa forme linéaire, ce problème de l’analyse de variance à deux facteurs s’exprime
comme suit :
Xijk = µ + a j+ ßk + ?jk + eijk
où µ est la moyenne générale de X, a j l’effet du traitement j, ßk l’effet du traitement k, ?jk
l’effet de l’interaction des traitements j et k, et eijk est un terme d’erreur. Si le facteur A n’a
pas d’effet, tous les a j sont nuls. Si le facteur B n’a pas d’effet, tous les ßk sont nuls et s’il n’y
a pas d’effet de l’interaction, tous les ?jk sont nuls.
Principe de l’analyse de variance à 2 facteurs.
On se propose de tester trois hypothèses différentes :
1. H0 il n’y a pas d’effet principal du facteur A
H1 il y a un effet principal du facteur A
2. H0 il n’y a pas d’effet principal du facteur B
H1 il y a un effet principal du facteur B
3. H0 il n’y a pas d’interaction entre les facteurs A et B
H1 il y a une interaction entre les facteurs A et B.
Comme dans l’ANOVA à un facteur pour répondre à ces questions, nous partons de la
décomposition de la variabilité totale de X.
SStotal = SSA + SSB + SSA*B + SSwithin
Notations :
Chaque cellule du plan est repérée par deux indices j et k qui renvoient au niveau j du facteur
A et au niveau k du facteur B.
Xijk est le ième individu de la cellule (j,k)
M est la moyenne générale de X sur l’ensemble des observations,
3
M j k est la moyenne de X dans la cellule (j,k)
M . k est la moyenne de X dans l’ensemble des cellules du niveau k du facteur B,
M j . est la moyenne de X dans l’ensemble des cellules du niveau j du facteur A,
njk = nombre de sujets dans la cellule (j,k) (nous noterons n dans le cas des plans balancés)
n . k = le nombre de sujets dans l’ensemble des cellules du niveau k du facteur B,
n j . = le nombre de sujets dans l’ensemble des cellules du niveau j du facteur A,
N = Nombre total de sujets,
J = nombre de modalités du facteur A,
K = nombre de modalités du facteur B
La formule de décomposition de la variation totale pour un plan équilibré est la suivante :
∑ ∑ ∑(X
k
j
∑n
ijk
− M )² =
i
j.
(M j. − M )² +
.k
(M . k − M )² +
j
∑n
k
∑∑n
k
jk
( M jk − M j. − M . k + M )² +
j
∑ ∑ ∑(X
k
j
ijk
− M jk )²
i
De manière résumée cette somme se réécrit :
SStotal = SSA + SSB + SSA*B + SSwithin
A chaque somme de carrés est associée un nombre de degrés de liberté :
Somme :
d.l.
SStotal
= SSA
+SSB +
SSA*B +
SSwithin
N-1
J-1
K-1
(J-1)(K-1)
N-(J.K)
N = Nombre total de sujets,
J = nombre de modalités du facteur A,
K = nombre de modalités du facteur B
Les ratios SS/d.l. définissent les MS (carrés moyens)
MSA = SSA / (J-1), MSB = SSB / (K-1), MSA*B = SSA*B / [(J-1).(K-1)],
MSwithin = SSwithin / (N-1)
Sous l’hypothèse nulle les ratios MSA/MS within , MSB/MSwithin , MSA*B/MSwithin se distribuent
suivant une loi F de Fisher-Snédecor :
MSA = FJ-1 , N-1
MSB = FK-1 , N-1
MSA*B = F(J-1)(K-1) , N-1
Hypothèses : Comme dans l’ANOVA à 1 facteur, nous supposerons que la variable X se
distribue normalement (suivant une loi Normale) dans chaque cellule (j,k) avec la même
variance s² et que les observations sont indépendantes les une des autres (on vérifiera l’allure
normale par un graphique « box-plot » de X dans chaque cellule). Les échantillons (de chaque
cellule) sont indépendants les uns des autres.
4
Comparaisons multiples.
Comme en analyse de variance à un facteur, on peut procéder à des comparaisons a priori et a
posteriori (post hoc) lorsque l’ANOVA détecte un ou des effets significatifs. Il est important
de toujours contrôler le niveau global de l’erreur lors de comparaisons a priori. Ce contrôle se
fait automatiquement par SPSS dans le cas des comparaisons « post hoc ». Notons encore que
les comparaisons post hoc proposées par SPSS ne permettent pas des comparaisons entre les
moyennes de deux cellules ; Seules les comparaisons des effets principaux (entre tous les
niveaux d’un facteur sur les marges) sont proposées au niveau des tests « post hoc ».
Si l’on souhaite faire des comparaisons non planifiées de moyennes entre 2 cellules (à
n’envisager que s’il y a une interaction significative), il convient de passer par un test de
Tukey dans une ANOVA à 1 facteur sur la variable croisée A*B (créée par « Transform –
compute … »). Si cette nouvelle variable possède beaucoup de modalités les tests post hoc
seront fort conservateurs (et peu puissants).
Il est encore possible de faire les comparaisons des moyennes aux différents niveaux d’un
facteur pour un niveau fixé de l’autre (faire « select cases ») ; c’est l’examen d’une trajectoire
dans le graphique des moyennes décrit ci-dessus. Ces comparaisons se font par un test de
Tukey dans une ANOVA à 1 facteur après avoir sélectionné les sujets au niveau donné du
second facteur. On peut répéter ainsi l’opération pour tous les niveaux du second facteur. Ce
type de test permet de déterminer à quel niveau d’un facteur un autre facteur du plan exerce
ses effets. On parle, dans ce cas, de tests sur les effets simples.
Alternatives.
L’analyse de variance est une procédure robuste qui admet sans trop de problèmes des
déviations légères par rapport aux conditions de normalité et d’homogénéité des variances.
Notons encore qu’il n’existe pas de test non paramétrique universellement reconnu lorsque la
condition de normalité est gravement violée.
Effet de taille.
Dans l’ANOVA 1 facteur, nous avons défini l’effet de taille par η² comme la proportion de la
variance de X expliquée par le facteur : η² = SSfacteur / SStotal
Dans l’ANOVA à 2 facteurs, nous pouvons définir un effet de taille (complet) pour chaque
source de variation (facteur A, facteur B et interaction A*B).
η²A = SSA / SStotal , η² B = SSB / SStotal , η² A*B = SSA*B / SStotal (Ces effets de taille ne sont pas
fournit par SPSS).
Par contre, SPSS détermine l’effet de taille partiel η² partiel (Partial eta square)
η²p(A) = SSA / (SSA + SSwithin ) , η²
SSwithin )
p(B)
= SSB / (SSB + SSwithin ), η² A*B = SSA*B / (SSA*B +
5
Exercice 1
On évalue l’efficacité d’un nouveau traitement ayant pour objet d’améliorer le développement
global des enfants atteints de trisomie 21. Pour cela, une étude a été menée auprès de 12
enfants. Six d’entre eux ont reçu un produit actif alors que 6 autres ont reçu un placebo, et ce
pendant 6 mois. Un indice de développement global de chaque enfant est calculé avant et
après le début de l’étude par un même psychologue. Cet indice de développement global
résume l’ensemble des capacités en termes de coordination, posture, langage et sociabilité. La
nature du traitement donné n’est connue ni de la famille ni du patient ni du psychologue.
Deux psychologues ont participés à l’étude. Les données fournies par l’institut J. Lejeune sont
reprises dans le fichier HP6-4.sav.
Peut-on conclure à l’efficacité du traitement ? Observe-t-on le même résultat quel que soit le
psychologue ?
Exercice 2
58 participants, dont 30 garçons et 28 filles, ont parcouru aussi vite que possible une distance
à la nage. Le temps obtenu a été falsifié de façon à donner une perfo rmance moins bonne
qu’attendu. Une demi- heure plus tard les sujets ont dû re-parcourir et leurs temps ont été à
nouveau enregistrés. Les auteurs avaient prédit que lors du second essai, les nageurs les plus
pessimistes réaliseraient un moins bon temps et que les optimistes obtiendraient de meilleurs
résultats que lors du premier essai.
La variable dépendante étudiée est le rapport (ratio) temps1/temps2 ; une valeur supérieure à
1 signife que le nageur à mieux réussi au second essai. Les données sont reprises dans le
fichier H13-13.sav
Pouvez-vous confirmer la prédiction des auteurs ? Ces résultats sont- ils indépendants du
genre ? Vérifiez par un graphique «box-plot » la condition de normalité ; en cas de doute
pour l’un ou l’autre sous- groupe, effectuez un test de Kolmogorov-Smirnov.
Si vous confirmez la prédiction des auteurs, déterminez les cellules présentant des résultats
moyens significativement différents.
Refaites les analyses sans tenir compte du facteur sexe.
Exercice 3
On forme 9 groupes de volo ntaires qui participent chacun à l’expérience suivante : pendant
une semaine, les participants sont soumis à des annonces publicitaires visuelles. Selon le
groupe, la masse totale de publicité (variable « taux ») est nulle – situation « sans » -,
« moyenne » ou « forte ». Les publicités ventent les qualités de trois pseudo- marques de
nouilles. L’une des marques est dite « dominante » (85 % des publicités), un autre est
« survivante » (15 % des publicités) et la troisième est « inexistante » (pas de publicité).
On mesure ensuite chez les volontaires par une variable numérique X l’impact de l’une des
pseudo- marques de nouilles – son image de marque -. Pour chaque groupe, on mesure
l’impact d’une seule des trois marques. Les neuf groupes sont obtenus par le croisement de la
situation S et de la marque M. Les données sont reprises dans le fichier NG2.sav
Déterminez les facteurs qui influencent l’image de marque du produit. Vérifiez par un
graphique Box-plot la condition de normalité de la variable X dans chaque cellule. Tracez les
6
trajectoires des moyennes. Le cas échéant (lorsqu’un effet est significatif) déterminez les
cellules présentant des différences significatives. Interprétez vos résultats.
Exercice 4
Dans une expérience on présente à chaque sujet soit oralement soit par écrit un mot qui est
soit un mot familier soit un mot non familier. Après une période d’attente on interroge le sujet
et on calcule le nombre de syllabes non significatives mémorisées. L’expérience est réalisée
sur 24 sujets répartis en 4 groupes de six et les résultats sont repris dans le fichier LM7.sav
Quels sont les facteurs mis en présence ? Quelle est la variable étudiée ? Quels sont les
facteurs qui présentent un effet significatif quant à la variable étudiée ? Représentez les
trajectoires des moyennes.
Exercice 5
Dans une étude consacrée aux processus de mémoire, des animaux ont été testés à une tâche
d’apprentissage de l’évitement. Lors de l’essai d’apprentissage, les animaux recevaient un
stimulus anxiogène dès qu’ils franchissaient une certaine ligne. L’expérimentateur a distingué
trois groupes d’animaux selon l’endroit du cortex où il leur avait été plantés des électrodes
(site neutre, zone A et zone B). Chaque groupe a encore été subdivisé selon le moment de
réception de la stimulation électrique (50, 100 ou 150 millièmes de seconde après avoir
franchi la ligne et avoir reçu le stimulus anxiogène). Si la zone stimulée du cerveau jouait un
rôle dans la mémoire, la stimulation affecterait probablement la consolidation de la
mémorisation et retarderait l’apprentissage de la réponse d’évitement ; l’animal n’hésiterait
pas à franchir à nouveau la ligne. Les données relatives à la latence (temps nécessaire avant de
franchir la ligne) sont reprises dans le fichier UL5-3.sav.
Quelles sont les facteurs susceptibles d’influencer la latence ?
Effectuez une analyse de variance, représentez les trajectoires des moyennes en fonction de la
variable « Délai ».
Etudier les trois effets simples (un par « site »).
Solutions
Exercice 1
Les éventuels effets du traitement, du psychologue et de l’interaction psy x traitement peuvent
être mis en évidence par une analyse de la variance à 2 facteurs (2x2).
On utilisera la procédure « Analyze – General - Linear Model – univariate » avec « indice »
comme variable dépendante et les variables « psychologue » et « traitements » comme
facteurs à effets fixes ; on sélectionnera le test d’homogénéité des variances dans les options
et l’on choisira les graphiques des moyennes en fonction du traitement avec une trajectoire
par psychologue. Au niveau du modèle, nous choisissons le modèle complet (effets
principaux + interaction).
Le test de Levene ne rejette pas l’hypothèse d’égalité des variances :
7
Levene's Test of Equality of Error Variances(a)
Dependent Variable: Augmentation de l'indice de développement global
F
df1
,615
df2
3
8
Sig.
,625
Tests the null hypothesis that the error variance of the dependent variable is equal across groups.
a Design: Intercept+Traitement+Psychologue+Traitement * Psychologue
Tests of Between-Subjects Effects
Dependent Variable: Augmentation de l'indice de développement global
Type III Sum
of Squares
2195,713(a)
34518,413
44,083
Source
Corrected Model
Intercept
Psychologue
Traitement
Psychologue * Traitement
Error
Total
Corrected Total
2043,630
108,000
2202,713
38916,840
4398,427
df
3
1
1
1
1
8
12
11
Mean Square
731,904
34518,413
44,083
F
2,658
125,367
,160
Sig.
,120
,000
,700
Partial Eta
Squared
,499
,940
,020
2043,630
108,000
275,339
7,422
,392
,026
,549
,481
,047
a R Squared = ,499 (Adjusted R Squared = ,311)
Estimated Marginal Means of Augmentation de l'indice de développement
global
Psychologue
1
2
Estimated Marginal Means
70,0
60,0
50,0
40,0
placebo
produit actif
Traitement
Nous pouvons conclure qu’il y a un effet principal significatif du facteur Traitement (F(1,8) =
7,422 ; p = 0.026) ; pas d’effet Psychologue significatif (F(1,8) = 0,16 ; p > 0.05) ni
d’interaction Psychologue x Traitement significative (F(1,8) = 0.392 ; p > 0.05). Cela signifie
que le traitement a un bien un effet positif sur le développement global des enfants atteints de
trisomie et que les résultats ne varient pas en fonction du psychologue qui a fait passer le test
(pas d’effet psy) et que cet effet du traitement est identique quel que soit le psychologue qui a
fait passer le test (pas d’interaction).
8
Exercice 2
Nous sommes en présence de deux facteurs explicatifs : le facteur optimisme « optim » et le
facteur « sexe ». Nous effectuerons donc une Analyse de variance à 2 facteurs. Par après nous
regarderons ce qu’une ANOVA à 1 facteur aurait donné ou encore un test t pour échantillons
indépendants.
Dans un premier temps, nous vérifions la condition de normalité par un graphique « Box-plot
clustered » :
Nous obtenons le graphique ci-après :
Sexe
garçon
fille
1,150
1,100
31
1,050
ratio
1,000
0,950
0,900
40
0,850
37
0,800
Optimiste
Pessimiste
optim
Les valeurs extrêmes pour le segment « garçon-pessimiste » semble perturber la condition de
normalité. Le test de Kolmogorov-Smirnov (limité à ce segment : par « select cases ») ne
rejette pas la condition de normalité de la variable « ratio » dans ce segment.
9
One-Sample Kolmogorov-Smirnov Test
ratio
N
Normal Parameters(a,b)
Most Extreme
Differences
13
.94538
Mean
Std. Deviation
Absolute
Positive
Negative
.058862
.179
.158
-.179
.646
Kolmogorov-Smirnov Z
Asymp. Sig. (2-tailed)
.797
a Test distribution is Normal.
b Calculated from data.
La procédure « Analyze – General Linear Model – univariate » pour le modèle complet donne
les résultats suivants :
Le test de Levene ne rejette pas l’hypothèse d’égalité des variances :
Levene's Test of Equality of Error Variances(a)
Dependent Variable: ratio
F
df1
.501
df2
3
Sig.
.683
54
Tests the null hypothesis that the error variance of the dependent variable is equal across groups.
a Design: Intercept+Sexe+optim+Sexe * optim
Tests of Between-Subjects Effects
Dependent Variable: ratio
Source
Corrected Model
Intercept
Sexe
optim
Sexe * optim
Error
Type III Sum
of Squares
.040(a)
54.036
.008
.017
.016
.192
df
3
Mean Square
.013
F
3.800
Sig.
.015
1
1
1
1
54
54.036
.008
.017
.016
.004
15222.829
2.215
4.681
4.536
.000
.142
.035
.038
Total
Corrected Total
57.514
58
.232
57
a R Squared = .174 (Adjusted R Squared = .128)
Avec un risqué de 1ère espèce de 5%, nous pouvons conclure qu’il y a bien un effet
significatif principal du facteur Optimisme (F(1,54) = 4.682 ; p = 0.035) ainsi qu’une
interaction Sexe x Optimisme significative (F(1,54) = 4.536 ; p = 0.038) ; par contre il n’y a
pas d’effet principal Sexe (F(1,54) = 0.008 ; p > .05).
Le graphique des trajectoires des moyennes permet de visualiser ce résultat :
10
Estimated Marginal Means of ratio
Sexe
Estimated Marginal Means
garçon
fille
1,000
0,975
0,950
Optimiste
Pessimiste
optim
Le graphique semble indiquer qu’il n’y a pas de différence significative entre garçons et filles
optimistes mais bien lorsqu’ils sont pessimistes. Pour vérifier ceci, nous devons procéder à
des comparaisons « post hoc ». SPSS ne fournit ces tests que pour les effets principaux (sur
les marges) et uniquement lorsqu’il y a plus de 2 modalités par facteur. Dans le cas présent les
deux facteurs ont chacun deux modalités donc aucun résultat de comparaison n’est disponible.
Pour avoir toutes les comparaisons des 4 cellules (Garçon-optimiste, Garçon-pessimiste, Filleoptimiste, Fille-pessimiste) nous créons la variable croisée (optim*sexe) dans une nouvelle
variable = 10*optim + sexe : (11 = Garçon-optimiste, 12 = Fille-optimiste, 21 = Garçonpessimiste, 22 = Fille-pessimiste).
On effectue ensuite une ANOVA à 1 facteur (cette nouvelle variable) en demandant le test
post Hoc de Tukey. Le tableau des comparaisons montre qu’il y a bien une différence
significative entre les filles et les garçons pessimistes ainsi qu’entre les garçons optimistes et
pessimistes et qu’il n’y en en pas entre les filles et les garçons optimistes.
Multiple Comparisons
Dependent Variable: ratio
Tukey HSD
(I) croisem
Garçon-optim
Fille-optim
Garçon-pessim
(J) croisem
Fille-optim
Garçon-pessim
Fille-pessim
Garçon-optim
Garçon-pessim
Fille-pessim
Garçon-optim
Fille-optim
Mean
Difference
(I-J)
.010312
.069027(*)
.010856
-.010312
.058715
.000544
-.069027(*)
-.058715
Fille-pessim
-.058171(*)
Garçon-optim
-.010856
Fille-optim
-.000544
Garçon-pessim
.058171(*)
* The mean difference is significant at the .05 level.
Fille-pessim
95% Confidence Interval
Std. Error
.023744
.021951
.020150
.023744
.025060
.023498
.021951
.025060
Sig.
.972
.014
.949
.972
.101
1.000
.014
.101
Lower Bound
-.05263
.01084
-.04256
-.07325
-.00772
-.06175
-.12722
-.12515
Upper Bound
.07325
.12722
.06427
.05263
.12515
.06284
-.01084
.00772
.021685
.020150
.023498
.021685
.046
.949
1.000
.046
-.11566
-.06427
-.06284
.00069
-.00069
.04256
.06175
.11566
11
Les garçons pessimistes semblent donc être beaucoup plus affectés par la perception d’un
échec que les filles pessimistes.
Si nous avions effectué une analyse de variance (de la variable ratio) à 1 facteur (optim) nous
n’aurions pas pu établir qu’il y avait une différence entre les optimistes et les pessimistes
comme le montre le tableau ci-dessous (p-valeur 6,1 %) :
ANOVA
ratio
Between Groups
Within Groups
Total
Sum of
Squares
.014
.218
.232
df
1
56
57
Mean Square
.014
.004
F
3.664
Sig.
.061
Rappelons que l’Anova est un test bilatéral ; si l’on se rapporte à l’hypothèse des auteurs :
« lors du second essai, les nageurs les plus pessimistes réaliseraient un moins bon temps et les
optimistes obtiendraient de meilleurs résultats » ; un test-t unilatéral est plus approprié et
permet de rejeter l’hypothèse nulle puisque alors la p-valeur vaut 3,05 %.
Comme il n’y a que 2 groupes, nous aurions aussi pu faire un test t pour échantillons
indépendants et nous aurions obtenu :
Independent Samples Test
Independent Samples Test
Levene
F
t-test for Equality of Means
Sig.
t
df
Sig. (2-tailed) Mean Diff Std. Error Diff 95% CI of diff
Lower
ratio
Equal var assumed
Equal var not assumed
1,542
0,219
1,914
Upper
56
0,061
0,031
0,016420
-0,00146
0,064325
1,95 55,08
0,056
0,031
0,016
-0,00086
0,0637
Exercice 3
Une représentation de la distribution de X (= Impact) dans chaque cellule s’obtient par un
graphique box-plot via la procédure « Graph – box-plot- clustered » :
12
6
Taux
10
Fort
Moyen
Sans
8
Impact
45
6
4
79
2
15
78
55
0
Dominante
survivante
Inexistante
Marque
Si la non-normalité de certaines cellules peut être suspectée on procédera à un test de K-S sur
l’échantillon en question ; c’est le cas de la cellule (inexistante – sans) : le tableau ci-après ne
rejète pas la normalité dans cette cellule :
One-Sample Kolmogorov-Smirnov Test
Impact
N
Normal Parameters(a,b)
Most Extreme
Differences
Mean
Std. Deviation
Absolute
Positive
Negative
Kolmogorov-Smirnov Z
Asymp. Sig. (2-tailed)
9
1.89
.601
.351
.316
-.351
1.053
.217
a Test distribution is Normal.
b Calculated from data.
Il en va de même pour la cellule (dominante – fort) :
One-Sample Kolmogorov-Smirnov Test
Impact
N
Normal Parameters(a,b)
Most Extreme
Differences
Mean
Std. Deviation
Absolute
Positive
Negative
Kolmogorov-Smirnov Z
Asymp. Sig. (2-tailed)
9
8.00
1.000
.278
.278
-.167
.833
.491
a Test distribution is Normal.
b Calculated from data.
13
Nous pouvons donc supposer que la variable « Impact » est distribuée normalement dans
chacune des cellules.
Nous sommes en présence de deux facteurs qui sont susceptibles d’influencer l’image de
marque d’un produit : la « marque » et le « taux » de publicité. Nous procédons donc à une
analyse de variance à deux facteurs (« taux » et « marque »). La procédure « Analysze –
General Linear Model – Univariate » fournit le résultat suivant :
Le test de Levene ne rejette pas, au niveau de 5 %, l’homogénéité des variances dans chaque
cellule :
Levene's Test of Equality of Error Variances(a)
Dependent Variable: Impact
F
df1
df2
Sig.
1.953
8
72
.065
Tests the null hypothesis that the error variance of the dependent variable is equal across groups.
a Design: Intercept+Taux+Marque+Taux * Marque
Le tableau de l’ANOVA est le suivant :
Tests of Between-Subjects Effects
Dependent Variable: Impact
Source
Corrected Model
Intercept
Taux
Marque
Type III Sum
of Squares
371.556(a)
841.000
54.296
182.000
df
8
1
2
2
Mean Square
46.444
841.000
27.148
91.000
F
39.600
717.063
23.147
77.589
Sig.
.000
.000
.000
.000
33.815
1.173
28.832
.000
Taux * Marque
Error
Total
Corrected Total
135.259
4
84.444
72
1297.000
81
456.000
80
a R Squared = .815 (Adjusted R Squared = .794)
Tous les facteurs et leur croisement sont très hautement significatifs.
Ainsi nous notons un effet principal significatif du facteur Marque (F(2,72)= 77.589 ; p =
0.000) et du facteur Taux (F(2,72) = 23.147 ; p = 0.000) ainsi qu’une interaction Marque x
Taux significative (F(4,72) = 28.832 ; p = 0.000).
En ce qui concerne la marque, l’examen des moyennes (via analyze - compare means- means)
ainsi que le graphe nous indiq uent que plus la marque est présente dans les publicités plus
grand sera son impact ; la « puissance publicitaire » d’une marque semble donc influencer son
image de marque.
Impact * Marque
Impact
Marque
Dominante
survivante
Mean
5,00
3,33
Inexistante
Total
1,33
3,22
N
27
27
Std. Deviation
2,660
1,687
27
81
,784
2,387
14
En ce qui concerne le taux, l’analyse des moyennes indique que plus le taux est important plus
l’impact est grand. Toutefois, d’un point de vue descriptif, il ne semble pas y avoir une grande
différence entre un taux fort et un taux moyen.
Impact * Taux
Impact
Taux
Fort
Moyen
Sans
Total
Mean
3,93
3,67
2,07
3,22
N
27
27
Std. Deviation
3,281
1,797
27
81
1,207
2,387
L’interaction (cf graphe) semble indiquer que l’inégalité entre les marques augmente avec le
taux général de publicité. Un test post hoc permettra d’analyser plus en détails ces
observations descriptives.
Estimated Marginal Means of Impact
Taux
8
Fort
Moyen
Estimated Marginal Means
Sans
6
4
2
0
Dominante
survivante
Inexistante
Marque
Ainsi, après avoir
construit la variable croisée « Marque-taux » (croisement = 10*Taux + marque)
15
Un test de Tukey dans une ANOVA à un facteur (« croisement ») permet de mettre en
évidence les paires de cellules qui ont un impact moyen statistiquement différent.
Impact
Tukey HSD
Subset for alpha = .05
croisement
fort-inexist.
moy-inexist.
sans -inexist.
sans -domin.
sans -surviv.
fort-surviv.
moy-surviv.
moy-domin.
fort-domin.
N
1
9
9
9
9
2
.56
1.56
1.89
2.11
3
1.56
1.89
2.11
9
9
9
9
9
2.22
4
5
6
1.89
2.11
2.22
3.22
3.22
4.56
4.56
4.89
8.00
Sig.
.074
.926
Means for groups in homogeneous subsets are displayed.
a Uses Harmonic Mean Sample Size = 9.000.
.200
.200
.999
1.000
Ce tableau mis en parallèle avec le graphique ci-dessus, nous permet d’affirmer que l’impact
moyen d’une marque dominante dans un contexte de publicité fort est statistiquement
différent de toutes les autres situations. Dans un contexte sans publicité, il n’y a pas de
différence de perception des marques (groupe 3).
Pour une marque « survivante », il n’y a pas de différence significative de sa perception entre
un contexte à fort taux publicitaire et un contexte sans publicité.
En guise de conclusion, la course à la publicité semble en contradiction avec la libre
concurrence puisqu’un taux élevé de pub licité augmente des inégalités non justifiées entre les
marques.
Exercice 4
La variable étudiée est le nombre de syllabes (non significatives) mémorisées. Les facteurs
mis en jeu sont le caractère oral ou écrit des mots présentés (variable « orec ») et le caractère
familier ou non de ces mêmes mots (variable « fam »).
Le tableau d’analyse de variance à deux facteurs est le suivant :
Tests of Between-Subjects Effects
Dependent Variable: Nombre de syllabes mémorisées
Source
Corrected Model
Intercept
Fam
OrEcr
Fam * OrEcr
Error
Total
Corrected Total
Type III Sum
of Squares
184.167(a)
4428.167
150.000
6.000
28.167
df
3
1
1
1
1
189.667
20
4802.000
24
373.833
23
a R Squared = .493 (Adjusted R Squared = .417)
Mean Square
61.389
4428.167
150.000
6.000
28.167
F
6.473
466.942
15.817
.633
2.970
Sig.
.003
.000
.001
.436
.100
9.483
16
On y observe que seul le facteur « familier- non familier » est significatif dans l’explication du
nombre de mots mémorisés (F (1,20) = 15.817 ; p = 0.001).
Le graphique des trajectoires des moyennes est le suivant : l’inversion des moyennes que l’on
observe n’est pas significative (F(1,24) = 2.970 ; p >.05).
Estimated Marginal Means of Nombre de syllabes mémorisées
OrEcr
18
Estimated Marginal Means
Oral
Ecrit
16
14
12
10
Familier
Non-familier
Fam
Exercice 5
Nous sommes en présence d’un plan d’expérience à deux facteurs inter-sujet : le facteur
« délai » entre le franchissement de la ligne et l’envoi du stimulus anxiogène et le facteur zone
du cerveau recevant les stimuli (« site »).
Le test de Levene ne rejette pas l’hypothèse d’égalité des variances.
Test d'égalité des variances des erreurs de Levene(a)
Variable dépendante: latence
F
ddl1
ddl2
Signification
,148
8
36
,996
Teste l'hypothèse nulle que la variance des erreurs de la variable dépendante est égale sur les différents
groupes.
a Plan : Intercept+Delai+site+Delai * site
Le tableau d’analyse de variance est le suivant :
Tests of Between-Subjects Effects
Dependent Variable: latence
Source
Corrected Model
Intercept
site
Delai
site * Delai
Error
Total
Corrected Total
Type III Sum
of Squares
916.578(a)
26402.222
356.044
188.578
371.956
1055.200
28374.000
1971.778
Df
8
1
2
2
4
36
45
44
Mean Square
114.572
26402.222
178.022
F
3.909
900.758
6.074
Sig.
.002
.000
.005
94.289
92.989
29.311
3.217
3.172
.052
.025
a R Squared = .465 (Adjusted R Squared = .346)
17
Il en ressort qu’il n’y a pas d’effet principal « délai », c’est à dire que toute autre chose étant
égale, la latence n’est pas significativement influencée par le délai entre le franchissement de
la ligne et l’envoi du stimulus. C’est ce que montre aussi le test post hoc de Tukey.
latence
Subset
Tukey
HSD(a,b)
Delai
100
50
150
N
1
22.33
23.27
27.07
15
15
15
Sig.
.056
Means for groups in homogeneous subsets are displayed.
Based on Type III Sum of Squares
The error term is Mean Square(Error) = 29.311.
a Uses Harmonic Mean Sample Size = 15.000.
b Alpha = .05.
Il y a un effet principal « site » (F(2,36) = 6.074 ; p = 0.005). Le test post hoc de Tukey
montre qu’il s’agit de la zone test qui fournit une latence moyenne significativement
différente de celle obtenue dans les deux autres zones.
latence
Subset
Tukey
HSD(a,b)
site
Zone A
Zone B
site neutre
Sig.
N
15
15
1
22.20
22.27
15
.999
Means for groups in homogeneous subsets are displayed.
Based on Type III Sum of Squares
The error term is Mean Square(Error) = 29.311.
a Uses Harmonic Mean Sample Size = 15.000.
b Alpha = .05.
2
28.20
1.000
L’analyse de variance décèle également une source de variation dans le croisement «site *
délai » (F(4,36) = 3.172 ; p = 0.025). Le graphique des trajectoires des moyennes permet de
visualiser cette interaction.
18
Estimated Marginal Means of latence
site
site neutre
Zone A
Zone B
30
Estimated Marginal Means
27,5
25
22,5
20
17,5
50
100
150
Delai
Afin de vérifier les sources de variation, on effectue une analyse des effets simples. Il s’agit
d’une ANOVA à 1 facteur, limitée à une trajectoire. Pour ce faire, on sélection dans un
premier temps les données d’une trajectoire (par Select cases – introduire la condition : « if
site = 1 »).
Dans le cas du site neutre, nous n’observons aucune différence significative comme le
confirme le tableau d’analyse de variance :
ANOVA
latence
Between Groups
Within Groups
Total
Sum of
Squares
1.200
433.200
434.400
df
2
12
14
Mean Square
.600
36.100
F
.017
Sig.
.984
Dans le cas de la zone A, il y a bien une différence significative entre les moyennes suivant le
« délai » ; la latence moyenne à 50 msec est significativement plus faible que celle à 150
msec. La latence moyenne à 100 msec n’est pas significativement différente de celle lorsque
le délai est de 50 msec ou 150 msec.
ANOVA
latence
Between Groups
Within Groups
Total
Sum of
Squares
254.800
337.600
592.400
df
2
12
Mean Square
127.400
28.133
F
4.528
Sig.
.034
14
19
latence
Tukey HSD
Subset for alpha = .05
Delai
50
100
N
5
5
150
Sig.
1
16.80
23.00
2
23.00
5
26.80
.196
.513
Means for groups in homogeneous subsets are displayed.
a Uses Harmonic Mean Sample Size = 5.000.
Dans le cas de la zone B, il y a bien une différence significative entre les moyennes suivant le
« délai » ; la latence moyenne à 100 msec est significativement plus faible que celle à 150
msec et 50 msec.
ANOVA
latence
Sum of
Squares
304.533
284.400
588.933
Between Groups
Within Groups
Total
df
2
12
14
Mean Square
152.267
23.700
F
6.425
Sig.
.013
latence
Tukey HSD
Subset for alpha = .05
Delai
100
50
150
Sig.
N
1
5
5
5
2
16.00
24.40
26.40
1.000
.796
Means for groups in homogeneous subsets are displayed.
a Uses Harmonic Mean Sample Size = 5.000.
Nous pouvons donc conclure que l’effet du facteur «délai » diffère suivant les valeurs du
facteur « site ». Plus précisément, cet effet est significatif uniquement lorsque les stimulations
sont appliquées dans les zones A et B du cerveau mais pas sur le site neutre.
Une autre manière d’expliquer la source de la variation introduite par le croisement des deux
facteurs est de procéder à une comparaison de toutes les cellules en introduisant une nouvelle
variable et en effectuant un test post hoc de Tukey dans une analyse de variance à un facteur
(cette nouvelle variable). Ceci ne fait pas l’objet de la présente question. Signalons encore que
plus le nombre de cellules à comparer est important, moins nous aurons de chance de mettre
en évidence une faible différence entre les moyennes.
20
Téléchargement