Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9 L’analyse de variance à un facteur permet de vérifier, moyennant certaines hypothèses, si un facteur (un critère de classification, celui qui définit les groupes ou les échantillons indépendants) a un effet significatif sur la variable X étudiée. L’analyse de variance à 2 ou plusieurs facteurs généralise cette méthode lorsque nous avons plus d’un critère de classification. Remarque : on présente souvent dans la littérature le problème de l’analyse de variance à un facteur sous la forme d’un modèle linéaire comme suit : Xij = µ + a j + eij où Xij est le score observé du sujet i dans le traitement j, µ la moyenne de la population totale, α j l’effet du traitement j, et eij la valeur de l’erreur de mesure. µ et α j sont des constantes qui garderaient les mêmes valeurs respectives si on mesurait plusieurs fois le score du sujet i dans la condition j. Par contre, la valeur de l’erreur changerait à chaque nouvelle mesure du même sujet et différerait d’un sujet à l’autre. Pour la simplicité, nous nous limiterons au cas de deux facteurs, mais la méthode se généralise aisément à plusieurs facteurs. Prenons l’exemple suivant : Nous étudions le stress (score de stress = variable X) au sein d’une société. Nous repérons les employés suivant leur âge (>/< 50 ans : 1er facteur à 2 niveaux) et leur niveau de responsabilité (techniciens, cadres inférieurs et cadres supérieurs : second facteur à 3 niveaux). Nous définissons ainsi un plan d’expérience à 2 facteurs (ou deux critères de classification) ; on parle encore de plan factoriel 2 x 3 (2 niveaux sur le premier facteur et trois niveaux sur le second). Nous appellerons le premier facteur, le facteur A et le second, le facteur B. Une cellule correspond à un certain niveau du facteur A et un certain niveau du facteur B (par exemple les cadres inférieurs de moins de 50 ans). Dans chaque cellule les sujets sont différents (lorsqu’il s’agit des mêmes sujets on parle de plan à mesures répétées : ceci fera l’objet d’une prochaine séance de TP). Lorsqu’il y a le même nombre de sujets dans chaque cellule on parlera d’un plan balancé ou équilibré sinon nous dirons que le plan est non balancé ou non équilibré. Si nous avons 6 sujets par cellule, nous pouvons visualiser la situation de notre exemple par le tableau suivant : < 50 ans > 50 ans Techniciens XXXXXX XXXXXX Cadre Inf. XXXXXX XXXXXX Cadre Sup. XXXXXX XXXXXX 1 Nous allons nous intéresser à la moyenne de X dans chacune des cellules et sur les marges. Dans l’exemple considéré, nous obtenons : < 50 ans > 50 ans Techniciens 15,0000 9,6667 12,3333 Cadre Inf. 15,1667 15,8333 15,5000 Cadre Sup. 14,5000 26,1667 20,3333 14,8889 17,2222 16,0556 Trois types d’effets, donc de sources de variation, entrent en jeu : 1. L’effet principal du facteur Age (cf moyennes marginales des colonnes): compte non tenu du niveau de responsabilité, l’âge a-t- il un effet sur le stress ? Donc, 14,89 est- il statistiquement différent de 17,22 ? Si oui, nous aurons montré la présence d’un effet du facteur « âge ». Ceci est en fait l’objet de l’ANOVA à 1 facteur. 2. L’effet principal du facteur Niveau responsabilité (cf moyennes marginales des lignes). Compte non tenu de l’âge, le niveau de responsabilité a-t-il un effet sur le stress ? Donc, 12.33, 15.5 et 20.33 sont-ils statistiquement différents ? Si oui, nous aurons montré la présence d’un effet du facteur Niveau de responsabilité. 3. L’interaction entre le facteur Age et le facteur niveau de responsabilité. Ici on ne s’intéresse plus aux marges, mais aux cellules. Les 6 moyennes sont donc prises en compte. On se demande si l’effet de l’âge est le même quel que soit le niveau du facteur Niveau de responsabilité, ou si l’effet du niveau de responsabilité est le même à chaque niveau du facteur Age. Quand un facteur n’a pas les mêmes effets simples principaux à tous les niveaux de l’autre facteur, les deux facteurs sont dits en interaction. Une interaction entre 2 facteurs A et B est souvent indiquée par un signe de multiplication : A X B. Les effets principaux et les interactions sont indépendants. Il est donc possible d’obtenir des effets principaux significatifs sans interaction significative entre les facteurs ; il est aussi possible d’obtenir une interaction significative sans aucun effet principal significatif. Graphiquement si nous représentons les moyennes à travers les niveaux de responsabilités en fixant la tranche d’âge, nous obtenons les 2 trajectoires suivantes : 2 Estimated Marginal Means of Score de stress Tranche d'âge <50ans >50ans Estimated Marginal Means 25,00 20,00 15,00 10,00 Techn. Cadre Inf. Cadre Sup. Niveau de responsabilité L’examen de ce type de graphique permet de mettre en évidence la présence d’une interaction entre les deux facteurs principaux. Sous sa forme linéaire, ce problème de l’analyse de variance à deux facteurs s’exprime comme suit : Xijk = µ + a j+ ßk + ?jk + eijk où µ est la moyenne générale de X, a j l’effet du traitement j, ßk l’effet du traitement k, ?jk l’effet de l’interaction des traitements j et k, et eijk est un terme d’erreur. Si le facteur A n’a pas d’effet, tous les a j sont nuls. Si le facteur B n’a pas d’effet, tous les ßk sont nuls et s’il n’y a pas d’effet de l’interaction, tous les ?jk sont nuls. Principe de l’analyse de variance à 2 facteurs. On se propose de tester trois hypothèses différentes : 1. H0 il n’y a pas d’effet principal du facteur A H1 il y a un effet principal du facteur A 2. H0 il n’y a pas d’effet principal du facteur B H1 il y a un effet principal du facteur B 3. H0 il n’y a pas d’interaction entre les facteurs A et B H1 il y a une interaction entre les facteurs A et B. Comme dans l’ANOVA à un facteur pour répondre à ces questions, nous partons de la décomposition de la variabilité totale de X. SStotal = SSA + SSB + SSA*B + SSwithin Notations : Chaque cellule du plan est repérée par deux indices j et k qui renvoient au niveau j du facteur A et au niveau k du facteur B. Xijk est le ième individu de la cellule (j,k) M est la moyenne générale de X sur l’ensemble des observations, 3 M j k est la moyenne de X dans la cellule (j,k) M . k est la moyenne de X dans l’ensemble des cellules du niveau k du facteur B, M j . est la moyenne de X dans l’ensemble des cellules du niveau j du facteur A, njk = nombre de sujets dans la cellule (j,k) (nous noterons n dans le cas des plans balancés) n . k = le nombre de sujets dans l’ensemble des cellules du niveau k du facteur B, n j . = le nombre de sujets dans l’ensemble des cellules du niveau j du facteur A, N = Nombre total de sujets, J = nombre de modalités du facteur A, K = nombre de modalités du facteur B La formule de décomposition de la variation totale pour un plan équilibré est la suivante : ∑ ∑ ∑(X k j ∑n ijk − M )² = i j. (M j. − M )² + .k (M . k − M )² + j ∑n k ∑∑n k jk ( M jk − M j. − M . k + M )² + j ∑ ∑ ∑(X k j ijk − M jk )² i De manière résumée cette somme se réécrit : SStotal = SSA + SSB + SSA*B + SSwithin A chaque somme de carrés est associée un nombre de degrés de liberté : Somme : d.l. SStotal = SSA +SSB + SSA*B + SSwithin N-1 J-1 K-1 (J-1)(K-1) N-(J.K) N = Nombre total de sujets, J = nombre de modalités du facteur A, K = nombre de modalités du facteur B Les ratios SS/d.l. définissent les MS (carrés moyens) MSA = SSA / (J-1), MSB = SSB / (K-1), MSA*B = SSA*B / [(J-1).(K-1)], MSwithin = SSwithin / (N-1) Sous l’hypothèse nulle les ratios MSA/MS within , MSB/MSwithin , MSA*B/MSwithin se distribuent suivant une loi F de Fisher-Snédecor : MSA = FJ-1 , N-1 MSB = FK-1 , N-1 MSA*B = F(J-1)(K-1) , N-1 Hypothèses : Comme dans l’ANOVA à 1 facteur, nous supposerons que la variable X se distribue normalement (suivant une loi Normale) dans chaque cellule (j,k) avec la même variance s² et que les observations sont indépendantes les une des autres (on vérifiera l’allure normale par un graphique « box-plot » de X dans chaque cellule). Les échantillons (de chaque cellule) sont indépendants les uns des autres. 4 Comparaisons multiples. Comme en analyse de variance à un facteur, on peut procéder à des comparaisons a priori et a posteriori (post hoc) lorsque l’ANOVA détecte un ou des effets significatifs. Il est important de toujours contrôler le niveau global de l’erreur lors de comparaisons a priori. Ce contrôle se fait automatiquement par SPSS dans le cas des comparaisons « post hoc ». Notons encore que les comparaisons post hoc proposées par SPSS ne permettent pas des comparaisons entre les moyennes de deux cellules ; Seules les comparaisons des effets principaux (entre tous les niveaux d’un facteur sur les marges) sont proposées au niveau des tests « post hoc ». Si l’on souhaite faire des comparaisons non planifiées de moyennes entre 2 cellules (à n’envisager que s’il y a une interaction significative), il convient de passer par un test de Tukey dans une ANOVA à 1 facteur sur la variable croisée A*B (créée par « Transform – compute … »). Si cette nouvelle variable possède beaucoup de modalités les tests post hoc seront fort conservateurs (et peu puissants). Il est encore possible de faire les comparaisons des moyennes aux différents niveaux d’un facteur pour un niveau fixé de l’autre (faire « select cases ») ; c’est l’examen d’une trajectoire dans le graphique des moyennes décrit ci-dessus. Ces comparaisons se font par un test de Tukey dans une ANOVA à 1 facteur après avoir sélectionné les sujets au niveau donné du second facteur. On peut répéter ainsi l’opération pour tous les niveaux du second facteur. Ce type de test permet de déterminer à quel niveau d’un facteur un autre facteur du plan exerce ses effets. On parle, dans ce cas, de tests sur les effets simples. Alternatives. L’analyse de variance est une procédure robuste qui admet sans trop de problèmes des déviations légères par rapport aux conditions de normalité et d’homogénéité des variances. Notons encore qu’il n’existe pas de test non paramétrique universellement reconnu lorsque la condition de normalité est gravement violée. Effet de taille. Dans l’ANOVA 1 facteur, nous avons défini l’effet de taille par η² comme la proportion de la variance de X expliquée par le facteur : η² = SSfacteur / SStotal Dans l’ANOVA à 2 facteurs, nous pouvons définir un effet de taille (complet) pour chaque source de variation (facteur A, facteur B et interaction A*B). η²A = SSA / SStotal , η² B = SSB / SStotal , η² A*B = SSA*B / SStotal (Ces effets de taille ne sont pas fournit par SPSS). Par contre, SPSS détermine l’effet de taille partiel η² partiel (Partial eta square) η²p(A) = SSA / (SSA + SSwithin ) , η² SSwithin ) p(B) = SSB / (SSB + SSwithin ), η² A*B = SSA*B / (SSA*B + 5 Exercice 1 On évalue l’efficacité d’un nouveau traitement ayant pour objet d’améliorer le développement global des enfants atteints de trisomie 21. Pour cela, une étude a été menée auprès de 12 enfants. Six d’entre eux ont reçu un produit actif alors que 6 autres ont reçu un placebo, et ce pendant 6 mois. Un indice de développement global de chaque enfant est calculé avant et après le début de l’étude par un même psychologue. Cet indice de développement global résume l’ensemble des capacités en termes de coordination, posture, langage et sociabilité. La nature du traitement donné n’est connue ni de la famille ni du patient ni du psychologue. Deux psychologues ont participés à l’étude. Les données fournies par l’institut J. Lejeune sont reprises dans le fichier HP6-4.sav. Peut-on conclure à l’efficacité du traitement ? Observe-t-on le même résultat quel que soit le psychologue ? Exercice 2 58 participants, dont 30 garçons et 28 filles, ont parcouru aussi vite que possible une distance à la nage. Le temps obtenu a été falsifié de façon à donner une perfo rmance moins bonne qu’attendu. Une demi- heure plus tard les sujets ont dû re-parcourir et leurs temps ont été à nouveau enregistrés. Les auteurs avaient prédit que lors du second essai, les nageurs les plus pessimistes réaliseraient un moins bon temps et que les optimistes obtiendraient de meilleurs résultats que lors du premier essai. La variable dépendante étudiée est le rapport (ratio) temps1/temps2 ; une valeur supérieure à 1 signife que le nageur à mieux réussi au second essai. Les données sont reprises dans le fichier H13-13.sav Pouvez-vous confirmer la prédiction des auteurs ? Ces résultats sont- ils indépendants du genre ? Vérifiez par un graphique «box-plot » la condition de normalité ; en cas de doute pour l’un ou l’autre sous- groupe, effectuez un test de Kolmogorov-Smirnov. Si vous confirmez la prédiction des auteurs, déterminez les cellules présentant des résultats moyens significativement différents. Refaites les analyses sans tenir compte du facteur sexe. Exercice 3 On forme 9 groupes de volo ntaires qui participent chacun à l’expérience suivante : pendant une semaine, les participants sont soumis à des annonces publicitaires visuelles. Selon le groupe, la masse totale de publicité (variable « taux ») est nulle – situation « sans » -, « moyenne » ou « forte ». Les publicités ventent les qualités de trois pseudo- marques de nouilles. L’une des marques est dite « dominante » (85 % des publicités), un autre est « survivante » (15 % des publicités) et la troisième est « inexistante » (pas de publicité). On mesure ensuite chez les volontaires par une variable numérique X l’impact de l’une des pseudo- marques de nouilles – son image de marque -. Pour chaque groupe, on mesure l’impact d’une seule des trois marques. Les neuf groupes sont obtenus par le croisement de la situation S et de la marque M. Les données sont reprises dans le fichier NG2.sav Déterminez les facteurs qui influencent l’image de marque du produit. Vérifiez par un graphique Box-plot la condition de normalité de la variable X dans chaque cellule. Tracez les 6 trajectoires des moyennes. Le cas échéant (lorsqu’un effet est significatif) déterminez les cellules présentant des différences significatives. Interprétez vos résultats. Exercice 4 Dans une expérience on présente à chaque sujet soit oralement soit par écrit un mot qui est soit un mot familier soit un mot non familier. Après une période d’attente on interroge le sujet et on calcule le nombre de syllabes non significatives mémorisées. L’expérience est réalisée sur 24 sujets répartis en 4 groupes de six et les résultats sont repris dans le fichier LM7.sav Quels sont les facteurs mis en présence ? Quelle est la variable étudiée ? Quels sont les facteurs qui présentent un effet significatif quant à la variable étudiée ? Représentez les trajectoires des moyennes. Exercice 5 Dans une étude consacrée aux processus de mémoire, des animaux ont été testés à une tâche d’apprentissage de l’évitement. Lors de l’essai d’apprentissage, les animaux recevaient un stimulus anxiogène dès qu’ils franchissaient une certaine ligne. L’expérimentateur a distingué trois groupes d’animaux selon l’endroit du cortex où il leur avait été plantés des électrodes (site neutre, zone A et zone B). Chaque groupe a encore été subdivisé selon le moment de réception de la stimulation électrique (50, 100 ou 150 millièmes de seconde après avoir franchi la ligne et avoir reçu le stimulus anxiogène). Si la zone stimulée du cerveau jouait un rôle dans la mémoire, la stimulation affecterait probablement la consolidation de la mémorisation et retarderait l’apprentissage de la réponse d’évitement ; l’animal n’hésiterait pas à franchir à nouveau la ligne. Les données relatives à la latence (temps nécessaire avant de franchir la ligne) sont reprises dans le fichier UL5-3.sav. Quelles sont les facteurs susceptibles d’influencer la latence ? Effectuez une analyse de variance, représentez les trajectoires des moyennes en fonction de la variable « Délai ». Etudier les trois effets simples (un par « site »). Solutions Exercice 1 Les éventuels effets du traitement, du psychologue et de l’interaction psy x traitement peuvent être mis en évidence par une analyse de la variance à 2 facteurs (2x2). On utilisera la procédure « Analyze – General - Linear Model – univariate » avec « indice » comme variable dépendante et les variables « psychologue » et « traitements » comme facteurs à effets fixes ; on sélectionnera le test d’homogénéité des variances dans les options et l’on choisira les graphiques des moyennes en fonction du traitement avec une trajectoire par psychologue. Au niveau du modèle, nous choisissons le modèle complet (effets principaux + interaction). Le test de Levene ne rejette pas l’hypothèse d’égalité des variances : 7 Levene's Test of Equality of Error Variances(a) Dependent Variable: Augmentation de l'indice de développement global F df1 ,615 df2 3 8 Sig. ,625 Tests the null hypothesis that the error variance of the dependent variable is equal across groups. a Design: Intercept+Traitement+Psychologue+Traitement * Psychologue Tests of Between-Subjects Effects Dependent Variable: Augmentation de l'indice de développement global Type III Sum of Squares 2195,713(a) 34518,413 44,083 Source Corrected Model Intercept Psychologue Traitement Psychologue * Traitement Error Total Corrected Total 2043,630 108,000 2202,713 38916,840 4398,427 df 3 1 1 1 1 8 12 11 Mean Square 731,904 34518,413 44,083 F 2,658 125,367 ,160 Sig. ,120 ,000 ,700 Partial Eta Squared ,499 ,940 ,020 2043,630 108,000 275,339 7,422 ,392 ,026 ,549 ,481 ,047 a R Squared = ,499 (Adjusted R Squared = ,311) Estimated Marginal Means of Augmentation de l'indice de développement global Psychologue 1 2 Estimated Marginal Means 70,0 60,0 50,0 40,0 placebo produit actif Traitement Nous pouvons conclure qu’il y a un effet principal significatif du facteur Traitement (F(1,8) = 7,422 ; p = 0.026) ; pas d’effet Psychologue significatif (F(1,8) = 0,16 ; p > 0.05) ni d’interaction Psychologue x Traitement significative (F(1,8) = 0.392 ; p > 0.05). Cela signifie que le traitement a un bien un effet positif sur le développement global des enfants atteints de trisomie et que les résultats ne varient pas en fonction du psychologue qui a fait passer le test (pas d’effet psy) et que cet effet du traitement est identique quel que soit le psychologue qui a fait passer le test (pas d’interaction). 8 Exercice 2 Nous sommes en présence de deux facteurs explicatifs : le facteur optimisme « optim » et le facteur « sexe ». Nous effectuerons donc une Analyse de variance à 2 facteurs. Par après nous regarderons ce qu’une ANOVA à 1 facteur aurait donné ou encore un test t pour échantillons indépendants. Dans un premier temps, nous vérifions la condition de normalité par un graphique « Box-plot clustered » : Nous obtenons le graphique ci-après : Sexe garçon fille 1,150 1,100 31 1,050 ratio 1,000 0,950 0,900 40 0,850 37 0,800 Optimiste Pessimiste optim Les valeurs extrêmes pour le segment « garçon-pessimiste » semble perturber la condition de normalité. Le test de Kolmogorov-Smirnov (limité à ce segment : par « select cases ») ne rejette pas la condition de normalité de la variable « ratio » dans ce segment. 9 One-Sample Kolmogorov-Smirnov Test ratio N Normal Parameters(a,b) Most Extreme Differences 13 .94538 Mean Std. Deviation Absolute Positive Negative .058862 .179 .158 -.179 .646 Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed) .797 a Test distribution is Normal. b Calculated from data. La procédure « Analyze – General Linear Model – univariate » pour le modèle complet donne les résultats suivants : Le test de Levene ne rejette pas l’hypothèse d’égalité des variances : Levene's Test of Equality of Error Variances(a) Dependent Variable: ratio F df1 .501 df2 3 Sig. .683 54 Tests the null hypothesis that the error variance of the dependent variable is equal across groups. a Design: Intercept+Sexe+optim+Sexe * optim Tests of Between-Subjects Effects Dependent Variable: ratio Source Corrected Model Intercept Sexe optim Sexe * optim Error Type III Sum of Squares .040(a) 54.036 .008 .017 .016 .192 df 3 Mean Square .013 F 3.800 Sig. .015 1 1 1 1 54 54.036 .008 .017 .016 .004 15222.829 2.215 4.681 4.536 .000 .142 .035 .038 Total Corrected Total 57.514 58 .232 57 a R Squared = .174 (Adjusted R Squared = .128) Avec un risqué de 1ère espèce de 5%, nous pouvons conclure qu’il y a bien un effet significatif principal du facteur Optimisme (F(1,54) = 4.682 ; p = 0.035) ainsi qu’une interaction Sexe x Optimisme significative (F(1,54) = 4.536 ; p = 0.038) ; par contre il n’y a pas d’effet principal Sexe (F(1,54) = 0.008 ; p > .05). Le graphique des trajectoires des moyennes permet de visualiser ce résultat : 10 Estimated Marginal Means of ratio Sexe Estimated Marginal Means garçon fille 1,000 0,975 0,950 Optimiste Pessimiste optim Le graphique semble indiquer qu’il n’y a pas de différence significative entre garçons et filles optimistes mais bien lorsqu’ils sont pessimistes. Pour vérifier ceci, nous devons procéder à des comparaisons « post hoc ». SPSS ne fournit ces tests que pour les effets principaux (sur les marges) et uniquement lorsqu’il y a plus de 2 modalités par facteur. Dans le cas présent les deux facteurs ont chacun deux modalités donc aucun résultat de comparaison n’est disponible. Pour avoir toutes les comparaisons des 4 cellules (Garçon-optimiste, Garçon-pessimiste, Filleoptimiste, Fille-pessimiste) nous créons la variable croisée (optim*sexe) dans une nouvelle variable = 10*optim + sexe : (11 = Garçon-optimiste, 12 = Fille-optimiste, 21 = Garçonpessimiste, 22 = Fille-pessimiste). On effectue ensuite une ANOVA à 1 facteur (cette nouvelle variable) en demandant le test post Hoc de Tukey. Le tableau des comparaisons montre qu’il y a bien une différence significative entre les filles et les garçons pessimistes ainsi qu’entre les garçons optimistes et pessimistes et qu’il n’y en en pas entre les filles et les garçons optimistes. Multiple Comparisons Dependent Variable: ratio Tukey HSD (I) croisem Garçon-optim Fille-optim Garçon-pessim (J) croisem Fille-optim Garçon-pessim Fille-pessim Garçon-optim Garçon-pessim Fille-pessim Garçon-optim Fille-optim Mean Difference (I-J) .010312 .069027(*) .010856 -.010312 .058715 .000544 -.069027(*) -.058715 Fille-pessim -.058171(*) Garçon-optim -.010856 Fille-optim -.000544 Garçon-pessim .058171(*) * The mean difference is significant at the .05 level. Fille-pessim 95% Confidence Interval Std. Error .023744 .021951 .020150 .023744 .025060 .023498 .021951 .025060 Sig. .972 .014 .949 .972 .101 1.000 .014 .101 Lower Bound -.05263 .01084 -.04256 -.07325 -.00772 -.06175 -.12722 -.12515 Upper Bound .07325 .12722 .06427 .05263 .12515 .06284 -.01084 .00772 .021685 .020150 .023498 .021685 .046 .949 1.000 .046 -.11566 -.06427 -.06284 .00069 -.00069 .04256 .06175 .11566 11 Les garçons pessimistes semblent donc être beaucoup plus affectés par la perception d’un échec que les filles pessimistes. Si nous avions effectué une analyse de variance (de la variable ratio) à 1 facteur (optim) nous n’aurions pas pu établir qu’il y avait une différence entre les optimistes et les pessimistes comme le montre le tableau ci-dessous (p-valeur 6,1 %) : ANOVA ratio Between Groups Within Groups Total Sum of Squares .014 .218 .232 df 1 56 57 Mean Square .014 .004 F 3.664 Sig. .061 Rappelons que l’Anova est un test bilatéral ; si l’on se rapporte à l’hypothèse des auteurs : « lors du second essai, les nageurs les plus pessimistes réaliseraient un moins bon temps et les optimistes obtiendraient de meilleurs résultats » ; un test-t unilatéral est plus approprié et permet de rejeter l’hypothèse nulle puisque alors la p-valeur vaut 3,05 %. Comme il n’y a que 2 groupes, nous aurions aussi pu faire un test t pour échantillons indépendants et nous aurions obtenu : Independent Samples Test Independent Samples Test Levene F t-test for Equality of Means Sig. t df Sig. (2-tailed) Mean Diff Std. Error Diff 95% CI of diff Lower ratio Equal var assumed Equal var not assumed 1,542 0,219 1,914 Upper 56 0,061 0,031 0,016420 -0,00146 0,064325 1,95 55,08 0,056 0,031 0,016 -0,00086 0,0637 Exercice 3 Une représentation de la distribution de X (= Impact) dans chaque cellule s’obtient par un graphique box-plot via la procédure « Graph – box-plot- clustered » : 12 6 Taux 10 Fort Moyen Sans 8 Impact 45 6 4 79 2 15 78 55 0 Dominante survivante Inexistante Marque Si la non-normalité de certaines cellules peut être suspectée on procédera à un test de K-S sur l’échantillon en question ; c’est le cas de la cellule (inexistante – sans) : le tableau ci-après ne rejète pas la normalité dans cette cellule : One-Sample Kolmogorov-Smirnov Test Impact N Normal Parameters(a,b) Most Extreme Differences Mean Std. Deviation Absolute Positive Negative Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed) 9 1.89 .601 .351 .316 -.351 1.053 .217 a Test distribution is Normal. b Calculated from data. Il en va de même pour la cellule (dominante – fort) : One-Sample Kolmogorov-Smirnov Test Impact N Normal Parameters(a,b) Most Extreme Differences Mean Std. Deviation Absolute Positive Negative Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed) 9 8.00 1.000 .278 .278 -.167 .833 .491 a Test distribution is Normal. b Calculated from data. 13 Nous pouvons donc supposer que la variable « Impact » est distribuée normalement dans chacune des cellules. Nous sommes en présence de deux facteurs qui sont susceptibles d’influencer l’image de marque d’un produit : la « marque » et le « taux » de publicité. Nous procédons donc à une analyse de variance à deux facteurs (« taux » et « marque »). La procédure « Analysze – General Linear Model – Univariate » fournit le résultat suivant : Le test de Levene ne rejette pas, au niveau de 5 %, l’homogénéité des variances dans chaque cellule : Levene's Test of Equality of Error Variances(a) Dependent Variable: Impact F df1 df2 Sig. 1.953 8 72 .065 Tests the null hypothesis that the error variance of the dependent variable is equal across groups. a Design: Intercept+Taux+Marque+Taux * Marque Le tableau de l’ANOVA est le suivant : Tests of Between-Subjects Effects Dependent Variable: Impact Source Corrected Model Intercept Taux Marque Type III Sum of Squares 371.556(a) 841.000 54.296 182.000 df 8 1 2 2 Mean Square 46.444 841.000 27.148 91.000 F 39.600 717.063 23.147 77.589 Sig. .000 .000 .000 .000 33.815 1.173 28.832 .000 Taux * Marque Error Total Corrected Total 135.259 4 84.444 72 1297.000 81 456.000 80 a R Squared = .815 (Adjusted R Squared = .794) Tous les facteurs et leur croisement sont très hautement significatifs. Ainsi nous notons un effet principal significatif du facteur Marque (F(2,72)= 77.589 ; p = 0.000) et du facteur Taux (F(2,72) = 23.147 ; p = 0.000) ainsi qu’une interaction Marque x Taux significative (F(4,72) = 28.832 ; p = 0.000). En ce qui concerne la marque, l’examen des moyennes (via analyze - compare means- means) ainsi que le graphe nous indiq uent que plus la marque est présente dans les publicités plus grand sera son impact ; la « puissance publicitaire » d’une marque semble donc influencer son image de marque. Impact * Marque Impact Marque Dominante survivante Mean 5,00 3,33 Inexistante Total 1,33 3,22 N 27 27 Std. Deviation 2,660 1,687 27 81 ,784 2,387 14 En ce qui concerne le taux, l’analyse des moyennes indique que plus le taux est important plus l’impact est grand. Toutefois, d’un point de vue descriptif, il ne semble pas y avoir une grande différence entre un taux fort et un taux moyen. Impact * Taux Impact Taux Fort Moyen Sans Total Mean 3,93 3,67 2,07 3,22 N 27 27 Std. Deviation 3,281 1,797 27 81 1,207 2,387 L’interaction (cf graphe) semble indiquer que l’inégalité entre les marques augmente avec le taux général de publicité. Un test post hoc permettra d’analyser plus en détails ces observations descriptives. Estimated Marginal Means of Impact Taux 8 Fort Moyen Estimated Marginal Means Sans 6 4 2 0 Dominante survivante Inexistante Marque Ainsi, après avoir construit la variable croisée « Marque-taux » (croisement = 10*Taux + marque) 15 Un test de Tukey dans une ANOVA à un facteur (« croisement ») permet de mettre en évidence les paires de cellules qui ont un impact moyen statistiquement différent. Impact Tukey HSD Subset for alpha = .05 croisement fort-inexist. moy-inexist. sans -inexist. sans -domin. sans -surviv. fort-surviv. moy-surviv. moy-domin. fort-domin. N 1 9 9 9 9 2 .56 1.56 1.89 2.11 3 1.56 1.89 2.11 9 9 9 9 9 2.22 4 5 6 1.89 2.11 2.22 3.22 3.22 4.56 4.56 4.89 8.00 Sig. .074 .926 Means for groups in homogeneous subsets are displayed. a Uses Harmonic Mean Sample Size = 9.000. .200 .200 .999 1.000 Ce tableau mis en parallèle avec le graphique ci-dessus, nous permet d’affirmer que l’impact moyen d’une marque dominante dans un contexte de publicité fort est statistiquement différent de toutes les autres situations. Dans un contexte sans publicité, il n’y a pas de différence de perception des marques (groupe 3). Pour une marque « survivante », il n’y a pas de différence significative de sa perception entre un contexte à fort taux publicitaire et un contexte sans publicité. En guise de conclusion, la course à la publicité semble en contradiction avec la libre concurrence puisqu’un taux élevé de pub licité augmente des inégalités non justifiées entre les marques. Exercice 4 La variable étudiée est le nombre de syllabes (non significatives) mémorisées. Les facteurs mis en jeu sont le caractère oral ou écrit des mots présentés (variable « orec ») et le caractère familier ou non de ces mêmes mots (variable « fam »). Le tableau d’analyse de variance à deux facteurs est le suivant : Tests of Between-Subjects Effects Dependent Variable: Nombre de syllabes mémorisées Source Corrected Model Intercept Fam OrEcr Fam * OrEcr Error Total Corrected Total Type III Sum of Squares 184.167(a) 4428.167 150.000 6.000 28.167 df 3 1 1 1 1 189.667 20 4802.000 24 373.833 23 a R Squared = .493 (Adjusted R Squared = .417) Mean Square 61.389 4428.167 150.000 6.000 28.167 F 6.473 466.942 15.817 .633 2.970 Sig. .003 .000 .001 .436 .100 9.483 16 On y observe que seul le facteur « familier- non familier » est significatif dans l’explication du nombre de mots mémorisés (F (1,20) = 15.817 ; p = 0.001). Le graphique des trajectoires des moyennes est le suivant : l’inversion des moyennes que l’on observe n’est pas significative (F(1,24) = 2.970 ; p >.05). Estimated Marginal Means of Nombre de syllabes mémorisées OrEcr 18 Estimated Marginal Means Oral Ecrit 16 14 12 10 Familier Non-familier Fam Exercice 5 Nous sommes en présence d’un plan d’expérience à deux facteurs inter-sujet : le facteur « délai » entre le franchissement de la ligne et l’envoi du stimulus anxiogène et le facteur zone du cerveau recevant les stimuli (« site »). Le test de Levene ne rejette pas l’hypothèse d’égalité des variances. Test d'égalité des variances des erreurs de Levene(a) Variable dépendante: latence F ddl1 ddl2 Signification ,148 8 36 ,996 Teste l'hypothèse nulle que la variance des erreurs de la variable dépendante est égale sur les différents groupes. a Plan : Intercept+Delai+site+Delai * site Le tableau d’analyse de variance est le suivant : Tests of Between-Subjects Effects Dependent Variable: latence Source Corrected Model Intercept site Delai site * Delai Error Total Corrected Total Type III Sum of Squares 916.578(a) 26402.222 356.044 188.578 371.956 1055.200 28374.000 1971.778 Df 8 1 2 2 4 36 45 44 Mean Square 114.572 26402.222 178.022 F 3.909 900.758 6.074 Sig. .002 .000 .005 94.289 92.989 29.311 3.217 3.172 .052 .025 a R Squared = .465 (Adjusted R Squared = .346) 17 Il en ressort qu’il n’y a pas d’effet principal « délai », c’est à dire que toute autre chose étant égale, la latence n’est pas significativement influencée par le délai entre le franchissement de la ligne et l’envoi du stimulus. C’est ce que montre aussi le test post hoc de Tukey. latence Subset Tukey HSD(a,b) Delai 100 50 150 N 1 22.33 23.27 27.07 15 15 15 Sig. .056 Means for groups in homogeneous subsets are displayed. Based on Type III Sum of Squares The error term is Mean Square(Error) = 29.311. a Uses Harmonic Mean Sample Size = 15.000. b Alpha = .05. Il y a un effet principal « site » (F(2,36) = 6.074 ; p = 0.005). Le test post hoc de Tukey montre qu’il s’agit de la zone test qui fournit une latence moyenne significativement différente de celle obtenue dans les deux autres zones. latence Subset Tukey HSD(a,b) site Zone A Zone B site neutre Sig. N 15 15 1 22.20 22.27 15 .999 Means for groups in homogeneous subsets are displayed. Based on Type III Sum of Squares The error term is Mean Square(Error) = 29.311. a Uses Harmonic Mean Sample Size = 15.000. b Alpha = .05. 2 28.20 1.000 L’analyse de variance décèle également une source de variation dans le croisement «site * délai » (F(4,36) = 3.172 ; p = 0.025). Le graphique des trajectoires des moyennes permet de visualiser cette interaction. 18 Estimated Marginal Means of latence site site neutre Zone A Zone B 30 Estimated Marginal Means 27,5 25 22,5 20 17,5 50 100 150 Delai Afin de vérifier les sources de variation, on effectue une analyse des effets simples. Il s’agit d’une ANOVA à 1 facteur, limitée à une trajectoire. Pour ce faire, on sélection dans un premier temps les données d’une trajectoire (par Select cases – introduire la condition : « if site = 1 »). Dans le cas du site neutre, nous n’observons aucune différence significative comme le confirme le tableau d’analyse de variance : ANOVA latence Between Groups Within Groups Total Sum of Squares 1.200 433.200 434.400 df 2 12 14 Mean Square .600 36.100 F .017 Sig. .984 Dans le cas de la zone A, il y a bien une différence significative entre les moyennes suivant le « délai » ; la latence moyenne à 50 msec est significativement plus faible que celle à 150 msec. La latence moyenne à 100 msec n’est pas significativement différente de celle lorsque le délai est de 50 msec ou 150 msec. ANOVA latence Between Groups Within Groups Total Sum of Squares 254.800 337.600 592.400 df 2 12 Mean Square 127.400 28.133 F 4.528 Sig. .034 14 19 latence Tukey HSD Subset for alpha = .05 Delai 50 100 N 5 5 150 Sig. 1 16.80 23.00 2 23.00 5 26.80 .196 .513 Means for groups in homogeneous subsets are displayed. a Uses Harmonic Mean Sample Size = 5.000. Dans le cas de la zone B, il y a bien une différence significative entre les moyennes suivant le « délai » ; la latence moyenne à 100 msec est significativement plus faible que celle à 150 msec et 50 msec. ANOVA latence Sum of Squares 304.533 284.400 588.933 Between Groups Within Groups Total df 2 12 14 Mean Square 152.267 23.700 F 6.425 Sig. .013 latence Tukey HSD Subset for alpha = .05 Delai 100 50 150 Sig. N 1 5 5 5 2 16.00 24.40 26.40 1.000 .796 Means for groups in homogeneous subsets are displayed. a Uses Harmonic Mean Sample Size = 5.000. Nous pouvons donc conclure que l’effet du facteur «délai » diffère suivant les valeurs du facteur « site ». Plus précisément, cet effet est significatif uniquement lorsque les stimulations sont appliquées dans les zones A et B du cerveau mais pas sur le site neutre. Une autre manière d’expliquer la source de la variation introduite par le croisement des deux facteurs est de procéder à une comparaison de toutes les cellules en introduisant une nouvelle variable et en effectuant un test post hoc de Tukey dans une analyse de variance à un facteur (cette nouvelle variable). Ceci ne fait pas l’objet de la présente question. Signalons encore que plus le nombre de cellules à comparer est important, moins nous aurons de chance de mettre en évidence une faible différence entre les moyennes. 20