L’analyse de variance L’analyse de variance L’analyse de variance: ANOVA (ANalysis Of VAriance) Utilité: tester 2 ou plusieurs hypothèses sur des population indépendantes Exemple Acrophobie: groupe 1: contrôle groupe 2: behavioral groupe 3: rogérien Hypothèses: (Les hypothèses directionnelles ne font pas de sens lorsqu’il y a plus de deux groupes) H 0 : 1 2 3 H1 : 1 2 3 Tests t Pourquoi ne pas faire 3 tests t ? H 0 : 1 2 H 0 : 1 3 H 0 : 2 3 Comme les tests ne sont pas indépendants les uns des autres, cela augmente l’erreur commune (familywise error) Probabilité=(1-a)c Probabilité=(1-0.05)3=0.14 Donc, si on fait trois comparaisons l’erreur de type I sera de 14%. Logique Est-ce que les différences entre les moyennes est la conséquence d’un effet de traitement? Ou est-ce uniquement de l’erreur ? Contrôle Behavioral Rogérien 5 1 3 6 2 3 8 3 4 x 6.33 2 3.33 s 1.53 1 0.57 s2 2.34 1 0.33 Logique Pour répondre à la question: - Variabilité à l’intérieur des groupes (erreur d’échantillonnage) « within error » - Variabilité entre les groupes (erreur d’échantillonnage + effet de traitement ?) « between error » Si la variabilité intergroupe est largement supérieur a variabilité intragroupe, alors nous aurons un indice de l’effet de traitement. 2 sintra variabilité de l'erreur 2 sinter variabilité de l'erreur + effet de traitement Fobs 2 sinter 2 sintra Logique Degrés de liberté: Il y a deux degrés de liberté 1- dlinter = nombre de groupes -1 = k-1 2- dlintra = nombre de participants -1 = n-k Hypothèses: H 0 : 1 2 ... k H1 : 1 2 ... k (pour au moins un groupe) Logique Postulats de base: 1- Indépendance 2- Normalité 3- Homogénéité des variances max( si2 ) 0.5 2 2 min( si ) Calcul Variabilité totale = variabilité inter + variabilité intra Les sommes des carrés i le groupe xG la grande moyenne xi la moyenne d'un groupe p = le participant k n SCTotal ( x pi xG ) 2 i 1 p 1 k n SCintra ( x pi xi ) 2 i 1 p 1 k SCinter ni ( xi xG ) 2 i 1 SCTotal SCintra SCinter Calcul Les degrés de liberté dltotal n 1 dlintra n k dlinter k 1 Les carrés moyens CM intra SCintra 2 ( sintra ) dlintra CM inter SCinter 2 ( sinter ) dlinter dltotal dlintra dlinter F F CM intra CM inter Table d’ANOVA Source de variation SC dl CM F k k Inter ni ( xi xG )2 k 1 2 n ( x x ) i i G i 1 k 1 i 1 k k Intra (erreur ) n ( x pi xi )2 nk i 1 p 1 k Total n 2 ( x x ) pi G i 1 p 1 n 1 CM Inter CM Intra n 2 ( x x ) pi i i 1 p 1 nk Exemple Contrôle Behavioral Rogérien 5 1 3 6 2 3 8 3 4 x 6.33 2 3.33 s 1.53 1 0.57 s2 2.34 1 0.33 xG (5 6 8 1 2 3 3 3 4) / 9 3.889 Exemple Les sommes des carrés k 3 i 1 i 1 SCinter ni ( xi xG ) 2 ni ( xi xG ) 2 SCinter 3(6.33 3.889) 2 3(2.00 3.889) 2 3(3.33 3.889) 2 SCinter 17.88 10.70 0.94 29.52 3 k 3 SCintra ( x pi xi ) 2 i 1 p 1 n 3 3 SCtotal ( x pi xG ) ( x pi xG ) 2 2 i 1 p 1 i 1 p 1 SCintra (5 6.33) 2 (6 6.33) 2 (8 6.33) 2 SCtotal (5 3.889) 2 (6 3.889) 2 (8 3.889) 2 (1 2) 2 (2 2) 2 (3 2) 2 (1 3.889) 2 (2 3.889) 2 (3 3.889) 2 (3 3.33) 2 (3 3.33) 2 (4 6.33) 2 SCintra 4.67 2 0.67 7.34 (3 3.889) 2 (3 3.889) 2 (4 3.889) 2 SCtotal 22.59 12.71 1.59 36.89 SCTotal SCintra SCinter 7.34 29.52 36.86 Exemple Les degrés de liberté Les carrés moyens dltotal n 1 9 1 8 CM inter dlintra n k 9 3 6 dlinter k 1 3 1 2 CM intra SCinter 29.52 14.76 dlinter 2 SCintra 7.34 1.22 dlintra 6 dltotal dlintra dlinter 6 2 8 F F CM intra 14.76 12.1 CM inter 1.22 Table d’ANOVA Source de variation SC dl CM F Inter 29.52 2 14.76 12.1 Intra (erreur ) 7.34 6 1.22 Total 36.89 8 Fcrit (a , dlinter , dlintra ) Fcrit (0.05, 2, 6) 5.14 Puisque le Fobs(2,6)=12.1, p<0.05 nous rejetons l’hypothèse nulle. Par conséquent, il y a au moins une différence significative entre les groupes par rapport au traitement d’acrophobie. Mesure de la force d’association Idée: Semblable au r2ajusté Proportion de la variation totale des données qui peuvent être expliquée par les niveaux des variables indépendantes. Quelle quantité de la variance peut être expliqué par les différences dans les groupes de traitements? 2 SCinter (k 1)CM intra 29.52 (3 1)1.22 27.08 0.71 SCtotal CM intra 36.89 1.22 38.11 Donc, 71% de la variance de la variable dépendante (peur des hauteurs) est déterminé par les différences dans les traitements thérapeutique (contrôle, behav. et rogér.) Puissance Mesure de la force d’association 2 Comparaisons post hocs Test de Scheffé C’est bien beau savoir qu’il y a une différence significative globale, mais ce que l’on veut savoir c’est quels sont les groupes qui se distinguent des uns et des autres ? Planification des hypothèses alternatives H1 : C B H 2 : C R H3 : B R De plus H 4 : C B C 2 Test de Scheffé Utilisation des contrastes cˆ w1 x1 w2 x2 ... wk xk les "w" peuvent prendre n'importe quelle valeur en autant que k w i 1 i 0 Exemple H1 : C B w1 1 w2 1 w3 0 0 cˆ (1)6.33 (1)2.00 (0)3.33 cˆ 4.33 Test de Scheffé Statistique utilisée tobs ' tcrit cˆ w w w CM intra ... n n n 2 k 1 2 1 2 2 2 k 4.33 (1) (1) (0) 1.22 3 3 3 2 2 4.8 2 k 1 Fcrit (a , dlinter , dlintra ) 3 1 5.14 3.21 Puisque le tobs>t’crit, on rejette l’hypothèse nulle et nous concluons que le groupe contrôle est significativement (a = 0.05) plus élevé que le groupe ayant suivi une thérapie behavioriste. Test de Tukey HSD (honestly significant difference) Planification des hypothèses alternatives H0 : c 0 H1 : c 0 où c = i j , ij CM intra HSD q(a , dlintra , k ) n Attention, n = nombre de sujet dans un groupe (n1~ n2~ …~ nk) Si les le nombre de sujet diffère trop, il faut faire la moyenne harmonique Test de Tukey Moyenne harmonique Supposons que vous faites une balade à vélo : vous commencez par escalader une côte de 1km à 20km/h, puis vous redescendez cette même côte à 30km/h. Quelle est votre vitesse moyenne??? Vous avez répondu 25?? Faux!!! Pour monter : 1km à 20km/h cela me prendra 3 minutes pour gravir la côte. Pour descendre : 1km à 30km/h cela me prendra 2 minutes pour gravir la côte. Pour calculer la vitesse moyenne il faut tenir compte du temps. Distance totale=2 km, par conséquent la vitesse moyenne = 2/t. Or, le temps total (t) = t1+t2, où t1=1/v1 et t2=1/v2 Donc si on remplace, vitesse moyenne = 2/(1/v1+1/v2) vitesse moyenne = 2/(1/20+1/30)=2/5 /60=120/5=24km/h Test de Tukey Moyenne harmonique xH k k 1 i 1 ni Exemple: n1= 4; n2=6 et n3=6 k 3 3 36 xH k 5.143 1 1 1 7 1 7 4 6 6 12 i 1 ni x 4 6 6 16 5.3333 3 3 Test de Tukey Table des différences x1 x2 x1 x2 ... xk x1 x2 x1 xk x2 xk xk Si xi x j HSD, on rejette H 0 Test de Tukey Exemple xB 2.00 xR 3.33 xC 6.33 xB 2.00 xR 3.33 xC 6.33 1.33 4.33 * 3.00 * * p<0.05 a 0.05 CM inter 1.22 dlinter 6 k 3 n3 q (0.05, 6,3) 4.34 CM intra 1.22 HSD q (a , dlintra , k ) 4.34 2.78 n 3