Exemple

publicité
L’analyse de variance
L’analyse de variance
L’analyse de variance: ANOVA (ANalysis Of
VAriance)
Utilité: tester 2 ou plusieurs hypothèses sur des
population indépendantes
Exemple
Acrophobie:
groupe 1: contrôle
groupe 2: behavioral
groupe 3: rogérien
Hypothèses: (Les hypothèses directionnelles ne font
pas de sens lorsqu’il y a plus de deux groupes)
H 0 : 1  2  3
H1 : 1  2  3
Tests t
Pourquoi ne pas faire 3 tests t ?
H 0 : 1  2
H 0 : 1  3
H 0 :  2  3
Comme les tests ne sont pas indépendants les uns des autres,
cela augmente l’erreur commune (familywise error)
Probabilité=(1-a)c
Probabilité=(1-0.05)3=0.14
Donc, si on fait trois comparaisons l’erreur de type I sera de 14%.
Logique
Est-ce que les différences entre les moyennes est la conséquence
d’un effet de traitement? Ou est-ce uniquement de l’erreur ?
Contrôle Behavioral Rogérien
5
1
3
6
2
3
8
3
4
x
6.33
2
3.33
s
1.53
1
0.57
s2
2.34
1
0.33
Logique
Pour répondre à la question:
- Variabilité à l’intérieur des groupes (erreur d’échantillonnage) « within
error »
- Variabilité entre les groupes (erreur d’échantillonnage + effet de
traitement ?) « between error »
Si la variabilité intergroupe est largement supérieur a variabilité intragroupe,
alors nous aurons un indice de l’effet de traitement.
2
sintra
 variabilité de l'erreur
2
sinter
 variabilité de l'erreur + effet de traitement
Fobs
2
sinter
 2
sintra
Logique
Degrés de liberté:
Il y a deux degrés de liberté
1- dlinter = nombre de groupes -1 = k-1
2- dlintra = nombre de participants -1 = n-k
Hypothèses:
H 0 : 1  2  ...  k
H1 : 1  2  ...  k (pour au moins un groupe)
Logique
Postulats de base:
1- Indépendance
2- Normalité
3- Homogénéité des variances
max( si2 )
0.5 
2
2
min( si )
Calcul
Variabilité totale = variabilité inter + variabilité intra
Les sommes des carrés
i  le groupe
xG  la grande moyenne
xi  la moyenne d'un groupe
p = le participant
k
n
SCTotal   ( x pi  xG ) 2
i 1 p 1
k
n
SCintra   ( x pi  xi ) 2
i 1 p 1
k
SCinter   ni ( xi  xG ) 2
i 1
SCTotal  SCintra  SCinter
Calcul
Les degrés de liberté
dltotal  n  1
dlintra  n  k
dlinter  k  1
Les carrés moyens
CM intra 
SCintra
2
 ( sintra
)
dlintra
CM inter 
SCinter
2
 ( sinter
)
dlinter
dltotal  dlintra  dlinter
F
F
CM intra
CM inter
Table d’ANOVA
Source de variation
SC
dl
CM
F
k
k
Inter
 ni ( xi  xG )2
k 1
2
n
(
x

x
)
 i i G
i 1
k 1
i 1
k
k
Intra (erreur )
n
 ( x pi  xi )2
nk
i 1 p 1
k
Total
n
2
(
x

x
)
 pi G
i 1 p 1
n 1
CM Inter
CM Intra
n
2
(
x

x
)
 pi i
i 1 p 1
nk


Exemple
Contrôle Behavioral Rogérien
5
1
3
6
2
3
8
3
4
x
6.33
2
3.33
s
1.53
1
0.57
s2
2.34
1
0.33
xG  (5  6  8  1  2  3  3  3  4) / 9  3.889
Exemple
Les sommes des carrés
k
3
i 1
i 1
SCinter   ni ( xi  xG ) 2   ni ( xi  xG ) 2
SCinter  3(6.33  3.889) 2  3(2.00  3.889) 2  3(3.33  3.889) 2
SCinter  17.88  10.70  0.94  29.52
3
k
3
SCintra   ( x pi  xi )
2
i 1 p 1
n
3
3
SCtotal   ( x pi  xG )   ( x pi  xG ) 2
2
i 1 p 1
i 1 p 1
SCintra  (5  6.33) 2  (6  6.33) 2  (8  6.33) 2 
SCtotal  (5  3.889) 2  (6  3.889) 2  (8  3.889) 2 
(1  2) 2  (2  2) 2  (3  2) 2 
(1  3.889) 2  (2  3.889) 2  (3  3.889) 2 
(3  3.33) 2  (3  3.33) 2  (4  6.33) 2
SCintra  4.67  2  0.67  7.34
(3  3.889) 2  (3  3.889) 2  (4  3.889) 2
SCtotal  22.59  12.71  1.59  36.89
SCTotal  SCintra  SCinter  7.34  29.52  36.86
Exemple
Les degrés de liberté
Les carrés moyens
dltotal  n  1  9  1  8
CM inter 
dlintra  n  k  9  3  6
dlinter  k  1  3  1  2
CM intra
SCinter 29.52

 14.76
dlinter
2
SCintra 7.34


 1.22
dlintra
6
dltotal  dlintra  dlinter  6  2  8
F
F
CM intra 14.76

 12.1
CM inter
1.22
Table d’ANOVA
Source de variation
SC
dl CM
F
Inter
29.52 2 14.76 12.1
Intra (erreur )
7.34 6 1.22
Total
36.89
8
Fcrit (a , dlinter , dlintra )  Fcrit (0.05, 2, 6)  5.14
Puisque le Fobs(2,6)=12.1, p<0.05 nous rejetons
l’hypothèse nulle. Par conséquent, il y a au moins une
différence significative entre les groupes par rapport au
traitement d’acrophobie.
Mesure de la force d’association
Idée: Semblable au r2ajusté
Proportion de la variation totale des données qui peuvent être expliquée par
les niveaux des variables indépendantes.
Quelle quantité de la variance peut être expliqué par les différences dans les
groupes de traitements?
2 
SCinter  (k  1)CM intra 29.52  (3  1)1.22 27.08


 0.71
SCtotal  CM intra
36.89  1.22
38.11
Donc, 71% de la variance de la variable dépendante (peur des hauteurs) est
déterminé par les différences dans les traitements thérapeutique (contrôle,
behav. et rogér.)
Puissance

Mesure de la force
d’association

2
Comparaisons post hocs
Test de Scheffé
C’est bien beau savoir qu’il y a une différence significative globale, mais ce
que l’on veut savoir c’est quels sont les groupes qui se distinguent des uns et
des autres ?
Planification des hypothèses alternatives
H1 : C   B
H 2 : C   R
H3 : B  R
De plus
H 4 : C 
 B  C
2
Test de Scheffé
Utilisation des contrastes
cˆ  w1 x1  w2 x2  ...  wk xk
les "w" peuvent prendre n'importe quelle valeur en autant que
k
w
i 1
i
0
Exemple
H1 : C   B
w1  1
w2  1
w3  0
 0
cˆ  (1)6.33  (1)2.00  (0)3.33
cˆ  4.33
Test de Scheffé
Statistique utilisée
tobs 
'
tcrit

cˆ
w w
w 
CM intra 

 ... 

n
n
n
2
k 
 1
2
1
2
2
2
k

4.33
 (1) (1) (0) 
1.22 



3
3
3


2
2
 4.8
2
 k 1 Fcrit (a , dlinter , dlintra )  3 1 5.14  3.21
Puisque le tobs>t’crit, on rejette l’hypothèse nulle et nous
concluons que le groupe contrôle est significativement
(a = 0.05) plus élevé que le groupe ayant suivi une
thérapie behavioriste.
Test de Tukey
HSD (honestly significant difference)
Planification des hypothèses alternatives
H0 : c  0
H1 : c  0
où c = i   j , ij
CM intra
HSD  q(a , dlintra , k )
n
Attention, n = nombre de sujet dans un groupe (n1~ n2~ …~ nk)
Si les le nombre de sujet diffère trop, il faut faire la moyenne
harmonique
Test de Tukey
Moyenne harmonique
Supposons que vous faites une balade à vélo : vous commencez par escalader une côte
de 1km à 20km/h, puis vous redescendez cette même côte à 30km/h. Quelle est votre
vitesse moyenne???
Vous avez répondu 25?? Faux!!!
Pour monter : 1km à 20km/h cela me prendra 3 minutes pour gravir la côte.
Pour descendre : 1km à 30km/h cela me prendra 2 minutes pour gravir la côte.
Pour calculer la vitesse moyenne il faut tenir compte du temps.
Distance totale=2 km, par conséquent la vitesse moyenne = 2/t.
Or, le temps total (t) = t1+t2, où t1=1/v1 et t2=1/v2
Donc si on remplace,
vitesse moyenne = 2/(1/v1+1/v2)
vitesse moyenne = 2/(1/20+1/30)=2/5 /60=120/5=24km/h
Test de Tukey
Moyenne harmonique
xH 
k
k
1

i 1 ni
Exemple: n1= 4; n2=6 et n3=6
k
3
3 36
xH  k



 5.143
1
1
1
7
1
7



4 6 6 12
i 1 ni
x
4  6  6 16

 5.3333
3
3
Test de Tukey
Table des différences
x1
x2
x1
x2
...
xk

x1  x2
x1  xk

x2  xk

xk

Si xi  x j  HSD, on rejette H 0
Test de Tukey
Exemple
xB  2.00
xR  3.33
xC  6.33
xB  2.00

xR  3.33 xC  6.33
1.33
4.33 *

3.00 *

* p<0.05
a  0.05
CM inter  1.22
dlinter  6
k 3
n3
q (0.05, 6,3)  4.34
CM intra
1.22
HSD  q (a , dlintra , k )
 4.34
 2.78
n
3
Téléchargement