Rappels et pratique de la comparaison de moyennes

publicité
Biostatistiques et statistiques appliquées
aux sciences expérimentales
Rappels et pratique de la comparaison de moyennes
(test t, ANOVA 1, comparaisons multiples)
Jérémie Mattout#, Pascal Bessonneau
Cogmaster A4 2006-2007*
#
[email protected]
http://www.aliquote.org/cours/2006_cogmaster_A4/
p. 1/22
Programme de la séance
• Comparaison de deux moyennes (test-t)
H0: µ = 0 ou µ1 = µ2
• Comparaison de k moyennes (k > 2 i.e. ANOVA 1)
H0: µ1 = … = µi = … = µk
• Comparaisons multiples (exercices)
p. 2/22
Définitions générales
• Population de moyenne µ et de variance σ2
• Echantillon tiré de cette population (tirages indépendants)
{X1 … Xi … XN}
• Statistiques (caractéristiques d’échantillon)
1
- moyenne X =
N
- variance s
2
N
!X
i
(estimateur sans biais de µ)
i =1
1
=
N "1
! (X
N
i =1
i
"X
) (estimateur sans biais de σ )
2
2
p. 3/22
Statistiques de la distribution d’échantillonnage de la moyenne
• Distribution de X
- moyenne µX
- variance σX2
• Théorème central limite
« Etant do nné une po pulatio n de m o yenne µ et variance σ2 ,
la distrib utio n d ’
échantillo nnag e de la m o yenne a po ur
m o yenne µX = µ et variance σX 2 =σ2 /N
et cette distrib utio n appro che une distrib utio n no rm ale
lo rsque la taille de l’
échantillo n N aug m ente. »
p. 4/22
Comparaison de deux moyennes (1)
H0: µX = µ
H1: µX ≠ µ
• Cas de variance σ2 connue et/ou N grand (>30) :
X "µ X "µ
z=
= !
!X
z ~ Normal(0,1)
N
-1,96
1,96
z
p. 5/22
Comparaison de deux moyennes (2)
H0: µX = µ
H1: µX ≠ µ
• Cas de variance inconnue et N petit : test t
t=
X !µ X !µ
= s
sX
t ~ t(N-1)
ddl = N-1
N
• Conditions d’application
- indépendance
- normalité
- homogénéité des variances (homoscédasticité)
p. 6/22
Comparaison de deux moyennes (3)
• Cas de 2 échantillons appariés (H0: µD = 0 )
t=
D ! µD
sD
N
• Cas de 2 échantillons indépendants (H0: µ1 = µ2)
indépendance ⇒ σD2 = σ12/N1 + σ22/N2
Homoscédasticité (ddl = N1 + N2 2)
t=
(X
1
' X2
)
&
s 2p $$
1
1 #
!!
+
% N1 N 2 "
s 2p =
Hétéroscédasticité (correction de Welch)
t=
(X
1
! X2
)
s12
s 22
+
N1 N 2
(N1 ! 1)s12 + (N 2 ! 1)s22
N1 + N 2 ! 2
p. 7/22
Comparaison de deux moyennes (4)
• Intervalle de confiance (IC)
IC95 = X ± t 0.975
= D ± t 0.975 s p
s
IC99 = X ± t 0.995
N
1
1
+
N1 N 2
H0
s
N
H1
• Erreur de type-I
α : probabilité de rejeter H0
alors que H0 est vraie
• Erreur de type-II
β : probabilité de rejeter H1
alors que H1 est vraie
• Puissance du test
P = 1-β : probabilité de rejeter H0
alors que H1 est vraie
β
α
tcrit
p. 8/22
ANOVA à un facteur – comparaison de k moyennes (1)
{
• k échantillons X i = X i1 … X in
i
}
k variantes du facteur mis sous contrôle
Répétitions
X 11
!
!
X 1n1
X1
X i1
!
!
X ini
!
H0: µ1 = … = µi = … = µk
Xi
X k1
!
X knk
!
Xk
H1: ∃ (i1 ≠ i2) tq. µi1 ≠ µi2
• Conditions d’application
- indépendance
- normalité
- homogénéité des variances (homoscédasticité)
p. 9/22
ANOVA à un facteur – comparaison de k moyennes (2)
• modèle
X ij = µ + " i + ! ij
" ij # N (0, ! )
σ2 : erreur expérimentale
• estimation des effets du facteur
X ij ! X = ( X i ! X ) + ( X ij ! X i )
X : estimateur sans biais de µ
X i ! X : estimateur sans biais de α
i
• somme des carrés des écarts à la moyenne (SCE)
• carrés moyens (CM)
p. 10/22
ANOVA à un facteur – comparaison de k moyennes (3)
• Tableau d’analyse de variance
Variation
SCE
Facteur
SCE f =
Aléatoire
SCEe =
ddl
! n (X
i
i
"X
i
! (X
ij
" Xi
ij
!X
)
2
ij
Totale
)
SCEt =
" (X
)
2
CM
k !1
CM f =
N !k
CM e =
SCE f
k !1
SCEe
N !k
2
ij
= SCE f + SCEe
N !1
N=
!n
i
i
• Interprétation
- Indépendamment du facteur, CMe est une estimée de σ2
- Si les αi sont nuls, CMf est une estimation de σ2, indépendante de CMe
⇒Statistique de Fischer-Snedecor H0: αi = 0 pour tout
i
CM f
F=
est comparé à la valeur critique
CM e
F1!" [k ! 1, N ! k ]
p. 11/22
ANOVA à un facteur – comparaison de k moyennes (4)
• Si H0 est rejetée, quelles moyennes diffèrent deux à deux ?
⇒ Question des comparaisons multiples…
p. 12/22
Comparaisons multiples (1)
• Enjeu: contrôler l’erreur de type-I (α)
- taux d’erreur par comparaison (PC): α
- taux d’erreur par familles de comparaisons (FW): 1-(1-α)C
C : nombre de comparaisons
indépendantes
PC " FW " C!
• Deux types d’approches
- Comparaisons a priori (avant toute analyse)
- Comparaisons a posteriori (après observation des résultats)
p. 13/22
Comparaisons multiples (2)
• Méthodes considérées
- Contrastes linéaires
- t de Bonferroni
- t multiples protégés (LSD)
- Tukey (HSD)
• Tableau récapitulatif
Test
Erreur
contrôlée
Comparaison
Type
Condition
d’application
Contrastes
PC
Tout contraste
F
A priori
t de Bonferroni
FW
Tout contraste
t corrigé
A priori
LSD
FW
Paires
t
A posteriori
Paires
q
A posteriori
(ANOVA requise)
Tukey
FW
p. 14/22
Comparaisons multiples (3)
• Contrastes linéaires
" =
!c
i
Xi
!c
avec
i
=0
i
• Décomposition de la variabilité due au facteur
(2
n( 2
SCE( =
=
2
2
c
'
i $
c
i
% ni "
&
#
i
i
!
i
!
si
ni = n
∀i
• Test
F! =
CM !
CM e
=
SCE!
CM e
est comparé à la valeur critique
F1!" [1, N ! k ]
• Ne contrôle pas FW
- choisir un petit α
- être parcimonieux dans le nombre de contrastes (e.g contrastes orthogonaux)
- utiliser le test t corrigé de Bonferroni
p. 15/22
Comparaisons multiples (4)
• Test t de Bonferroni
PC " FW " C!
- L’erreur de type-I pour chaque comparaison (PC) est prise égale à
!
C
- Le nombre C de comparaisons est fixé a priori
• Test
- Test t habituel, seule les tables de comparaisons changent
p. 16/22
Comparaisons multiples (5)
• t multiples protégés (LSD)
- S’applique uniquement une fois H0 de l’ANOVA complète rejetée
- Ne contrôle pas le FW, déconseillé au-delà de 3 comparaisons
p. 17/22
Comparaisons multiples (6)
• Tukey (HSD)
- A posteriori
- FW contrôlée à hauteur de α, ∀ H0
- Moins puissant, conservateur
• Test
- Tables q(k , N ! k ) avec q = t 2
p. 18/22
Application (1)
• Données de Howell (chap. 12) : Tolérance à la morphine [Siegel 1975]
• Résumé
- La morphine permet d’atténuer la douleur
- Une administration répétée de morphine diminue son effet (tolérance)
- Existe t'il un effet conditionné (appris) qui compenserait l’effet naturel de
la morphine ?
- Est-ce que l’effet de la morphine disparaît complètement au bout d’un
certain nombre d’administrations ?
- L’effet du conditionnement est-il lié à l’environnement ?
- Après administration répétée de morphine, l’absence de morphine rend
elle plus sensible à la douleur ?
p. 19/22
Application (2)
• Expérience de Siegel
- 5 groupes de rats qui ont déjà subis 3 injections, la mesure est effectuée
après la quatrième injection
- Le rat est placé sur une plaque chauffante. Quand la température
devient difficile à supporter, le rat commence à se lécher les pattes
- La variable dépendante est la latence (en secondes) à laquelle l’animal
commence à se lécher les pattes
• Groupes
• Prédictions
M-M
(3x) morphine + morphine
M-S
(3x) morphine + solution saline
Mc-M
(3x) morphine dans autre environnement + morphine
S-M
(3x) solution saline + morphine
S-S
(3x) solution saline + solution saline
S ! M = Mc ! M > M ! M ? S ! S > M ! S
p. 20/22
Application (3)
• A vous de jouer…
- A la lecture de l’énoncé, êtes-vous d’accord avec les prédictions ?
- Lecture et analyse descriptive des données
- ANOVA 1
- Comparaison de toutes les paires à l’aide du test t corrigé de Bonferroni
- Contrastes linéaires
M-S
M-M
S-S
S-M
Mc-M
-3
2
-3
2
2
0
-1
0
0
1
-1
0
1
0
0
0
1
-1
0
0
- test de Tukey
(- Contrastes orthogonaux)
p. 21/22
Application (4)
• Fichiers (sur http://www.aliquote.org/cours/2006_cogmaster_A4/)
- tab12-1.dat
- 06_exos_sol.pdf
- aov.contr.R
• Fonctions R utiles… en vrac
read.table()
aov()
model.tables()
summary.lm()
c()
as.factor()
with()
contrasts()
anova()
as.numerci()
tapply()
summary()
pairwise.t.test()
rbin()
• N’hésitez pas à utiliser l’aide de R et à maltraiter les fonctions et leurs paramètres
p. 22/22
Téléchargement