Biostatistiques et statistiques appliquées aux sciences expérimentales Rappels et pratique de la comparaison de moyennes (test t, ANOVA 1, comparaisons multiples) Jérémie Mattout#, Pascal Bessonneau Cogmaster A4 2006-2007* # [email protected] http://www.aliquote.org/cours/2006_cogmaster_A4/ p. 1/22 Programme de la séance • Comparaison de deux moyennes (test-t) H0: µ = 0 ou µ1 = µ2 • Comparaison de k moyennes (k > 2 i.e. ANOVA 1) H0: µ1 = … = µi = … = µk • Comparaisons multiples (exercices) p. 2/22 Définitions générales • Population de moyenne µ et de variance σ2 • Echantillon tiré de cette population (tirages indépendants) {X1 … Xi … XN} • Statistiques (caractéristiques d’échantillon) 1 - moyenne X = N - variance s 2 N !X i (estimateur sans biais de µ) i =1 1 = N "1 ! (X N i =1 i "X ) (estimateur sans biais de σ ) 2 2 p. 3/22 Statistiques de la distribution d’échantillonnage de la moyenne • Distribution de X - moyenne µX - variance σX2 • Théorème central limite « Etant do nné une po pulatio n de m o yenne µ et variance σ2 , la distrib utio n d ’ échantillo nnag e de la m o yenne a po ur m o yenne µX = µ et variance σX 2 =σ2 /N et cette distrib utio n appro che une distrib utio n no rm ale lo rsque la taille de l’ échantillo n N aug m ente. » p. 4/22 Comparaison de deux moyennes (1) H0: µX = µ H1: µX ≠ µ • Cas de variance σ2 connue et/ou N grand (>30) : X "µ X "µ z= = ! !X z ~ Normal(0,1) N -1,96 1,96 z p. 5/22 Comparaison de deux moyennes (2) H0: µX = µ H1: µX ≠ µ • Cas de variance inconnue et N petit : test t t= X !µ X !µ = s sX t ~ t(N-1) ddl = N-1 N • Conditions d’application - indépendance - normalité - homogénéité des variances (homoscédasticité) p. 6/22 Comparaison de deux moyennes (3) • Cas de 2 échantillons appariés (H0: µD = 0 ) t= D ! µD sD N • Cas de 2 échantillons indépendants (H0: µ1 = µ2) indépendance ⇒ σD2 = σ12/N1 + σ22/N2 Homoscédasticité (ddl = N1 + N2 2) t= (X 1 ' X2 ) & s 2p $$ 1 1 # !! + % N1 N 2 " s 2p = Hétéroscédasticité (correction de Welch) t= (X 1 ! X2 ) s12 s 22 + N1 N 2 (N1 ! 1)s12 + (N 2 ! 1)s22 N1 + N 2 ! 2 p. 7/22 Comparaison de deux moyennes (4) • Intervalle de confiance (IC) IC95 = X ± t 0.975 = D ± t 0.975 s p s IC99 = X ± t 0.995 N 1 1 + N1 N 2 H0 s N H1 • Erreur de type-I α : probabilité de rejeter H0 alors que H0 est vraie • Erreur de type-II β : probabilité de rejeter H1 alors que H1 est vraie • Puissance du test P = 1-β : probabilité de rejeter H0 alors que H1 est vraie β α tcrit p. 8/22 ANOVA à un facteur – comparaison de k moyennes (1) { • k échantillons X i = X i1 … X in i } k variantes du facteur mis sous contrôle Répétitions X 11 ! ! X 1n1 X1 X i1 ! ! X ini ! H0: µ1 = … = µi = … = µk Xi X k1 ! X knk ! Xk H1: ∃ (i1 ≠ i2) tq. µi1 ≠ µi2 • Conditions d’application - indépendance - normalité - homogénéité des variances (homoscédasticité) p. 9/22 ANOVA à un facteur – comparaison de k moyennes (2) • modèle X ij = µ + " i + ! ij " ij # N (0, ! ) σ2 : erreur expérimentale • estimation des effets du facteur X ij ! X = ( X i ! X ) + ( X ij ! X i ) X : estimateur sans biais de µ X i ! X : estimateur sans biais de α i • somme des carrés des écarts à la moyenne (SCE) • carrés moyens (CM) p. 10/22 ANOVA à un facteur – comparaison de k moyennes (3) • Tableau d’analyse de variance Variation SCE Facteur SCE f = Aléatoire SCEe = ddl ! n (X i i "X i ! (X ij " Xi ij !X ) 2 ij Totale ) SCEt = " (X ) 2 CM k !1 CM f = N !k CM e = SCE f k !1 SCEe N !k 2 ij = SCE f + SCEe N !1 N= !n i i • Interprétation - Indépendamment du facteur, CMe est une estimée de σ2 - Si les αi sont nuls, CMf est une estimation de σ2, indépendante de CMe ⇒Statistique de Fischer-Snedecor H0: αi = 0 pour tout i CM f F= est comparé à la valeur critique CM e F1!" [k ! 1, N ! k ] p. 11/22 ANOVA à un facteur – comparaison de k moyennes (4) • Si H0 est rejetée, quelles moyennes diffèrent deux à deux ? ⇒ Question des comparaisons multiples… p. 12/22 Comparaisons multiples (1) • Enjeu: contrôler l’erreur de type-I (α) - taux d’erreur par comparaison (PC): α - taux d’erreur par familles de comparaisons (FW): 1-(1-α)C C : nombre de comparaisons indépendantes PC " FW " C! • Deux types d’approches - Comparaisons a priori (avant toute analyse) - Comparaisons a posteriori (après observation des résultats) p. 13/22 Comparaisons multiples (2) • Méthodes considérées - Contrastes linéaires - t de Bonferroni - t multiples protégés (LSD) - Tukey (HSD) • Tableau récapitulatif Test Erreur contrôlée Comparaison Type Condition d’application Contrastes PC Tout contraste F A priori t de Bonferroni FW Tout contraste t corrigé A priori LSD FW Paires t A posteriori Paires q A posteriori (ANOVA requise) Tukey FW p. 14/22 Comparaisons multiples (3) • Contrastes linéaires " = !c i Xi !c avec i =0 i • Décomposition de la variabilité due au facteur (2 n( 2 SCE( = = 2 2 c ' i $ c i % ni " & # i i ! i ! si ni = n ∀i • Test F! = CM ! CM e = SCE! CM e est comparé à la valeur critique F1!" [1, N ! k ] • Ne contrôle pas FW - choisir un petit α - être parcimonieux dans le nombre de contrastes (e.g contrastes orthogonaux) - utiliser le test t corrigé de Bonferroni p. 15/22 Comparaisons multiples (4) • Test t de Bonferroni PC " FW " C! - L’erreur de type-I pour chaque comparaison (PC) est prise égale à ! C - Le nombre C de comparaisons est fixé a priori • Test - Test t habituel, seule les tables de comparaisons changent p. 16/22 Comparaisons multiples (5) • t multiples protégés (LSD) - S’applique uniquement une fois H0 de l’ANOVA complète rejetée - Ne contrôle pas le FW, déconseillé au-delà de 3 comparaisons p. 17/22 Comparaisons multiples (6) • Tukey (HSD) - A posteriori - FW contrôlée à hauteur de α, ∀ H0 - Moins puissant, conservateur • Test - Tables q(k , N ! k ) avec q = t 2 p. 18/22 Application (1) • Données de Howell (chap. 12) : Tolérance à la morphine [Siegel 1975] • Résumé - La morphine permet d’atténuer la douleur - Une administration répétée de morphine diminue son effet (tolérance) - Existe t'il un effet conditionné (appris) qui compenserait l’effet naturel de la morphine ? - Est-ce que l’effet de la morphine disparaît complètement au bout d’un certain nombre d’administrations ? - L’effet du conditionnement est-il lié à l’environnement ? - Après administration répétée de morphine, l’absence de morphine rend elle plus sensible à la douleur ? p. 19/22 Application (2) • Expérience de Siegel - 5 groupes de rats qui ont déjà subis 3 injections, la mesure est effectuée après la quatrième injection - Le rat est placé sur une plaque chauffante. Quand la température devient difficile à supporter, le rat commence à se lécher les pattes - La variable dépendante est la latence (en secondes) à laquelle l’animal commence à se lécher les pattes • Groupes • Prédictions M-M (3x) morphine + morphine M-S (3x) morphine + solution saline Mc-M (3x) morphine dans autre environnement + morphine S-M (3x) solution saline + morphine S-S (3x) solution saline + solution saline S ! M = Mc ! M > M ! M ? S ! S > M ! S p. 20/22 Application (3) • A vous de jouer… - A la lecture de l’énoncé, êtes-vous d’accord avec les prédictions ? - Lecture et analyse descriptive des données - ANOVA 1 - Comparaison de toutes les paires à l’aide du test t corrigé de Bonferroni - Contrastes linéaires M-S M-M S-S S-M Mc-M -3 2 -3 2 2 0 -1 0 0 1 -1 0 1 0 0 0 1 -1 0 0 - test de Tukey (- Contrastes orthogonaux) p. 21/22 Application (4) • Fichiers (sur http://www.aliquote.org/cours/2006_cogmaster_A4/) - tab12-1.dat - 06_exos_sol.pdf - aov.contr.R • Fonctions R utiles… en vrac read.table() aov() model.tables() summary.lm() c() as.factor() with() contrasts() anova() as.numerci() tapply() summary() pairwise.t.test() rbin() • N’hésitez pas à utiliser l’aide de R et à maltraiter les fonctions et leurs paramètres p. 22/22