L’analyse de variance à deux critère de classification Objectif : comparer l’influence de chaque facteur sur la moyenne de plusieurs (k) groupes indépendants d’observations La méthode détaillée ci-dessous s’applique uniquement quand les deux critères (variables qualitatives)sont indépendants, et s’il y a une seule unité d’expérimentation pour chaque groupe. -La première variable qualitative a r catégories et - la deuxième a s catégories - r x s observations Cette analyse correspond grosso modo à une double ANOVA à un critère de classification Cette méthode nous permet uniquement de tester l’effet de chaque critère uniquement, mais PAS l’interaction H0 : Les moyennes de la variable x ne sont pas affectées par le critère A. µ1 = µ2 = … = µr H0 : Les moyennes de la variable x ne sont pas affectées par le critère B. µ1 = µ2 = … = µs Puisqu’on a deux séries d’hypothèses, on a deux statistiques F : T = ∑ ( ∑∑ x ) 2 Exemple : Robert !!! Robert s’intéresse à l’effet des strates d’un lac et du type de nutriments présents dans 4 différentes zones du lac sur la quantité de bactéries présentes dans l’eau. Robert veut être certain d’avoir de la bonne eau à son chalet. Étape 1 : Question biologique •Est-ce que le nombre de bactéries par mL d’eau varie selon la strate à laquelle l’échantillon a été pris ? •Est-ce que le nombre de bactéries par mL d’eau varie selon le traitement ? Étape 2 : Hypothèses H0 : La profondeur n’affecte pas le nombre de bactéries par mL (hypothèse A) H1 : La profondeur affecte le nombre de bactéries par mL (hypothèse A) H0 : La présence de nutriments n’affecte pas le nombre de bactéries par mL (hypothèse B) H1 : La présence de nutriments affecte le nombre de bactéries par mL (hypothèse B) Étape 3 :Choix du test Le test statistique utilisé est une ANOVA à deux critères de classification où : Étape 4 : Conditions d’application • Normalité des données dans tous les groupes et ce, pour chaque combinaison des critères • Indépendance des observations • Équivariance de ces groupes Étape 5 : Distribution de la variable auxiliaire Sous H0, la variable FA se distribue selon la loi de Fisher à υ1 = (r-1) = 2 et υ2 = (r-1)(s-1) = 8 degrés de liberté et la variable FB se distribue selon la loi de Fisher à υ1 = (s-1) = 4 et υ2 = (r-1)(s-1) = 8 d.d.l. Étape 6 : Règles de décision Pour un seuil α = 0.05 On rejette H0 (il y a un effet des strates) si FA > 4,46. On rejette H0 (il y a un effet des traitements) si FB > 3,84 Étape 7 : Calcul du test Étape 8 : Décision statistique Puisque FA = 9,71 > 4,46, on rejette H0 : Les strates ont un effet des sur le nombre de bactéries. Puisque FB = 1,91 < 3,84, on ne rejette pas H0 : pas d’effet des traitements sur le nombre de bactéries. Étape 9 : Interprétation biologique Les bactéries sont sensibles à la concentration d’oxygène, qui varie passablement entre les différentes strates d’un lac, mais pas aux types de nutriments qui ont été utilisés lors de l’expérience. ANOVA factorielle à deux critères de classification n égaux = orthogonal experimental design Ce type d’ANOVA permet de tester, en plus de l’effet isolé de chacun des facteurs, l’effet de l’interaction des deux. Pour cela il faut disposer de plusieurs mesures pour chaque combinaison de niveaux, c’est-à-dire dans chaque cellule. Les résultats permettent de tester trois séries d’hypothèses : H0 : Les moyennes de la variable x ne sont pas affectées par le critère A. µ1 = µ2 = … = µr H0 : Les moyennes de la variable x ne sont pas affectées par le critère B. µ1 = µ2 = … = µs H0 : Les critères A et B n’interagissent pas sur les moyennes. SC = Somme des carrés des écarts • Dispersion totale = SCT • Dispersion intragroupe (“due aux erreurs”) = SCE • Dispersion due aux facteur A ou B = SCEA ou SCEB • Dispersion des cellules = SCcells Mesure de la dispersion (variation) totale SCT a b n SCT = ∑∑∑ X − C 2 d.d.l. = N-1 a C= b n ∑∑∑ X N 2 Mesure de la dispersion (variation) du facteur A 2 ∑ ∑∑ X SCA = −C bn a b n d.d.l. = a-1 Mesure de la dispersion (variation) du facteur B 2 ∑ ∑∑ X SCB = −C an b a n d.d.l. = b-1 Mesure de la dispersion (variation) des cellules SCcells 2 ∑∑ ∑ X SCcells = −C n a b n d.d.l. = ab-1 Mesure de la dispersion (variation) de l’interaction AxB SCAB SCAB = SCcells – (SCA + SCB) d.d.l. = (a-1)(b-1) Mesure de la dispersion (variation) intragroupe (dûe aux erreurs) SCE SCE= SCT – SCcells d.d.l. = ab(n-1) Calculs : Interaction T = ∑ ( ∑∑ x ) 2 Exemple : Le régime miracle ! On désire quantifier l’efficacité de trois types de régimes, de quatre intensités d’activité physique ainsi que l’interaction de ces deux critères sur la perte de poids. Étape 1 : Question biologique Quel est l’effet du régime, de l’exercice physique ainsi que de leur interaction sur la perte de poids ? Étape 2 : Déclaration des hypothèses H0 : Le régime n’affecte pas la perte de poids (hypothèse A) µreg1 = µreg2 = µreg3 H1 : Le régime affecte la perte de poids (hypothèse A) µi≠ µj pour au moins un i ≠ j H0 : L’activité physique n’affecte pas la perte de poids (hypothèse B) µex1 = µex2 = µex3 H1 : L’activité physique affecte la perte de poids (hypothèse B) µi≠ µj pour au moins un i ≠ j H0 : L’activité physique et le régime n’interagissent pas sur la perte de poids H1 : L’activité physique et le régime interagissent sur la perte de poids. Étape 3 : Choix du test Le test statistique utilisé est une ANOVA factorielle à deux critères de classification où : Étape 4 : Conditions d’application • Normalité des données dans tous les groupes et ce, pour chaque combinaison des critères • Équivariance de ces groupes • Indépendance des observations Étape 5 : Distribution de la variable auxiliaire Sous H0, la variable FA se distribue selon la loi de Fisher à υ1 = (r-1) = 2 et υ2 = rs(k-1) = 60 d.d.l. la variable FB se distribue selon la loi de Fisher à υ1 = (s-1) = 3 et υ2 = rs(k-1) = 60 d.d.l. la variable FAB se distribue selon la loi de Fisher à υ1 = (r-1)(s-1) = 6 et υ2 = rs(k-1) = 60 d.d.l. Étape 6 : Règles de décision Pour un seuil α = 0,05 : On rejette H0 (donc il y a un effet des régimes) si FA > 3,15. On rejette H0 (donc il y a un effet des exercices) si FB > 2,76 On rejette H0 (donc il y a une interaction) si FAB > 2,25. Étape 7 : Calcul du test Étape 8 : Décision statistique Puisque FA = 3,435 > 3,15, on rejette H0 : il y a un effet des régimes. Puisque FB = 26,743 > 2,76, on rejette H0 : il y a un effet des exercices. Puisque FAB = 3,954 > 2,25, on rejette H0 : il y a une interaction. Étape 9 : Interprétation biologique Le régime et l’exercice physique permettent de perdre du poids car ils permettent de contrôler le taux de gras. De plus, l’effet du régime sur la perte de poids variera en fonction de l’activité physique et vice-versa. Modèle I : les 2 facteurs ont des effets fixes Modèle II : les niveaux des facteurs sont aléatoires Modèle III : modèle mixte entre I et II effet Modèle I A & B fixes Modèle II A &B aléatoires Modèle III A fixe & B aléatoire Facteur A CM A/CM e CM A/CM AB CM A/CM AB Facteur B CM B/CM e CM B/CM AB CM B/CM e Interaction A x B CM AB/CM e CM AB/CM e CM AB/CMe ANOVA factorielle à deux critères de classification n inégaux et non proportionnels S’il manque une mesure ou qqes, on peut l’estimer selon la formule : Xˆ = aAi + bB j + cCl + ..... − (k − 1)∑ X N + k − 1 − a − b − c − .... Somme de toutes les données dans le niveau i du facteur A Somme de toutes les autres données Ou plus simple on remplace par les cellules manquantes par la valeur moyenne des données, puis on fait l’anova MAIS avec le ddl total et le ddl des cellules calculés sur le vrai nombre de mesures S’il en manque plus… Voir les modèles GLM (General Linear Model) ou …on recommence tout