bactéries nombre analyser

publicité
L’analyse de variance à deux critère de classification
Objectif : comparer l’influence de chaque facteur sur la moyenne de plusieurs (k)
groupes indépendants d’observations
La méthode détaillée ci-dessous s’applique uniquement quand les deux critères
(variables qualitatives)sont indépendants, et s’il y a une seule unité
d’expérimentation pour chaque groupe.
-La première variable qualitative a r catégories et
- la deuxième a s catégories
- r x s observations
Cette analyse correspond grosso modo à une double ANOVA à un
critère de classification
Cette méthode nous permet uniquement de tester l’effet de
chaque critère uniquement, mais PAS l’interaction
H0 : Les moyennes de la variable x ne sont pas affectées par le critère A.
µ1 = µ2 = … = µr
H0 : Les moyennes de la variable x ne sont pas affectées par le critère B.
µ1 = µ2 = … = µs
Puisqu’on a deux séries d’hypothèses, on a deux statistiques F :
T = ∑ ( ∑∑ x )
2
Exemple : Robert !!!
Robert s’intéresse à l’effet des strates d’un lac et du type de nutriments présents dans
4 différentes zones du lac sur la quantité de bactéries présentes dans l’eau. Robert
veut être certain d’avoir de la bonne eau à son chalet.
Étape 1 : Question biologique
•Est-ce que le nombre de bactéries par mL d’eau varie selon la strate à laquelle
l’échantillon a été pris ?
•Est-ce que le nombre de bactéries par mL d’eau varie selon le traitement ?
Étape 2 : Hypothèses
H0 : La profondeur n’affecte pas le nombre de bactéries par mL (hypothèse A)
H1 : La profondeur affecte le nombre de bactéries par mL (hypothèse A)
H0 : La présence de nutriments n’affecte pas le nombre de bactéries par mL
(hypothèse B)
H1 : La présence de nutriments affecte le nombre de bactéries par mL (hypothèse B)
Étape 3 :Choix du test
Le test statistique utilisé est une ANOVA à deux critères de classification où :
Étape 4 : Conditions d’application
• Normalité des données dans tous les groupes et ce, pour chaque combinaison
des critères
• Indépendance des observations
• Équivariance de ces groupes
Étape 5 : Distribution de la variable auxiliaire
Sous H0, la variable FA se distribue selon la loi de Fisher à υ1 = (r-1) = 2 et
υ2 = (r-1)(s-1) = 8 degrés de liberté et la variable FB se distribue selon la loi de Fisher
à υ1 = (s-1) = 4 et υ2 = (r-1)(s-1) = 8 d.d.l.
Étape 6 : Règles de décision
Pour un seuil α = 0.05
On rejette H0 (il y a un effet des strates) si FA > 4,46.
On rejette H0 (il y a un effet des traitements) si FB > 3,84
Étape 7 : Calcul du test
Étape 8 : Décision statistique
Puisque FA = 9,71 > 4,46, on rejette H0 : Les strates ont un effet des sur le nombre
de bactéries.
Puisque FB = 1,91 < 3,84, on ne rejette pas H0 : pas d’effet des traitements sur le
nombre de bactéries.
Étape 9 : Interprétation biologique
Les bactéries sont sensibles à la concentration d’oxygène, qui varie passablement
entre les différentes strates d’un lac, mais pas aux types de nutriments qui ont été
utilisés lors de l’expérience.
ANOVA factorielle à deux critères de classification
n égaux = orthogonal experimental design
Ce type d’ANOVA permet de tester, en plus de l’effet isolé de chacun des facteurs,
l’effet de l’interaction des deux. Pour cela il faut disposer de plusieurs mesures
pour chaque combinaison de niveaux, c’est-à-dire dans chaque cellule.
Les résultats permettent de tester trois séries d’hypothèses :
H0 : Les moyennes de la variable x ne sont pas affectées par le critère A.
µ1 = µ2 = … = µr
H0 : Les moyennes de la variable x ne sont pas affectées par le critère B.
µ1 = µ2 = … = µs
H0 : Les critères A et B n’interagissent pas sur les moyennes.
SC = Somme des carrés des écarts
• Dispersion totale = SCT
• Dispersion intragroupe (“due aux erreurs”) = SCE
• Dispersion due aux facteur A ou B = SCEA ou SCEB
• Dispersion des cellules = SCcells
Mesure de la dispersion (variation) totale SCT
a
b
n
SCT = ∑∑∑ X − C
2
d.d.l. = N-1
a
C=
b
n
∑∑∑ X
N
2
Mesure de la dispersion (variation) du facteur A
2


∑  ∑∑ X 
SCA =
−C
bn
a
b
n
d.d.l. = a-1
Mesure de la dispersion (variation) du facteur B
2


∑  ∑∑ X 
SCB =
−C
an
b
a
n
d.d.l. = b-1
Mesure de la dispersion (variation) des cellules SCcells
2


∑∑  ∑ X 
SCcells =
−C
n
a
b
n
d.d.l. = ab-1
Mesure de la dispersion (variation) de l’interaction AxB SCAB
SCAB = SCcells – (SCA + SCB)
d.d.l. = (a-1)(b-1)
Mesure de la dispersion (variation) intragroupe (dûe aux erreurs) SCE
SCE= SCT – SCcells
d.d.l. = ab(n-1)
Calculs :
Interaction
T = ∑ ( ∑∑ x )
2
Exemple : Le régime miracle !
On désire quantifier l’efficacité de trois types de régimes, de quatre intensités d’activité
physique ainsi que l’interaction de ces deux critères sur la perte de poids.
Étape 1 : Question biologique
Quel est l’effet du régime, de l’exercice physique ainsi que de leur interaction sur la
perte de poids ?
Étape 2 : Déclaration des hypothèses
H0 : Le régime n’affecte pas la perte de poids (hypothèse A)
µreg1 = µreg2 = µreg3
H1 : Le régime affecte la perte de poids (hypothèse A)
µi≠ µj pour au moins un i ≠ j
H0 : L’activité physique n’affecte pas la perte de poids (hypothèse B)
µex1 = µex2 = µex3
H1 : L’activité physique affecte la perte de poids (hypothèse B)
µi≠ µj pour au moins un i ≠ j
H0 : L’activité physique et le régime n’interagissent pas sur la perte de poids
H1 : L’activité physique et le régime interagissent sur la perte de poids.
Étape 3 : Choix du test
Le test statistique utilisé est une ANOVA factorielle à deux critères de classification où :
Étape 4 : Conditions d’application
• Normalité des données dans tous les groupes et ce, pour chaque
combinaison des critères
• Équivariance de ces groupes
• Indépendance des observations
Étape 5 : Distribution de la variable auxiliaire
Sous H0,
la variable FA se distribue selon la loi de Fisher à υ1 = (r-1) = 2 et υ2 = rs(k-1) = 60 d.d.l.
la variable FB se distribue selon la loi de Fisher à υ1 = (s-1) = 3 et υ2 = rs(k-1) = 60 d.d.l.
la variable FAB se distribue selon la loi de Fisher à υ1 = (r-1)(s-1) = 6 et υ2 = rs(k-1) = 60
d.d.l.
Étape 6 : Règles de décision
Pour un seuil α = 0,05 :
On rejette H0 (donc il y a un effet des régimes) si FA > 3,15.
On rejette H0 (donc il y a un effet des exercices) si FB > 2,76
On rejette H0 (donc il y a une interaction) si FAB > 2,25.
Étape 7 : Calcul du test
Étape 8 : Décision statistique
Puisque FA = 3,435 > 3,15, on rejette H0 : il y a un effet des régimes.
Puisque FB = 26,743 > 2,76, on rejette H0 : il y a un effet des exercices.
Puisque FAB = 3,954 > 2,25, on rejette H0 : il y a une interaction.
Étape 9 : Interprétation biologique
Le régime et l’exercice physique permettent de perdre du poids car ils permettent de
contrôler le taux de gras. De plus, l’effet du régime sur la perte de poids variera en
fonction de l’activité physique et vice-versa.
Modèle I : les 2 facteurs ont des effets fixes
Modèle II : les niveaux des facteurs sont aléatoires
Modèle III : modèle mixte entre I et II
effet
Modèle I
A & B fixes
Modèle II
A &B aléatoires
Modèle III
A fixe & B
aléatoire
Facteur A
CM A/CM e
CM A/CM AB
CM A/CM AB
Facteur B
CM B/CM e
CM B/CM AB
CM B/CM e
Interaction A x B
CM AB/CM e
CM AB/CM e
CM AB/CMe
ANOVA factorielle à deux critères de classification
n inégaux et non proportionnels
S’il manque une mesure ou qqes, on peut l’estimer selon la formule :
Xˆ =
aAi + bB j + cCl + ..... − (k − 1)∑ X
N + k − 1 − a − b − c − ....
Somme de toutes les données dans le niveau i du facteur A
Somme de toutes les autres données
Ou plus simple on remplace par les cellules manquantes par la valeur moyenne
des données, puis on fait l’anova MAIS avec le ddl total et le ddl des cellules
calculés sur le vrai nombre de mesures
S’il en manque plus…
Voir les modèles GLM (General Linear Model)
ou
…on recommence tout
Téléchargement