ANALYSE DE VARIANCE
GLOSSAIRE
Analyse de variance
L’analyse de variance permet d’étudier l’influence d’une ou de
plusieurs variable(s) qualitative(s) sur une variable quantitative Y. La
variable Y est dite variable à expliquer, les variables qualitatives sont
appelées variables explicatives. Y est encore appelée variable dépendante,
les variables qualitatives variables indépendantes. Y est parfois appelée
réponse.
L’analyse de variance revient à comparer plusieurs moyennes
simultanément. Lorsque l’influence de plusieurs variables qualitatives est
étudiée, on décrit en plus les moyennes en tenant compte des effets des
différentes variables explicatives combinées, afin d’expliquer les
différences entre les moyennes.
L’analyse relève des méthodes de statistique inférentielle. Les
questions étudiées portent sur des paramètres caractéristiques de
populations. L’étude réalisée utilise des échantillons issus de ces
populations. C’est à partir de ces échantillons que des tests statistiques
permettent de conclure sur les paramètres étudiés.
L’analyse de variance est souvent codée ANOVA (Analysis Of
Variance).
Facteur
Dans le cadre de l’analyse de variance, une variable qualitative
explicative est appelée facteur. Une variable qualitative correspond à une
caractéristique observée sur les individus, qui permet de placer ceux-ci
dans des catégories de même nature (ex : couleur des yeux, race bovine,
régime alimentaire, type d’exploitation….). Les catégories sont appelées
modalités ou niveaux du facteur.
Selon l’étude réalisée, on utilisera la méthode d’analyse de variance
à un facteur, à deux facteurs croisés, à trois facteurs…
Modalité
Une modalité équivaut à une valeur prise par une variable qualitative
(c’est une catégorie décrite par cette variable). Si les modalités sont
naturellement ordonnées (ex : peu sucré, sucré, très sucré), la variable
est qualitative ordinale. S’il n’y a pas d’ordre entre les modalités (ex :
Charolais, Limousin, Aubrac), la variable est qualitative nominale.
Facteurs croisés
Deux facteurs sont croisés si chaque modalité du premier facteur est
combinée à chacune des modalités du deuxième facteur.
1
Modèle
Un modèle est une expression mathématique visant à décrire ou à
prédire la réalité. Le modèle décrit l’influence d’une ou plusieurs variables
sur la variable à expliquer Y
Chaque valeur mesurée sur un individu pour la variable Y est
décomposée en deux termes qui s’ajoutent : un terme correspondant au
modèle et décrivant l’influence des variables explicatives et un terme
appelé résidu du modèle.
Individu statistique
Les individus statistiques sont les éléments (les unités) de même
nature sur lesquels sont mesurées ou observées des variables (ex :
personnes / couleur des yeux, vaches / race bovine, exploitations agricole
/ type d’exploitation…).
L’ensemble des individus statistiques constitue une population si cet
ensemble est complet. Une population peut être infinie.
L’ensemble des individus statistiques constitue un échantillon, s’il
correspond à une partie d’une population.
Echantillon aléatoire
Un échantillon est aléatoire si chacun des individus qui le constituent
a été tiré de la population au hasard et avec la même probabilité. Un
échantillon aléatoire et simple correspond à des tirages équiprobables et
indépendants. La réalisation de tels échantillons permet de respecter le
postulat d’indépendance de l’analyse de variance. Il est donc très
important de travailler avec des échantillons aléatoires.
Répétitions
Une étude présente des répétitions si plusieurs individus
statistiques différents sont mesurés pour chaque modalité du facteur
étudié.
Un modèle peut décrire (ou prédire) assez bien la réalité sans
fournir d’explication correcte de celle-ci (attention à l’explication
biologique du modèle, par exemple).
Paramètre
Un paramètre du modèle est un terme qui traduit l’influence d’une
variable explicative sur la variable Y.
Pour les modèles d’analyse de variance, les paramètres sont des
espérances (des moyennes de populations) ou des écarts entre des
espérances, dont les valeurs traduisent l’effet des modalités d’un facteur.
Ce sont donc des valeurs exprimées dans l’unité de Y.
Résidu
Le résidu est la différence entre la valeur observée sur un individu et
la valeur prédite par le modèle. Le résidu, encore appelé erreur du modèle
ou écart du modèle, dépend de :
2
-
ce que le modèle ne décrit pas (omission de variables
explicatives dans le modèle)
l’effet individuel. Celui-ci traduit la part de la valeur observée
due à l’individu. Des individus avec les mêmes caractéristiques pour
les variables explicatives n’ont pas les mêmes valeurs car la variable
Y présente une variabilité naturelle.
L’erreur expérimentale, l’erreur commise lors de la mesure.
Cette erreur doit donc être minimisée.
La variance résiduelle (variance des résidus) mesure la dispersion des
résidus. Si aucune variable n’est omise dans le modèle, cette variance
résulte de la variabilité entre individus et de la variabilité des erreurs
de mesure. Elle mesure la variabilité existant dans chaque population
correspondant à une modalité du facteur étudié (ou à chaque
combinaison des facteurs étudiés).
Modèle linéaire
Un modèle est linéaire si son expression mathématique est une
combinaison linéaire des paramètres du modèle. Pour l’analyse de
variance, cette combinaison linéaire est une somme de paramètres. Les
résidus sont des variables aléatoires qui suivent des conditions qu’on
appelle postulats du modèle linéaire.
Test statistique / Statistique de test
Un test statistique permet de choisir une hypothèse relative à des
populations, parmi deux hypothèses envisagées, H0 et H1. Une seule de
ces hypothèses est vraie.
La décision est basée sur une statistique de test dont la valeur est
calculée à partir des échantillons.
La statistique de test suit une loi de probabilité connue quand
l’hypothèse nulle H0 est vraie. Quelle que soit la décision prise à l’issue du
test statistique, elle est assortie d’une erreur ayant une probabilité. Si on
rejette H0 (c'est-à-dire si on accepte H1), l’erreur commise, rejeter H0
alors qu’elle est vraie, est l’erreur de première espèce. Sa probabilité est
appelée risque de 1ère espèce,  ; elle est fixée a priori par la personne
interprétant l’étude. Si on accepte H0, l’erreur commise, accepter H0 alors
qu’elle est fausse, s’appelle l’erreur de deuxième espèce. Sa probabilité
est le risque de 2ème espèce,  ; sa valeur n’est pas connue (mais peut
être calculée) et dépend de l’hypothèse H1.
Un test statistique est paramétrique si les deux hypothèses
formulées portent sur des paramètres caractérisant une variable dans des
populations. Les tests statistiques utilisés en analyse de variance sont des
tests paramétriques car ils font intervenir des moyennes de populations.
Statistique inférentielle
C’est l’ensemble des méthodes qui permettent de
populations en utilisant les observations réalisées sur
issus des populations. A partir des échantillons, on
populations, à l’aide d’intervalles de confiance ou de tests
3
caractériser des
des échantillons
conclut sur les
statistiques.
Interaction
Dans le modèle, les termes d’interaction décrivent l’influence propre
à chaque combinaison de deux facteurs croisés. D’un point de vue
statistique, l’interaction est l’écart au modèle additif ; c'est-à-dire que le
terme d’interaction s’ajoute aux effets moyens des deux facteurs pour
décrire l’influence de la combinaison sur la variable Y.
Si l’interaction est non significative, les effets moyens des facteurs A
et B informent correctement sur l’influence des deux facteurs. La
connaissance des effets moyens i et j suffit pour prédire l’effet de la
combinaison AiBj. Si l’interaction est significative, la somme des effets
moyens n’est pas suffisante pour décrire l’influence de la combinaison des
facteurs sur Y. Conclure à partir des tests sur les effets moyens est
insuffisant, voire erroné.
Si l’interaction est significative, l’effet du facteur A dépend de la
modalité du facteur B avec laquelle le facteur A est combiné (et
réciproquement). Par exemple, s’il y a interaction entre la dose d’azote
(facteur A) et la variété de blé (facteur B) pour le rendement, cela signifie
que les différences entre les rendements obtenus avec les doses testées
varient selon la variété considérée.
Une interaction significative indique que les deux facteurs
agissent sur la variable Y.
4