(Analysis Of Variance).

Téléchargement

ANALYSE DE VARIANCE

GLOSSAIRE

Analyse de variance

L’analyse de variance permet d’étudier l’influence d’une ou de

plusieurs variable(s) qualitative(s) sur une variable quantitative Y. La

variable Y est dite variable à expliquer, les variables qualitatives sont

appelées variables explicatives. Y est encore appelée variable dépendante,

les variables qualitatives variables indépendantes. Y est parfois appelée

réponse.

L’analyse de variance revient à comparer plusieurs moyennes

simultanément. Lorsque l’influence de plusieurs variables qualitatives est

étudiée, on décrit en plus les moyennes en tenant compte des effets des

différentes variables explicatives combinées, afin d’expliquer les

différences entre les moyennes.

L’analyse relève des méthodes de statistique inférentielle. Les

questions étudiées portent sur des paramètres caractéristiques de

populations. L’étude réalisée utilise des échantillons issus de ces

populations. C’est à partir de ces échantillons que des tests statistiques

permettent de conclure sur les paramètres étudiés.

L’analyse de variance est souvent codée ANOVA (Analysis Of

Variance).

Facteur

Dans le cadre de l’analyse de variance, une variable qualitative

explicative est appelée facteur. Une variable qualitative correspond à une

caractéristique observée sur les individus, qui permet de placer ceux-ci

dans des catégories de même nature (ex : couleur des yeux, race bovine,

régime alimentaire, type d’exploitation….). Les catégories sont appelées

modalités ou niveaux du facteur.

Selon l’étude réalisée, on utilisera la méthode d’analyse de variance

à un facteur, à deux facteurs croisés, à trois facteurs…

Modalité

Une modalité équivaut à une valeur prise par une variable qualitative

(c’est une catégorie décrite par cette variable). Si les modalités sont

naturellement ordonnées (ex : peu sucré, sucré, très sucré), la variable

est qualitative ordinale. S’il n’y a pas d’ordre entre les modalités (ex :

Charolais, Limousin, Aubrac), la variable est qualitative nominale.

Facteurs croisés

Deux facteurs sont croisés si chaque modalité du premier facteur est

combinée à chacune des modalités du deuxième facteur.

Modèle

Un modèle est une expression mathématique visant à décrire ou à

prédire la réalité. Le modèle décrit l’influence d’une ou plusieurs variables

sur la variable à expliquer Y

Chaque valeur mesurée sur un individu pour la variable Y est

décomposée en deux termes qui s’ajoutent : un terme correspondant au

modèle et décrivant l’influence des variables explicatives et un terme

appelé résidu du modèle.

Individu statistique

Les individus statistiques sont les éléments (les unités) de même

nature sur lesquels sont mesurées ou observées des variables (ex :

personnes / couleur des yeux, vaches / race bovine, exploitations agricole

/ type d’exploitation…).

L’ensemble des individus statistiques constitue une population si cet

ensemble est complet. Une population peut être infinie.

L’ensemble des individus statistiques constitue un échantillon, s’il

correspond à une partie d’une population.

Echantillon aléatoire

Un échantillon est aléatoire si chacun des individus qui le constituent

a été tiré de la population au hasard et avec la même probabilité. Un

échantillon aléatoire et simple correspond à des tirages équiprobables et

indépendants. La réalisation de tels échantillons permet de respecter le

postulat d’indépendance de l’analyse de variance. Il est donc très

important de travailler avec des échantillons aléatoires.

Répétitions

Une étude présente des répétitions si plusieurs individus

statistiques différents sont mesurés pour chaque modalité du facteur

étudié.

Un modèle peut décrire (ou prédire) assez bien la réalité sans

fournir d’explication correcte de celle-ci (attention à l’explication

biologique du modèle, par exemple).

Paramètre

Un paramètre du modèle est un terme qui traduit l’influence d’une

variable explicative sur la variable Y.

Pour les modèles d’analyse de variance, les paramètres sont des

espérances (des moyennes de populations) ou des écarts entre des

espérances, dont les valeurs traduisent l’effet des modalités d’un facteur.

Ce sont donc des valeurs exprimées dans l’unité de Y.

Résidu

Le résidu est la différence entre la valeur observée sur un individu et

la valeur prédite par le modèle. Le résidu, encore appelé erreur du modèle

ou écart du modèle, dépend de :

- ce que le modèle ne décrit pas (omission de variables

explicatives dans le modèle)

- l’effet individuel. Celui-ci traduit la part de la valeur observée

due à l’individu. Des individus avec les mêmes caractéristiques pour

les variables explicatives n’ont pas les mêmes valeurs car la variable

Y présente une variabilité naturelle.

- L’erreur expérimentale, l’erreur commise lors de la mesure.

Cette erreur doit donc être minimisée.

La variance résiduelle (variance des résidus) mesure la dispersion des

résidus. Si aucune variable n’est omise dans le modèle, cette variance

résulte de la variabilité entre individus et de la variabilité des erreurs

de mesure. Elle mesure la variabilité existant dans chaque population

correspondant à une modalité du facteur étudié (ou à chaque

combinaison des facteurs étudiés).

Modèle linéaire

Un modèle est linéaire si son expression mathématique est une

combinaison linéaire des paramètres du modèle. Pour l’analyse de

variance, cette combinaison linéaire est une somme de paramètres. Les

résidus sont des variables aléatoires qui suivent des conditions qu’on

appelle postulats du modèle linéaire.

Test statistique / Statistique de test

Un test statistique permet de choisir une hypothèse relative à des

populations, parmi deux hypothèses envisagées, H0 et H1. Une seule de

ces hypothèses est vraie.

La décision est basée sur une statistique de test dont la valeur est

calculée à partir des échantillons.

La statistique de test suit une loi de probabilité connue quand

l’hypothèse nulle H0 est vraie. Quelle que soit la décision prise à l’issue du

test statistique, elle est assortie d’une erreur ayant une probabilité. Si on

rejette H0 (c'est-à-dire si on accepte H1), l’erreur commise, rejeter H0

alors qu’elle est vraie, est l’erreur de première espèce. Sa probabilité est

appelée risque de 1ère espèce,  ; elle est fixée a priori par la personne

interprétant l’étude. Si on accepte H0, l’erreur commise, accepter H0 alors

qu’elle est fausse, s’appelle l’erreur de deuxième espèce. Sa probabilité

est le risque de 2ème espèce,  ; sa valeur n’est pas connue (mais peut

être calculée) et dépend de l’hypothèse H1.

Un test statistique est paramétrique si les deux hypothèses

formulées portent sur des paramètres caractérisant une variable dans des

populations. Les tests statistiques utilisés en analyse de variance sont des

tests paramétriques car ils font intervenir des moyennes de populations.

Statistique inférentielle

C’est l’ensemble des méthodes qui permettent de caractériser des

populations en utilisant les observations réalisées sur des échantillons

issus des populations. A partir des échantillons, on conclut sur les

populations, à l’aide d’intervalles de confiance ou de tests statistiques.

Interaction

Dans le modèle, les termes d’interaction décrivent l’influence propre

à chaque combinaison de deux facteurs croisés. D’un point de vue

statistique, l’interaction est l’écart au modèle additif ; c'est-à-dire que le

terme d’interaction s’ajoute aux effets moyens des deux facteurs pour

décrire l’influence de la combinaison sur la variable Y.

Si l’interaction est non significative, les effets moyens des facteurs A

et B informent correctement sur l’influence des deux facteurs. La

connaissance des effets moyens i et j suffit pour prédire l’effet de la

combinaison AiBj. Si l’interaction est significative, la somme des effets

moyens n’est pas suffisante pour décrire l’influence de la combinaison des

facteurs sur Y. Conclure à partir des tests sur les effets moyens est

insuffisant, voire erroné.

Si l’interaction est significative, l’effet du facteur A dépend de la

modalité du facteur B avec laquelle le facteur A est combiné (et

réciproquement). Par exemple, s’il y a interaction entre la dose d’azote

(facteur A) et la variété de blé (facteur B) pour le rendement, cela signifie

que les différences entre les rendements obtenus avec les doses testées

varient selon la variété considérée.

Une interaction significative indique que les deux facteurs

agissent sur la variable Y.

1 / 4 100%

Documents connexes

les notations

UNIFR – département de mathématiques 22 Mars 2017

troisième CC, avec correction rapide

Lois de probabilité usuelles : tableau récapitulatif

Tournez la page svp

M1 Utiliser des variables aléatoires

deplacement des equilibres chimiques

td 2 proba de base

ExamHLMA406bis Fichier

Cours “Statistiques et Probabilités” - aa 2016-2017

Test t de Student et ONEWAY

UFR Sciences et Techniques Année 2007-2008 Master 1 de Mathématiques Statistiques

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

(Analysis Of Variance).

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

(Analysis Of Variance).

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib