LABORATOIRE 8 L’analyse de la variance : ANOVA Objectifs de la séance : I PROCÉDURE II EXEMPLE III EXERCICES PRATIQUES I. PROCÉDURE L’analyse de la variance ANOVA avec test F permet de déterminer s’il existe une relation statistiquement significative entre deux variables. IMPORTANT : L’analyse de la variance ANOVA avec test F peut se faire lorsqu’on fait face à : 1 variable dépendante de type intervalle/ratio (quantitative) et 1 variable indépendante de type nominale présentant plusieurs modalités ou catégories. i) Procédure pour effectuer un test de moyenne: 1. Cliquez sur Analyse 2. Cliquez sur Comparer les moyennes 3. Cliquez sur Moyennes... Vous obtenez l’écran suivant : 4. Sélectionnez la variable dépendante (qui devrait toujours être de niveau de mesure intervalle/ratio) dans le rectangle de gauche et faites-la passer, en usant de l’espace fléché prévu à cet effet, dans le rectangle intitulé Variable(s) dépendante(s). On peut choisir plus d’une variable dépendante si plusieurs tests de moyennes doivent être réalisés en fonction d’une même variable indépendante (par exemple on cherche à établir si le nombre d’heures passées à étudier, le nombre d’heures passées à travailler, et les résultats scolaires varient en fonction du fait qu’on vit encore ou non chez ses parents). 5. Sélectionnez la variable indépendante dans le rectangle de gauche présentant l’ensemble des variables contenues dans la banque de données et faites-la passer, en usant de l’espace fléché prévu à cet effet, dans le rectangle Variables indépendantes. On peut choisir plus d’une variable indépendante, si celles-ci sont toutes susceptibles d’influencer la moyenne d’une ou de plusieurs variables dépendantes. Celles-ci doivent toutes être testées en regard de la ou des mêmes variables dépendantes (par exemple, on calcule la différence de moyennes dans le montant dépensé pour les vêtements et le temps de magasinage en fonction de l’endroit de résidence — parent, chambre, appartement— et de la situation d’emploi — temps plein, temps partiel, chômeur). 6. Cliquez sur Option. Vous obtenez la boite de dialogue suivante vous permettant de choisir un certain nombre d’options selon qu’elles vous semblent plus ou moins à propos compte tenu des analyses que vous voulez effectuer : 8. Assurez-vous que les options Moyenne, écart-type, et Nombre d’observations (nombre de données valides sur lesquelles s’appuient les analyses) sont bien sélectionnées. Rajoutez la variance. 9. Sélectionnez l’option statistique Tableau Anova et eta (qui vous donnera deux statistiques indispensables). Le test t est équivalent à une analyse de variance (ANOVA) où la variable indépendante est dichotomique. 10. Cliquez sur Poursuivre 11. Cliquez sur Coller. II. EXEMPLE On veut savoir si, parmi les étudiants qui ont répondu à l’enquête, la différence entre les moyennes du pourcentage de financement des études par le travail est significative si on compare ceux dont les parents sont nés au Canada, ceux dont un des parents est né au Canada et l’autre à l’extérieur et ceux dont les deux parents sont nés à l’extérieur du Canada. On fait alors une ANOVA : la variable dépendante (celle qui est appelée à varier) est le pourcentage des études financées par le travail. et la variable indépendante (celle qui pourrait faire varier la variable dépendante) est le lieu où de naissance des parents (Canada, un extérieur l’autre Canada et les deux à l’extérieur du Canada). On obtient la syntaxe suivante : MEANS TABLES=travail BY paynai /CELLS MEAN COUNT STDDEV VAR /STATISTICS ANOVA. Le résultat d'un test de différences de moyennes permettant de savoir s’il y a une différence entre le pourcentage de financement des études par le travail selon le pays de naissance des parents présente 4 tableaux. Le premier tableau présente le nombre d’observations prises en compte. Dans notre exemple, 24 observations ont des valeurs manquantes, ce qui fait que l’échantillon considéré est de taille N=2173. Observation Calculer Récapituler Observations Inclus N Exclu(s) Pourcentage N Total Pourcentage N Pourcentage % financement par le travail * Pays de naissance des parents 2173 98.9% 24 1.1% 2197 100.0% Le second tableau présente, pour chaque groupe, l’effectif du groupe et la moyenne et l’écart type de la variable dépendante, c’est-à dire ici du % des études financées par le travail. a) Pour l’ensemble des étudiants (total) : N 2173; Moyenne X 34,41; Ecart type 35,147 b) Pour ceux nés au canada (groupe 1) : N 1 1461; Moyenne X 1 37.99; Ecart type 1 35,066 c) Pour ceux dont l’un des parents seulement est né au canada (groupe 2) : N 2 133; Moyenne X 2 32.59; Ecart type 2 35,235 d) Enfin, pour ceux dont les deux parents sont nés ailleurs qu’au Canada (groupe 3): N 3 579; Moyenne X 3 25,80; Ecart type 3 33.839 Nous constatons que les étudiants dont les parents proviennent de l’extérieur sont moins financés par le travail que les autres. En effet, le pourcentage s’élève à 26% alors qu’il tourne autour de 38% pour les étudiants dont les deux parents sont nés au Canada. Tableau de bord % financement par le travail Pays de naissance des parents Moyenne Canada L un au Canada et l autre ailleurs Les deux exterieurs du Canada Total N Ecart-type 37.99 1461 35.066 32.59 133 35.235 25.80 579 33.839 34.41 2173 35.147 Dans le troisième tableau (tableau ANOVA), nous avons le résultat de la décomposition de la somme totale des carrés ainsi que la valeur du F. Tableau ANOVA Somme des carrés % financement par le travail * Inter-groupes Combiné Intra-classe Moyenne des df carrés 62073.540 2 31036.770 2621007.531 2170 1207.838 2683081.071 2172 Pays de naissance des parents Total F Signification 25.696 .000 On a : F Variance intergroup es ( N k ) * SCInter 2170 * 62073.54 25.696 Variance intragroup e (k 1) * SCIntra 2 * 2621007.531 En observant le tableau ANOVA, nous constatons qu’il existe au moins une moyenne qui diffère significativement des autres puisque « signification »=0.000. Nous ne savons pas pour le moment quelle est cette moyenne qui diffère statistiquement des trois autres. Nous pouvons supposer qu’il s’agit des étudiants dont les deux parents sont nés au Canada par rapport aux étudiants dont les deux parents viennent de l’extérieur. Cependant, nous aurions besoin d’un test plus poussé afin de vérifier cette hypothèse, ce que vous apprendrez à faire dans le cours de méthodes quantitatives 2. Enfin dans le dernier tableau, nous avons la mesure d’association êta carré ou ratio de corrélation. Mesures des associations Eta Eta carré % financement par le travail * Pays de naissance des .152 .023 parents On la retrouve par le calcul : Eta² SCInter 62074 0,023. SCTotale 2683081 La mesure d’association êta carré nous permet d’affirmer que 2,3% de la variation du pourcentage de financement par le travail dépend du pays de naissance des parents. III. EXERCICES PRATIQUES Exercice 1. revenu du père selon la classe Nous voulons savoir dans quelle mesure les revenus s’expliquent par les types d’occupation ou appartenances de classe. a) Créer la variable classe du père en 4 catégories : chef d’entreprise (1), cadres et prof supérieures (2), prof. Interméd (3), ouvriers et employés (4). b) Créer la variable Revenu actuel du père en revenus constants de 2002 c) En utilisant une ANOVA, dîtes quelle est le pourcentage de la variation des revenus actuels du père que l’on peut expliquer avec la classe d’appartenance d) Après avoir pris soin d’éliminer les pères n’ayant pas d’emploi, les non réponses et les réponses ambigües de la variable « ocpe », utilisez une ANOVA pour savoir quelle est le pourcentage de la variation des revenus actuels du père que l’on peut expliquer avec l’occupation du père. Conclure en comparant avec le résultat de la question 1.c. Exercice 2. financement des parents et occupation du père a) Faites une ANOVA en prenant le % de financement des études par les parents en variable dépendante et l’occupation actuelle du père en variable indépendante (après avoir supprimé les pères retraités, les non réponses et les réponses ambigües) b) Quelles sont les occupations des pères des enfants qui reçoivent le plus de financement de leurs parents? c) Quelle est le pourcentage de la variation de la part du financement des études par les parents que l’on peut expliquer par l’occupation du père?