Généralisation de la comparaison de moyennes par Analyse de la variance (ANOVA) On compare Une variable quantitative, Une variable qualitative ( plus de 2 catégories – vrai aussi pour 2 catégories) Exemple : Impact du niveau d’instruction (variable qualitative ordinale) sur le revenu (variable quantitative). …On conclura, sous certaines conditions, qu’il existe une relation si les moyennes de revenus des gens ne sont pas les mêmes dans les différentes catégories Primaire. Secondaire. 17.2 1er cycle. 18.2 > 1er cycle. 22.4 32.2 r Salaire à 10 ans en milliers d' € 35 30 25 20 15 10 5 0 Prim. Second. 1er cycle. > 1er cycle. Les différences sont-elles causées par des erreurs d’échantillonnage ou reflètent-elles aussi des différences réelles dans les quatre populations. Hypothèse nulle : Les moyennes de revenus entre les groupes sont égales. (« proviennent de la même population ») Hypothèse alternative : elles sont différentes Deux conditions pour conclure que les moyennes dans les populations sont différentes. Plus les différences entre les moyennes d’échantillon sont grandes, plus il est probable que les différences entre les moyennes des populations sont réelles. Dans le langage de l’analyse de variance cela signifie que : plus la variance entre les moyennes de groupes est grande, plus la probabilité est forte que les différences entre les moyennes de populations existent. D’autre part, on sera plus confiant que les différences entre les moyennes de populations sont réelles si la variation autour de ces moyennes est petite. Dans le langage de l’analyse de variance, cela revient à dire que plus la variance autour des moyennes de groupes est petite, plus la probabilité est forte que les différences entre les moyennes de populations existent. Calcul variance inter et intra groupe (1) Calculons la variance intergroupe et la variance intragroupe. Imaginons que nous prenons 20 observations aléatoires (x1, x2, ... , x20) de la même population statistique de moyenne théorique 5.0 et l'écart type de 20. Ensuite, nous calculons la variance entre ces 20 observations: n Variance totale: ∑ S2totale= i= 1 xi− X . n− 1 2 ou n=20 Anova (2) Ici, S2totale représente la variance de toutes les observations ("la grande variance") Maintenant, nous divisons nos 20 observations au hasard dans 4 groupes de 5 observations. Puisque toutes ces observations viennent de la même population statistique normale avec un seul et un seul , les différences entre la variance mesurée à l’intérieur de chaque groupe sont dues seulement aux fluctuations d’échantillonnage. La variation entre les estimations des moyennes de chaque groupe est aussi due aux mêmes fluctuations d’échantillonnage. Le test de « F » est basé sur le fait que ces deux sortes de variances seront égales, sauf pour les fluctuations d’échantillonnage. Anova (3) Pour mesurer ces deux sortes de variance, il faut décomposer la variance totale en variance intragroupe (à l’intérieur des groupes) et variance intergroupe (la variance entre les groupes). Décomposition de la variance totale Nous allons décomposer la variance totale en deux parties: une variance due aux différences à l'intérieur de chaque groupe (VARIANCE INTRAGROUPE) et une variance due aux différences entre les quatre moyennes des quatre groupes (VARIANCE INTERGROUPE). VARIANCE INTRAGROUPE ou variance résiduelle 1 Ceci est la variation des observations dans chaque groupe autour de la moyenne de chaque groupe. Si nous voulions calculer ces variances indépendamment pour chaque groupe, nous pourrions calculer: x 1j− X 1 ∑ 2 groupe 1: S1= groupe 2: 2 S22= ∑ n2− 1 n1− 1 groupe 3: S23= ∑ x 31 j − X 3 2 groupe 4: n3− 1 S24= x 2j − X 2 ∑ x 4j− X 4 n4− 1 2 2 VARIANCE INTRAGROUPE ou variance résiduelle 2 Puisque nous voulons calculer la variance intragroupe simultanée, il faut utiliser la formule suivante: k ni ∑∑ S2intra= i= 1 j= 1 x ij − X i k ∑∑ 2 . n1 n2 n3 n4− 4 ni = x ij − X i i= 1 j= 1 n− k 2 . SCint ra n− k k= nombre de groupes On calcule les degrés de liberté pour la VARIANCE INTERGROUPE La variance des moyennes de chaque groupe autour de la moyenne de toutes les observations ensemble. Ceci est la variance totale que nous aurions eu si la variance intragroupe était zéro. Les degrés de liberté pour la variance intergroupe sont k-1. Si les observations dans les différents groupes viennent toutes de la même population statistique, la variance intragroupe égale la variance intergroupe. Le ratio de ces deux variances (F) suit une distribution de Fisher, avec une moyenne théorique de 1. k Variation entre les groupes = SCG = å ni ( X i - X ) 2 (1) i =1 k Variation dans les groupes = SCE = ni 2 ( X X ) åå ij i (2) i =1 j =1 - SCG est encore appelé SOMME DES CARRÉS ENTRE LES GROUPES. Cette expression mesure l’importance des différences des moyennes. - SCE est encore appelé SOMME DES CARRÉS DANS LES GROUPES. expression mesure la variation à l’intérieur des groupes. Cette Passage aux variances intra groupes et inter groupes Variance entre les groupes = CMG = SCG / (k-1) (3) Variance dans les groupes = CME = SCE / (N-k) (4) N = nombre total d’observations k = nombre de catégories Prim. Second. Sal. Intial en milliers € =5*(17.2-22.5) > 1er cycle 13 12 30 34 18 23 17 40 15 16 24 32 19 18 16 29 21 22 25 26 86 91 112 161 450 17,2 18,2 22,4 32,2 22,5 140,45 92,45 0,05 470,45 703,4 Somme Moyenne 1er cycle =703.4/(4-1) 2 234,47 17,64 38,44 57,76 3,24 117,08 0,64 23,04 29,16 60,84 113,68 4,84 4,84 2,56 0,04 12,28 3,24 0,04 40,96 10,24 54,48 14,44 14,44 6,76 38,44 74,08 Carré groupe 40,8 80,8 137,2 112,8 371,6 Variances 10,2 20,2 34,3 28,2 =17.64=(13-17.2)2 =40.8/(5-1) 23,23 =371.6/(20-4) Somme des carrés Degr. Lib. Variance F calculé Entre les groupes 703,4 4-1=3 234,47 Dans les groupes 371,6 20-4=16 23,23 Total 1075 20-1 =19 56,58 10,095 =234.467/23.225= 10.095 Le test F : Hypothèse nulle : Les moyennes de revenus entre les groupes sont égales. Plus CMG est grand et CME petit, plus on aura tendance à penser que les moyennes de populations ne sont pas égales. F =Var inter / Var intra F = variance intergroupe/ variance intra ou résiduelle Si, Fcalc >Ftable, on rejette l’hypothèse nulle; Si Fcalc < Ftable, on accepte l’hypothèse nulle. On peut consulter la table des valeurs théoriques de F de Fisher. Degrés de liberté du numérateur: k-1 Degrés de liberté du dénominateur: N –k On peut de manière équivalente tester l’existence de la relation entre les deux variables en examinant la valeur p correspondant à F. Si cette valeur p est inférieure à 0,05, on rejette l'hypothèse nulle et on conclut que la relation existe.. Analyse de variance: un facteur RAPPORT DÉTAILLÉ Groupes Nbre. d'échant. Somme Moyenne Variance Prim. 5 86 17,2 10,2 Second. 5 91 18,2 20,2 1er cycle >1er cycle 5 5 112 161 22,4 32,2 34,3 28,2 ANALYSE DE VARIANCE Source des variations Somme des carrés Degré de lib. Variances Entre Groupes 703,4 3 234,47 A l'intérieur des groupes 371,6 16 23,23 Total 1075 19 F Prob. 10,10 0,00 F(table) 3,24