Chapitre 2 : Mesures de tendance centrale et mesures de position 2.1 Caractéristiques d’une distribution de fréquences données brutes ordonner (données rangées) condenser (données condensées) regrouper en classes Caractère individuel caractère d’ensemble Le caractère individuel cède le pas au caractère d’ensemble Divers graphiques nous aident à visualiser la distribution d’une variable statistique X. Histogramme, polygone des fréquences ou diagramme en boîte permettent de visualiser grossièrement : Le centre (mode, médiane, moyenne) L’étalement (étendue) La position (centiles) La dispersion (variance, écart-type) La forme (symétrie, dissymétrie) L’existence éventuelle de données atypiques ou extrêmes 1 2.2 Mesures du centre : mode, médiane, moyenne Mode : la modalité ayant le plus fort effectif Médiane : le centre des données. Seule la position des modalités compte Moyenne : le centre des données. La grandeur des données compte 2.2.1 Mode 1. données rangées : la modalité qui apparaît le plus fréquemment : 2,3,5,5,5,6,6,8 → le mode est 5 2. données condensées : modalité ayant le plus fort effectif (Ouellet p. 58) 3. données groupées en classes : déterminer classe modale (celle du plus haut effectif) utiliser la formule Mo bmo 1 Lmo 1 2 (Ouellet pp. 57,59) 2 2.2.2 Médiane Un ménage nanti d’un revenu disponible inférieur à 60 % du revenu disponible médian de l’ensemble des ménages est dit en état de pauvreté monétaire. 1. Données rangées : si N impair, c’est la ( N 1 ème ) 2 donnée Ex. : ‒ 3, 7, 360, 5234, 10'000 si N pair, milieu entre la ( N ème ) 2 c’est 360 et la ( N 1) ème 2 donnée Ex. : 1, 2, 2, 2, 5, 6, 6, 6, 7, 7 médiane = 56 2 = 5.5 Ex. : 1, 2, 2, 2, 5, 5, 6, 6, 7, 7 médiane = 55 2 =5 3 2. Données condensées : comme pour les données rangées lorsque les données ont été condensées : première modalité dont le Fi dépasse 0.5. Si Fi atteint une valeur exacte de 0.5, on choisit le nombre à mi-chemin entre la modalité concernée et la suivante (Ouellet pp. 64) 3. Données groupées en classes : déterminer la classe médiane (première classe où Fi atteint ou dépasse 0.5) utiliser la formule (issue du théorème de Thalès) Md bmd 0.5 Fmd 1 Lmd f md bmd : borne inférieure de la classe médiane Lmd : largeur de la classe médiane fmd : fréquence relative de la classe médiane Fmd-1: fréquence relative cumulée de la classe précédant la classe médiane Médiane = valeur x pour laquelle F(x) = ½. Équivalent : valeur qui partage l’histogramme en deux surfaces égales 4 F(x) 1 0.5 0 b0 C50 méd bk (Ouellet pp. 60,65) 5 Illustration : Considérons la distribution suivante : Classes Effectifs (ni) [0,5[ 2 [5,10[ 5 [10,15[ 1 fi Fi 0.250 0.250 0.625 0.875 0.125 1 H is to g ra m m e 6 5 5 S 4 3 2 2 1 1 0 7 O g iv e F(x) 1 0.8 0.6 0.4 0.2 0 0 5 7 10 15 0.5 Fmd 1 0.5 0.25 Lmd 5 Md bmd 57 f 0 . 625 md 6 2.2.3 Moyenne 1. Données rangées N x i 1 i (population) N n x x i 1 i (échantillon) n 2. Données condensées k k n x i i 1 i N x (pop.) n x i i 1 n i (échant.) (k est le nombre de modalités différentes). De façon équivalente : k k f i xi i 1 (pop.) ou x f i xi i 1 (échant.) 7 3. Données groupées en classes k n m i i 1 k i N (pop.) ou x n m i 1 i i (échant.) n (k est le nombre de classes). De façon équivalente : k k f i mi i 1 (pop.) ou x f i mi i 1 (échant.) (Ouellet p. 65) Effet d’une transformation linéaire : Théorème : Si X est une variable statistique quantitative et si Y = aX + d est une transformation linaire, alors : Mo(Y) = a Mo(X) + d Md(Y) = a Md(X) + d Y a X d . → mode, médiane et moyenne préservent la transformation linéaire 8 2.2.4 Comparaison des mesures de tendance centrale Le mode 1. N’a d’intérêt que si le nombre de données est grand. 2. On peut avoir plusieurs modes dans une distribution. Existence de deux ou plusieurs modes peut indiquer la présence de deux ou plusieurs populations. Ex. : hommes/femmes, jeunes/vieux, etc. 3. Existe pour variable qualitative. 4. Pas influencé par d’éventuelles données extrêmes robuste 1,2,2,2,4,4,5 mode = 2 1,2,2,2,4,4,100 mode = 2 5. Première forme d’instabilité : dans le cas de données en classes, peut dépendre fortement du choix des classes. 6. Deuxième forme d’instabilité : varie beaucoup d’un échantillon à l’autre choisi dans une même population. Ex. : supposons que dans une enquête sur l’obésité on s’intéresse au poids des individus d’une population de taille N = 10000. On tire au hasard un premier échantillon de taille n = 100, on distribue les données obtenues dans des classes et on calcule le mode, qu’on note Mode1. On tire ensuite au hasard un second échantillon de taille n = 100, on distribue les nouvelles données dans les mêmes classes et on en calcule le mode, qu’on note Mode2. Alors Mode2 peut différer beaucoup de Mode1 instabilité. 9 7. Dans les distributions de revenu et de fortune, le mode est utilisé pour mesurer le revenu ou la fortune de « Monsieur et Madame tout le monde » (contenu sociologique). Il donne le revenu de la classe la plus nombreuse. Le « Suisse moyen » est en fait le « Suisse modal ». La médiane 1. Se prête mal aux calculs algébriques et aux développements théoriques. 2. Ne dépend pas des valeurs des données, mais de leur position. Pas influencée par les données atypiques ou extrêmes très robuste. 3. Est stable par rapport au choix des classes. 4. À utiliser lorsque la distribution est dissymétrique ou en présence de données atypiques ou extrêmes. 5. À utiliser à la place de la moyenne lorsqu’on a une ou deux classes ouvertes (la moyenne ne peut être calculée dans ces cas-là). 7. Souffre aussi de la deuxième forme d’instabilité, encore que beaucoup moins que le mode. La médiane varie plus que la moyenne d’un échantillon à l’autre choisi dans une même population. 10 La moyenne 1. Dans le cadre des données groupées en classes, elle ne peut être calculée à partir de la distribution s’il y a des classes ouvertes → on la remplace par la médiane. Exemple : classes [50 , 100[ [100 , 150[ [150 , infini[ (« plus de 150 ») fi 0.3 0.6 0.1 mi 75 125 ? f1 * m1 f 2 * m2 f3 * ? ? 2. Simplicité algébrique (l’argument tenant qu’elle est la plus onéreuse à calculer est caduc en vertu de l’augmentation incroyable de la puissance de calcul des ordinateurs). 3. Tient compte de toutes les données, ce qui est sa faiblesse en cas de distribution dissymétrique ou d’existence de données atypiques non robuste. 4. Stable au sens que peu influencée par le choix des classes. 5. Se prête aux manipulations algébriques. 6. Stable d’un échantillon à l’autre. 11 Quelle est la caractéristique centrale la plus appropriée ? La réponse dépend de la distribution ou du phénomène étudié. Le mode, étant donné ses nombreux défauts, est souvent remplacé par la médiane. La médiane est très utile car elle représente la mesure la plus typique du centre au sens où l’entendent la plupart des gens. La moyenne est la seule des trois mesures qui tient compte de la totalité des observations, ce qui assure son succès dans le monde commercial et des affaires, malgré son absence de robustesse. Notons encore que la médiane est généralement comprise entre la moyenne et le mode (cf. contrexemple). 12 Relation empirique de Pearson Lorsqu’une distribution est proche de la symétrie, on a : Mo 3 Md (population) x Mo 3x Md (échantillon) Mo Md μ μ Md Mo 13 2.3 Divers types de moyennes 2.3.1 Moyenne géométrique Notation : Soit y1 , … , yN une suite de nombres. N y i 1 i désigne le produit des yi : N y i 1 i y1 y2 y N . Si a est une valeur non-indicée (un nombre réel) : N N a a a a a i 1 N fois Soit Y, une variable statistique Y y1 , … , yN MG(Y ) ( y1 y 2 y N ) yi > 0 N 1 /N N yi i 1 14 Utilisation de la moyenne géométrique : Calcul du taux de croissance moyen t = 0 , … , T, Qt : quantité au temps t, T représente un nombre de périodes d’égale longueur Q0 : quantité initiale QT : quantité finale La quantité en question peut être le prix d’un bien, un indice boursier, la cote d’une action, un capital, un stock (par exemple le niveau de la réserve stratégique de pétrole américaine). r1 : taux de croissance durant la période [0, 1[ r2 : taux de croissance durant la période [1, 2[ … rT : taux de croissance durant la période [T-1,T[ r1 0 r2 1 rT 2 3 Q0 QT T-1 T QT Q1 T Q0 (1 r1 ) (1 r2 ) (1 rT ) Q0 (1 rt ) t 1 Q2 15 Taux de croissance global Le taux de croissance global est défini par : R QT Q0 Q0 Nous désirons représenter R en fonction des rt : T Q Q0 QT R T 1 Q0 Q0 Q0 (1 rt ) t 1 Q0 T 1 (1 rt ) - 1 t 1 T R (1 rt ) - 1 t 1 D’autre part, on observe que R QT Q0 Q0 RQ 0 QT Q0 Q0 RQ 0 QT Q 0 (1 R) QT QT Q 0 (1 R) Cette dernière égalité permet de représenter la quantité finale en fonction de la quantité initiale et du taux global R. 16 Exemple 1: Considérons l’évolution d’un stock de fuel sur les quatre trimestres de l’année 2010 : Q0 Q4 1% 3% -2% 1.5% Le taux de croissance global de ce stock sera alors R 1.011.03 0.98 1.015 1 0.0348 , soit 3.48 %. Taux de croissance moyen Par quel taux constant r peut-on remplacer les divers taux r1 , … , rT pour aboutir à la même quantité finale ? r est appelé taux de croissance moyen. On doit réaliser l’égalité entre : La quantité finale à partir des taux variables rt et La quantité finale à partir d’un taux fixe r sur chaque période. 17 T T Q0 (1 rt ) Q0 (1 r ) Q0 (1 r )(1 r )(1 r ) Q0 (1 r )T t 1 t 1 T fois T Q0 (1 rt ) Q0 (1 r )T t 1 T (1 r ) (1 r ) T t t 1 Il nous reste à isoler le r : T (1 r ) [ (1 rt )]1 / T t 1 T r [ (1 rt )]1 / T 1 t 1 r est la moyenne géométrique des (1 + rt), moins 1. Remarque : Si on connaît le taux de croissance global R, on calcule facilement le taux de croissance moyen par : r [1 R]1 / T 1 18 Exemple 2 : Considérons l’évolution du même stock pétrolier que tout à l’heure pour les quatre trimestres de 2010 : Q0 Q4 1% 3% -2% 1.5% T r [ (1 rt )]1/ T 1 (1.01 1.03 0.98 1.015)1/ 4 1 0.86% t 1 À partir de R = 0.0348 calculé dans l’exemple 1: r (1 R)1/ T 1 (1.0348)1/4 1 0.0086 0.86% 2.3.2 Moyenne harmonique Soit une variable Y et ses modalités : Y y1 , … , yj , … , yN MH(Y ) (yj > 0) N N j 1 1 yj 19 Utilisation : Pour faire la moyenne de vitesses lorsque la distance sur laquelle chaque vitesse pratiquée est la même. Considérons un parcours divisé en trois tronçons de longueur égale (N = 3). v1 v2 v3 d d d vj = vitesse pratiquée sur le tronçon j, j = 1, 2, 3 d = longueur d’un tronçon (constante) tj = temps nécessaire pour parcourir la distance d à la vitesse vj. Comme d vj = tj on a que tj = d vj 20 La vitesse moyenne pratiquée sur le parcours total n'est pas v1 v2 v3 . 3 VM distance totale 3d 3d 3d 1 1 1 temps total t1 t 2 t 3 d d d d ( ) v1 v 2 v3 v1 v 2 v 3 3 1 1 1 v1 v 2 v 3 = MH des vitesses. Cas des distances inégales : VM v1 v2 d1 d2 v3 d3 distance totale d1 d 2 d 3 d1 d 2 d 3 temps total v1 v 2 v3 Ce n'est plus à proprement parler une MH. 21 Exemple 3 : Une voiture parcourt un trajet à 100 km/h de moyenne et le retour à 40 km/h. La vitesse moyenne de l'allerretour : VM = 2 1 1 100 40 = 57,14 ( et non 100 40 = 70 ) 2 Exemple 4 : Achat d’une marchandise en plusieurs étapes, pour un montant fixe à chaque étape : J’ai acheté hier pour 90$ de pommes au prix de 6$ la douzaine et aujourd’hui à nouveau pour 90$ de pommes au prix de 5$ la douzaine. Globalement, combien coûte la douzaine de pommes ? Prix unitaire = Prix global / Quantité globale = 90 90 90(1 1) 2 5.45 $ 90 90 1 1 1 1 90( ) 6 5 6 5 6 5 Il s’agit de la moyenne harmonique des prix. 22 En bref, lorsqu’une même somme est affectée plusieurs fois à l’achat d’un bien à des prix variables, le prix unitaire de ce bien sur l’ensemble des achats est la moyenne harmonique de ces prix. Achat 1 Achat 2 ... Achat N x francs x francs ... x francs p1 p2 ... pN Prix unitaire = N 1 1 1 p1 p2 pN , c'est-à-dire la moyenne harmonique des prix. 23 2.3.3 Moyenne quadratique Y y1 , … , yN yj 0 N MQ (Y ) y i 1 2 i N Nous verrons plus tard que l’écart-type est une forme de moyenne quadratique. 2.3.4 Mi–chemin C’est la moyenne arithmétique des deux modalités extrêmes. 24 2.5 Mesures de position 2.5.1 Centiles Comment diviser les données ou la distribution en un certain nombre de parties ? Pour partager une série ou une distribution en 2, on utilise 1 médiane 4, on utilise 3 quartiles 5 on utilise 4 quintiles 10, on utilise 9 déciles 100, on utilise 99 centiles Comme les quartiles, quintiles, déciles, sont des subdivisions des centiles, il suffit d’examiner uniquement les centiles. Les centiles n’ont vraiment d’intérêt que si on a beaucoup de données groupées en classes. 25 Exemple : (quartiles, données groupées en classes) Médiane 25 % 25 % 25 % 25 % Q1 Q2 Q3 C25 C50 C75 Q1 Q2 Q3 Q1, Q2 et Q3 divisent en 4 la surface de l’histogramme Autre façon de visualiser les quartiles : F(x) 1 0.75 0.5 0.25 0 b0 Q1 Q2 Q3 bk 26 Notion de quartile se généralise à celle de centile d’ordre α. Le centile d’ordre α est noté Cα. 1. Données rangées Cα est la donnée dont le rang est l’entier suivant N 100 n’est pas un entier. Si N 100 N 100 si est un entier, on choisit le nombre à mi-chemin entre la donnée de rang N 100 et la donnée suivante. Soit les données : 27, 29, 31, 31, 31, 34, 36, 39, 42, 45. Nous voulons calculer C32. N = 10, α = 32, d’où Nα/100 = 3.2 → 4 C32 est la quatrième donnée, à savoir 31. 2. Données condensées Cα est la première modalité dont la fréquence relative cumulée dépasse 100 . Si la fréquence relative cumulée atteint une valeur exacte de 100 , on choisit le nombre à mi-chemin entre la modalité concernée et la suivante. 27 3. Données groupées en classes Il faut d’abord trouver la classe du centile Cα. C’est la première classe où la fréquence relative cumulée Fi atteint ou dépasse 100 . Puis : C bC FC 1 LC 100 f C (simple extension de la formule de la médiane) (Ouellet pp. 82,85,86) Rang centile Illustration Examen de Statistique 2 de juin 2012 (66 participants). Un étudiant a obtenu la note 4.6 et 55% des étudiants avaient une note inférieure à 4.6. → 55 et C 4.6. Le rang centile est un pourcentage, alors que le centile est une valeur comprise dans le champ des valeurs possibles de la variable, ici [1, 6]. 28 Données rangées et condensées Calcul direct du pourcentage de données plus petites que qu’une certaine valeur. Données groupées en classes F(x) 1 α% 0 b0 Cα bk Le rang centile α se trouve sur l’axe vertical. C’est un pourcentage. C est un point sur l’axe horizontal de l’ogive (et de l’histogramme : c’est le même axe). α et C sont en correspondance grâce à l’ogive. Dualité entre ces deux valeurs, pas de sens l’une sans l’autre. Le graphique est une aide à la compréhension, mais on veut une formule. 29 Examinons la formule pour le calcul de C : C bC FC 1 LC 100 f C ( est connu et on cherche C ). Nous voulons maintenant calculer lorsque c’est C qui est connu. FC 1 / 100 FC 1 C bC LC C bC 100 fC f C LC / 100 C bC LC f C FC 1 C bC 100 f C FC 1 LC (identique à la formule d’Ouellet p. 87 et à celle du Chapitre 1., § 1.3.6, formule (3). 30 Convention : le α ainsi obtenu n’est généralement pas un entier → on prend alors la valeur entière de → laisser tomber les décimales. Ex. 3.24 ou 3.678 ou 3.9999 ont pour valeur entière 3. (Ouellet pp. 85, 86) En bref : 1. Par définition, 100 F (C ) , le pourcentage de données strictement plus petites que Cα. 2. Si Cα est la médiane : 100 = F(médiane) = 0.5. D’où 50 : le rang centile de la médiane est 50. 3. De même, le rang centile de Q1 est 25, celui de Q3 est 75, etc. 4. Dans le cadre des données groupées en classes, le rang centile, peut être visualisé. Il représente la surface de l’histogramme (polygone des fréquences, courbe de distribution de fréquences) située à gauche du centile. 31 Exemple : Une surface de 30 % sous la courbe de distribution de fréquences se trouve à gauche du centile C30→ le rang centile est 30. Courbe de distribution de fréquences de X 30% % 30% X C30 F(x) 1 0.3 0 C30 X 32