PLAN Chapitre 2 : Mesures de tendance centrale et mesures de position 2.1 Caractéristiques d’une distribution de fréquences 2.2 Mesures du centre : mode, médiane, moyenne 2.2.1 Mode 2.2.2 Médiane 2.2.3 Moyenne 2.2.4 Comparaison des mesures de tendance centrale 2.3 Divers types de moyennes à utiliser dans des cas spécifiques 2.3.1 Moyenne géométrique 2.3.2 Moyenne harmonique 2.3.3 Moyenne quadratique 2.3.4 Mi–chemin 2.4 Mesures de position 2.4.1 Centiles 2.4.2 Rang centile Chapitre 2 : Mesures de tendance centrale et de position 2.1 Caractéristiques d’une distribution de fréquences Nous avons vu que les données brutes sont ordonnées, condensées ou regroupées en classes, selon le cas. On obtient ainsi une distribution de fréquences que nous appellerons aussi simplement distribution. Schématiquement : données brutes ordonner (données rangées) condenser (données condensées) regrouper dans des classes (données groupées) Établir une distribution statistique, c’est oublier le caractère individuel pour passer au caractère d’ensemble. Divers graphiques nous aident à visualiser la distribution d’une variable statistique X, tels l’histogramme – ou sa variante, le polygone des fréquences –, ou encore le diagramme en boîte, que nous verrons plus tard. Histogramme, polygone des fréquences ou diagramme en boîte permettent de visualiser grossièrement : Le centre (mode, médiane, moyenne) L’étalement (étendue) La position (centiles) La dispersion (variance, écart-type) La forme (symétrie, dissymétrie) L’existence éventuelle de données atypiques ou extrêmes 1 2.2 Mesures du centre : mode, médiane, moyenne Le mode est la modalité ayant le plus fort effectif. La médiane mesure le centre des données lorsqu’elles ont été ordonnées de la plus petite à la plus grande. Seule la position des modalités compte. La moyenne mesure également le centre des données, mais cette fois la grandeur effective des données est prise en compte. Au lieu de dire mode, médiane ou moyenne de la distribution d’une variable statistique X, on peut dire, beaucoup plus simplement, mode médiane ou moyenne de X. 2.2.1 Mode 1. Données rangées : la modalité qui apparaît le plus fréquemment Exemple : si les données sont 2,3,5,5,5,6,6,8, le mode est 5. 2. Données condensées : la modalité ayant le plus fort effectif 3. Données groupées en classes : 1. Déterminer la classe modale (celle du plus haut effectif) 2. Utiliser la formule 1 Lmo , Mo bmo 1 2 où bmo est la borne inférieure de la classe modale ∆1 est la différence entre la fréquence de la classe modale et la fréquence de la classe qui précède ∆2 est la différence entre la fréquence de la classe modale et la fréquence de la classe qui suit Lmo est la largeur de la classe modale 2.2.2 Médiane La médiane intervient par exemple dans la définition de la pauvreté au sein d’une population. La définition la plus fréquemment utilisée de la notion de pauvreté est basée sur la comparaison du revenu disponible d'un individu à la médiane des revenus disponibles de la population. Le seuil de pauvreté monétaire est le revenu (des personnes ou des ménages) égal à 60 % du revenu médian, selon l'usage international. Les personnes ou ménages ayant un revenu inférieur à ce seuil sont dits en état de pauvreté monétaire. Comment calcule-t-on la médiane ? Il convient à nouveau de distinguer les trois cas (données rangées, condensées, regroupées dans des classes) 1. Données rangées : N 1 ème ) donnée 2 Ex. : ‒ 3, 7, 360, 5234, 10'000 c’est 360 si N impair, c’est la ( 2 si N pair, milieu entre la ( Ex. : 1, 2, 2, 2, médiane = Ex. : 1, 2, 2, 2, médiane = N ème N ) et la ( 1) ème donnée 2 2 5, 6, 6, 6, 7, 7 6, 7, 7 56 = 5.5 2 5, 5, 6, 55 =5 2 2. Données condensées : La définition est la même que pour les données rangées Un moyen simple pour déterminer la médiane lorsque les données ont été condensées : on prend la première modalité dont la fréquence relative cumulée (Fi) dépasse 0.5. Si la fréquence relative cumulée atteint une valeur exacte de 0.5, on choisit le nombre à mi-chemin (en l’occurrence la moyenne) entre la modalité concernée et la suivante. 3. Données groupées en classes : La médiane n’est autre que le centile C50. Nous avons appris à calculer les centiles Cα pour toutes les valeurs de α grâce à une formule établie dans le chapitre 1 (Chapitre 1, § 1.3.6, formule (4)). Cette formule a été établie, rappelons-nous, en pratiquant l’interpolation linéaire sur l’ogive. Nous nous contenterons ici de changer un peu les notations des différents constituants de cette formule de manière à nous conformer à celles du livre d’Ouellet. Remarque pratique Si l’on doit calculer la médiane, il est inutile (bien trop long, et contreproductif à cause du risque d’erreur) d’effectuer à chaque fois une interpolation linéaire à l’aide du théorème de Thalès. Celui-ci a été utilisé une fois pour toutes pour démontrer la formule, il nous reste ensuite à appliquer celle-ci directement (et correctement…). Comment calculer la médiane ? 1. Déterminer classe médiane (il s’agit de la première classe où la fréquence relative cumulée atteint ou dépasse 0.5) → regarder les Fi 2. Utiliser la formule (cf. Chapitre 1, § 1.3.6, formule (4)) 3 0.5 Fmd 1 Lmd Md bmd f md où bmd est la borne inférieure de la classe médiane Lmd est la largeur de la classe médiane fmd est la fréquence relative de la classe médiane Fmd-1 est la fréquence relative cumulée de la classe précédant la classe médiane Médiane = valeur x pour laquelle l’ogive F(x) = ½. Équivalent : valeur qui partage l’histogramme en deux surfaces égales F(x) 1 0.5 0 bk C50 méd b0 Illustration : Considérons la distribution suivante : Classes Effectifs (ni) fi Fi 2 [0,5[ 0.250 0.250 [5,10[ 5 0.625 0.875 [10,15[ 1 0.125 1 H is to g ra m m e 6 5 5 S 4 3 2 2 1 1 0 7 O g iv e F(x) 1 0.8 0.6 0.4 0.2 0 0 5 7 10 15 4 0.5 Fmd 1 0.5 0.25 Lmd 5 Md bmd 5 7. f md 0.625 2.2.3 Moyenne Tiré de Daniel Pennac, Chagrin d’école, Folio Gallimard 2007, Prix Renaudot 2007, le petit texte qui suit : Comme je descendais des collines du XXe arrondissement vers mon bureau, l’idée m’est venue d’évaluer les élèves que je croisais sur ma route, en me livrant à un calcul méthodique : 100 euros de baskets, 110 de jeans, 120 de blouson, 80 de sac à dos, 180 de baladeur (à 90 décibels la ravageuse tournée auditive), 90 euros pour le téléphone portable multifonction, sans préjuger de ce que contiennent les trousses, que je vous fais, bon prix, à 50 euros, le tout monté sur des rollers flambants neufs, à 150 euros la paire, Total : 880 euros. J’ai vérifié, les jours suivants, à l’aller comme au retour, en comparant avec les prix affichés dans les vitrines qui se trouvaient sur mon chemin. Tous mes calculs aboutissaient aux alentours de 900 euros. C’est une estimation moyenne par enfant de la classe moyenne doté de parents à revenus moyens, dans le Paris d’aujourd’hui. Le prix d’un élève parisien remis à neuf, disons à la fin des vacances de Noël, dans une société qui envisage sa jeunesse avant tout comme une clientèle, un marché, un champ de cibles. Des enfant clients, donc, avec ou sans moyens, ceux des grandes villes comme ceux des banlieues, entraînés dans la même aspiration à la consommation, dans le même universel aspirateur à désirs, pauvres et riches, grands et petits, garçons et filles, siphonnés pêle-mêle par l’unique et tourbillonnante sollicitation : Consommer ! C'est-à-dire changer de produit, vouloir du neuf, le dernier cri. La marque ! Et que ça se sache ! Si leurs marques étaient des médailles, les gosses de nos rues sonneraient comme des généraux d’opérette. Sans transition… Définition de la moyenne dans les trois situations (données rangées, condensées, groupées dans des classes). 1. Données rangées N n xi i 1 (population) N ou x x i 1 i (échantillon) n 2. Données condensées k k ni x i i 1 N (population) ou x n x i i 1 n i (échantillon) (k est le nombre de modalités différentes). 5 De façon équivalente : k f i xi k (population) x f i xi ou i 1 (échantillon) i 1 3. Données groupées en classes On utilise la formule de la moyenne pour les données condensées en remplaçant seulement les modalités xi par les milieux de classes mi, et ceci pour la raison suivante : chaque fois qu’une modalité tombe dans une classe, on fait comme si elle était égale à mi, ce qui revient à dire qu’on ne tient pas compte de sa vraie valeur. x1 bi-1 x2x3 mi bi On « oublie » les vraies valeurs de x1, x2 et x3. On fait comme si on avait observé trois fois la même valeur, mi . k k n i mi i 1 N (population) ou x n m i 1 i i n (échantillon) (k étant le nombre de classes qu’on s’est choisi). De façon équivalente : k f i mi k (population) i 1 ou x f i mi (échantillon) i 1 Intéressons-nous maintenant, grâce à un théorème, à l’effet d’une transformation linéaire sur les trois mesures du centre : Théorème : Si X est une variable statistique quantitative et si transformation linaire, alors : Y = aX + d est une Mo(Y) = a Mo(X) + d Md(Y) = a Md(X) + d Y a X d . 6 (autrement dit : mode, médiane et moyenne préservent la transformation linéaire : le mode, la médiane et la moyenne d’une transformation linéaire sont respectivement la transformation linéaire du mode, de la médiane et de la moyenne). 2.2.4 Comparaison des mesures de tendance centrale Le mode 1. N’a d’intérêt que si le nombre de données est grand. 2. On peut avoir plusieurs modes dans une distribution. Existence de deux ou plusieurs modes peut indiquer la présence de deux ou plusieurs populations. Ex. : hommes/femmes, jeunes/vieux, etc. Par la suite, nous nous intéresserons aux distributions n’ayant qu’un seul mode. 3. Existe pour variable qualitative. 4. Pas influencé par d’éventuelles données extrêmes robuste. 5. Première forme d’instabilité : dans le cas de données en classes, le mode peut dépendre fortement du choix des classes. C’est ennuyeux, puisque le choix des classes résulte d’un certain arbitraire. 6. Deuxième forme d’instabilité : le mode varie beaucoup d’un échantillon à l’autre choisi aléatoirement dans une même population. Ex. : supposons que dans une enquête sur l’obésité on s’intéresse au poids des individus d’une population de taille N = 10000. On tire au hasard un premier échantillon de taille n = 100, on distribue les données obtenues dans des classes et on calcule le mode, qu’on note Mode1. On tire ensuite au hasard un second échantillon de taille n = 100, on distribue les nouvelles données dans les mêmes classes et on en calcule le mode, qu’on note Mode2. Alors Mode2 peut différer beaucoup de Mode1 instabilité. 7. Dans les distributions de revenu et de fortune, le mode (mais aussi la médiane) est utilisé pour mesurer le revenu ou la fortune de « monsieur et madame tout le monde » contenu sociologique. Autrement dit, il donne le revenu de la classe la plus nombreuse. Le « Français moyen » est en réalité le Français modal. La médiane 1. Se prête mal aux calculs algébriques et aux développements théoriques. 2. Ne dépend pas des valeurs des données, mais de leur position. Peu influencée, ou très peu, par les données extrêmes très robuste. 3. Est stable par rapport au choix des classes. 4. À utiliser lorsque la distribution est dissymétrique ou en présence de données atypiques ou extrêmes. 5. À utiliser à la place de la moyenne lorsqu’on a une ou deux classes ouvertes (la moyenne ne peut être calculée dans ces cas-là). 6. Souffre aussi de la deuxième forme d’instabilité, mais beaucoup moins que le mode. La médiane varie plus que la moyenne d’un échantillon à l’autre choisi dans une même population. La moyenne 1. Dans le cadre des données groupées en classes, elle ne peut être calculée à partir de la distribution s’il y a des classes ouvertes. Dans ce cas, on la remplace par la médiane. 7 Exemple : Classes [50 , 100[ [100 , 150[ [150 , infini[ « plus de 150 » fi 0.3 0.6 0.1 mi 75 125 ? f1 m1 f 2 m2 f 3 ? ? 2. Se prête aux manipulations algébriques (l’argument d’Ouellet tenant qu’elle est plus onéreuse à calculer prête à sourire, en regard des fonctionnalités des machines à calculer ou des ordinateurs actuels). 3. Tient compte de toutes les données, ce qui est sa force, car elle permet de connaître la somme des modalités, pour autant qu’on en connaisse l’effectif. Par exemple, si on connaît la moyenne des salaires d’une entreprise, N représentera la masse salariale totale de cette entreprise. On ne peut faire de même ni avec la médiane, ni avec le mode. C’est la raison pour laquelle la moyenne est la mesure la plus utilisée dans des domaines comme l’économie, l’industrie ou les affaires. 4. Qu’elle prenne en compte toutes les données est aussi sa faiblesse, en cas de distribution dissymétrique ou d’existence de données atypiques. Elle n’est pas aussi crédible que la médiane ou le mode pour mesurer le revenu type, puisqu’elle peut être exagérément grossie par un petit nombre de données extrêmes non robuste. 5. Elle est stable au sens qu’elle est peu influencée par le choix des classes. 6. Elle est stable d’un échantillon à l’autre. Quelle est la caractéristique centrale la plus appropriée ? On ne peut donner une réponse globale à cette question, tout dépend en fait de la distribution étudiée ou du phénomène étudié. En résumé, on dira que le mode, étant donné ses nombreux défauts, est souvent remplacé par la médiane. La médiane est la plus utile car elle représente la mesure la plus typique du centre au sens où l’entendent la plupart des gens. La moyenne est la seule des trois mesures qui tient compte de la totalité des observations, ce qui assure son succès dans le monde commercial et des affaires, malgré son absence de robustesse. Notons finalement que la médiane est généralement comprise entre la moyenne et le mode, mais ce n’est pas toujours le cas. Par exemple, pour la distribution suivante : Classes [0,1[ [1,2[ [2,3[ [3,4[ [4,5[ [5,6[ [6,7[ Effectifs 38 116 144 300 1'078 1'036 766 8 la médiane (5.0608) n’est pas comprise entre la moyenne (4.9255) et le mode (4.9488). Relation empirique de Pearson Lorsqu’une distribution n’est pas trop éloignée de la symétrie, on a que Mo 3 Md Mo (population) ou x Mo 3x Md Md μ μ Md Mo On observe donc que moyenne et médiane se situent toutes deux soit à droite du mode, soit à sa gauche. Dans les deux cas, la médiane a tendance à se situer plus près de la moyenne que du mode (noter que la dissymétrie des deux courbes ci-dessus a été accentuée pour des raisons de commodité graphique). 2.3 Divers types de moyennes à utiliser dans des cas spécifiques 2.3.1 Moyenne géométrique Notation : (rappel) N Pour une suite de nombres y1 , … , yN, y i 1 i désigne le produit des yi , à savoir : 9 N y i y1 y 2 y N . i 1 On a notamment, pour une valeur a non-indicée (un nombre réel quelconque) : N aa a a a i 1 N N fois Soit une variable statistique Y et ses modalités positives y1 , … , yN, ce qu’on peut résumer par : Y y1 , … , yN yi > 0. La moyenne géométrique de Y est alors définie par N N i 1 i 1 MG(Y ) ( y1 y 2 y N )1/N ( yi )1/N N yi . Utilisation de la moyenne géométrique : Calcul du taux de croissance moyen Qt : quantité au temps t t = 0 , … , T, (où T représente un nombre de périodes d’égale longueur) Q0 : quantité initiale QT : quantité finale La quantité en question peut être le prix d’un bien, un indice boursier, la cote d’une action, un capital, un stock (par exemple le niveau de la réserve stratégique de pétrole américaine, si important dans l’établissement du prix du baril de brut à New York). r1 : désigne le taux de croissance durant la période [0, 1 [ r2 : désigne le taux de croissance durant la période [1, 2 [ … rT : désigne le taux de croissance durant la période [T-1,T [ r1 0 Q0 QT 1 rT r3 r2 2 ... . 3 T-1 T QT Q1 T Q0 (1 r1 ) (1 r2 ) (1 rT ) Q0 (1 rt ) t 1 (1) Q2 Afin que le taux de croissance moyen soit défini (voir plus loin la définition du taux de croissance moyen), les rt doivent être supérieurs à ‒ 1 afin que les (1 + rt) intervenant dans (1) ci-dessus soient positifs. En effet, le calcul du taux de croissance moyen passe par le 10 calcul de la moyenne géométrique des (1 + rt). Or la moyenne géométrique n’a de sens que pour des valeurs positives. Sous forme mathématique, on écrit : rt > ‒ 1, t = 1, 2, …, T. Taux de croissance global Le taux de croissance global est défini par : R QT Q0 Q0 (2) Nous désirons représenter R en fonction des rt. De l’équation (2), et en notant que la troisième égalité ci-dessous est vraie en vertu de (1) : T R QT Q0 QT 1 = Q0 Q0 Q0 (1 rt ) t 1 Q0 T -1= (1 r ) - 1 , t t 1 et donc T R = (1 rt ) – 1 (3) t 1 T Comme les (1 + rt) sont positifs, le produit (1 rt ) est lui-même positif. Il suit de (3) que R, t 1 à l’instar des rt, est toujours supérieur à ‒ 1, ce qu’on écrit : R > ‒ 1. En écrivant l’équation (2) un peu autrement, on observe que RQ 0 QT Q0 , Q0 RQ 0 QT , Q 0 (1 R) QT , QT Q 0 (1 R) . Cette dernière égalité permet de représenter la quantité finale en fonction de la quantité initiale et du taux global R. 11 Exemple 1: Considérons l’évolution d’un stock de fuel sur les quatre trimestres de l’année 2010 : Q0 Q4 1% 3% -2% 1.5% Le taux de croissance global de ce stock sera alors R 1.011.03 0.98 1.015 1 0.0348 , soit 3.48 %. Taux de croissance moyen Par quel taux constant r peut-on remplacer les divers taux r1 , … , rT pour aboutir à la même quantité finale ? r est appelé taux de croissance moyen. On doit réaliser l’égalité : Quantité finale à partir des taux variables rt = Quantité finale à partir d’un taux fixe r sur chaque période. Soit, mathématiquement, à partir de la quantité finale exprimée dans l’équation (1) : T Q0 * (1 rt ) = Q0 T * t 1 1 r )(1 r ) (1 r ) = Q0*(1 + r)T , soit (1 r ) = Q0 * ( t 1 T fois T Q0 * (1 + r)T = Q0 * (1 r ) . t En divisant par Q0 à gauche et à droite : t 1 T (1 + r)T = (1 r ) t t 1 Il nous reste à isoler le r. Pour ce faire, nous devons élever à la puissance (1/T) les deux côtés de l’équation. Nous obtenons : T (1 + r) = [ (1 rt ) ]1/T t 1 T r = [ (1 rt ) ]1/T – 1 (4) t 1 On observe ainsi que r est la moyenne géométrique des (1 + rt), moins 1. 12 Remarque : Si on connaît le taux de croissance global R, on calcule facilement le taux de croissance moyen par : r = ( 1 + R )1/T – 1. (5) Pour s’en convaincre, il suffit de partir de l’équation (4) et d’y intégrer l’équation (3). Noter également que ( 1 + R )1/T (la racine Tième de 1 + R) est bien définie puisque 1 + R est un nombre positif (rappelons-nous que R > – 1). Exemple 2 : Considérons l’évolution du même stock pétrolier que tout à l’heure pour les quatre trimestres de 2010 : Q0 Q4 1% 3% -2% 1.5% On peut calculer r à partir de l’équation (4) : T r [ (1 rt )]1 / T 1 (1.01 1.03 0.98 1.015)1 / 4 1 0.0086 , soit 0.86 %, t 1 ou à partir de l’équation (5) et du taux de croissance global de 0.0348 calculé dans l’exemple 1: r (1 R)1 / T 1 (1.0348)1/4 1 0.0086 = 0.86 %. 2.3.2 Moyenne harmonique Soit une variable et ses modalités : Y y1 , … , yj , … , yN MH (Y ) N N j 1 1 yj (yj > 0) . « inverse de la moyenne des inverses » 13 Utilisation : Pour faire la moyenne de vitesses lorsque la distance sur laquelle chaque vitesse pratiquée est la même. Considérons un parcours divisé en trois tronçons de longueur égale (N = 3). v1 v2 d d v3 d vj = vitesse pratiquée sur le tronçon j, j = 1, 2, 3 d = longueur d’un tronçon (constante) tj = temps nécessaire pour parcourir la distance d à la vitesse vj. d Étant donné que vj = (une vitesse étant toujours définie comme une distance divisée par tj d une durée), on a que tj = . vj La vitesse moyenne pratiquée sur le parcours total n'est pas v1 v 2 v3 (moyenne 3 arithmétique), mais bien VM = distance totale 3d 3 3d 3d = = = == 1 1 1 d d d 1 1 1 t1 t 2 t 3 temps total d ( ) v1 v 2 v3 v1 v 2 v3 v1 v 2 v3 = MH des vitesses. Cas des distances inégales : VM = v1 v2 d1 d2 v3 d3 d d 2 d3 distance totale = 1 . d1 d 2 d 3 temps total v1 v 2 v3 → Ce n'est plus à proprement parler une MH. Exemple 3 : Une voiture parcourt un trajet à 100 km/h de moyenne et le retour à 40 km/h. La vitesse moyenne de l'aller-retour : 100 40 2 VM = = 57,14 ( et non = 70 ). 1 1 2 100 40 14 Exemple 4 : (achat d’une marchandise en plusieurs étapes, pour un montant fixe à chaque étape) J’ai acheté hier pour 90$ de pommes au prix de 6$ la douzaine et aujourd’hui à nouveau pour 90$ de pommes au prix de 5$ la douzaine. Globalement, combien coûte la douzaine de pommes ? 90 90 90(1 1) 2 Prix unitaire = Prix global / Quantité globale = 5.45 $ 90 90 1 1 1 1 90( ) 6 5 6 5 6 5 Il s’agit de la moyenne harmonique des prix. En bref, lorsqu’une même somme est affectée plusieurs fois à l’achat d’un bien à des prix variables, le prix unitaire de ce bien sur l’ensemble des achats est la moyenne harmonique de ces prix. Achat 1 x francs p1 Achat 2 x francs p2 Prix unitaire = ... Achat N ... x francs ... pN N . 1 1 1 p1 p 2 pN 2.3.3 Moyenne quadratique Y y1 , … , yN yj 0 N MQ (Y ) y i 1 2 i N Nous verrons plus tard que l’écart-type est la moyenne quadratique des données centrées. 2.3.4 Mi–chemin C’est la moyenne arithmétique des deux modalités extrêmes (cette mesure n’a à l’évidence pas grand intérêt). 2.3 Mesures de position 2.4.1 Centiles (ça, en revanche, c’est essentiel) Question soulevée : comment diviser les données ou la distribution en un certain nombre de parties. 15 Pour partager une série ou une distribution en 2, on utilise 1 médiane 4, on utilise 3 quartiles 5 on utilise 4 quintiles 10, on utilise 9 déciles 100, on utilise 99 centiles Comme les quartiles, quintiles, déciles, sont des subdivisions des centiles, il suffit d’examiner uniquement les centiles (lesquels furent déjà abordés au chapitre 1). Au lieu de centile, on rencontre aussi parfois le terme de percentile. Les centiles n’ont vraiment d’intérêt que si on a un certain nombre de données. Médiane 25 % 25 % 25 % 25 % Q1 Q2 Q3 C25 C50 C75 Exemple : (quartiles, dans le cas des données groupées en classes) Q1 Q2 Q3 Les trois quartiles divisent la surface de l’histogramme en 4 parties égales. Autre façon (exactement équivalente) de visualiser les quartiles : grâce à l’ogive F(x) : 16 F(x) 1 0.75 0.5 0.25 0 b0 Q1 Q2 Q3 bk On peut généraliser la notion de quartile à celle de centile d’ordre . Le centile d’ordre , noté C , est ainsi défini : 1. Données rangées N n’est pas un entier. Si 100 N N est un entier, on choisit le nombre à mi-chemin entre la donnée de rang et la 100 100 données suivante. C’est la donnée dont le rang est l’entier suivant N 100 si Prenons par exemple les données : 27, 29, 31, 31, 31, 34, 36, 39, 42, 45. Nous voulons calculer C32 . N = 10, α = 32, d’où Nα/100 = 3.2 → 4 C32 est la quatrième donnée, soit 31. 2. Données condensées C’est la première modalité dont la fréquence relative cumulée dépasse relative cumulée atteint une valeur exacte de 100 100 . Si la fréquence , on choisit le nombre à mi-chemin entre la modalité concernée et la suivante. 3. Données groupées en classes Il faut d’abord trouver la classe du centile C . C’est la première classe où la fréquence relative cumulée (Fi) atteint ou dépasse . 100 La formule qui suit est l’exacte généralisation de la formule de la médiane. Elle a été établie dans le Chapitre 1. (§ 1.3.6, formule (4)) avec une notation un peu différente. 17 C bC FC 1 LC 100 f C (1) bCα est la borne inférieure de la classe contenant Cα LCα est la largeur de la classe contenant Cα fCα est la fréquence relative de la classe contenant Cα FCα -1 est la fréquence relative cumulée de la classe précédant la classe contenant Cα 2.4.2 Rang centile (important aussi) Illustration Examen de Statistique 2 de juin 2012 (66 participants). Un étudiant a obtenu la note 4.6 et 55% des étudiants avaient une note inférieure à 4.6. → 55 et C 4.6. Le rang centile est un pourcentage, alors que le centile est une valeur comprise dans le champ des valeurs possibles de la variable, ici [1, 6]. Données rangées et condensées Pour calculer le rang centile d’une valeur, il suffit, pour les données rangées et condensées, de calculer directement le pourcentage de données plus petites que cette valeur. Données regroupées dans des classes Nous reproduisons ici, avec les notations du livre d’Ouellet, un graphique (ogive) déjà rencontré dans le Chapitre 1. F(x) 1 α% 0 b0 Cα bk 18 La valeur désigne le rang centile et C le centile d’ordre . À bien noter que le rang centile est un pourcentage alors que le centile représente un point sur l’axe horizontal de l’ogive (et aussi de l’histogramme : ces deux graphiques ayant le même axe horizontal). Le graphique ci-dessus est à cet égard explicite : et C sont en correspondance grâce à l’ogive. Il existe une dualité entre ces deux valeurs, l’une n’ayant pas de sens sans l’autre. À titre d’illustration : lors de l’examen de Statistique 2 de juin 2012 auquel ont participé 66 étudiants, l’un d’entre eux a obtenu la note 4.6. Le rang centile de cette note était 55, ce qui signifie que 55% des étudiants avaient une note inférieure à 4.6. Dans cet exemple 4.6 n’est autre que le centile C . Le graphique est une aide à la compréhension, mais il ne nous aide guère en matière de calcul : il nous faut un outil plus précis et plus efficace. Lorsque les données sont groupées en classes, quelle formule nous permet-elle de calculer le rang centile d’une valeur ? Examinons la formule (1) donnée plus haut pour le calcul de C (dans ce cas, est connu et on cherche C ). Nous nous intéressons maintenant à calculer lorsque C est connu. Il suffit en fait d’isoler le dans la formule (1) et de le représenter comme une fonction de Cα pour obtenir ce qu’on cherche : FC 1 LC C bC 100 f C D’où / 100 C bC LC → fC FC 1 C bC f C FC 1 LC 100 / 100 FC 1 f C C bC LC et donc (2) Il s’agit de la même formule que celle d’Ouellet p. 87. Malheureusement, Ouellet change de notation par rapport à sa formule du centile, ce qui n’est jamais une bonne idée. Nous conservons quant à nous la même notation pour le calcul du rang centile et du centile. Notons encore que cette formule est identique à celle du Chapitre 1., § 1.3.6, formule (3). Un détail encore : la valeur de obtenue grâce à l’équation (2) n’est généralement pas un entier. Par convention, on prend alors la valeur entière de . Pour trouver la valeur entière d’un nombre réel, il suffit de laisser tomber ses décimales. Par exemple, la valeur entière de 3.24 ou 3.678 ou 3.9999 est tout simplement 3. Ce n’est pas, on le voit, l’arrondi habituel, mais c’est un arrondi par le bas, une troncation. 19 En bref : 1. Par définition, 100 F (C ) , le pourcentage de données strictement plus petites que C . 2. Si C est la médiane : 100 = F(médiane) = 0.5. D’où 50 : le rang centile de la médiane est 50. 3. De même, le rang centile de Q1 est 25, celui de Q3 est 75, etc. 4. Lorsqu’on se trouve dans le cadre des données groupées en classes, ce pourcentage qu’est le rang centile, peut être visualisé géométriquement. Il n’est autre que la surface de l’histogramme (ou de la courbe de distribution de fréquences utilisée par commodité pour représenter l’histogramme ou le polygone des fréquences) située à gauche du centile. Ainsi, une surface représentant 30 % de la surface de l’histogramme (ou 30 % de la surface sous la courbe de distribution de fréquences ou du polygone des fréquences) se trouve à gauche du centile C30, comme indiqué par le graphique ci-après. Courbe de distribution de fréquences de X 30% % 30% X C30 F(x) 1 0.3 0 C30 X 20