III. Quantiles et diagramme en boîtes 1. Quartiles et diagramme associé L’idée de médiane est généralisée par les quantiles en partageant la population en plusieurs groupes (4, 10 ou 100). Exemple : -BCaractéristiques de tendance centrale d’une distribution statistique Une évaluation du vocabulaire des élèves de CE2 est réalisée. Le nombre de bonnes réponses à l’ensemble des 70 items proposés de reconnaissance de mots indique le niveau des élèves. Le « quartilage » partage les élèves de CE2 en quatre groupes de même effectif. Ces quatre groupes définissent trois valeurs appelées « quartiles » et notées Q1, Q2, Q3 ou x25, x50 et x75. Les quartiles sont : Q1= 45 ; Q2 = 50 ; Q3 = 60 Les valeurs minimale et maximale sont Q0 = 30 et Q4 = 61. Interprétez et commentez ces valeurs… III. Quantiles et diagramme en boîtes III. Quantiles et diagramme en boîtes 1. Quartiles et diagramme associé (suite et fin) 2. Déciles et centiles, diagramme associé La représentation de ces groupes est un diagramme en boîtes ou aussi diagramme en boîtes à moustaches : La définition des déciles et des centiles est analogue à celle des quartiles en remplaçant 25% respectivement par 10% et 1%. Des diagrammes en boîtes qui font figurer les déciles ou les centiles sont souvent utilisés pour comparer des distributions. L’intérêt des centiles est d’être précis et d’être facilement lisibles compte tenu de l’habitude à manier des pourcentages. Exemple : Le diagramme montre l’étalement des intervalles de valeurs entre lesquelles se répartissent les quatre quarts de la population. L’intervalle [Q1 ; Q3] s’appelle l’intervalle interquartile. Les enquêtes PISA menées par l’OCDE comparent les systèmes éducatifs des pays et illustrent certains résultats par des diagrammes en boîtes où les intervalles entre deux centiles successifs sont représentés par un dégradé de couleur. En 2000, l’enquête PISA portait notamment sur les compétences relatives à la compréhension de l’écrit. III. Quantiles et diagramme en boîtes III. Quantiles et diagramme en boîtes 2. Déciles et centiles, diagramme associé (suite et fin) 3. Intérêt et limite des quantiles Voici les diagrammes en boîtes de résultats de trois pays en « compréhension de l’écrit ». Questions : L’intérêt (et la limite) de la médiane est de ne pas prendre en compte la globalité de la population ni l’ensemble des valeurs ce qui la rend peu sensibles aux valeurs extrêmes. a) Comparer les résultats des trois pays. Ces caractéristiques de position étant nombreuses, elles rendent compte de la dispersion des valeurs, et pas seulement de la tendance centrale de la variable b) Comparer les élites des trois pays et en tirer les conséquences pour l’un d’entre eux. Il en est de même pour les quantiles, mais plus ils sont fins, plus ils sont sensibles aux valeurs aberrantes. c) Comparer les résultats des élèves les plus faibles des trois pays et en tirer des conséquences socioéconomiques pour l’un d’entre eux. IV. Moyenne d’une variable quantitative IV. Moyenne d’une variable quantitative Introduction et exemple 1. Moyenne d’une série statistique Quelle serait la valeur prise par tous les individus si la diversité était éliminée par un processus de compensation entre les valeurs ? La moyenne répond à cette question, voici comment. Exemple : Dans une série statistique, les valeurs sont données une à une, individu par individu, il suffit alors pour calculer la moyenne d’additionner ces valeurs et de diviser la somme obtenue par l’effectif total. Un élève a obtenu les notes 10, 14 et 12. En envisageant qu’il ait obtenu trois fois la même note, cette note serait 12 car les deux notes 14 et 10 se compensent par cette note 12 qui est égale à la dernière des trois notes. On peut penser de deux façons cette compensation. Première façon : on pense que 14 est de deux points supérieure à 12, que 10 est de deux points inférieure à 12, et on conclut par compensation que la moyenne est 12. Deuxième façon : on pense que l’élève a totalisé 24 points avec deux notes et que cela revient à avoir obtenu deux fois la note 12. Exemple : ici, la moyenne est 222 526 / 19 = 11 712 ppa$. IV. Moyenne d’une variable quantitative IV. Moyenne d’une variable quantitative 2. Moyenne de la distribution d’une variable discrète 3. Moyenne de la distribution d’une variable continue Lorsque les valeurs sont données par la distribution statistique, les valeurs doivent être répétées autant de fois qu’elles sont associées à des individus de la population. Exemple : enquête sur le nombre d’années d’études effectuées par des bacheliers ayant commencé un cursus universitaire. Ici, on calcule : 1 x 65 + 2 x 84 + 3 x 458 + … + 9 x 16 on obtient 9 064 que l’on divise par 1 971 ce qui donne 4,6. Les étudiants ayant commencé des études universitaires ont donc effectué en moyenne 4,6 années d’étude. Lorsque la variable est continue, on dispose généralement d’une distribution dont les modalités ont été regroupées en classes. Comment calculer moyenne ? la Exemple : Performance en saut en longueur de 240 élèves de CM1. Dans le calcul de la moyenne, on multiplie chaque modalité de la variable par son effectif avant d’effectuer la somme : on « pondère » les valeurs de la variable par les effectifs et la moyenne ainsi calculée est appelée moyenne pondérée. Remarque : on peut calculer la moyenne avec les fréquences. IV. Moyenne d’une variable quantitative V. Bilan sur les trois caractéristiques de tendance centrale 4. Intérêt et limite de la moyenne 1. Synthèse des avantages et inconvénients La moyenne représente par une seule donnée numérique l’ensemble de la distribution. Cela rend la moyenne sensible aux valeurs aberrantes et cela fait que la moyenne représente mal les variables hétérogènes. Un intérêt très important de la moyenne est qu’elle s’obtient par le calcul. Elle possède par conséquent des propriétés algébriques qui font qu’elle se prête bien aux interprétations dans d’autres cadres théoriques mathématiques que celui de la statistique. Enfin, on ne peut pas ne pas mentionner l’intérêt majeur de la moyenne bien qu’il soit évident : elle est tellement courante et banale qu’elle est indispensable ! V. Bilan sur les trois caractéristiques de tendance centrale V. Bilan sur les trois caractéristiques de tendance centrale 2. Position relative de la moyenne et de la médiane 2. Position relative de la moyenne et de la médiane A. Si la médiane est égale à la moyenne B. Si la médiane est supérieure à la moyenne Supposons que ces deux indicateurs centraux soient égaux. Cela signifie que 50% de la population a une valeur supérieure à la moyenne et que 50% de la population a une valeur inférieure à la moyenne. Dans ce cas, en déterminant deux groupes de même effectif, la valeur frontière obtenue est plus élevée que la moyenne. Afin de poursuivre l’analyse, reprenons l’exemple de l’évaluation de l’orthographe des élèves scolarisées normalement en CM2 ou au collège et considérons la variable qui à chaque élève associe le nombre de fautes commises, indépendamment de leur nature. Il y a au moins la moitié des élèves qui font 30 fautes ou plus, si on rajoute ceux qui font de 27 à 29 fautes on obtient strictement plus que la moitié des élèves. Si la valeur médiane et la valeur moyenne sont égales, il y a autant d’élèves qui font plus de faute que la moyenne que d’élèves qui moins de fautes que la moyenne. Et le nombre de fautes commises par les moins performants est compensé par celui des plus performants. On dit que la distribution est « symétrique ». V. Bilan sur les trois caractéristiques de tendance centrale 2. Position relative de la moyenne et de la médiane C. Si la médiane est inférieure à la moyenne Dans ce cas, les élèves qui font moins de fautes que la moyenne sont les plus nombreux. Interprétation : il y a une minorité d’élèves font beaucoup de fautes et élèvent la valeur du nombre moyen de fautes. La distribution est asymétrique. En résumé: lorsque la médiane est différente de la moyenne (la distribution est asymétrique), la moyenne partage la population en deux sous-populations d’effectifs différents, les individus dont les valeurs sont du côté de la médiane sont les plus nombreux. Supposons par exemple que chez les élèves de 5e, la moyenne est 27 fautes d’orthographe et que la médiane est 30 fautes. Ainsi, les élèves qui font plus de fautes que la moyenne, sont les plus nombreux. Interprétation : il y a une minorité d’élèves suffisamment performants en orthographe et qui abaisse le nombre de fautes moyen. La distribution est « asymétrique ».