Caractéristiques de tendance centrale d`une distribution statistique

publicité
III. Quantiles et diagramme en boîtes
1. Quartiles et diagramme associé
L’idée de médiane est généralisée par les quantiles en partageant la
population en plusieurs groupes (4, 10 ou 100).
Exemple :
-BCaractéristiques de tendance centrale
d’une distribution statistique
Une évaluation du vocabulaire des élèves de CE2 est réalisée.
Le nombre de bonnes réponses à l’ensemble des 70 items proposés
de reconnaissance de mots indique le niveau des élèves.
Le « quartilage » partage les élèves de CE2 en quatre groupes de
même effectif.
Ces quatre groupes définissent trois valeurs appelées « quartiles »
et notées Q1, Q2, Q3 ou x25, x50 et x75.
Les quartiles sont : Q1= 45 ; Q2 = 50 ; Q3 = 60
Les valeurs minimale et maximale sont Q0 = 30 et Q4 = 61.
Interprétez et commentez ces valeurs…
III. Quantiles et diagramme en boîtes
III. Quantiles et diagramme en boîtes
1. Quartiles et diagramme associé (suite et fin)
2. Déciles et centiles, diagramme associé
La représentation de ces groupes est un diagramme en boîtes ou
aussi diagramme en boîtes à moustaches :
La définition des déciles et des centiles est analogue à celle des
quartiles en remplaçant 25% respectivement par 10% et 1%.
Des diagrammes en boîtes qui font figurer les déciles ou les centiles
sont souvent utilisés pour comparer des distributions.
L’intérêt des centiles est d’être précis et d’être facilement lisibles
compte tenu de l’habitude à manier des pourcentages.
Exemple :
Le diagramme montre l’étalement des intervalles de valeurs entre
lesquelles se répartissent les quatre quarts de la population.
L’intervalle [Q1 ; Q3] s’appelle l’intervalle interquartile.
Les enquêtes PISA menées par l’OCDE comparent les systèmes
éducatifs des pays et illustrent certains résultats par des
diagrammes en boîtes où les intervalles entre deux centiles
successifs sont représentés par un dégradé de couleur.
En 2000, l’enquête PISA portait notamment sur les compétences
relatives à la compréhension de l’écrit.
III. Quantiles et diagramme en boîtes
III. Quantiles et diagramme en boîtes
2. Déciles et centiles, diagramme associé (suite et fin)
3. Intérêt et limite des quantiles
Voici les diagrammes en
boîtes de résultats de trois
pays en « compréhension de
l’écrit ».
Questions :
L’intérêt (et la limite) de la médiane est de ne pas prendre en
compte la globalité de la population ni l’ensemble des valeurs ce qui
la rend peu sensibles aux valeurs extrêmes.
a) Comparer les résultats des
trois pays.
Ces caractéristiques de position étant nombreuses, elles rendent
compte de la dispersion des valeurs, et pas seulement de la
tendance centrale de la variable
b) Comparer les élites des
trois pays et en tirer les
conséquences
pour
l’un
d’entre eux.
Il en est de même pour les quantiles, mais plus ils sont fins, plus ils
sont sensibles aux valeurs aberrantes.
c) Comparer les résultats des
élèves les plus faibles des
trois pays et en tirer des
conséquences
socioéconomiques
pour
l’un
d’entre eux.
IV. Moyenne d’une variable quantitative
IV. Moyenne d’une variable quantitative
Introduction et exemple
1. Moyenne d’une série statistique
Quelle serait la valeur prise par tous les individus si la diversité était
éliminée par un processus de compensation entre les valeurs ? La
moyenne répond à cette question, voici comment.
Exemple :
Dans une série statistique, les valeurs sont données une à une,
individu par individu, il suffit alors pour calculer la moyenne
d’additionner ces valeurs et de diviser la somme obtenue par
l’effectif total.
Un élève a obtenu les notes 10, 14 et 12. En envisageant qu’il ait
obtenu trois fois la même note, cette note serait 12 car les deux
notes 14 et 10 se compensent par cette note 12 qui est égale à la
dernière des trois notes.
On peut penser de deux façons cette compensation.
Première façon : on pense que 14 est de deux points supérieure à
12, que 10 est de deux points inférieure à 12, et on conclut par
compensation que la moyenne est 12.
Deuxième façon : on pense que l’élève a totalisé 24 points avec
deux notes et que cela revient à avoir obtenu deux fois la note 12.
Exemple : ici, la moyenne est 222 526 / 19 = 11 712 ppa$.
IV. Moyenne d’une variable quantitative
IV. Moyenne d’une variable quantitative
2. Moyenne de la distribution d’une variable discrète
3. Moyenne de la distribution d’une variable continue
Lorsque les valeurs sont données par la distribution statistique, les
valeurs doivent être répétées autant de fois qu’elles sont associées à
des individus de la population.
Exemple : enquête sur le nombre d’années d’études effectuées par
des bacheliers ayant commencé un cursus universitaire.
Ici, on calcule : 1 x 65 + 2 x 84 + 3 x 458 + … + 9 x 16
on obtient 9 064 que l’on divise par 1 971 ce qui donne 4,6.
Les étudiants ayant commencé des études universitaires ont donc
effectué en moyenne 4,6 années d’étude.
Lorsque la variable est
continue, on dispose
généralement
d’une
distribution dont les
modalités
ont
été
regroupées en classes.
Comment calculer
moyenne ?
la
Exemple :
Performance en saut en
longueur de 240 élèves
de CM1.
Dans le calcul de la moyenne, on multiplie chaque modalité de la
variable par son effectif avant d’effectuer la somme : on
« pondère » les valeurs de la variable par les effectifs et la moyenne
ainsi calculée est appelée moyenne pondérée.
Remarque : on peut calculer la moyenne avec les fréquences.
IV. Moyenne d’une variable quantitative
V. Bilan sur les trois caractéristiques de tendance centrale
4. Intérêt et limite de la moyenne
1. Synthèse des avantages et inconvénients
La moyenne représente par une seule donnée numérique l’ensemble
de la distribution.
Cela rend la moyenne sensible aux valeurs aberrantes et cela fait
que la moyenne représente mal les variables hétérogènes.
Un intérêt très important de la moyenne est qu’elle s’obtient par le
calcul. Elle possède par conséquent des propriétés algébriques qui
font qu’elle se prête bien aux interprétations dans d’autres cadres
théoriques mathématiques que celui de la statistique.
Enfin, on ne peut pas ne pas mentionner l’intérêt majeur de la
moyenne bien qu’il soit évident : elle est tellement courante et
banale qu’elle est indispensable !
V. Bilan sur les trois caractéristiques de tendance centrale
V. Bilan sur les trois caractéristiques de tendance centrale
2. Position relative de la moyenne et de la médiane
2. Position relative de la moyenne et de la médiane
A. Si la médiane est égale à la moyenne
B. Si la médiane est supérieure à la moyenne
Supposons que ces deux indicateurs centraux soient égaux. Cela
signifie que 50% de la population a une valeur supérieure à la
moyenne et que 50% de la population a une valeur inférieure à la
moyenne.
Dans ce cas, en déterminant deux groupes de même effectif, la
valeur frontière obtenue est plus élevée que la moyenne.
Afin de poursuivre l’analyse, reprenons l’exemple de l’évaluation de
l’orthographe des élèves scolarisées normalement en CM2 ou au
collège et considérons la variable qui à chaque élève associe le
nombre de fautes commises, indépendamment de leur nature.
Il y a au moins la moitié des élèves qui font 30 fautes ou plus, si on
rajoute ceux qui font de 27 à 29 fautes on obtient strictement plus
que la moitié des élèves.
Si la valeur médiane et la valeur moyenne sont égales, il y a autant
d’élèves qui font plus de faute que la moyenne que d’élèves qui
moins de fautes que la moyenne.
Et le nombre de fautes commises par les moins performants est
compensé par celui des plus performants.
On dit que la distribution est « symétrique ».
V. Bilan sur les trois caractéristiques de tendance centrale
2. Position relative de la moyenne et de la médiane
C. Si la médiane est inférieure à la moyenne
Dans ce cas, les élèves qui font moins de fautes que la moyenne
sont les plus nombreux.
Interprétation : il y a une minorité d’élèves font beaucoup de fautes
et élèvent la valeur du nombre moyen de fautes.
La distribution est asymétrique.
En résumé: lorsque la médiane est différente de la moyenne
(la distribution est asymétrique), la moyenne partage la
population en deux sous-populations d’effectifs différents,
les individus dont les valeurs sont du côté de la médiane
sont les plus nombreux.
Supposons par exemple que chez les élèves de 5e, la moyenne est
27 fautes d’orthographe et que la médiane est 30 fautes.
Ainsi, les élèves qui font plus de fautes que la moyenne, sont les
plus nombreux.
Interprétation : il y a une minorité d’élèves suffisamment
performants en orthographe et qui abaisse le nombre de fautes
moyen.
La distribution est « asymétrique ».
Téléchargement