- C - Caractéristiques de dispersion et de forme d`une distribution

publicité
Introduction
Les caractéristiques de tendance centrale donnent
informations sur les valeurs importantes de la distribution :
des
- celles qui concentrent au maximum les individus (modes),
-CCaractéristiques de dispersion et de forme
d’une distribution statistique
- celles qui partagent la population en groupes de même effectif
(médiane et quantiles)
- celle qui pourrait remplacer toutes les valeurs si celles-ci se
compensaient (moyenne).
Les caractéristiques de dispersion et de forme ont pour objectif
de rendre compte de la diversité des valeurs et de leur
répartition entre les valeurs extrêmes.
I. Caractéristiques de dispersion
I. Caractéristiques de dispersion
1. Étendue, intervalle interquartile, écart interquartile
2. Écart absolu, écart quadratique
L’étendue est la différence entre la plus grande et la plus petite
des modalités.
Comme cette caractéristique est très sensibles aux valeurs
aberrantes, on lui préfère les écarts interquantiles :
- l’intervalle interquantile est délimité par le premier et le dernier
quantile ;
- l’écart interquantile est la longueur de cet intervalle.
L’intervalle interquartile comporte 50% de la population,
l’intervalle interdécile 80% et l’intervalle intercentile 98%.
Ces
paramètres
indiquent entre
quelles
valeurs
sont
fréquemment réparties les modalités, mais n’indiquent pas si les
modalités sont fréquemment éloignées ou proches des valeurs
centrales.
a) Comment exprimer la dispersion ?
On cherche à mesurer l’écart des modalités à une valeur
centrale.
À chaque fois qu’une valeur est différente de cette valeur
centrale, elle contribue à la dispersion des modalités. On cherche
à calculer cette dispersion, en moyenne.
Exemple :
Considérons le caractère « nombre d’élèves » d’une population
de cinq collèges.
Les modalités de la variable sont : 270, 290, 300, 370, 520.
La moyenne est (270+290+300+370+520) / 5 = 350.
On obtient le tableau des écarts :
Modalité
270
290
300
370
520
Écarts à la moyenne
-80
-60
-50
+20
+170
Total
Ce qui donne un total attendu... mais pas très intéressant !
0
I. Caractéristiques de dispersion
I. Caractéristiques de dispersion
2. Écart absolu, écart quadratique
2. Écart absolu, écart quadratique
Ce qui crée la compensation globale, c’est qu’il y a des
différences positives et négatives.
Deux possibilités sont envisageables : soit supprimer purement
et simplement les “ signes moins ”, soit calculer le carré de
chaque différence.
b) Écart absolu moyen
Commençons par la première possibilité, on obtient le tableau :
Modalité
270
290
300
370
520
Total
Écarts absolus
80
60
50
20
170
380
Le total des écarts absolu n’a pas la même signification suivant la
taille de la population (ici le nombre de collèges).
Il faut donc rapporter ce total au nombre de collèges c’est-à-dire
calculer la moyenne des écarts absolus. On obtient 76.
c) Écart quadratique moyen
Avec la seconde possibilité, on obtient le tableau :
Modalité
270
290
300
370
520
Total
Écarts quadratiques
6400
3600
2500
400
28900 41800
Pour la même raison, il faut rapporter ce total (SCE) au nombre
de collèges c’est-à-dire calculer la moyenne des carrés des
écarts. On obtient 8 360.
L’unité n’est pas adaptée à l’interprétation, on calcule donc la
racine carrée de cette moyenne qui est égale à 91.
L’effectif des collèges varie entre 270 et 520 élèves, l’effectif
moyen est de 350 avec un écart quadratique moyen de 91.
Le même travail pourrait être fait pour la médiane ou le mode.
Comment choisir entre écarts absolus et écarts quadratiques ?
L’effectif des collèges varie entre 270 et 520 élèves, l’effectif
moyen est de 350 avec un écart absolu moyen de 76.
I. Caractéristiques de dispersion
I. Caractéristiques de dispersion
2. Écart absolu, écart quadratique
2. Écart absolu, écart quadratique
d) Variance et écart type ?
d) Variance et écart type ?
•Premier argument
•Deuxième argument
Si on avait calculé les différences par rapport à la médiane, on
aurait obtenu :
- un écart absolu moyen de 66 élèves
- un écart quadratique moyen de 104 élèves.
Considérons deux élèves A et B dont les notes sur 20 sont :
Si l’on choisit l’écart absolu moyen pour exprimer la dispersion,
alors la valeur obtenue avec la moyenne comme référence est
supérieure à la valeur obtenue avec la médiane comme référence
(76 contre 66),
Pour A et B, la moyenne est 10 et l’écart absolu moyen est 2.
en revanche si l’on choisit l’écart quadratique moyen pour
exprimer la dispersion, alors la valeur obtenue avec la moyenne
comme référence est inférieure à la valeur obtenue avec la
médiane comme référence (91 contre 104).
•Troisième argument
Les statisticiens ont démontré que, de façon générale :
-la médiane rend minimal l’écart absolu moyen ;
-la moyenne rend minimal l’écart quadratique moyen.
A : 08, 08, 08, 08, 12, 12, 12, 12
B : 02, 10, 10, 10, 10, 10, 10, 18
L’écart quadratique moyen met en valeur la présence de
modalités extrêmes, en effet, pour A il est 2 alors que pour B il
est de 4.
Dans les calculs mathématiques, l’écart quadratique est plus
facile à manipuler que l’écart absolu.
I. Caractéristiques de dispersion
I. Caractéristiques de dispersion
2. Écart absolu, écart quadratique
2. Écart absolu, écart quadratique
Pour indiquer la dispersion des modalités d’une distribution
statistique, on choisira donc :
- l’écart absolu moyen par rapport à la médiane ;
ou
- l’écart quadratique moyen par rapport à la moyenne.
Exemple :
Comme on se réfère souvent à la moyenne, on a simplifié le
vocabulaire :
- l’écart quadratique moyen par rapport à la moyenne est
appelé écart type (sigma).
- le carré de l’écart type, qui est la moyenne des carrés des
écarts à la moyenne, est appelé variance.
La moyenne est 11 712 ppa$ et l’écart type est 3 477 ppa$.
Remarque : l’écart type représente 30% environ de la moyenne.
I. Caractéristiques de dispersion
I. Caractéristiques de dispersion
2. Écart absolu, écart quadratique
3. Coefficient de variation
Exemple (suite) :
Exemple (suite et fin) :
Dans l’intervalle [8 235 ; 15 189] des valeurs comprises entre la
moyenne plus ou moins un écart type, on trouve 14 pays sur les
19 c’est-à-dire près de 75% d’entre eux.
L’usage, quand on décrit une variable, est de donner son écarttype après avoir donné sa moyenne.
Ainsi les pays contribuent d’une façon analogue (la dépense
moyenne à 30% près) pour les trois quarts d’entre eux.
L’Espagne, l’Islande et l’Italie contribuent sensiblement moins,
alors que les États-Unis et la Suisse contribuent sensiblement
plus.
L’écart-type a permis de dégager trois groupes d’individus : les
individus typiques, les individus atypiques forts et les individus
atypiques faibles.
L’écart-type de la série des dépenses d’éducation est 3 500 ppa$.
Cet écart ne décrit pas la même dispersion lorsque la moyenne
12 000, 120 000 ou 1 200.
Le rapport entre écart-type et moyenne est le coefficient de
variation, il s’exprime généralement en %.
Il est aussi très utile lorsqu’on compare deux distributions
statistiques : il n’y a qu’à imaginer qu’on étudie la taille en mm
des fourmis et celle des girafes pour s’en convaincre !
L’écart type indique donc de manière absolue la dispersion des
modalités, son unité est celle des modalités de la variable.
Le coefficient de variation indique la grandeur relative (en
pourcentage) de cette dispersion.
II. Caractéristiques de forme
L’habitude de lire des histogrammes ou plus généralement des
courbes de distribution de fréquence (représentation graphique
de la densité de fréquence) rend sensible à la « forme » de la
courbe.
Les statisticiens ont explicité deux critères pour décrire la forme
d’une telle courbe : sa symétrie et son aplatissement.
Par abus de langage, ces termes qui s’appliquent à la courbe sont
généralement employés pour qualifier la distribution elle-même.
II. Caractéristiques de forme
1. Symétrie d’une distribution
Si la courbe d’une distribution de fréquence qui représente une
variable unimodale est symétrique, alors les valeurs sont
réparties dans les mêmes proportions autour du mode, et donc la
moyenne et la médiane seront égales au mode.
Exemple 1 :
C’est approximativement le cas des performances en saut.
II. Caractéristiques de forme
II. Caractéristiques de forme
1. Symétrie d’une distribution
1. Symétrie d’une distribution
Exemple 2 :
Exemple 3 :
La distribution des notes au DNB des élèves de 3e générale
admis en 2nde GT est symétrique. Les valeurs centrales sont
approximativement égales à 11,5.
La courbe de tous les élèves de 3e générale n’est pas
symétrique, elle est plus « étalée » à droite. Le mode est 9,5
mais la médiane et la moyenne sont supérieures à 9,5.
II. Caractéristiques de forme
II. Caractéristiques de forme
1. Symétrie d’une distribution
2. Aplatissement d’une distribution
Généralisation : la
moyenne est plus
sensibles
aux
valeurs
extrêmes
que la médiane donc
la moyenne est plus
éloignée du mode
que la médiane
La moyenne et la
médiane sont du
même
côté
par
rapport au mode :
celui de l’étalement.
La médiane est en
position
intermédiaire.
Dans le cas d’une
variable unimodale,
- plus les valeurs sont
dispersées,
plus
la
courbe de distribution
apparaît aplatie
- plus les valeurs sont
concentrées autour du
mode, moins la courbe
de distribution apparaît
aplatie.
Une définition rigoureuse de l’aplatissement
est hors de portée de
ce cours.
III. La distribution de référence : la loi normale
III. La distribution de référence : la loi normale
1. Exemple d’une distribution liée au hasard
1. Exemple d’une distribution liée au hasard
Une évaluation est proposée à des élèves. Pour chaque question, un
élève quelconque a une chance sur deux de répondre correctement !
Cette évaluation est notée par le pourcentage de réussite au
questionnaire de l’évaluation.
Si l’évaluation comporte une question, le plus probable est que 50%
des élèves aient la note 100% et que 50% obtiennent la note 0%.
Si l’évaluation comporte deux questions, il y aura quatre
possibilités pour chaque élève : réussite et réussite, réussite et
échec, échec et réussite, et enfin échec et échec. Donc 3 notes.
Le plus probable est que 25% des élèves obtiennent la note
100%, 50% élèves obtiennent la note 50% et 25% élèves
obtiennent la note 0%.
III. La distribution de référence : la loi normale
1. Exemple d’une distribution liée au hasard
Avec trois questions, il y a huit possibilités : RRR, RRE, RER,
ERR, REE, ERE, EER, et EEE. Donc quatre notes.
Le plus probable est que 12,5% des élèves obtiennent 100%,
37,5% obtiennent 67%, 37,5% obtiennent 33% et 12,5%
obtiennent 0%.
III. La distribution de référence : la loi normale
1. Exemple d’une distribution liée au hasard
Lorsque le nombre de questions augmente, le diagramme
ressemble de plus en plus à une courbe.
Cette « courbe » est symétrique autour du mode 50%.
On s’aperçoit aussi que plus le nombre de questions est
important, plus la « courbe » se resserre autour de la valeur
modale. Autrement dit l’écart-type diminue.
Pour une évaluation comportant 10 questions, l’écart-type est de
16% environ. Pour une évaluation comportant 100 questions,
l’écart-type descend à 5%.
Dès que le nombre de questions dépasse 10, la fonction sous
jacente à chaque histogramme est une densité de fréquence
définie par une loi mathématique appelée loi normale.
Il y a en fait une infinité de lois normales, elles sont définies par
le couple (moyenne ; l’écart-type).
La plus utilisée des lois normales dans la théorie des probabilités
et des statistiques est la loi normale centrée réduite dont la
moyenne est zéro et dont l’écart-type est 1.
III. La distribution de référence : la loi normale
III. La distribution de référence : la loi normale
2. Propriétés de la loi normale
3. Pourquoi la loi normale est-elle importante ?
L’aire sous la courbe se répartit de
façon telle que : dans une
distribution normale, plus des 2/3
des individus sont situés à moins
d’un écart-type de la moyenne. Plus
de 95% sont situés à moins de
deux écarts-types de la moyenne et
la quasi-totalité des individu sont
situés à moins de trois écarts-types
de la moyenne.
La loi normale est très connue car elle est utilisée pour décrire de
nombreuses situations dans beaucoup de disciplines.
Elle l’est d’ailleurs si souvent qu’on peut s’interroger parfois sur
le bien fondé de la référence à cette loi pour décrire une situation
attendue : la répartition des notes des étudiants à un examen
par exemple.
Son utilisation est fondamentale en statistique inférentielle car
elle constitue un des outils qu’on met en œuvre pour comparer
des groupes d’individus.
En statistique descriptive, elle est souvent utilisée comme
référence pour constituer des groupes d’individus au sein de la
population étudiée.
IV. Moyenne et écart-type, un outil pour comparer
IV. Moyenne et écart-type, un outil pour comparer
1. Comparaison d’un individu à une référence
2. Comparaison de deux valeurs numériques
Situation
Situation
Le score des réussites de Maud à l’évaluation en mathématiques
passée en début de sixième est 72 sur 94 items. Maud est-elle
bonne en mathématiques ?
Le score des réussites de Lucie en mathématiques est 75 sur 94
items. Son score en français est 74 sur 87 items. Lucie est-elle
meilleure en mathématiques ou en français ?
Traitement
Traitement
On compare le score de Maud au score national : 68. Le score de
Maud est supérieur à la moyenne.
On utilise les informations concernant les scores nationaux :
-Mathématiques : moyenne = 68 et écart-type = 4 ;
-Français : moyenne = 70 et écart-type = 3.
Mais la dispersion des scores est un élément à prendre en
compte car :
-si 70% des élèves ont des scores compris entre 58 et 78, le
score de Maud ne semblera pas exceptionnel ;
-si 70% des élèves ont des scores compris entre 64 et 72 le
score de Maud pourra être considéré comme un bon score.
Sachant que l’écart-type est 4, on pourra considérer que Maud
est bonne en mathématiques.
On remarque que les scores de Lucie sont bons en
mathématiques comme en français, mais quel est le meilleur ?
On calcule les valeurs « centrées et réduites » (les québécois
disent les « cotes standards ») : (valeur – moyenne) / écart-type
-Mathématiques : (75 – 68) / 4 = +1,75
-Français: (74 – 70) / 3 ~ +1,3
Les résultats de Lucie sont meilleurs en mathématique.
Téléchargement
Explore flashcards