Statistiques I – Vocabulaire de base II – Mesures

publicité
Statistiques
I – Vocabulaire de base
Série statistique : une série statistique est un ensemble d’observations collectées.
Population : C’est l’ensemble sur lequel porte une étude statistique. Si elle est trop grande, on peut alors décider de
ne s’intéresser qu’à un échantillon de population.
Individu : c’est un élément de la population.
Caractère : c’est ce qu’on observe chez l’individu.
Modalités : ce sont les différentes valeurs prises par le caractère.
Série statistique quantitative ou qualitative : une série statistique est dite quantitative quand les modalités sont
des nombres (nombre de frères et sœurs, dimensions d’une pièce, âge…), et qualitative sinon (candidat pour lequel
un individu à l’intention de voter, couleurs des yeux…)
Dans le cas d’une série quantitative, celle-ci est dite discrète si les modalités sont limitées à un ensemble fini de
valeurs (exemple : le nombre de frères et sœurs ne peut être qu’un élément de l’ensemble {0 ;1 ;2 ;… ;100} par
exemple) et continue si les modalités peuvent prendre n’importe quelle valeur dans un intervalle (exemple : taille
d’un individu, température…)
Effectif d’une valeur : c’est le nombre de fois que la valeur d’un caractère (la « modalité ») revient dans la série.
Fréquence d’une valeur : c’est l’effectif de la modalité divisé par l’effectif total : elle est comprise entre 0 et 1.
Classes de valeurs : s’il y a trop de valeurs différentes, elles sont rangées par classe (intervalle), l’effectif de la classe
étant alors le nombre de modalités appartenant à cet intervalle.
II – Mesures de positions
A) Mesures de tendance centrale
Elles visent à résumer la série par une seule valeur qu’on espère représentative de toutes les valeurs de la série. On
en connaît trois : le mode, la moyenne, la médiane.
1) Le mode
Définition : Le mode d’une série statistique est la donnée la plus fréquente de la série (celle ayant le plus grand
effectif).
Exemple : déterminer le mode de la série de valeurs suivantes : 18, 12, 15, 10, 12, 15, 9, 8, 11, 13, 10, 12, 16, 6, 8.
Remarques :
- S’il y a plusieurs données arrivant à égalité, il y a plusieurs modes.
- Si les données sont rangées en classe, on parle de classe modale.
- Le mode est défini aussi bien pour les séries quantitatives que qualitatives.
- Le mode est un résumé sommaire d’une série qui fournit un type d’information assez limité. Il pourra intéresser un
publicitaire.
2) La moyenne arithmétique :
Définition : La moyenne arithmétique d’une série statistique quantitative S ={x1,x2, . . . ,xn} est le nombre, souvent
noté :
Remarque : cas d’une série où chaque modalité a un effectif précis (on l’appelle alors la moyenne pondérée) :
Valeur
Effectif
Alors :
où
est l’effectif total.
p
On peut également calculer une moyenne à partir de la distribution des fréquences : x =

fi xi .
i 1
a) Si les valeurs de la série sont discrètes
Par exemple, voici les notes obtenues à un autre contrôle par les 25 élèves d’une autre classe :
Notes
2 4 6 7 8 9 10 11 12 14 17 Total
Effectifs 1 2 1 2 2 3 4 6 2 1 1 25
La moyenne est alors dite pondérée par les effectifs. Pour calculer cette moyenne, on commence par effectuer les
produits des notes par les effectifs associés, puis on additionne tous ces produits, et on divise la somme obtenue par
le nombre total de notes.
b) Si les valeurs de la série sont continues et regroupées par classes
Par exemple, voici la répartition des salaires de 202 salariés d’une entreprise :
Salaires 1000  S<1200 1200  S<1500 1500  S<1700 1700  S<2000 2000  S<3000
Centre
1100
1350
1600
1850
2500
Effectifs 36
44
76
34
12
On considère alors qu’une classe donnée sera représentée, dans le calcul, par son centre, et on utilise le centre de la
classe pour calculer la moyenne pondérée par les effectifs. On obtient une valeur approchée du salaire moyen réel.
Propriété de la moyenne
- Linéarité de la moyenne :
Si on ajoute (ou on soustrait) un même nombre k à toutes les valeurs d’une série alors la moyenne de cette série se
trouve augmentée (ou diminuée) de k.
Si on multiplie (ou on divise) un même nombre k différent de zéro à toutes les valeurs d’une série alors la moyenne
de cette série se trouve multipliée (ou divisée) par k.
Exemple : si on ajoute 1,5 point à chaque note d’un contrôle alors on augmente la moyenne de 1,5 point également.
- Moyenne par sous-groupes :
Soit une série statistique d’effectif total N et de moyenne m.
On divise cette série en deux sous-groupes disjoints (sans individus en communs) d’effectifs respectifs p1 et p2 (avec
p1+p2 = N)
La moyenne m de deux moyennes m1 et m2 munies des effectifs respectifs p1 et p2 est donnée par la formule :
p1m1+p2m2
m=
p1+p2
Exercice : Une classe est composée de 55% de filles. Les élèves de la classe sont
répartis suivant leurs âges et leurs sexes comme l'indique le tableau suivant :
1) Calculer la moyenne d'âge m1 des garçons et la moyenne d'âge m2 des filles.
2) Calculer la moyenne d'âge m de la classe.
15 ans 16 ans 17 ans
Garçons 10%
78%
12%
Filles
20%
70%
10%
Remarques :
- La moyenne a des avantages calculatoires : si l’on connaît les moyennes et les effectifs de deux séries (ou deux sous
séries), on peut obtenir la moyenne de la série constituée de l’agrégation de ces deux séries.
- La moyenne a le défaut d’être très sensible aux valeurs extrêmes.
3) La médiane :
Définition : La médiane M d’une série statistique est la valeur qui partage la population étudiée en deux sousgroupes de même effectif, chacun tels que :
– tous les éléments du premier groupe ont des valeurs inférieures ou égales à M ;
– tous les éléments du deuxième groupe ont des valeurs supérieures ou égales à M.
Méthode pour déterminer une médiane : Soit une série statistique quantitative comportant n données :
S={
} telles que
.
Si N (effectif total de la population) est impair alors la valeur de M est la valeur de cette série qui est située « au
N+1
milieu » à savoir la valeur dont le rang est
, le
-ième élément de la série : m =
2
Si N (effectif total de la population) est pair alors une valeur de M est le centre de ce que l’on appelle l’intervalle
N N
médian qui est l’intervalle formé par les deux nombres situés « au milieu » de la série, entre les rangs et + 1. On
2 2
prend donc généralement
.
Remarque : La médiane a l’avantage de ne pas être influencée par les valeurs extrêmes. Elle n’a aucun avantage
pratique dans les calculs, puisque pour connaître la médiane d’une série constituée de l’agrégation de deux séries, il
faut nécessairement réordonner la nouvelle série pour trouver sa médiane, qui n’aura pas de lien avec les deux
médianes des deux séries initiales.
B) Mesures de positions non centrales
1) Les quartiles
Définition : Soit S une série statistique quantitative.
• On appelle premier quartile, noté Q1, la plus petite valeur de la série telle que : au moins 25% des valeurs de la
série ont une valeur inférieure ou égale à Q1.
• On appelle deuxième quartile (valeur très proche de la médiane), noté Q2, la plus petite valeur de la série telle
que : au moins 50% des valeurs de la série ont une valeur inférieure ou égale à Q2.
• On appelle troisième quartile, noté Q3, la plus petite valeur de la série telle que : au moins 75% des valeurs de la
série ont une valeur inférieure ou égale à Q3.
2) Les déciles
Définition : Soit S une série statistique quantitative.
• On appelle premier décile, noté D1, la plus petite valeur de la série telle que : au moins 10% des valeurs de la série
ont une valeur inférieure ou égale à D1.
• On appelle neuvième décile, noté D9, la plus petite valeur de la série telle que : au moins 90% des valeurs de la
série ont une valeur inférieure ou égale à D9.
III – Mesures de dispersion
1) L’étendue
Définition : Les valeurs extrêmes d’une série sont ses valeurs minimale et maximale et l’étendue est la différence
entre les valeurs extrêmes de la série.
Soit une série statistique quantitative comportant n données :
S={
} telles que
. L’étendue est alors : e =
Exemple : déterminer les valeurs extrêmes et l’étendue de la série : 2 ; 5 ; 0.5 ; 4 ; 3 ; 2 ; 1
2) L’écart interquartile
Définition :
• l’intervalle interquartile est l’intervalle [Q1 ; Q3]
•l’écart interquartile est la différence Q3 − Q1.
Remarque : On peut également définir de même
• l’écart interdécile la différence D9 −D1
• l’intervalle interdécile l’intervalle [D1 ; D9]
Toutes ces mesures statistiques sont dans la même unité que les valeurs de la série.
IV – Représentations graphiques
1) Diagramme à bâtons, histogramme.
Si les données sont regroupées en classes (intervalles), la série peut-être représentée par un histogramme où chaque
rectangle a son aire proportionnelle à l’effectif (ou à la fréquence) de la classe.
Ainsi si on considère la série :
Et la même regroupée en classe :
On obtient les diagrammes en bâtons et histogramme suivants :
2) Diagramme en boite.
On peut représenter graphiquement les valeurs extrêmes, les quartiles et la médiane par un diagramme en boite,
appelé aussi boite à moustaches, conçues de la manière suivante :
• au centre une boite allant du premier au troisième quartile, séparée en deux par la médiane ;
• de chaque côté une moustache allant du minimum au premier quartile pour l’une, et du troisième quartile au
maximum pour l’autre.
Ces diagrammes permettent une interprétation visuelle et rapide de la dispersion des séries statistiques. Ils
permettent également d’apprécier des différences entre des séries (lorsqu’elles ont des ordres de grandeurs
comparables).
Remarques :
• La hauteur des boites est arbitraire.
• La boite contient 50% des données centrales.
• On coupe parfois les moustaches de part et d’autre à la hauteur du premier et neuvième décile ; on fait alors
apparaître les minimum et maximum par un point.
Exemple : lecture d’un diagramme en boite.
Le diagramme en boite ci-dessous est associé à la série des notes moyennes des élèves d’un lycée au baccalauréat.
Sur le diagramme, on lit :
- M = 11, ce qui permet d’affirmer qu’au moins 50% des élèves ont une note supérieure ou égale à 11 et sont donc
reçus sans passer les épreuves de rattrapage.
- Q3 = 13, ce qui permet d’affirmer qu’au moins 25% des élèves ont une note supérieure ou égale à 13, donc qu’au
moins 25% des élèves ont au moins la mention Assez Bien (ou l’une des mentions Assez Bien, Bien, Très bien).
- Q1 = 9,5, ce qui permet d’affirmer qu’au moins 25% des élèves ont une note inférieure ou égale à 9,5 et ne sont
donc pas reçus directement. Mais on ne peut pas savoir, avec ce diagramme, combien, parmi ces élèves, ont une
note supérieure ou égale à 8 et pourront donc passer les épreuves de rattrapage.
Exemple : Déterminer la médiane et les quartiles de cette série.
Notes
2 4 6 7 8 9 10 11 12 14 17 Total
Effectifs 1 2 1 2 2 3 4 6 2 1 1 25
ECC
Téléchargement