Chapitre IV : Statistiques Extrait du programme : I. Diagrammes en

publicité
Chapitre IV : Statistiques
Extrait du programme :
I.
Diagrammes en boite
1. Rappels des indicateurs Médiane-Quartiles
Définitions : Si l’on range les N valeurs de la série par ordre croissant, la médiane de la série est le
nombre noté Me, qui partage la population en deux groupes de même effectif de telle sorte que :
 Pour au moins 50% des individus, la valeur du caractère est inférieure ou égale à Me.
 Pour au moins 50% des individus, la valeur du caractère est supérieure ou égale à Me.
Le premier quartile, noté Q1 est la plus petite valeur de la série telle qu’au moins 25% des valeurs
soient inférieures ou égales à ce nombre Q1.
Le troisième quartile, noté Q3 est la plus petite valeur de la série telle qu’au moins 75% des valeurs
soient inférieures ou égales à ce nombre Q3.
Pour déterminer la médiane, la méthode change selon la parité de l’effectif total :
-
Si l’effectif total est impair, alors la médiane est la valeur centrale de rang
N+1
2
Exemple 1 : les notes obtenues par un groupe de 15 élèves lors d’un contrôle.
5 ; 7 ; 7 ; 8 ; 10 ; 10 ; 10 ; 11 ; 12 ; 12 ; 14 ; 15 ; 15 ; 15 ; 19
N= 15
7 valeurs
7 valeurs
N

= 7,5 donc la note médiane est donc la 8ème valeur d’où Me = 11
2
N

= 3,75 donc le premier quartile est la 4ème valeur : Q1 = 8
4
3N

=11,25 donc le troisième quartile est la 12ème valeur : Q3 = 15
4
Si l’effectif total est pair, alors la médiane est la valeur moyenne des deux valeurs centrales
N N
qui ont pour rangs et + 1
2 2
Exemple 2 : les 18 notes obtenues par un autre groupe de 18 élèves lors de ce contrôle.
6 ; 6 ; 7 ; 8 ; 8 ; 8 ; 10 ; 10 ; 11 ; 12 ; 12 ; 12 ; 12 ; 14 ; 15 ; 15 ; 15 ; 19
N= 18
9 valeurs
9 valeurs
N

= 9 donc Me est la moyenne de la 9ème et la 10ème valeur c’est-à-dire les notes 11 et 12.
2
-
Me =

11  12
= 11,5 La note médiane est donc Me = 11,5
2
N
= 4,5 donc Q1est la 5ème valeur : Q1 = 8
4

3N
= 13,5 donc Q3 est la 14ème valeur : Q3 = 14
4
Remarques :
il est souvent nécessaire d’utiliser le tableau des effectifs cumulés ou celui des fréquences
cumulées pour trouver les valeurs centrales après avoir déterminé leurs rangs.
- La médiane peut ne pas être une valeur de la série (dans le cas où N est pair), mais les
quartiles le sont toujours.
- Dans le cas où les valeurs de la série sont regroupées dans des classes :
La classe contenant la médiane s’appelle la classe médiane. On la déterminer en calculant les effectifs
cumulés croissants. C’est alors la première classe correspondant à un effectif cumulé supérieur ou égal
N
à .
2
Définition : On définit de même les déciles d’une série qui partagent la population en 10 groupes.
Le premier décile D1 est la plus petite valeur de la série telle qu’au moins 10% des valeurs lui soient
inférieures ou égales.
Le neuvième décile D9 est la plus petite valeur de la série telle qu’au moins 90% des valeurs llui soient
inférieurs ou égales.
Pour déterminer les déciles, on range les valeurs du caractère par ordre croissant, et on calcule (pour
l’exemple 1):
N

= 1,5 donc D1 est la 2ème valeur de la série : D1 = 7
10
9N

= 13,5 donc D9 est la 14ème valeur de la série : D9 = 15.
10
2. Diagramme en boîte
On utilise un diagramme en boîte, aussi appelé diagramme de Tuckey (1915-2000) ou boîte à
moustaches, pour représenter une série statistique de taille importante où les valeurs extrêmes ne sont
pas essentielles.
Un tel diagramme fait apparaître :
- Une boîte rectangulaire dont les extrémités sont les deux quartiles Q1 et Q3.
-
Des traits extérieurs à cette boîte, terminées par des segments qui leurs sont perpendiculaires
(les moustaches) reliant la valeur minimale Xmin (ou le 1er décile D1) au premier quartile d’une
part, et le troisième quartile à la valeur maximale Xmax (ou le 9ème décile) d’autre part.
-
Un trait vertical dans la boîte correspond à la médiane Me.
Intérêt : Une telle représentation permet de comparer rapidement des séries statistiques en
appréhendant la dispersion de la moitié centrale de la série autour de la médiane : plus la boîte est
resserrée autour de la médiane et plus les moustaches sont courtes, moins la dispersion est importante.
Point-méthode 12 : Réaliser et interpréter une diagramme en boîte
On étudie la série formée par les résultats obtenus par une classe A à un contrôle, qui sont donnés dans
le tableau suivant :
Notes xi
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Effectifs ni 0 0 0 0 0 2 2 2 0 1 1 3 1
4 4 2
2 1 0
0 0
1. Déterminer la médiane et les quartiles de cette série.
2. Voici les indicateurs relevés pour la classe B lors du même devoir :
Min = 8,5, Q1 = 11, Me = 13 , Q3 = 14,5 et max = 17,5
Sur la même figure, représenter les diagrammes en boites des deux séries.
3. Comparer les résultats des deux classes.
Solution :
1. Pour une série regroupée en effectif comme celle-ci, on ajoute une ligne au tableau afin de
déterminer les effectifs cumulés croissants :
Notes xi
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Effectifs ni 0 0 0 0 0 2 2 2 0 1 1 3 1
4 4 2
2 1 0
0 0
ecc
0 0 0 0 0 2 4 6 6 7 8 11 12 16 20 22 24 25 25 25 25
On voit donc que N = 25
N 25
= = 12,5 donc on lit la 13ème valeur : Me = 13
2 2
N
= 6,25 donc on lit la 7èùe valeur : Q1 = 9
4
3N
= 18,75 donc on lit la 19ème valeur : Q3 = 14
4
2. Pour comparer 2 séries, il faut toujours faire leur diagramme en boite sur la même échelle, un
seul axe gradué en-dessous :
3. On compare d’abord leur valeur centrale puis la largeur de la boite. On en déduit laquelle des
deux est plus ou moins dispersée.
Les deux classes ont la même médiane, mais la boite et les moustaches de la classe A sont plus
longues, donc les notes de la classe A sont plus dispersées, alors que B est assez symétrique et
homogène.
II.
Indicateurs de dispersion
1. Ecart interquartile
Définitions : la différence entre la plus grande et la plus petite valeur de la série est appelée l’étendue
de la série.
La différence Q3 − Q1 entre le troisième et le premier quartile est appelée l’écart interquartile de la
série.
Remarque : l’écart interquartile est moins sensible que l’étendue aux valeurs extrêmes.
2. Variance et écart-type
a. Signification de l’écart-type
L’écart-type  est un nombre positif qui mesure la dispersion de la série autour de sa valeur moyenne.
Plus les valeurs du caractère sont concentrées autour de la moyenne, plus l’écart-type est petit. L’écarttype mesure approximativement l’écart moyen entre chaque valeur et x .
La plupart des valeurs du caractère se situent dans l’intervalle [ x −  ; x + ]
Remarques :
- L’écart-type s’exprime dans la même unité que le caractère étudié.
- Le calcul de l’écart-type sera fait avec la calculatrice ou avec un tableur.
b. Calcul de l’écart-type
On calcule tout d’abord une valeur V appelée variance de la série.
-
On calcule pour chaque valeur xi l’écart entre cette valeur et la moyenne x de la série.
écart  (xi – x )
nombre positif ou négatif
Les écarts pouvant être positifs ou négatifs, on les élève au carré
carré de l’écart  (xi – x )2
nombre toujours positif
La variance, notée V, est alors la moyenne des carrés obtenus
V 
n1  ( x1  x)2  n2  ( x2  x)2  n3  ( x3  x)2  ...  n p  ( x p  x)2
N
On peut alors calculer l’écart-type qui est la racine carrée de la variance.
On note  = V
Point-méthode 13 : Calculer l’écart-type avec une calculatrice
TEXAS
CASIO
Pour entrer les données
Taper chaque valeur de xi dans la colonne L1 et
chaque effectif ni dans la colonne L2 .
Pour changer de ligne ou de colonne, on utilise
les flèches < et > du curseur.
Taper chaque valeur de xi dans la colonne List11
suivi de EXE et chaque effectif ni dans la
colonne List 2 suivi de EXE .
Pour changer de ligne ou de colonne, on utilise
les flèches < et > du curseur.
Pour afficher les paramètres
 A l’aide de la touche Stat, choisir le menu
 Activer le menu CALC en appuyant sur F2
CALC, puis sélectionner 1-Var Stats suivi de
 Dans le menu SET , choisir List1 pour
entrer
1VarXlist et List2 pour 1Var Freq
 saisir L1, L2. (cela veut dire que les valeurs sont dans
L1 et les effectifs dans L2)
 Taper EXIT (ou ESC)
 Sélectionner le menu 1Var avec la touche

Les paramètres x , N (n), Q1 , Me (Med) ,
Q3 et  (x) s’affichent alors en utilisant la flèche
du curseur.
Les paramètres x , N (n), Q1 , Me (Med),
Q3 et  (xn) s’affichent alors.
Conclusion : On lit ainsi à l’écran que que le périmètre crânien moyen de ces nouveaux-nés
est environ 34,5 cm et que l’écart-type de la série est environ 1,2 cm.
Pour effacer les données
 Dans l’éditeur de listes, pour effacer une
 Dans l’éditeur de listes, pour effacer une
liste, placer le curseur sur le nom de la liste en haut liste, placer le curseur sur un élément de la liste
et selectionner DEL A (touche F4 ), puis YES.
de la colonne, puis taper sur Annul.
Point-méthode 14 : Utiliser l’écart-type pour comparer deux séries.
Deux machines fabriquent des écrous dont le diamètre intérieur approximatif est de 6 mm.
La machine 1 paraît fabriquer des écrous de tailles convenables alors que la machine 2 semble
présenter une avarie de fonctionnement. Pour comparer la fiabilité de chaque machine, on a noté les
diamètres intérieurs de 350 écrous sur chacune d'entre elles.
Diamètre
58 58,5 59 59,5 60 60,5 61 61,5
Machine 1 En dixième de mm
Nombre d’écrous 8 27 81 114 75 31 12 2
Diamètre
58 58,5 59 59,5 60 60,5 61 61,5
Machine 2 En dixième de mm
Nombre d’écrous 53 54 54 42 43 42 32 30
Utiliser ces tableaux pour comparer les deux séries grâce au couple (moyenne, écart-type)
Solution :
On écrit dans L1et L2 les valeurs et effectifs correspondant à la machine 1, puis dans L3 et L4 ceux de
la machine 2.
On trouve alors :
Machine 1 : x = 59,531 dixième de mm
Machine 2 : x = 59,531 dixième de mm
 = 0,6539 dixième de mm
 = 1,1099 dixième de mm
On compare ces indicateurs, en parlant de dispersion, d’homogénéité. On n’hésite pas à dire quelle
machine semble plus intéressante si les indicateurs nous permettent de faire un choix clair.
Les deux machines obtiennent les mêmes moyennes. En revanche, l’écart-type est beaucoup plus
important pour la machine 2 dont les pièces ont un diamètre plus souvent éloigné de la moyenne, donc
des 6 mm attendus.
La Machine 1 semble donc plus fiable que la machine 2 car plus homogène et regroupée autour de la
moyenne.
Téléchargement