Chapitre III - Statistiques 1. Médiane et écart interquartile

publicité
Chapitre III - Statistiques
1. Médiane et écart interquartile
1.1. Cas des séries discrètes (les données prennent des valeurs isolées : notes, années, quantités...)
Définition 1. Des indicateurs de position : médiane, premier et troisième quartile
Quand une série statistique est rangée par ordre croissant,
la valeur médiane est celle qui partage cette série en deux parties de même effectif.
−
le 1 er quartile est la plus petite valeur Q1 telle qu’au moins 25 % des valeurs sont inférieures ou égales à Q1.
−
le 3 ème quartile est la plus petite valeur Q3 telle qu’au moins 75 % des valeurs sont inférieures ou égales à Q3.
−
Définition 2. Un indicateur de dispersion : l’écart interquartile
L’écart interquartile d’une série statistique est la différence entre le troisième et le premier quartile.
eI = Q3 − Q1
Remarque.
•
50 % des valeurs sont inférieures à la médiane et 50 % des valeurs sont supérieures à la médiane.
•
L’écart interquartile correspond à l’étendue de la série statistique après élimination de 25% des valeurs les plus
faibles et de 25% des valeurs les plus fortes. Il ne dépend pas des valeurs extrêmes.
Exemple 1. On étudie le Q.I. d’une population de pangolins ayant assisté à un cours de mathématiques (série A) :
11, 11, 8, 13, 12, 7, 8, 9, 10, 13, 13, 12, 11, 8, 10
On commence par ranger cette série dans l’ordre croissant.
•
La série A ci-dessous possède un nombre impair de valeurs (15 valeurs) :
7,
8,
8,
9,
8,
10,
11,
10,
•
11,
11,
13,
13,
13
7 va leu rs
(15 = 2 × 7 + 1 donc la médiane est le 8 e nombre)
◦
La médiane : Me = 11
◦
Le premier quartile : Q1 = 8
◦
Le troisième quartile : Q3 = 12
◦
L’écart interquartile : eI = 12 − 8 = 4
(25 % de 15 :
15
4
= 3, 75 donc le premier quartile est le 4e nombre)
(75 % de 15 : 3 ×
15
4
= 11, 25 donc le premier quartile est le 12e nombre)
On peut résumer cette série par un diagramme en boîtes :
Xm in
Xm ax
Q1
7
•
12,
12,
↑
médiane
7 va le u rs
8
9
10
Me
Q2
11
12
13
Fréquences et fréquences cumulées pour déterminer des proportions ou Me, Q1 et Q3 (à 25 %, 50 % et 75%)
Q.I.
effectifs
7
1
1
15
≈ 0, 066
fréquences
ou 6,7 %
fréquences cumulées
6,7 %
8
3
3
15
≈ 0, 20
ou 20 %
26,7 %
9
1
10
2
11
3
12
2
13
3
6,7 %
13,3 %
20 %
13,3 %
20 %
33,3 %
46,7 %
66,7 %
80 %
100 %
effectif total : 15
T a le ES1
Chapitre III - Statistiques
Exemple 2. On étudie le Q.I. d’une 2 e population de pangolins ayant assisté à un cours de mathématiques poussé (série B) :
•
La série B ci-dessous possède un nombre pair de valeurs (14 valeurs) :
10,
2, 5, 6, 7, 8, 8, 9,
◦
◦
◦
•
12,
12,
↑
médiane
7 va leu rs
15,
16,
17,
19
7 va leu rs
(14 = 2 × 7 donc la médiane est la moyenne du 7e et du 8 e nombre)
La médiane : Me = 9, 5
Le premier quartile : Q1 = 7 et le troisième quartile : Q3 = 15
L’écart interquartile : eI = 15 − 9,5 = 5,5
On peut résumer cette série par un diagramme en boîtes :
Xm in
Xm a x
Q1
2
3
4
5
6
7
Q2
Me
8
9
10
11
12
13
14
15
16
17
18
19
1.2. Cas des séries continues (les données ne sont pas isolées et sont réparties en classes : durée, poids...)
Définition 3. Quand une série statistique continue est répartie en classes (intervalles), la classe médiane est la classe
qui contient la médiane.
Exemple 3. Pour une population de 25 pangolins, on étudie le temps quotidien passé à lustrer ses belles écailles.
Durées (en min)
[0; 5[
[5; 10[
[10 ; 20[
[20 ; 30[
[30 ; 50[
effectifs
4
6
8
3
4
fréquences
0,16
0,24
0,32
0,12
0,16
fréquences cumulées croissantes
0,16
0,40
0,72
0,84
1
densités (sur chaque classe)
•
•
4
5
= 0, 8
6
5
8
10
= 1, 2
= 0, 8
3
10
4
20
= 0, 3
= 0, 2
La 13e valeur de la série appartient à l’intervalle [10 ; 20[ qui est donc la classe médiane de cette série.
En supposant les effectifs répartis de manière uniforme sur chaque intervalle, on peut déterminer une valeur approchée de la médiane,
du premier et du troisième quartile à l’aide de la courbe des fréquences cumulées croissantes :
Fréquence
1
0,5
Durée
0
•
5
10
Q1 ≈ 7 Me ≈ 13,3
20
Q3 ≈ 23
30
50
(en min)
On peut représenter cette série par un histogramme (l’aire de chaque rectangle est proportionnelle aux effectifs des classes):
Pour cela on calcule la densité sur chaque classe, soit la répartition des effectifs par unité (de durée ici).
Par exemple, un effectif de 4 sur l’intervalle [0; 5[ revient à un effectif de 0,8 sur chacun des intervalles [0; 1[ ; [1; 2[ ; [2; 3[ ; [3; 4[ ; [4; 5[.
1 pangolin
4
Durée
0
5
10
20
30
50
(en min)
2. Moyenne et écart-type
2.1. Cas des séries discrètes (les données prennent des valeurs isolées : notes, années, quantités...)
Soit une série statistique répartie ainsi : Valeurs x1 x2
Effectifs n1 n2
x p et d’effectif total N = n + n + + n .
p
1
2
np
2
T a le ES1
Chapitre III - Statistiques
Définition 4. Un indicateur de position : la moyenne
La moyenne d’une série statistique est le nombre :
x̄ =
n1 x 1 + n2 x 2 + + n p x p
N
Définition 5. Un indicateur de dispersion : l’étendue
L’étendue d’une série statistique est la différence entre la plus grande valeur et la plus petite valeur de la série.
e = xmax − xmin
Exemple 4. On étudie le Q.I. d’une population de pangolins ayant assisté à un cours de mathématiques (série A) :
11, 11, 8, 13, 12, 7, 8, 9, 10, 13, 13, 12, 11, 8, 10
•
La moyenne de la série A est : x̄ =
•
L’étendue : e = 13 − 7 = 6
•
La moyenne de la série B est : x̄ =
1 × 7 + 3 × 8 + 1 × 9 + 2 × 10 + 3 × 11 + 2 × 12 + 3 × 13
15
=
52
5
= 10, 4
Exemple 5. On étudie le Q.I. d’une 2 e population de pangolins ayant assisté à un cours de mathématiques poussé (série B) :
2, 5, 6, 7, 8, 8, 9, 10, 12, 12, 15, 16, 17, 19
•
2 + 5 + 6 + 7 + 2 × 8 + 9 + 10 + 2 × 12 + 15 + 16 + 17 + 19
14
=
L’étendue : e = 19 − 2 = 17
73
7
≈ 10, 43
Définition 6. Un autre indicateur de dispersion : l’écart type
La variance V d’une série statistique est la moyenne des carrés des écarts avec la moyenne.
V=
n1 (x1 − x̄ )2 + n2 (x2 − x̄ )2 + + np (x p − x̄ )2
N
1 X
ni (xi − x̄ )2
N
p
que l’on note
V=
i=1
L’écart type s d’une série statistique est la racine carrée de la variance :
√
s= V
Remarque. La variance et l’écart type permettent de mesurer la dispersion autour de la moyenne.
Exemple 6. On étudie le Q.I. d’une population de pangolins témoin (n’ayant suivi aucun cours de maths). Il y a 25 pangolins au total.
Q.I.
0
1
2
3
4
5
6
effectifs
5
9
7
2
0
1
1
écarts à la moyenne 0 − 1, 6 = −1, 6 1 − 1, 6 = −0, 6 2 − 1, 6 = 0, 4 3 − 1, 6 = 1, 4 4 − 1, 6 = 2, 4 5 − 1, 6 = 3, 4 6 − 1, 6 = 4, 4
carrés des écarts
(−1, 6)2 = 2, 56
0, 36
0,16
1, 96
5, 76
11, 56
19, 36
5×0+9×1+7×2+2×3+0×4+1×5+1×6
25
8
•
Moyenne de la série : x̄ =
•
Moyenne de la série des écarts à la moyenne :
5 × 2, 5 6 + 9 × 0, 3 6 + 7 × 0, 1 6 + 2 × 1, 9 6 + 0 × 5, 7 6 + 1 × 1 1 , 5 6 + 1 × 1 9 , 3 6
Variance : V =
= 2, 08
25
√
√
Écart type : s = V = 2, 08 ≈ 1, 44
•
= 5 = 1, 6
2.2. Cas des séries continues (les données ne sont pas isolées et sont réparties en classes : durée, poids...)
Exemple 7. Pour une population de 25 pangolins, on étudie le temps quotidien passé à lustrer ses belles écailles.
Durées (en min)
[0; 5[
[5; 10[
[10 ; 20[
[20 ; 30[
[30 ; 50[
centres des classes
2,5
7,5
15
25
40
effectifs
4
6
8
3
4
•
•
La moyenne de la série se calcule à l’aide des centres des classes : x̄ =
4 × 2, 5 + 6 × 7, 5 + 8 × 1 5 + 3 × 2 5 + 4 × 4 0
25
=
410
25
= 16, 4 min
À la calculatrice, on montre que l’écart type : s ≈ 12, 19 min
3. Pour résumer ou comparer
En règle générale, on retient au choix :
•
un indicateur de position : moyenne ou médiane
•
un couple (indicateur de position ; indicateur de dispersion) :
(moyenne ; écart type) ou (médiane ; écart interquartile)
pour résumer une série statistique et éventuellement la comparer avec une autre série statistique.
3
Téléchargement