Chapitre 3 : Statistiques descriptives

publicité
Première ES-L
2014/2015
Chapitre 3 : Statistiques descriptives
Cours
1
1.1
Comment résumer une série statistique ?
Le couple médiane - écart interquartile
Définition 1
On considère une série statistique ayant un nombre n de valeurs, supposées rangées dans l’ordre croissant.
On appelle médiane de cette série le nombre M ed qui partage cette série en deux parties de même effectif
Méthode 1
Détermination de la médiane
1. Premier cas : le nombre de valeurs est impair
Dans ce cas, la médiane est la valeur centrale de la série. Par exemple, déterminer la médiane pour la série
ci-dessous :
15
8
13
5
14
13
18
10
11
Ici, on a n = . . .
On classe les valeurs dans l’ordre croissant :
n
On a = . . . que l’on arrondi à l’entier supérieur . . ..
2
La médiane est donc la . . . -ième valeur : M ed = . . ..
2. Deuxième cas : le nombre de valeurs est pair
Dans ce cas, il y a deux valeurs centrales : la médiane est la demi-somme de ces deux valeurs. Par exemple,
déterminer la médiane pour la série ci-dessous :
3
9
5
4
2
9
6
8
Ici, on a n = . . .
On classe les valeurs dans l’ordre croissant :
n
On a = . . .. La médiane est donc la demi-somme de la . . . -ième valeur et de la . . . -ième valeur.
2
... + ...
M ed =
= . . ..
2
3. Troisième cas : la série est donnée avec des effectifs
Soit par exemple la série statistique suivante :
Valeur
Effectif
3
40
7
31
11
25
13
42
17
56
On commence par calculer l’effectif total : n = . . .
n
n est pair, = . . ., donc la médiane est la demi-somme de la . . . -ième valeur et de la . . . -ième valeur.
2
On calcule les effectifs cumulés croissants pour déterminer la . . . -ième valeur et la . . . -ième valeur :
Valeur
Effectif
Eff. cumulés
3
40
7
31
11
25
13
42
17
56
On constate que la . . . -ième valeur est égale à . . . et la . . . -ième valeur est égale à . . . ,
... + ...
= . . ..
donc M ed =
2
Lycée Émile Duclaux
Page 1/5
Première ES-L
2014/2015
4. Quatrième cas : la série est donnée avec des fréquences
Soit par exemple la série statistique suivante :
8
23
Valeur
Fréquence
10
9
12
33
15
31
19
4
On calcule les fréquences cumulées croissantes :
Valeur
Fréquence
Fréq. cumulées
8
23
10
9
12
33
15
31
19
4
La médiane est la première valeur pour laquelle la fréquence cumulée dépasse 50%, donc M ed = . . ..
!
Définition 2
☞ Le premier quartile Q1 d’une série statistique est la plus petite valeur de cette série telle qu’au
moins 25% des valeurs lui soient inférieures ou égales.
☞ Le deuxième quartile d’une série statistique est sa médiane M ed.
☞ Le troisième quartile Q3 d’une série statistique est la plus petite valeur de cette série telle qu’au
moins 75% des valeurs lui soient inférieures ou égales.
50% des valeurs
50% des valeurs
+
Q1
25% des valeurs
Q3
M ed
+
+
+
+
75% des valeurs
Remarque
Q1 , M ed et Q3 partagent les valeurs de la série en quatre groupes de même effectif.
Méthode 2
Détermination des quartiles
1. Premier cas : on dispose de la liste de toutes les valeurs
Soit par exemple la série suivante :
110
115
116
121
124
131
138
140
141
144
149
152
155
Ici, on a n = . . .
n
On a = . . . que l’on arrondi à l’entier supérieur . . .. La médiane est donc la . . . -ième valeur : M ed = . . ..
2
n
On a = . . . que l’on arrondi à l’entier supérieur . . ..
4
Le premier quartile Q1 est don égale à la . . . -ième valeur : Q1 = . . ..
3n
On a
= . . . que l’on arrondi à l’entier supérieur . . ..
4
Le premier quartile Q3 est don égale à la . . . -ième valeur : Q3 = . . ..
Lycée Émile Duclaux
Page 2/5
Première ES-L
2014/2015
2. Deuxième cas : la série est donnée avec des effectifs ou des fréquences
Dans ce cas, on utilise les effectifs cumulés ou les fréquences cumulées.
Soit par exemple la série statistique suivante :
Valeur
Effectif
Eff. cumulés
3
40
7
31
11
25
13
42
17
56
n
= . . ., donc Q1 est la . . . -ième valeur : Q1 = . . ..
4
3n
= . . ., donc Q3 est la . . . -ième valeur : Q3 = . . ..
4
Soit par exemple la série statistique suivante :
Valeur
Fréquence
Fréq. cumulées
8
23
10
9
12
33
15
31
19
4
On en déduit : Q1 = . . . et Q3 = . . ..
!
Définition 3
On appelle écart interquartile la différence Q3 − Q1 .
Remarque
Au moins 50% des valeurs de la série sont comprises entre Q1 et Q3 .
À retenir
☞ Le couple médiane - écart interquartile est un résumé de la série statistique.
☞ La médiane est une caractéristique de position : elle permet de situer les valeurs.
☞ L’écart interquartile est une caractéristique de dispersion : plus il est grand, plus les valeurs sont
dispersées par rapport à la médiane.
!
On résume souvent une série statistique en construisant un diagramme en boı̂te, appelé aussi boı̂te à moustache. Il s’agit d’un rectangle (boı̂te) dont la longueur correspond à l’écart interquartile, dans lequel un segment
correspond à la médiane. À gauche et à droite du rectangle, des segments (moustaches) indiquent la distance entre
Q1 et la plus petite valeur de la série et la distance entre Q3 et la plus grande valeur de la série.
xmin
Lycée Émile Duclaux
Q1
M ed
Q3
xmax
Page 3/5
Première ES-L
2014/2015
Méthode 3
Construction d’un diagramme en boı̂te
☞ On commence par calculer Q1 , M ed, Q3 .
☞ On choisit une échelle sur l’axe horizontal afin de faire apparaı̂tre les cinq nombres xmin , Q1 , M ed, Q3 et
xmax .
☞ On construit le rectangle et les deux segments comme indiqué ci-dessus.
Soit par exemple la série déjà étudiée ci-dessus :
110 115 116 121 124 131 138 140 141 144 149 152 155
pour laquelle on avait trouvé : Q1 = . . ., M ed = . . ., Q3 = . . ..
Choisissons une échelle horizontale de 2 cm pour 10 unités (axe gradué de 100 à 160), et complétons le diagramme :
+
100
1.2
+
+
+
+
+
+
160
Le couple moyenne - écart-type
L’écart-type est un nombre permettant de mesurer la dispersion des valeurs d’une série statistique par rapport
à sa moyenne (et non plus par rapport à sa médiane).
Définition 4
On considère une série statistique comportant k valeurs notées x1 , x2 , . . . , xn d’effectifs respectifs n1 , n2 ,
. . . , nk . On note n l’effectif total : n = n1 + n2 + . . . + nk .
Valeur
Effectif
x1
n1
x2
n2
...
...
xk
nk
Total
n
On note x la moyenne de cette série.
☞ On appelle variance de la série statistique le nombre V égal à la moyenne des carrés des écarts
à la moyenne de cette série.
En d’autres termes :
V =
1
n1 (x1 − x)2 + n2 (x2 − x)2 + . . . + nk (xk − x)2
n
☞ On appelle écart-type de la série statistique le nombre σ égal à la racine carrée de la variance :
√
σ= V
Remarques
☞ La lettre grecque σ se lit “sigma”.
☞ La variance est calculée à partir des carrés des valeurs et l’écart-type est la racine carrée de la variance.
L’écart-type s’exprime donc dans la même unité que les valeurs de la série.
Lycée Émile Duclaux
Page 4/5
Première ES-L
2014/2015
Méthode 4
Calcul de l’écart-type “à la main”
Considérons par exemple la série statistique représentée par le tableau suivant :
Valeur xi
Effectif ni
3
40
7
31
11
25
13
42
17
56
L’effectif total est : n = . . ., la moyenne vaut : x = . . ..
Complétons le tableau ci-dessous :
(xi − x)2
ni
......
......
......
......
......
......
......
......
......
......
La variance est égale à la moyenne de ce dernier tableau : V ≈ . . .
D’où l’écart-type σ ≈ . . .
Dans la pratique, on ne calcule pas un écart-type à la main, mais on utilise une calculatrice ou un logiciel.
À retenir
☞ Le couple moyenne - écart-type est un résumé de la série statistique.
☞ La moyenne est une caractéristique de position : elle permet de situer les valeurs.
☞ L’écart-type est une caractéristique de dispersion : plus il est grand, plus les valeurs sont dispersées
par rapport à la moyenne.
☞ L’écart interquartile ne dépend que des valeurs situées entre Q1 et Q3 , alors que l’écart-type tient
compte de toutes les valeurs de la série : il est donc plus sensible aux valeurs extrêmes.
2
Utilisation de la machine
Voir les fiches-outil distribuées en classe.
Les définitions des quartiles utilisées par les calculatrices ne sont pas les mêmes que les définitions du cours.
Il est donc possible que la calculatrice ne donne pas les mêmes valeurs qu’une recherche “à la main”.
3
Étude et comparaison de séries statistiques
Nous allons comparer la répartition des taux de chômage des pays de l’OCDE avec celle de l’ensemble des états
du monde.
Les données utilisées pour les pays de l’OCDE sont issues du site de l’OCDE ; les données pour les états du monde
sont issues de “The world factbook” (https ://www.cia.gov/library/publications/the-world-factbook/), publié par
la CIA.
Les données se trouvent dans le fichier comparaison chomage.ggb à ouvrir dans GeoGebra.
Dans GeoGebra, sélectionner les colonnes B et E, puis choisir l’outil “Statistiques à plusieurs variables” dans le
deuxième bouton de commandes :
Une fenêtre intitulée “Sources de données” s’ouvre. Cliquer sur le bouton
et cocher “Utiliser l’entête comme
titre”, puis cliquer sur le bouton “Analyser”.
Une fenêtre intitulée “Analyse des données” s’ouvre. Les diagrammes en boı̂te des deux séries sont construits avec
la même échelle : cela permet de comparer les deux séries.
Cliquer sur le bouton
pour faire apparaı̂tre les résumés statistiques des deux séries.
Indiquer pour chaque série : Q1 , M ed, Q3 , l’écart interquartile, puis la moyenne et l’écart-type σ.
Utiliser ces données et le graphique pour comparer les deux séries et expliquer les différences.
Vous rendrez vos réponses sous la forme d’un fichier ODT contenant une copie des diagrammes obtenus.
Lycée Émile Duclaux
Page 5/5
Téléchargement