Chapitre 2 : Statistique unidimensionnelle I. Objectifs

publicité
Chapitre 2 : STATISTIQUE
UNIDIMENSIONNELLE
II. Différentes formes de variables statistiques
Chapitre 2 : Statistique unidimensionnelle
I.
Objectifs
L’objectif des outils de statistique descriptive élémentaire est de fournir des
résumés synthétiques de séries de valeurs, adaptés à leur type (qualitatives
ou quantitatives), et observées sur une population ou un échantillon.
Dans le cas d’une seule variable, les notions les plus classiques sont celles de
médiane, quantile, moyenne, fréquence, fréquence cumulée, variance, écarttype. A ces notions sont associées des représentations graphiques : diagramme
en bâton, diagramme en secteurs, diagramme cumulatif, histogramme, courbe
cumulative, boîte à moustache.
II.
1.
Différentes formes de variables statistiques
Définition
• Population : tout ensemble fini Ω (univers en probabilité)
• Individu : tout élément ω de la population Ω (éventualité en probabilité).
• Caractère ou variable statistique : toute application X : Ω −→ E où E
est un ensemble quelconque. Le triplet (Ω, E, X) est appelé série statistique.
Dans ce chapitre, X sera appelée souvent variable statistique (variable
aléatoire en probabilité lorsque E ⊂ R).
Le caractère est dit :
. qualitatif lorsque l’ensemble E n’est pas un ensemble de nombres.
. quantitatif discret lorsque l’ensemble E est une partie discrète finie ou
infinie de R.
. quantitatif continu lorsque l’ensemble E est une partie infinie non dénombrable de R ; en général un intervalle que l’on découpe en sousintervalles dénommés classes.
• Modalité d’un caractère : tout élément de X(Ω). X(Ω) est appelé l’ensemble
des observations ou modalités (support de X en probabilité).
• Effectif : Si A est une partie de E alors l’effectif de A pour le caractère X est
le nombre d’individus ω tels que X(ω) ∈ A.
L’effectif total est la somme de tous les effectifs.
• Echantillon : sous ensemble de la population sur lequel sont effectivement
réalisées les observations.
. Taille de l’échantillon n : nombre d’individus de l’échantillon correspondant.
2 septembre 2014
MATHÉMATIQUES. Classe ECS1
Lycée TOUCHARD -WASHINGTON
Page 1 sur 11
Chapitre 2 : STATISTIQUE
UNIDIMENSIONNELLE
III. Représentations des données statistiques
. Enquête : opération consistant à observer ou mesurer, ou questionner
l’ensemble des individus d’un échantillon.
. Recensement : enquête dans laquelle l’échantillon observé est la population tout entière (enquête exhaustive)
. Sondage : enquête dans laquelle l’échantillon observé est un sous-ensemble
strict de la population (enquête non exhaustive)
2.
Les variables statistiques qualitatives
Par définition, les observations d’une variable qualitative ne sont pas des valeurs numériques.
Lorsque ces modalités sont naturellement ordonnées (par exemple, la mention au bac dans une population d’étudiants), la variable est dite ordinale.
Dans le cas contraire (par exemple, la profession dans une population de personnes actives, les couleurs) la variable est dite nominale.
3.
Les variables statistiques quantitatives
a) Les variables statistiques discrètes
En général, on appelle variable quantitative discrète une variable quantitative
ne prenant que des valeurs entières (plus rarement décimales).
b) Les variables statistiques continues
Une variable quantitative est dite continue lorsque les observations qui lui
sont associées ne sont pas des valeurs précises mais des intervalles réels. Cela
signifie que, dans ce cas, le sous-ensemble de R des valeurs possibles de la
variable étudiée a été divisé en r intervalles contigus appelés classes. En général, les deux raisons principales qui peuvent amener à considérer comme
continue une variable quantitative sont le grand nombre d’observations distinctes (un traitement en discret serait dans ce cas peu commode) et le caractère «sensible» d’une variable (il est moins gênant de demander à des individus leur classe de salaire que leur salaire précis).
Les classes d’une variable statistique sont des intervalles bornés ; on désigne
par centre de classe, le milieu de l’intervalle.
III.
1.
Représentations des données statistiques
Tableau statistique
C’est un tableau dont la première ligne (ou colonne) comporte l’ensemble des
r observations distinctes de la variable X. Lorsque la variable est quantitative,
2 septembre 2014
MATHÉMATIQUES. Classe ECS1
Lycée TOUCHARD -WASHINGTON
Page 2 sur 11
Chapitre 2 : STATISTIQUE
UNIDIMENSIONNELLE
III. Représentations des données statistiques
ces observations sont rangées traditionnellement par ordre croissant et non
répétées.
Dans une seconde ligne (ou colonne), on dispose en face de chaque valeur x
de X, l’effectif qui lui est associé.
Peut être rajoutée, une troisième ligne correspondant à la fréquence (probabilité) de [X = x].
Si la variable statistique est quantitative, on peut rajouter une ligne correspondant à la fréquence cumulée croissante (fonction de répartition en probabilité).
2.
Variables statistiques discrètes
a) Diagramme en bâtons
Graphique plan avec l’axe des abscisses représentant les valeurs de X et l’axe
des ordonnées les fréquences ou les effectifs.
b) Diagramme cumulatif
Pour une variable quantitative discrète, le diagramme cumulatif est un graphique plan avec l’axe des abscisses représentant les valeurs de X et l’axe des
ordonnées les fréquences cumulées. Le diagramme est «en marches d’escalier».
3.
Variable statistique continue
a) Histogramme
Un histogramme est la juxtaposition de rectangles dont les bases sont les amplitudes des classes considérées et dont l’aire du rectangle est égale à la fréquence de la classe correspondante. les hauteurs de rectangles sont appelées
densités de fréquence.
b) Courbe cumulative
La courbe cumulative est le graphe de la fréquence cumulée croissante. En
abscisse sont reportées les bornes supérieures de chaque classe ; en ordonnées, les fréquences cumulées correspondantes.
4.
Autres représentations
a) Secteurs
C’est la représentation camembert. L’angle (ou l’aire) du secteur est proportionnel à l’effectif ou à la fréquence.
2 septembre 2014
MATHÉMATIQUES. Classe ECS1
Lycée TOUCHARD -WASHINGTON
Page 3 sur 11
Chapitre 2 : STATISTIQUE
UNIDIMENSIONNELLE
IV. Les paramètres pour les variables quantitatives
b) Boites à moustache
Il s’agit d’un graphique très simple qui résume la série à partir de ses valeurs
extrêmes, de ses quartiles et de sa médiane.
Q2
Q
Q3
m
max
1
min
IV.
1.
Les paramètres pour les variables
quantitatives
Remarque
Les règles de calculs sur les espérances/variances/écarts-type des variables
aléatoires s’appliquent aux moyennes/variances/écart-type des séries statistiques.
2.
Paramètres de position
a) Moyenne
La moyenne, la variance et l’écart-type d’une variable statistique se calcule
comme en probabilité. Pour les variables continues, dans les formules, on
prend les centres de classes.
b) Quantiles
Définition
La fréquence cumulée F(x) (0 ¶ F(x) ¶ 1) donne la proportion d’observations inférieures ou égales à x. Une approche complémentaire consiste à se
donner a priori une valeur α, comprise entre 0 et 1, et à rechercher α vérifiant
F(t α ) = α. La valeur t α est appelée quantile (ou fractile) d’ordre α de la série.
Les quantiles les plus utilisés sont associés à certaines valeurs particulières de
α. Les quantiles t α d’une variable continue peuvent être déterminés de façon
directe à partir de la courbe cumulative. Cela signifie que, par le calcul, on
doit commencer par déterminer la classe dans laquelle se trouve le quantile
cherché, puis le déterminer dans cette classe par interpolation linéaire.
2 septembre 2014
MATHÉMATIQUES. Classe ECS1
Lycée TOUCHARD -WASHINGTON
Page 4 sur 11
Chapitre 2 : STATISTIQUE
IV. Les paramètres pour les variables quantitatives
UNIDIMENSIONNELLE
Quartiles
1
La médiane (notation Q2 ) est le quantile d’ordre ; elle partage donc la série
2
des observations en deux ensembles d’effectifs égaux. Le premier quartile (Q1 )
1
4
3
4
est le quantile d’ordre , le troisième quartile (Q3 ) celui d’ordre ·
Autres quantiles
Les quintiles, déciles et centiles sont également d’usage assez courant.
c) Mode
On appelle mode de X toute modalité d’effectif maximal.
3.
Paramètres de dispersion
a) Etendue
c’est la différence entre la modalité
maximale
et la modalité minimale,
c’est à
dire le réel : e = max X(Ω) −min X(Ω) . L’intervalle [min X(Ω) , max X(Ω) ]
contient 100% des effectifs.
b) Ecart moyen à la moyenne
Soit (x 1 , . . . , x r ) les valeurs de la variable discrète X ou les centres de classe
de la variable continue X. La valeur x i a pour fréquence f i . Soit m la moyenne
statistique. L’écart moyen à la moyenne est donnée par la formule :
r
X
f i |x i − m|
i=1
c) Ecart moyen à la médiane
Désignons par Q2 la médiane. L’écart moyen à la médiane (avec les mêmes
conventions que ci-dessus) est donnée par la formule :
r
X
f i |x i − Q2 |
i=1
d) Ecart inter-quantile
L’écart inter-quantile est donné par : Q3 − Q1
2 septembre 2014
MATHÉMATIQUES. Classe ECS1
Lycée TOUCHARD -WASHINGTON
Page 5 sur 11
Chapitre 2 : STATISTIQUE
V. Exercice
UNIDIMENSIONNELLE
e) Variance et ecart-type
Mêmes formules qu’en probabilités.
V.
Exercice
Etudes statistique sur la population mondiale.
1.
Index des pays
Vous trouverez ci-dessous l’indexation des pays réalisée pour le programme
informatique.
a) AFRIQUE
AFRIQUE SEPTENTRIONALE
1 : Algérie
2 : Égypte
3 : Libye
4 : Maroc
5 : Sahara occidental
6 : Soudan
7 : Tunisie
AFRIQUE OCCIDENTALE
8:
9:
10 :
11 :
12 :
13 :
Bénin
Burkina Faso
Cap-Vert
Côte d’Ivoire
Gambie
Ghana
14 :
15 :
16 :
17 :
18 :
19 :
Guinée
Guinée-Bissau
Liberia
Mali
Mauritanie
Niger
20 : Nigeria
31 :
32 :
33 :
34 :
35 :
36 :
37 :
Malawi
Maurice
Mayotte
Mozambique
Ouganda
Réunion
Rwanda
38 :
39 :
40 :
41 :
42 :
43 :
21 : Sénégal
22 : Sierra Leone
23 : Togo
AFRIQUE ORIENTALE
24 :
25 :
26 :
27 :
28 :
29 :
30 :
Burundi
Comores
Djibouti
Érythrée
Éthiopie
Kenya
Madagascar
Seychelles
Somalie
Sud-Soudan
Tanzanie
Zambie
Zimbabwe
AFRIQUE CENTRALE
44 : Angola
47 :
45 : Cameroun
48 :
46 : Centrafricaine (République)
49 :
2 septembre 2014
Congo
50 : Guinée équatoriale
Congo (Rép . dém . 51 : Sao
Tomé-etdu)
Principe
Gabon
52 : Tchad
MATHÉMATIQUES. Classe ECS1
Lycée TOUCHARD -WASHINGTON
Page 6 sur 11
Chapitre 2 : STATISTIQUE
V. Exercice
UNIDIMENSIONNELLE
AFRIQUE AUSTRALE
53 : Afrique du Sud
54 : Botswana
55 : Lesotho
56 : Namibie
b) AMÉRIQUE
AMÉRIQUE SEPTENTRIONALE
57 : Canada
58 : États-Unis
AMÉRIQUE CENTRALE
59 : Belize
60 : Costa Rica
61 : Guatemala
62 : Honduras
63 : Mexique
64 : Nicaragua
73 : Dominicaine
(République)
74 : Dominique
75 : Grenade
76 : Guadeloupe
77 : Haïti
78 :
79 :
80 :
81 :
82 :
90 :
91 :
92 :
93 :
(française)
94 : Paraguay
95 : Pérou
96 : Surinam
65 : Panama
66 : Salvador
CARAÏBES
67 : Antigua-etBarbuda
68 : Aruba
69 : Bahamas
70 : Barbade
71 : Cuba
72 : Curaçao
Jamaïque
83 : St . Kitts-etMartinique
Nevis
Porto Rico
84 : Trinité-etSainte Lucie
Tobago
St Vincentet-les85 : Vierges
Grenadines
(Iles)
AMÉRIQUE DU SUD
86 :
87 :
88 :
89 :
Argentine
Bolivie
Brésil
Chili
Colombie
Équateur
Guyana
Guyane
97 : Uruguay
98 : Venezuela
c) ASIE
ASIE OCCIDENTALE
99 :
100 :
101 :
102 :
103 :
104 :
105 :
106 :
Arabie saoudite
Arménie
107 :
Azerbaïdjan
108 :
Bahreïn
109 :
Chypre
Émirats arabes unis 110 :
111 :
Georgie
Irak
Israël
Jordanie
Koweït
Liban
Oman
112 : Palestine
toires)
113 : Qatar
114 : Syrie
115 : Turquie
116 : Yémen
(Terri-
ASIE CENTRALE
117 : Kazakhstan
118 : Kirghizistan
2 septembre 2014
119 : Tadjikistan
120 : Turkménistan
MATHÉMATIQUES. Classe ECS1
Lycée TOUCHARD -WASHINGTON
121 : Ouzbékistan
Page 7 sur 11
Chapitre 2 : STATISTIQUE
V. Exercice
UNIDIMENSIONNELLE
ASIE DU SUD
122 : Afghanistan
123 : Bangladesh
124 : Bhoutan
125 : Pakistan
126 : Inde
127 : Iran
128 : Maldives
129 : Népal
130 : Sri Lanka
ASIE DU SUD-EST
131 :
132 :
133 :
134 :
Brunei
Cambodge
Indonésie
Laos
135 : Malaisie
138 :
136 : Myanmar (Birma- 139 :
nie)
140 :
137 : Philippines
141 :
Singapour
Thaïlande
Timor-Est
Viêt Nam
ASIE ORIENTALE
142 : Chine
145 : Corée du Nord
143 : Chine - Hong Kong 146 : Corée du Sud
144 : Chine - Macao
147 : Japon
148 : Mongolie
149 : Taïwan
d) EUROPE
EUROPE SEPTENTRIONALE
150 :
151 :
152 :
153 :
Danemark
Estonie
Finlande
Irlande
154 :
155 :
156 :
157 :
Islande
Lettonie
Lituanie
Norvège
158 : Royaume-Uni
159 : Suède
taine)
Liechtenstein
Luxembourg
Monaco
167 : Pays-Bas
168 : Suisse
Pologne
Roumanie
Russie
Slovaquie
177 : Tchèque
blique)
Grèce
Italie
Kosovo
Macédoine
Malte
189 :
190 :
191 :
192 :
193 :
EUROPE OCCIDENTALE
160 :
161 :
162 :
163 :
Allemagne
Autriche
164 :
Belgique
165 :
France (métropoli- 166 :
EUROPE ORIENTALE
169 :
170 :
171 :
172 :
Biélorussie
Bulgarie
Hongrie
Moldavie
173 :
174 :
175 :
176 :
(Répu-
178 : Ukraine
EUROPE MÉRIDIONALE
179 :
180 :
181 :
182 :
183 :
Albanie
184 :
Andorre
185 :
Bosnie-Herzégovine 186 :
Croatie
187 :
Espagne
188 :
2 septembre 2014
MATHÉMATIQUES. Classe ECS1
Lycée TOUCHARD -WASHINGTON
Monténégro
Portugal
Saint-Marin
Serbie
Slovénie
Page 8 sur 11
Chapitre 2 : STATISTIQUE
UNIDIMENSIONNELLE
V. Exercice
e) OCÉANIE
194 : Australie
195 : Fidji
196 : Guam
197 : Kiribati
198 : Marshall (Îles)
2.
199 : Micronésie (États 203 :
fédérés de)
204 :
200 : Nouvelle-Calédonie 205 :
201 : Nouvelle-Zélande
202 : Papouasie-Nouvelle-206 :
Guinée
207 :
Polynésie française
Salomon (Îles)
Samoa
occidentales
Tonga
Vanuatu
Tableaux de données
Dans le fichier à télécharger à partir du wiki nommé «population.sce» ont déjà
été saisis les tableaux suivants :
• pays : (les 207 noms de pays)
• surface : Il s’agit de la surface terrestre (toutes eaux déduites) en milliers
de km2 de chaque pays
• population : nombre d’habitants en millions (référence 2013)
• naissance : nombre de naissances sur 1000 habitants
• deces : nombre de décès sur 1000 habitants
• homme : espérance de vie des hommes
• femme : espérance de vie des femmes
Vous taperez vos programmes dans le fichier population.sce
3.
Programmes à réaliser
a) Saisie et affichage
Ecrire un programme qui demande à l’utilisateur l’index du pays et qui affiche
le pays, la superficie terrestre (en milliers de km2) son nombre d’habitants (en
millions d’habitants) et la densité de population en habitants par km2.
b) Calculs de sommes
1. Calculer et afficher la surface terrestre mondiale, le nombre d’habitants
mondial et la densité moyenne d’habitants au km2.
2. Calculer la surface terrestre, le nombre d’habitants et la densité moyenne
d’habitants au km2 pour chaque continent.
3. Calculer la surface terrestre, le nombre d’habitants et la densité moyenne
d’habitants au km2 pour l’union européenne (28 pays).
2 septembre 2014
MATHÉMATIQUES. Classe ECS1
Lycée TOUCHARD -WASHINGTON
Page 9 sur 11
Chapitre 2 : STATISTIQUE
UNIDIMENSIONNELLE
V. Exercice
c) Calculs des paramètres de position et de dispersion - Représentations graphiques
Pour l’espérance de vie des hommes (ou des femmes) par pays, déterminer :
1. la moyenne (sur l’ensemble des pays),
2. l’écart-type,
3. la médiane,
4. les espérances de vie minimale et maximale et déterminer les pays correspondant à ces valeurs extremales. Vous pourrez vous aider de l’instruction find(...)
5. l’écart moyen
6. A l’aide de l’instruction dsearch(...), réaliser le tableau de synthèse
pour l’espérance de vie des hommes par pays dans lequel pour chaque
age d’espérance de vie compris entre la valeur minimale et maximale
apparait l’effectif partiel en nombre de pays.
7. Déterminer le mode de l’espérance de vie des hommes et les pays correspondants.
8. Trier le tableau «homme» (ou femme) dans l’ordre croissant et en déduire
a) les valeurs du premier quartile et du troisième quartile
b) les valeurs du premier décile et du neuvième décile. Vous déterminerez ensuite la liste des pays dont l’espérance de vie est inférieure
au premier décile et la liste des pays dont l’espérance de vie est supérieure au neuvième décile.
9. A partir du tableau de la question 6, tracer un diagramme en bâtons de
l’espérance de vie des hommes puis tracer un diagramme en bâtons sur
le même graphique de l’espérance de vie des hommes et des femmes.
10. Tracer un diagramme en secteurs de l’espérance de vie des hommes
d) Espérance de vie individuelle
Dans les questions précédentes, l’espérance de vie a été traitée comme si les
pays avaient le même poids. Or le nombre d’habitants des Etats-Unis n’est pas
le même que celui de Monaco.
Calculer l’espérance de vie moyenne des hommes (ou des femmes) en tenant
compte de l’effectif de chaque pays.
2 septembre 2014
MATHÉMATIQUES. Classe ECS1
Lycée TOUCHARD -WASHINGTON
Page 10 sur 11
Chapitre 2 : STATISTIQUE
UNIDIMENSIONNELLE
V. Exercice
e) Les plus grands et les plus petits
Réaliser un programme qui permet de déterminer les 10 pays qui sont :
• les plus grands en superficie,
• les plus petits en superficie,
• les plus nombreux en population,
• les moins nombreux en population.
f) Etude d’une variable continue : densité d’habitants
1. Créer un tableau densite qui stocke les densités du nombre d’habitants
au km2 pour chaque pays.
2. Déterminer les valeurs minimale et maximale des densités.
3. Déterminer (par un programme) les 10 pays dont les densités sont les
plus élevées et les 10 pays dont les densités sont les moins élevées.
4. Créer un tableau nommé synthese qui répartit les densités en classes
de valeurs avec les classes délimétées par les bornes suivantes : [minimale
10 20 50 100 150 200 300 450 600 1000 maximale].
Quelle interprétation peut-on en faire ?
5. A partir des centres de classe, calculer la moyenne mondiale des densités
et comparer ce résultat à celui de la question 1.
6. Tracer la courbe des fréquences cumulées croissantes et par lecture graphique donner les valeurs des quartiles.
g) Une projection
1. Créer par différence entre le taux de natalité et le taux de décès, un tableau donnant en pourcentage le taux d’accroissement naturel de chaque
pays.
2. En supposant que ces taux restent identiques jusqu’en 2050, estimer la
population de chaque pays en 2050 puis la population mondiale en 2050.
D’après les données de l’IDEM, la population mondiale en 2050 serait de
9 731 millions d’habitants. Conclusion ?
2 septembre 2014
MATHÉMATIQUES. Classe ECS1
Lycée TOUCHARD -WASHINGTON
Page 11 sur 11
Téléchargement