Chapitre 2 : STATISTIQUE UNIDIMENSIONNELLE II. Différentes formes de variables statistiques Chapitre 2 : Statistique unidimensionnelle I. Objectifs L’objectif des outils de statistique descriptive élémentaire est de fournir des résumés synthétiques de séries de valeurs, adaptés à leur type (qualitatives ou quantitatives), et observées sur une population ou un échantillon. Dans le cas d’une seule variable, les notions les plus classiques sont celles de médiane, quantile, moyenne, fréquence, fréquence cumulée, variance, écarttype. A ces notions sont associées des représentations graphiques : diagramme en bâton, diagramme en secteurs, diagramme cumulatif, histogramme, courbe cumulative, boîte à moustache. II. 1. Différentes formes de variables statistiques Définition • Population : tout ensemble fini Ω (univers en probabilité) • Individu : tout élément ω de la population Ω (éventualité en probabilité). • Caractère ou variable statistique : toute application X : Ω −→ E où E est un ensemble quelconque. Le triplet (Ω, E, X) est appelé série statistique. Dans ce chapitre, X sera appelée souvent variable statistique (variable aléatoire en probabilité lorsque E ⊂ R). Le caractère est dit : . qualitatif lorsque l’ensemble E n’est pas un ensemble de nombres. . quantitatif discret lorsque l’ensemble E est une partie discrète finie ou infinie de R. . quantitatif continu lorsque l’ensemble E est une partie infinie non dénombrable de R ; en général un intervalle que l’on découpe en sousintervalles dénommés classes. • Modalité d’un caractère : tout élément de X(Ω). X(Ω) est appelé l’ensemble des observations ou modalités (support de X en probabilité). • Effectif : Si A est une partie de E alors l’effectif de A pour le caractère X est le nombre d’individus ω tels que X(ω) ∈ A. L’effectif total est la somme de tous les effectifs. • Echantillon : sous ensemble de la population sur lequel sont effectivement réalisées les observations. . Taille de l’échantillon n : nombre d’individus de l’échantillon correspondant. 2 septembre 2014 MATHÉMATIQUES. Classe ECS1 Lycée TOUCHARD -WASHINGTON Page 1 sur 11 Chapitre 2 : STATISTIQUE UNIDIMENSIONNELLE III. Représentations des données statistiques . Enquête : opération consistant à observer ou mesurer, ou questionner l’ensemble des individus d’un échantillon. . Recensement : enquête dans laquelle l’échantillon observé est la population tout entière (enquête exhaustive) . Sondage : enquête dans laquelle l’échantillon observé est un sous-ensemble strict de la population (enquête non exhaustive) 2. Les variables statistiques qualitatives Par définition, les observations d’une variable qualitative ne sont pas des valeurs numériques. Lorsque ces modalités sont naturellement ordonnées (par exemple, la mention au bac dans une population d’étudiants), la variable est dite ordinale. Dans le cas contraire (par exemple, la profession dans une population de personnes actives, les couleurs) la variable est dite nominale. 3. Les variables statistiques quantitatives a) Les variables statistiques discrètes En général, on appelle variable quantitative discrète une variable quantitative ne prenant que des valeurs entières (plus rarement décimales). b) Les variables statistiques continues Une variable quantitative est dite continue lorsque les observations qui lui sont associées ne sont pas des valeurs précises mais des intervalles réels. Cela signifie que, dans ce cas, le sous-ensemble de R des valeurs possibles de la variable étudiée a été divisé en r intervalles contigus appelés classes. En général, les deux raisons principales qui peuvent amener à considérer comme continue une variable quantitative sont le grand nombre d’observations distinctes (un traitement en discret serait dans ce cas peu commode) et le caractère «sensible» d’une variable (il est moins gênant de demander à des individus leur classe de salaire que leur salaire précis). Les classes d’une variable statistique sont des intervalles bornés ; on désigne par centre de classe, le milieu de l’intervalle. III. 1. Représentations des données statistiques Tableau statistique C’est un tableau dont la première ligne (ou colonne) comporte l’ensemble des r observations distinctes de la variable X. Lorsque la variable est quantitative, 2 septembre 2014 MATHÉMATIQUES. Classe ECS1 Lycée TOUCHARD -WASHINGTON Page 2 sur 11 Chapitre 2 : STATISTIQUE UNIDIMENSIONNELLE III. Représentations des données statistiques ces observations sont rangées traditionnellement par ordre croissant et non répétées. Dans une seconde ligne (ou colonne), on dispose en face de chaque valeur x de X, l’effectif qui lui est associé. Peut être rajoutée, une troisième ligne correspondant à la fréquence (probabilité) de [X = x]. Si la variable statistique est quantitative, on peut rajouter une ligne correspondant à la fréquence cumulée croissante (fonction de répartition en probabilité). 2. Variables statistiques discrètes a) Diagramme en bâtons Graphique plan avec l’axe des abscisses représentant les valeurs de X et l’axe des ordonnées les fréquences ou les effectifs. b) Diagramme cumulatif Pour une variable quantitative discrète, le diagramme cumulatif est un graphique plan avec l’axe des abscisses représentant les valeurs de X et l’axe des ordonnées les fréquences cumulées. Le diagramme est «en marches d’escalier». 3. Variable statistique continue a) Histogramme Un histogramme est la juxtaposition de rectangles dont les bases sont les amplitudes des classes considérées et dont l’aire du rectangle est égale à la fréquence de la classe correspondante. les hauteurs de rectangles sont appelées densités de fréquence. b) Courbe cumulative La courbe cumulative est le graphe de la fréquence cumulée croissante. En abscisse sont reportées les bornes supérieures de chaque classe ; en ordonnées, les fréquences cumulées correspondantes. 4. Autres représentations a) Secteurs C’est la représentation camembert. L’angle (ou l’aire) du secteur est proportionnel à l’effectif ou à la fréquence. 2 septembre 2014 MATHÉMATIQUES. Classe ECS1 Lycée TOUCHARD -WASHINGTON Page 3 sur 11 Chapitre 2 : STATISTIQUE UNIDIMENSIONNELLE IV. Les paramètres pour les variables quantitatives b) Boites à moustache Il s’agit d’un graphique très simple qui résume la série à partir de ses valeurs extrêmes, de ses quartiles et de sa médiane. Q2 Q Q3 m max 1 min IV. 1. Les paramètres pour les variables quantitatives Remarque Les règles de calculs sur les espérances/variances/écarts-type des variables aléatoires s’appliquent aux moyennes/variances/écart-type des séries statistiques. 2. Paramètres de position a) Moyenne La moyenne, la variance et l’écart-type d’une variable statistique se calcule comme en probabilité. Pour les variables continues, dans les formules, on prend les centres de classes. b) Quantiles Définition La fréquence cumulée F(x) (0 ¶ F(x) ¶ 1) donne la proportion d’observations inférieures ou égales à x. Une approche complémentaire consiste à se donner a priori une valeur α, comprise entre 0 et 1, et à rechercher α vérifiant F(t α ) = α. La valeur t α est appelée quantile (ou fractile) d’ordre α de la série. Les quantiles les plus utilisés sont associés à certaines valeurs particulières de α. Les quantiles t α d’une variable continue peuvent être déterminés de façon directe à partir de la courbe cumulative. Cela signifie que, par le calcul, on doit commencer par déterminer la classe dans laquelle se trouve le quantile cherché, puis le déterminer dans cette classe par interpolation linéaire. 2 septembre 2014 MATHÉMATIQUES. Classe ECS1 Lycée TOUCHARD -WASHINGTON Page 4 sur 11 Chapitre 2 : STATISTIQUE IV. Les paramètres pour les variables quantitatives UNIDIMENSIONNELLE Quartiles 1 La médiane (notation Q2 ) est le quantile d’ordre ; elle partage donc la série 2 des observations en deux ensembles d’effectifs égaux. Le premier quartile (Q1 ) 1 4 3 4 est le quantile d’ordre , le troisième quartile (Q3 ) celui d’ordre · Autres quantiles Les quintiles, déciles et centiles sont également d’usage assez courant. c) Mode On appelle mode de X toute modalité d’effectif maximal. 3. Paramètres de dispersion a) Etendue c’est la différence entre la modalité maximale et la modalité minimale, c’est à dire le réel : e = max X(Ω) −min X(Ω) . L’intervalle [min X(Ω) , max X(Ω) ] contient 100% des effectifs. b) Ecart moyen à la moyenne Soit (x 1 , . . . , x r ) les valeurs de la variable discrète X ou les centres de classe de la variable continue X. La valeur x i a pour fréquence f i . Soit m la moyenne statistique. L’écart moyen à la moyenne est donnée par la formule : r X f i |x i − m| i=1 c) Ecart moyen à la médiane Désignons par Q2 la médiane. L’écart moyen à la médiane (avec les mêmes conventions que ci-dessus) est donnée par la formule : r X f i |x i − Q2 | i=1 d) Ecart inter-quantile L’écart inter-quantile est donné par : Q3 − Q1 2 septembre 2014 MATHÉMATIQUES. Classe ECS1 Lycée TOUCHARD -WASHINGTON Page 5 sur 11 Chapitre 2 : STATISTIQUE V. Exercice UNIDIMENSIONNELLE e) Variance et ecart-type Mêmes formules qu’en probabilités. V. Exercice Etudes statistique sur la population mondiale. 1. Index des pays Vous trouverez ci-dessous l’indexation des pays réalisée pour le programme informatique. a) AFRIQUE AFRIQUE SEPTENTRIONALE 1 : Algérie 2 : Égypte 3 : Libye 4 : Maroc 5 : Sahara occidental 6 : Soudan 7 : Tunisie AFRIQUE OCCIDENTALE 8: 9: 10 : 11 : 12 : 13 : Bénin Burkina Faso Cap-Vert Côte d’Ivoire Gambie Ghana 14 : 15 : 16 : 17 : 18 : 19 : Guinée Guinée-Bissau Liberia Mali Mauritanie Niger 20 : Nigeria 31 : 32 : 33 : 34 : 35 : 36 : 37 : Malawi Maurice Mayotte Mozambique Ouganda Réunion Rwanda 38 : 39 : 40 : 41 : 42 : 43 : 21 : Sénégal 22 : Sierra Leone 23 : Togo AFRIQUE ORIENTALE 24 : 25 : 26 : 27 : 28 : 29 : 30 : Burundi Comores Djibouti Érythrée Éthiopie Kenya Madagascar Seychelles Somalie Sud-Soudan Tanzanie Zambie Zimbabwe AFRIQUE CENTRALE 44 : Angola 47 : 45 : Cameroun 48 : 46 : Centrafricaine (République) 49 : 2 septembre 2014 Congo 50 : Guinée équatoriale Congo (Rép . dém . 51 : Sao Tomé-etdu) Principe Gabon 52 : Tchad MATHÉMATIQUES. Classe ECS1 Lycée TOUCHARD -WASHINGTON Page 6 sur 11 Chapitre 2 : STATISTIQUE V. Exercice UNIDIMENSIONNELLE AFRIQUE AUSTRALE 53 : Afrique du Sud 54 : Botswana 55 : Lesotho 56 : Namibie b) AMÉRIQUE AMÉRIQUE SEPTENTRIONALE 57 : Canada 58 : États-Unis AMÉRIQUE CENTRALE 59 : Belize 60 : Costa Rica 61 : Guatemala 62 : Honduras 63 : Mexique 64 : Nicaragua 73 : Dominicaine (République) 74 : Dominique 75 : Grenade 76 : Guadeloupe 77 : Haïti 78 : 79 : 80 : 81 : 82 : 90 : 91 : 92 : 93 : (française) 94 : Paraguay 95 : Pérou 96 : Surinam 65 : Panama 66 : Salvador CARAÏBES 67 : Antigua-etBarbuda 68 : Aruba 69 : Bahamas 70 : Barbade 71 : Cuba 72 : Curaçao Jamaïque 83 : St . Kitts-etMartinique Nevis Porto Rico 84 : Trinité-etSainte Lucie Tobago St Vincentet-les85 : Vierges Grenadines (Iles) AMÉRIQUE DU SUD 86 : 87 : 88 : 89 : Argentine Bolivie Brésil Chili Colombie Équateur Guyana Guyane 97 : Uruguay 98 : Venezuela c) ASIE ASIE OCCIDENTALE 99 : 100 : 101 : 102 : 103 : 104 : 105 : 106 : Arabie saoudite Arménie 107 : Azerbaïdjan 108 : Bahreïn 109 : Chypre Émirats arabes unis 110 : 111 : Georgie Irak Israël Jordanie Koweït Liban Oman 112 : Palestine toires) 113 : Qatar 114 : Syrie 115 : Turquie 116 : Yémen (Terri- ASIE CENTRALE 117 : Kazakhstan 118 : Kirghizistan 2 septembre 2014 119 : Tadjikistan 120 : Turkménistan MATHÉMATIQUES. Classe ECS1 Lycée TOUCHARD -WASHINGTON 121 : Ouzbékistan Page 7 sur 11 Chapitre 2 : STATISTIQUE V. Exercice UNIDIMENSIONNELLE ASIE DU SUD 122 : Afghanistan 123 : Bangladesh 124 : Bhoutan 125 : Pakistan 126 : Inde 127 : Iran 128 : Maldives 129 : Népal 130 : Sri Lanka ASIE DU SUD-EST 131 : 132 : 133 : 134 : Brunei Cambodge Indonésie Laos 135 : Malaisie 138 : 136 : Myanmar (Birma- 139 : nie) 140 : 137 : Philippines 141 : Singapour Thaïlande Timor-Est Viêt Nam ASIE ORIENTALE 142 : Chine 145 : Corée du Nord 143 : Chine - Hong Kong 146 : Corée du Sud 144 : Chine - Macao 147 : Japon 148 : Mongolie 149 : Taïwan d) EUROPE EUROPE SEPTENTRIONALE 150 : 151 : 152 : 153 : Danemark Estonie Finlande Irlande 154 : 155 : 156 : 157 : Islande Lettonie Lituanie Norvège 158 : Royaume-Uni 159 : Suède taine) Liechtenstein Luxembourg Monaco 167 : Pays-Bas 168 : Suisse Pologne Roumanie Russie Slovaquie 177 : Tchèque blique) Grèce Italie Kosovo Macédoine Malte 189 : 190 : 191 : 192 : 193 : EUROPE OCCIDENTALE 160 : 161 : 162 : 163 : Allemagne Autriche 164 : Belgique 165 : France (métropoli- 166 : EUROPE ORIENTALE 169 : 170 : 171 : 172 : Biélorussie Bulgarie Hongrie Moldavie 173 : 174 : 175 : 176 : (Répu- 178 : Ukraine EUROPE MÉRIDIONALE 179 : 180 : 181 : 182 : 183 : Albanie 184 : Andorre 185 : Bosnie-Herzégovine 186 : Croatie 187 : Espagne 188 : 2 septembre 2014 MATHÉMATIQUES. Classe ECS1 Lycée TOUCHARD -WASHINGTON Monténégro Portugal Saint-Marin Serbie Slovénie Page 8 sur 11 Chapitre 2 : STATISTIQUE UNIDIMENSIONNELLE V. Exercice e) OCÉANIE 194 : Australie 195 : Fidji 196 : Guam 197 : Kiribati 198 : Marshall (Îles) 2. 199 : Micronésie (États 203 : fédérés de) 204 : 200 : Nouvelle-Calédonie 205 : 201 : Nouvelle-Zélande 202 : Papouasie-Nouvelle-206 : Guinée 207 : Polynésie française Salomon (Îles) Samoa occidentales Tonga Vanuatu Tableaux de données Dans le fichier à télécharger à partir du wiki nommé «population.sce» ont déjà été saisis les tableaux suivants : • pays : (les 207 noms de pays) • surface : Il s’agit de la surface terrestre (toutes eaux déduites) en milliers de km2 de chaque pays • population : nombre d’habitants en millions (référence 2013) • naissance : nombre de naissances sur 1000 habitants • deces : nombre de décès sur 1000 habitants • homme : espérance de vie des hommes • femme : espérance de vie des femmes Vous taperez vos programmes dans le fichier population.sce 3. Programmes à réaliser a) Saisie et affichage Ecrire un programme qui demande à l’utilisateur l’index du pays et qui affiche le pays, la superficie terrestre (en milliers de km2) son nombre d’habitants (en millions d’habitants) et la densité de population en habitants par km2. b) Calculs de sommes 1. Calculer et afficher la surface terrestre mondiale, le nombre d’habitants mondial et la densité moyenne d’habitants au km2. 2. Calculer la surface terrestre, le nombre d’habitants et la densité moyenne d’habitants au km2 pour chaque continent. 3. Calculer la surface terrestre, le nombre d’habitants et la densité moyenne d’habitants au km2 pour l’union européenne (28 pays). 2 septembre 2014 MATHÉMATIQUES. Classe ECS1 Lycée TOUCHARD -WASHINGTON Page 9 sur 11 Chapitre 2 : STATISTIQUE UNIDIMENSIONNELLE V. Exercice c) Calculs des paramètres de position et de dispersion - Représentations graphiques Pour l’espérance de vie des hommes (ou des femmes) par pays, déterminer : 1. la moyenne (sur l’ensemble des pays), 2. l’écart-type, 3. la médiane, 4. les espérances de vie minimale et maximale et déterminer les pays correspondant à ces valeurs extremales. Vous pourrez vous aider de l’instruction find(...) 5. l’écart moyen 6. A l’aide de l’instruction dsearch(...), réaliser le tableau de synthèse pour l’espérance de vie des hommes par pays dans lequel pour chaque age d’espérance de vie compris entre la valeur minimale et maximale apparait l’effectif partiel en nombre de pays. 7. Déterminer le mode de l’espérance de vie des hommes et les pays correspondants. 8. Trier le tableau «homme» (ou femme) dans l’ordre croissant et en déduire a) les valeurs du premier quartile et du troisième quartile b) les valeurs du premier décile et du neuvième décile. Vous déterminerez ensuite la liste des pays dont l’espérance de vie est inférieure au premier décile et la liste des pays dont l’espérance de vie est supérieure au neuvième décile. 9. A partir du tableau de la question 6, tracer un diagramme en bâtons de l’espérance de vie des hommes puis tracer un diagramme en bâtons sur le même graphique de l’espérance de vie des hommes et des femmes. 10. Tracer un diagramme en secteurs de l’espérance de vie des hommes d) Espérance de vie individuelle Dans les questions précédentes, l’espérance de vie a été traitée comme si les pays avaient le même poids. Or le nombre d’habitants des Etats-Unis n’est pas le même que celui de Monaco. Calculer l’espérance de vie moyenne des hommes (ou des femmes) en tenant compte de l’effectif de chaque pays. 2 septembre 2014 MATHÉMATIQUES. Classe ECS1 Lycée TOUCHARD -WASHINGTON Page 10 sur 11 Chapitre 2 : STATISTIQUE UNIDIMENSIONNELLE V. Exercice e) Les plus grands et les plus petits Réaliser un programme qui permet de déterminer les 10 pays qui sont : • les plus grands en superficie, • les plus petits en superficie, • les plus nombreux en population, • les moins nombreux en population. f) Etude d’une variable continue : densité d’habitants 1. Créer un tableau densite qui stocke les densités du nombre d’habitants au km2 pour chaque pays. 2. Déterminer les valeurs minimale et maximale des densités. 3. Déterminer (par un programme) les 10 pays dont les densités sont les plus élevées et les 10 pays dont les densités sont les moins élevées. 4. Créer un tableau nommé synthese qui répartit les densités en classes de valeurs avec les classes délimétées par les bornes suivantes : [minimale 10 20 50 100 150 200 300 450 600 1000 maximale]. Quelle interprétation peut-on en faire ? 5. A partir des centres de classe, calculer la moyenne mondiale des densités et comparer ce résultat à celui de la question 1. 6. Tracer la courbe des fréquences cumulées croissantes et par lecture graphique donner les valeurs des quartiles. g) Une projection 1. Créer par différence entre le taux de natalité et le taux de décès, un tableau donnant en pourcentage le taux d’accroissement naturel de chaque pays. 2. En supposant que ces taux restent identiques jusqu’en 2050, estimer la population de chaque pays en 2050 puis la population mondiale en 2050. D’après les données de l’IDEM, la population mondiale en 2050 serait de 9 731 millions d’habitants. Conclusion ? 2 septembre 2014 MATHÉMATIQUES. Classe ECS1 Lycée TOUCHARD -WASHINGTON Page 11 sur 11