STATISTIQUES I) Nature des données – description graphique Dans ce chapitre, on étudie des séries de données liées à des variables quantitatives, c’est-à-dire quand les valeurs sont numériques (mesures physiques, physiologiques, économiques). 1) Différents types de séries Les variables étudiées sont de deux types : • ces variables sont discrètes si les valeurs prises sont isolées (nombre de personnes par ménage, nombre de défauts observés...) ; • ces variables sont continues si les valeurs prises sont dans un intervalle (taille d'une personne, salaire, temps d'écoute de la télévision, prix d'un article, production...) 25 Exemples : • Une série continue de taux. L’histogramme ci-contre représente la répartition des taux de fécondité de 48 pays d’Europe pour la période 1995-1999. La variable étudiée est le taux de fécondité (nombre moyen d’enfants pour 1000 hab) : cette variable est quantitative continue, car elle peut prendre toutes les valeurs de l’intervalle [1 ; 4,5]. Cet histogramme est un histogramme à pas constant, puisque les classes sont toutes de même largeur 0,5. Effectif 20 15 10 5 0 1 1.5 2 La variable étudiée est la taille des ménages et cette variable est discrète puisqu’elle prend 5 valeurs (1, 2, 3, 4 et « 5 et plus »). 3 3.5 4 4.5 5 Taux de fécondité ‚ Des séries discrètes. Le tableau ci-contre donne le nombre de ménages selon leurs tailles pour quelques pays européens en 1995 (en milliers). 2.5 1 1538 831 1966 449 Espagne Finlande Pays-bas Portugal Nombre de personnes 2 3 4 2967 2640 2907 689 320 264 2185 861 1022 865 809 747 5 et plus 2059 118 398 406 3500 Nombre de ménages 3000 Les 4 séries sont représentées ci-contre par des courbes. On aurait pu utiliser des digrammes en bâton, mais ceux-ci apportent moins de lisibilité lorsque plusieurs séries sont superposées. 2500 Espagne 2000 Finlande 1500 Pays-bas 1000 Portugal 500 0 1 2 3 4 5 et plus Taille des ménages ƒ Une série de fréquences (ou de proportions) La population d’une petite ville a été consultée sur l’aménagement d’un réseau de pistes cyclables. Voici les résultats de la consultation. Opinions Fréquences Favorables 56 Opposés 19 Ne se prononcent 25 pas Total 100 25% Favorables Angles en degré 202 68 90 56% Opposés Ne se prononcent pas 19% 360 La colonne « Angles en degré » permet à l’aide du rapporteur de créer le diagramme en secteur circulaires. Statistiques 1/3 2) Histogramme à pas non constant Pour représenter une variable quantitative continue dont les valeurs sont regroupées par classe, on trace des rectangles dont les aires sont proportionnelles aux effectifs des classes. 5 Exemple : Le rectangle dans lequel est inscrit le nombre 5 donne l’aire d’un effectif égal à 5. Classe [100 ;120[ [120 ;160[ [160 ;180[ [180 ;260[ Effectif 20 30 10 10 100 120 140 160 180 200 220 240 II) Résumé d’une série par le couple (médiane ; écart interquartile) 1) La médiane (vue en 2 nde) : mesure de tendance centrale Définition : La médiane Me d'une série ordonnée par ordre croissant partage cette série en deux parties telles que la moitié au moins prend des valeurs inférieures ou égales à la médiane. • Si le nombre de données est pair, N = 2p : la médiane est la moyenne des deux valeurs centrales la pième et la (p + 1)ième valeur. • Si le nombre de données est impair, N = 2 p+ 1 : la médiane est la (p + 1)ième valeur qui est la valeur centrale. 2) Les quartiles Définition : Les valeurs x i d’une série d’effectif total N sont rangées par ordre croissant. • Le premier quartile Q1 de la série est la valeur xi dont le rang est : N N * si est entier, 4 4 N N * l’entier immédiatement supérieur à si n’est pas entier. 4 4 • Le troisième quartile Q3 de la série est la valeur xi dont le rang est : 3N 3N * si est entier, 4 4 3N 3N * l’entier immédiatement supérieur à si n’est pas entier. 4 4 3) Les déciles Définition : Les valeurs x i d’une série d’effectif total N sont rangées par ordre croissant. • Le premier décile D1 de la série est la valeur x i dont le rang est : N N * si est entier, 10 10 N N * l’entier immédiatement supérieur à si n’est pas entier. 10 10 • Le neuvième décile D9 de la série est la valeur xi dont le rang est : 9N 9N * si est entier, 10 10 9N 9N * l’entier immédiatement supérieur à si n’est pas entier. 10 10 3) L’écart interquartile : mesure de dispersion Définition : • L’intervalle interquartile est l’intervalle [Q1 ; Q3]. • L’écart interquartile est la différence Q3 . Q1 . Remarques : • Le couple (médiane ; écart interquartile) est robuste par rapport aux valeurs extrêmes, mais sa détermination (les quartiles) n’est pas très pratique. ‚ Plus l’écart interquartile est grand, plus la dispersion est importante. Statistiques 2/3 260 280 4) Diagramme en boîte Ces diagrammes s’utilisent pour représenter une série de taille importante où les valeurs extrêmes ne sont pas essentielles. Les diagrammes en boîte mettent en valeur la dispersion d’une répartition. Exemple : Voici une série de valeur x i rangée dans l’ordre croissant et dont on a calculé les effectifs cumulés croissants. Valeurs Effectifs cumulés croissants 1 2 3 4 5 6 7 3 6 14 22 24 26 28 N est pair, il y a donc deux valeurs centrales x14 et x15, donc Me = 3+ 4 = 3,5 . 2 L’effectif total N est 28. N 3N = 7 et = 3 × 7 = 21 , donc Q1 = x7 = 3 et Q3 = x21 = 4 . 4 4 N 9N = 2,8 et = 25,2 , donc D1 = x3 = 1 et D9 = x26 = 6 . 10 10 xmin D1 Q1 Me Q3 D9 xmax 1 1 3 3,5 4 6 7 x min D1 D9 Q1 0 1 2 Me 3 x max Q3 4 5 6 7 III) Résumé d’une série par le couple (moyenne ; écart-type) 1) La moyenne (vue en 2 nde) : mesure de tendance centrale Définition : Soit une série de valeurs x i. ∑ xi . • Sans les effectifs avec un effectif total N: x = N ∑ ni xi . • Avec les effectifs n i : x = ∑ ni • Avec les fréquences fi = ni : x = ∑ f i xi . ∑ ni 2) La variance Définition : Soit une série de valeurs x i. ∑(x • Sans les effectifs avec un effectif total N: V = i − x) N ∑n (x − x) • Avec les effectifs n i : V = ∑n i i 2 . 2 . i Remarques : • L’utilisation des listes sur la calculatrice est efficace pour calculer la variance. On calcule successivement les carrés des écarts puis leurs produits par les effectifs. Enfin, la somme de ces produits divisés par le nombre de données donne la Variance. ‚ On peut aussi utiliser les calculs statistiques intégrés de la calculatrice qui ont l’inconvénient d’être automatiques, les élèves ne voient pas les formules intervenir. 3) L’écart type: mesure de dispersion Définition : L’écart type noté s est la racine carrée de la variance V : s = V . Remarques : • Le couple (moyenne ; écart-type) est très sensible aux valeurs extrêmes, mais sa détermination par les formules précédentes est aisée. ‚ Plus l’écart type est grand, plus la dispersion est importante. Statistiques 3/3