Seconde Cours : statistiques descriptives I Le vocabulaire des statistiques définition 1 : L’ensemble sur lequel on travaille en statistique est appelé population. Si cet ensemble est trop vaste, on en restreint l’étude à une partie appelée échantillon. Un élément de cet ensemble est appelé individu. définition 2 : La particularité commune que l’on étudie est appelée caractère. L’effectif d’une « valeur » d’un caractère est le nombre d’individus ayant cette valeur. Les valeurs prises par le caractère sont aussi appelées les modalités. Si celles-ci s’expriment par un nombre, il s’agit d’un caractère quantitatif. (dans ce cas, le nombre se note en général xi) Si les valeurs du nombre exprimé sont isolées, il s’agit d’un caractère discret. Par contre, si ces valeurs sont prises dans tout un intervalle de , il s’agit d’un caractère continu. Exemples : Le nombre de frères et sœurs d’un élève de seconde est un caractère quantitatif discret. il peut prendre les valeurs 0, 1, 2, 3, 4 ..... La taille des élèves de seconde est un caractère quantitatif continu. il peut prendre toutes les valeurs entre 1,50 m et 1,95 m. Si la particularité étudiée ne s’exprime pas par un nombre, il s’agit d’un caractère qualitatif. Exemple : Dans une population, être marié(e) est un caractère qualitatif à deux valeurs : oui ou non. Exemples : caractères étudiés sur un individu Couleur des yeux : caractère qualitatif Nombre d’enfants : caractère quantitatif discret. Mois de naissance : caractère qualitatif sport pratiqué : caractère qualitatif pointure de chaussures : caractère quantitatif discret. taille : caractère quantitatif continu 1 Seconde Cours : statistiques descriptives Valeurs d’une variable quantitative Pointure Taille 38 39 [155 ;160[ 40 41 42 [160 ;165[ [165 ;170[ [170 ;175[ VTT foot handball modalités d’une variable qualitative sport Tennis définition 3 : Une série statistique est l’ensemble des résultats d’une étude : valeurs du caractère et effectifs correspondants. On représente souvent une série statistique sous forme d’un tableau. définition 4 : Le nombre d’individus (ni) d’une modalité est appelé effectif. Le nombre total d’individus (N) de la population est appelé effectif total. ni Le rapport fi = est appelé fréquence. N remarques : fi est un nombre toujours compris entre 0 et 1. Souvent, les nombres fi s’expriment par un pourcentage. La somme des nombres fi est toujours égale à 1. e II Représentations graphiques Divers graphiques permettent d’illustrer les données et de comparer deux séries statistiques. En voici certains : les diagrammes en bâtons ou en barres, formés de barres dont l’abscisse est la valeur xi d’un caractère et la hauteur est proportionnelle à ni ou à fi ; les diagrammes à secteurs (ou « camemberts ») qui sont des disques partagés en secteurs dont l’angle au centre est proportionnel à l’effectif de chaque valeur ; des histogrammes, lorsque les valeurs sont regroupées en classes. Lorsque les classes sont de même amplitude, on construit des rectangles ayant pour base chacune des classes et une hauteur proportionnelle à l’effectif : Diagramme en bâtons Diagramme à secteurs Histogramme 2 Seconde Cours : statistiques descriptives III Caractéristiques d’une série a) Mesures de tendance centrale définition 1 : Le mode pour un caractère discret, noté Mo, est la valeur qui correspond au plus grand effectif. dans le cas d’un caractère continu, on parle de classe modale. Dans le cas de classes de même amplitude, la classe modale est une classe qui correspond au plus fort effectif. définition 2 : la moyenne dans le cas d’une série discrète. la moyenne est le nombre noté x . x = n1x1 + n2x2 + ... + npxp ou x = f1x1 + f2x2 + ... + fpxp. N Si les valeurs sont regroupées en classe, on calcule la moyenne en choisissant comme valeurs du caractère les centres des classes et comme effectifs, les effectifs des classes. définition 3 : la médiane d’une série, dont les valeurs du caractères sont discrètes et rangées dans l’ordre croissant, est la valeur partageant la population en deux groupes de même effectif. b) Mesures de dispersion : étendue et quartiles définition 4 : l'étendue La différence des valeurs extrêmes du caractère s’appelle l’étendue. Si on étudie des notes, c’est la différence entre la note la plus haute et la note la plus basse. Remarque : on ne parle d’étendue que dans le cas d’un caractère quantitatif. 3 Seconde Cours : statistiques descriptives définition 5 : les quartiles Un quartile correspond à chacune des 3 valeurs qui divisent les données d'une série triées en 4 parts égales, de sorte que chaque partie représente 1/4 de l'échantillon de la population. le 1er quartile sépare les 25 % inférieurs des données ; le 2e quartile est la médiane de la série ; le 3e quartile sépare les 75 % inférieurs des données. La différence entre le 3e quartile et le 1er quartile s'appelle écart interquartile ; c'est un critère de dispersion de la série. c) Exemples 1) note : xi nombre d’élèves : ni 5 8 7 5 12 14 15 3 18 2 Le mode est la note 12 car l’effectif 14 est le plus grand. La médiane est la note du 16eme élève car il y a 31 élèves. c’est donc 12. La moyenne : x = 324 7 5 5 8 14 12 3 15 2 18 = 10,45. 31 7 5 14 3 2 L’étendue est : 18 — 5 = 13. 2) taille (en cm) effectif [1,5 ; 1,6[ [1,6 ; 1,7[ [1,7 ; 1,8[ [1,8 ; 1,9[ 5 16 9 4 [1,9 ; 2[ 1 La classe [1,6 ; 1,7[ est la classe modale car elle a le plus grand effectif. Son centre, 1,65 est le mode de la série. La moyenne : x= 59,25 5 1,55 16 1, 65 9 1, 75 4 1,85 11,95 = 35 5 16 9 4 1 1,69 4 Seconde Cours : statistiques descriptives 3) Quels sont les pays de l’ex-Europe des 15 ayant la population la plus jeune ? Dans le tableau ci-dessous, on a rangé ces pays dans l’ordre croissant du pourcentage P de jeunes de moins de 15 ans dans la population pour les classer en quatre quarts, délimités par les quartiles. Pays Pourcentage P des moins de 15 ans Italie 14,6% Espagne 15,3% Grèce 15,4% Allemagne 15,8% (Q1) Autriche 17,0% Portugal 17,0% Belgique 17,7% Danemark 18,2% (Med) Finlande 18,4% Hollande 18,5% Suède 18,7% Luxembourg 18,8% (Q3) France 19,0% Grande-Bretagne 19,2% Irlande 22,2% Part des pays dans l'intervalle [0;P] 1/15 soit 6,7% 2/15 soit 13,3% 3/15 soit 20,0% 4/15 soit 26,7% 5/15 soit 33,3% 6/15 soit 40,0% 7/15 soit 46,7% 8/15 soit 53,3% 9/15 soit 60,0% 10/15 soit 66,7% 11/15 soit 73,3% 12/15 soit 80,0% 13/15 soit 86,7% 14/15 soit 93,3% 15/15 soit 100,0% Dans la dernière colonne on a indiqué les fréquences cumulées croissantes en pourcentage. Le premier quartile , noté Q1, est la plus petite valeur de la variable telle que pour au moins 25% des individus, cette variable est inférieure ou égale à Q1. Ici Q1 = 15,8%. Le troisième quartile , noté Q3, est la plus petite valeur de la variable telle que pour au moins 75% des individus, cette variable est inférieure ou égale à Q3. Ici Q3 = 18,8%. La médiane, notée Med, est la valeur de la variable pour le ou les individus centraux (ici le Danemark). Ici Med = 18,2%. Si l’on note Min et Max les valeurs extrêmes de la série, les cinq paramètres : Min, Q1, Med, Q3 et Max permettent de partager la série en quatre groupes d’effectifs voisins. L'écart interquartile est égal à Q3 – Q1 = 18,8 – 15,8 = 3% 5