Statistique à une variable (Rappel de 1° ES ) I. Vocabulaire Une étude statistique porte sur un ensemble ( de personnes, d’animaux, d’objets, … ) appelé population. Chaque élément de la population est un individu. L’aspect étudié est nommé caractère ou variable. Les résultats obtenus après observation donnent une série statistique. Il existe des séries à une ou plusieurs variables. Lorsque les variables prennent des valeurs numériques ( exemple : notes, tailles, âges, … ), les variables sont dites quantitatives (si la variable prend n’importe quelle valeur dans un intervalle donné, la variable est dite continue , si elle prend des valeurs isolées, la variable est dite discrète) Dans le cas contraire, les variables sont dites qualitatives (nationalité, couleurs, … ) ; les différentes possibilités du caractère sont appelées modalités ( la commune de résidence pour des élèves de première fréquentant un lycée … ). II. Statistiques à une variable 1) Vocabulaire : Un atelier conditionne du fil sous forme de bobines. Une série de 50 mesures a donné le tableau suivant, où xi désigne la masse d’une bobine en grammes. xi 496 497 498 499 500 501 502 503 504 Effectif ni 1 3 12 10 5 9 5 3 2 L’effectif total, noté N, est le nombre d’individus de la population étudiée. Ici, N = 50. p On a : N n1 n2 ... n p ni . i 1 Le nombre d’individus pour lesquels la variable prend une valeur ( ou modalité ) est l’effectif de cette valeur, noté ni . Ici, n1 = 1 ; n2 = 3 ; … La fréquence, notée fi, d’une valeur de la variable est le quotient de l’effectif de cette valeur par 1 l’effectif total. Ici, f1 = ;… 50 Si la variable est quantitative, l’effectif cumulé croissant d’une valeur xi ( ou fréquence cumulée croissante) est égale à la somme des effectifs ( ou fréquences ) des valeurs inférieures ou égales à x i. xi 496 497 498 499 500 501 502 503 504 Effectifs cumulés 1 4 16 26 31 40 45 48 50 croissants 2) Représentations graphiques Diagramme en bâtons : Il est formé de bâtons dont l’abscisse est la valeur xi et la hauteur l’effectif ni. Histogramme : Lorsque les valeurs sont regroupées en classes, on représente la série par des rectangles de base chacune des classes et dont l’aire est proportionnelle à l’effectif de la classe. Diagramme cumulatif : Lorsque la série est regroupée en classes, le diagramme des effectifs cumulés croissants est formé des segments reliant les points ayant pour abscisse l’extrémité xi de chaque classe, et pour ordonnée Ni, l’effectif cumulé croissant de la valeur xi. 3) Paramètres de position Dans le cas d’une série regroupée en classes, les calculs suivants s’effectuent en remplaçant chaque valeur xi par le centre de chaque classe. 1 a) Le mode Le mode est la valeur du caractère qui a le plus grand effectif. Dans un cas de variable continue, on parle de classe modale, le mode étant alors le centre de la classe. Dans l’exemple, le mode est 498 ( 12 est le plus grand effectif ) b) La médiane La médiane est la valeur qui sépare la population en deux sous-ensembles de même effectif. C’est la valeur qui correspond à la fréquence cumulée croissante égale à 50 %. Dans l’exemple, la médiane est 499 ( l’effectif total est 50 ; le 26ème élément a une valeur de 499 ) c) Les Quartiles L’idée générale est de partager la population en quatre parties de même effectif. Etant donné une série statistique de médiane M dont la liste des valeurs est rangée dans l’ordre croissant (il s’agit de la même liste que celle qu’on utilise pour déterminer la médiane). En coupant la liste en deux sous-séries de même effectif (Attention : quand l’effectif total est impair, la médiane ne doit pas être incluse dans les sous-séries) : • On appelle premier quartile le réel noté Q1 égal à la médiane de la sous-série inférieure. • On appelle troisième quartile le réel noté Q3 égal à la médiane de la sous-série supérieure. • L’écart interquartile est égal à Q3−Q1. • ]Q1;Q3[ est appelé intervalle interquartile. d) Diagramme en boîtes. Le diagramme en boîtes d’une série statistique se construit alors de la façon suivante : (les valeurs du caractère sont en abscisse - min et max représentent les valeurs minimales et maximales du caractère) I Interprétation : • 25% de la population admet une valeur du caractère entre min et Q1 • 25% de la population admet une valeur du caractère entre Q1 et M • 25% de la population admet une valeur du caractère entre M et Q3 • 25% de la population admet une valeur du caractère entre Q3 et max e) La moyenne La moyenne est le nombre x tel que : x = n1x1+n2x2+…+npxp 1 = N N p n x . i 1 i i Dans l’exemple, la moyenne est 499,78 : 496 1 497 2 ... 504 4 24989 x = 499,78 50 50 4) Paramètres de dispersion a) L’étendue L’étendue d’une série statistique est la différence entre la plus grande valeur et la plus petite valeur prise par le caractère. Dans l’exemple, l’étendue est 8 ( 504 – 496 = 7 ) b) La variance 2 La variance, notée V, est la moyenne des carrés des écarts entre les valeurs du caractère et la moyenne x . Elle est telle que : p ni ( x xi )2 p n x 2 i i = i 1 x2 N N Variance = moyenne des carrés – carré de la moyenne Dans l’exemple, la variance est : xi 496 497 498 499 500 501 Effectif 1 3 12 10 5 9 ni 24601 24700 24800 24900 25000 25100 xi2 6 9 4 1 0 1 24601 74102 29760 24900 12500 22590 ni xi2 6 7 48 10 00 09 V= V= i 1 502 503 504 Total 5 3 2 50 25200 4 12600 20 25300 9 75902 7 25401 6 50803 1248918 2 9 12489189 –499,78² = 3,7316 50 c) L’écart type L’écart type, noté , est la racine carrée de la variance σ = V Dans l’exemple, l’écart-type est : = V 1,93 3