Chapitre IV : Statistiques Extrait du programme : I. Diagrammes en boite 1. Rappels des indicateurs Médiane-Quartiles Définitions : Si l’on range les N valeurs de la série par ordre croissant, la médiane de la série est le nombre noté Me, qui partage la population en deux groupes de même effectif de telle sorte que : Pour au moins 50% des individus, la valeur du caractère est inférieure ou égale à Me. Pour au moins 50% des individus, la valeur du caractère est supérieure ou égale à Me. Le premier quartile, noté Q1 est la plus petite valeur de la série telle qu’au moins 25% des valeurs soient inférieures ou égales à ce nombre Q1. Le troisième quartile, noté Q3 est la plus petite valeur de la série telle qu’au moins 75% des valeurs soient inférieures ou égales à ce nombre Q3. Pour déterminer la médiane, la méthode change selon la parité de l’effectif total : - Si l’effectif total est impair, alors la médiane est la valeur centrale de rang N+1 2 Exemple 1 : les notes obtenues par un groupe de 15 élèves lors d’un contrôle. 5 ; 7 ; 7 ; 8 ; 10 ; 10 ; 10 ; 11 ; 12 ; 12 ; 14 ; 15 ; 15 ; 15 ; 19 N= 15 7 valeurs 7 valeurs N = 7,5 donc la note médiane est donc la 8ème valeur d’où Me = 11 2 N = 3,75 donc le premier quartile est la 4ème valeur : Q1 = 8 4 3N =11,25 donc le troisième quartile est la 12ème valeur : Q3 = 15 4 Si l’effectif total est pair, alors la médiane est la valeur moyenne des deux valeurs centrales N N qui ont pour rangs et + 1 2 2 Exemple 2 : les 18 notes obtenues par un autre groupe de 18 élèves lors de ce contrôle. 6 ; 6 ; 7 ; 8 ; 8 ; 8 ; 10 ; 10 ; 11 ; 12 ; 12 ; 12 ; 12 ; 14 ; 15 ; 15 ; 15 ; 19 N= 18 9 valeurs 9 valeurs N = 9 donc Me est la moyenne de la 9ème et la 10ème valeur c’est-à-dire les notes 11 et 12. 2 - Me = 11 12 = 11,5 La note médiane est donc Me = 11,5 2 N = 4,5 donc Q1est la 5ème valeur : Q1 = 8 4 3N = 13,5 donc Q3 est la 14ème valeur : Q3 = 14 4 Remarques : il est souvent nécessaire d’utiliser le tableau des effectifs cumulés ou celui des fréquences cumulées pour trouver les valeurs centrales après avoir déterminé leurs rangs. - La médiane peut ne pas être une valeur de la série (dans le cas où N est pair), mais les quartiles le sont toujours. - Dans le cas où les valeurs de la série sont regroupées dans des classes : La classe contenant la médiane s’appelle la classe médiane. On la déterminer en calculant les effectifs cumulés croissants. C’est alors la première classe correspondant à un effectif cumulé supérieur ou égal N à . 2 Définition : On définit de même les déciles d’une série qui partagent la population en 10 groupes. Le premier décile D1 est la plus petite valeur de la série telle qu’au moins 10% des valeurs lui soient inférieures ou égales. Le neuvième décile D9 est la plus petite valeur de la série telle qu’au moins 90% des valeurs llui soient inférieurs ou égales. Pour déterminer les déciles, on range les valeurs du caractère par ordre croissant, et on calcule (pour l’exemple 1): N = 1,5 donc D1 est la 2ème valeur de la série : D1 = 7 10 9N = 13,5 donc D9 est la 14ème valeur de la série : D9 = 15. 10 2. Diagramme en boîte On utilise un diagramme en boîte, aussi appelé diagramme de Tuckey (1915-2000) ou boîte à moustaches, pour représenter une série statistique de taille importante où les valeurs extrêmes ne sont pas essentielles. Un tel diagramme fait apparaître : - Une boîte rectangulaire dont les extrémités sont les deux quartiles Q1 et Q3. - Des traits extérieurs à cette boîte, terminées par des segments qui leurs sont perpendiculaires (les moustaches) reliant la valeur minimale Xmin (ou le 1er décile D1) au premier quartile d’une part, et le troisième quartile à la valeur maximale Xmax (ou le 9ème décile) d’autre part. - Un trait vertical dans la boîte correspond à la médiane Me. Intérêt : Une telle représentation permet de comparer rapidement des séries statistiques en appréhendant la dispersion de la moitié centrale de la série autour de la médiane : plus la boîte est resserrée autour de la médiane et plus les moustaches sont courtes, moins la dispersion est importante. Point-méthode 12 : Réaliser et interpréter une diagramme en boîte On étudie la série formée par les résultats obtenus par une classe A à un contrôle, qui sont donnés dans le tableau suivant : Notes xi 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Effectifs ni 0 0 0 0 0 2 2 2 0 1 1 3 1 4 4 2 2 1 0 0 0 1. Déterminer la médiane et les quartiles de cette série. 2. Voici les indicateurs relevés pour la classe B lors du même devoir : Min = 8,5, Q1 = 11, Me = 13 , Q3 = 14,5 et max = 17,5 Sur la même figure, représenter les diagrammes en boites des deux séries. 3. Comparer les résultats des deux classes. Solution : 1. Pour une série regroupée en effectif comme celle-ci, on ajoute une ligne au tableau afin de déterminer les effectifs cumulés croissants : Notes xi 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Effectifs ni 0 0 0 0 0 2 2 2 0 1 1 3 1 4 4 2 2 1 0 0 0 ecc 0 0 0 0 0 2 4 6 6 7 8 11 12 16 20 22 24 25 25 25 25 On voit donc que N = 25 N 25 = = 12,5 donc on lit la 13ème valeur : Me = 13 2 2 N = 6,25 donc on lit la 7èùe valeur : Q1 = 9 4 3N = 18,75 donc on lit la 19ème valeur : Q3 = 14 4 2. Pour comparer 2 séries, il faut toujours faire leur diagramme en boite sur la même échelle, un seul axe gradué en-dessous : 3. On compare d’abord leur valeur centrale puis la largeur de la boite. On en déduit laquelle des deux est plus ou moins dispersée. Les deux classes ont la même médiane, mais la boite et les moustaches de la classe A sont plus longues, donc les notes de la classe A sont plus dispersées, alors que B est assez symétrique et homogène. II. Indicateurs de dispersion 1. Ecart interquartile Définitions : la différence entre la plus grande et la plus petite valeur de la série est appelée l’étendue de la série. La différence Q3 − Q1 entre le troisième et le premier quartile est appelée l’écart interquartile de la série. Remarque : l’écart interquartile est moins sensible que l’étendue aux valeurs extrêmes. 2. Variance et écart-type a. Signification de l’écart-type L’écart-type est un nombre positif qui mesure la dispersion de la série autour de sa valeur moyenne. Plus les valeurs du caractère sont concentrées autour de la moyenne, plus l’écart-type est petit. L’écarttype mesure approximativement l’écart moyen entre chaque valeur et x . La plupart des valeurs du caractère se situent dans l’intervalle [ x − ; x + ] Remarques : - L’écart-type s’exprime dans la même unité que le caractère étudié. - Le calcul de l’écart-type sera fait avec la calculatrice ou avec un tableur. b. Calcul de l’écart-type On calcule tout d’abord une valeur V appelée variance de la série. - On calcule pour chaque valeur xi l’écart entre cette valeur et la moyenne x de la série. écart (xi – x ) nombre positif ou négatif Les écarts pouvant être positifs ou négatifs, on les élève au carré carré de l’écart (xi – x )2 nombre toujours positif La variance, notée V, est alors la moyenne des carrés obtenus V n1 ( x1 x)2 n2 ( x2 x)2 n3 ( x3 x)2 ... n p ( x p x)2 N On peut alors calculer l’écart-type qui est la racine carrée de la variance. On note = V Point-méthode 13 : Calculer l’écart-type avec une calculatrice TEXAS CASIO Pour entrer les données Taper chaque valeur de xi dans la colonne L1 et chaque effectif ni dans la colonne L2 . Pour changer de ligne ou de colonne, on utilise les flèches < et > du curseur. Taper chaque valeur de xi dans la colonne List11 suivi de EXE et chaque effectif ni dans la colonne List 2 suivi de EXE . Pour changer de ligne ou de colonne, on utilise les flèches < et > du curseur. Pour afficher les paramètres A l’aide de la touche Stat, choisir le menu Activer le menu CALC en appuyant sur F2 CALC, puis sélectionner 1-Var Stats suivi de Dans le menu SET , choisir List1 pour entrer 1VarXlist et List2 pour 1Var Freq saisir L1, L2. (cela veut dire que les valeurs sont dans L1 et les effectifs dans L2) Taper EXIT (ou ESC) Sélectionner le menu 1Var avec la touche Les paramètres x , N (n), Q1 , Me (Med) , Q3 et (x) s’affichent alors en utilisant la flèche du curseur. Les paramètres x , N (n), Q1 , Me (Med), Q3 et (xn) s’affichent alors. Conclusion : On lit ainsi à l’écran que que le périmètre crânien moyen de ces nouveaux-nés est environ 34,5 cm et que l’écart-type de la série est environ 1,2 cm. Pour effacer les données Dans l’éditeur de listes, pour effacer une Dans l’éditeur de listes, pour effacer une liste, placer le curseur sur le nom de la liste en haut liste, placer le curseur sur un élément de la liste et selectionner DEL A (touche F4 ), puis YES. de la colonne, puis taper sur Annul. Point-méthode 14 : Utiliser l’écart-type pour comparer deux séries. Deux machines fabriquent des écrous dont le diamètre intérieur approximatif est de 6 mm. La machine 1 paraît fabriquer des écrous de tailles convenables alors que la machine 2 semble présenter une avarie de fonctionnement. Pour comparer la fiabilité de chaque machine, on a noté les diamètres intérieurs de 350 écrous sur chacune d'entre elles. Diamètre 58 58,5 59 59,5 60 60,5 61 61,5 Machine 1 En dixième de mm Nombre d’écrous 8 27 81 114 75 31 12 2 Diamètre 58 58,5 59 59,5 60 60,5 61 61,5 Machine 2 En dixième de mm Nombre d’écrous 53 54 54 42 43 42 32 30 Utiliser ces tableaux pour comparer les deux séries grâce au couple (moyenne, écart-type) Solution : On écrit dans L1et L2 les valeurs et effectifs correspondant à la machine 1, puis dans L3 et L4 ceux de la machine 2. On trouve alors : Machine 1 : x = 59,531 dixième de mm Machine 2 : x = 59,531 dixième de mm = 0,6539 dixième de mm = 1,1099 dixième de mm On compare ces indicateurs, en parlant de dispersion, d’homogénéité. On n’hésite pas à dire quelle machine semble plus intéressante si les indicateurs nous permettent de faire un choix clair. Les deux machines obtiennent les mêmes moyennes. En revanche, l’écart-type est beaucoup plus important pour la machine 2 dont les pièces ont un diamètre plus souvent éloigné de la moyenne, donc des 6 mm attendus. La Machine 1 semble donc plus fiable que la machine 2 car plus homogène et regroupée autour de la moyenne.