Statistique descriptive 1 TABLE DES MATIERES I. INTRODUCTION .................................................................................................................................................. 3 1. ACTIVITE : LECTURE GRAPHIQUE ............................................................................................................................ 3 2. HISTORIQUE............................................................................................................................................................. 7 3. VOCABULAIRE............................................................................................................................................................ 8 II. PRESENTATION DES DONNEES ................................................................................................................. 10 1. CAS D’UNE VARIABLE QUALITATIVE ...................................................................................................................... 10 a) Représentation sous forme de tableau .......................................................................................................... 10 b) Représentation sous forme de graphique ..................................................................................................... 11 2. CAS D’UNE VARIABLE QUANTITATIVE DISCRETE .................................................................................................. 12 a) Représentation sous forme de tableau .......................................................................................................... 12 b) Représentation sous forme de graphique: ..................................................................................................... 13 3. CAS D’UNE VARIABLE QUANTITATIVE CONTINUE ................................................................................................ 14 a) Représentation sous forme de tableau .......................................................................................................... 14 b) Représentation sous forme de graphique ..................................................................................................... 15 III. CARACTERISATION DES DONNEES ......................................................................................................... 17 1. PARAMETRES DE POSITION .................................................................................................................................... 17 a) Le mode M0 ou la classe modale b) La moyenne arithmétique …………................................................................................................................................ 17 ............................................................................................................................... 17 c) La médiane M ou la classe médiane ..................................................................................... 17 d) Quartiles, centiles, déciles .............................................................................................................................. 18 2. PARAMETRES DE DISPERSION ................................................................................................................................ 20 a) L’étendue ................................................................................................................................................... 20 b) La variance .......................................................................................................................................................... 20 c) L’écart type . ......................................................................................................................................................... 20 IV. RESUME ................................................................................................................................................................ 21 V. UTILISATION DU LOGICIEL………………………………………………………………………………………………………………….….22 2 Statistique descriptive I. Introduction 1. Activité : Lecture graphique Dans les médias, tu te trouves parfois face à des résultats statistiques donnés sous forme de tableaux, de graphiques illustrant un sondage, une étude, … Il est donc important de savoir lire, comprendre et bien interpréter ces différents graphiques. Voici quelques exemples. a) Exemple 1 : Dans le carnet du nourrisson de l’O.N.E. (Office de la Naissance et de l’Enfance), on trouve dans les premières pages un graphique à compléter suivant le poids et la taille de l’enfant en fonction de son âge. On peut alors situer cet enfant parmi les autres à l’aide des données nationales. Statistique descriptive 3 La courbe P50 représente la mesure (taille ou poids suivant le graphique) des filles qui se situent au percentile 50 (c.-à-d. le milieu des données recueillies : 50% des filles se situent en dessous de la mesure et 50% des filles se situent au- dessus de la mesure). La courbe P75 représente la mesure des filles qui se situent au percentile 75 (c.-à-d. 75% des filles se situent en dessous de la mesure et 25% des filles se situent audessus de la mesure). Vérifie ta compréhension : a) Quel est le poids et la taille d’une fille de 4 ans et 4 mois si elle se situe au percentile 50 ? b) Si une fille mesure 122cm à l’âge de 6 ans, sur quelle courbe se situe-t-elle ? Qu’est-ce que cela signifie ? c) Si une fille de 2 ans a une taille de 84cm, quel serait son poids idéal ? b) Exemple 2 : Graphique 4 Statistique descriptive Ce graphique donne une photographie actuelle de la consommation hebdomadaire de tabac pour chaque catégorie du sexe, du type d’enseignement et du niveau de la classe. Le graphique présente le pourcentage (point) de fumeurs réguliers dans chaque catégorie avec son intervalle de confiance (lignes verticales). L’intervalle de confiance correspond à une fourchette de valeurs possibles pour le résultat qui serait observé si toutes les personnes de la population, dont est issu l’échantillon, avaient été interrogées. Un intervalle de confiance à 95% signifie qu’on est sûr à 95% que le résultat de la population est compris dans cet intervalle. Vérifie ta compréhension : a) L’évolution au cours du temps de la consommation de tabac est-elle identique chez les filles et les garçons ? b) Quel est le pourcentage de jeunes interrogés dans l’enseignement technique qui fument en troisième secondaire ? c) Lorsqu’on compare les résultats de l’enquête chez les filles de deuxième secondaire, qu’obtient-on comme résultat ? Comment interpréter les « lignes » verticales ? c) Exemple 3 : Le diagramme sectoriel suivant présente les pourcentages obtenus par 4 partis politiques lors d'une élection. Statistique descriptive 5 Vérifie ta compréhension : Sur base de ce graphe, indiquez lequel de ces 4 partis a obtenu le plus de suffrages et lequel en a obtenu le moins ? Le plus de suffrages Le moins de suffrages PUB PUB PET PET PIF PIF PAF PAF Attention !!! De nombreuses personnes sont abusées par l'effet de perspective, qui fait apparaître plus grands les angles orientés vers le haut et vers le bas que ceux tournés vers la gauche ou la droite. Pour éviter de telles erreurs, il est préférable de présenter le diagramme sectoriel de face comme à la page précédente. d) Exemple 4 : Les graphiques suivants sont tirés d’un communiqué de presse de l’INS (Institut National de la Statistique) à l’occasion de la journée internationale de la femme du 8 mars 2007. Selon l’Organisation internationale du Travail, les femmes et les hommes doivent recevoir un salaire égal pour un travail équivalent. Cependant, les femmes gagnent en moyenne moins que leurs collègues masculins. 6 Statistique descriptive Vérifie ta compréhension : a) Quel pourcentage d’hommes reçoit un salaire brut inférieur à 2000 euros ? b) Et pour les femmes ? c) Compare les parties supérieures et inférieures du graphique, que peux-tu en dire ? 2. Historique La statistique a pour origine le besoin des États pour gérer rationnellement leurs ressources. (En latin, status = état) Pour cela, il était nécessaire après la collecte de nombreuses données, de les organiser en tableaux et de disposer de méthodes permettant de définir les variations, les évolutions, les ressemblances ou les différences entre régions, entre années, entre catégories. Comme exemples de premières études statistiques, on compte le recensement des populations, le dénombrement des terres, le calcul des impôts,… Aujourd’hui, la statistique s’est considérablement développée et est utilisée dans tous les domaines : En biologie : génétique, hérédité, médecine ; En psychologie : test d’orientation, sondage d’opinion ; En industrie et économie : contrôle de fabrication, rentabilité d’un produit ou d’une entreprise, assurances ; En météorologie ; … En mathématique, la statistique est une branche qui a pour objet la collecte, l’analyse et l’interprétation d’ensembles d’observations relatives à un même phénomène dont le caractère essentiel est la variabilité. La partie des statistiques qui a pour but de rassembler, d’ordonner et de représenter les données s’appelle la statistique descriptive. La partie qui s’occupe d’interpréter les résultats et d’en tirer des conclusions est la statistique inférentielle ou inductive. Statistique descriptive 7 3. Vocabulaire Pour éviter des confusions malheureuses, il convient de définir les termes d’usage courant en statistique: La population est l’ensemble des éléments auxquels se rapporte la recherche statistique. Exemples : - l’ensemble des européens de 40 ans - la production de clous d’une usine - le parc automobile belge - les rencontres de football disputées sur un week-end Chaque élément de la population est appelé individu. Un individu peut être une personne, un objet, un fait. Il est souvent impossible d’étudier une population dans son entièreté (problèmes de temps et d’argent), c’est pourquoi on se limite souvent à un échantillon qui doit être représentatif de la population. Exemple : Si on décide d’étudier la capacité respiratoire de la population belge, on sélectionne « au hasard » 1000 personnes qui participeront à un sondage et qui sont censées représenter la population. Il est important dans ce cas de ne pas choisir uniquement des personnes âgées ou uniquement des sportifs. L’effectif de la population, noté n, est le nombre d’individus de cette population. Lorsque la population est ciblée, il faut définir avec précision le caractère qui va être étudié. Exemples : - la taille, la couleur des yeux, le poids des européens de 40 ans - le diamètre, la solidité des clous - la marque, la puissance du moteur des automobiles en Belgique - le nombre de buts marqués lors de chaque rencontre 8 Statistique descriptive Les différentes valeurs ou formes prises par le caractère sont formulées à l’aide d’une variable (formulation mathématique du caractère étudié) et sont appelées les modalités de la variable. Exemples : - la taille en cm varie par exemple de 150cm à 210cm, la couleur des yeux peut être le bleu, le brun, le vert, le noir. - Le diamètre des clous varie de 1.1mm à 1.6mm. - La marque des voitures peut être Audi, Peugeot, BMW, … - Le nombre de buts marqués est de 0, 1, 2 ou plus. Les variables sont divisées en deux types : - Les variables qualitatives (qui ne peuvent prendre que des valeurs non mesurables). Exemples : couleur des yeux, état civil, sexe,groupe sanguin,… - Les variables quantitatives qui sont elles-mêmes divisées en deux sousgroupes : les variables quantitatives discrètes qui ne prennent qu’un nombre fini de valeurs (des valeurs isolées et bien déterminées). Exemples : le nombre d’enfants par famille, le nombre de buts marqués, le nombre de chiots par portée, … les variables quantitatives continues qui peuvent prendre toutes les valeurs réelles comprises dans un intervalle. Exemples : la taille, le poids, le diamètre, … La série statistique est l’ensemble des résultats obtenus par la collecte des observations, c’est-à-dire les valeurs prises par la variable statistique. En résumé, on va considérer une population constituée d'individus. Souvent, on n'étudiera pas toute la population, mais seulement un échantillon représentatif de la population. Pour les individus de l'échantillon, on va observer un caractère qui peut prendre plusieurs valeurs (modalités). Ce caractère va être représenté par une variable statistique. Le résultat de cette collecte d'information est une série statistique. Statistique descriptive 9 II. Présentation des données 1. Cas d’une variable qualitative Exemple: En avril 2001, des élèves de 4e année de cette école ont demandé à des jeunes de 13 à 18 ans le style de musique qu’ils préféraient. Voici les résultats obtenus : a) Représentation sous forme de tableau : Musique préférée (xi) Nbre de jeunes (ni) x1 : Rock x2 : Techno x3 : Chanson française x4 : Hard x5 : Rap x6 : Blues, jazz x7 : Dance 12 43 2 27 31 3 28 n=146 fi 0,08 0,29 0,01 0,18 0,21 0,02 0,19 7 ∑f i =1 1e colonne : i =1 On y inscrit les différentes modalités xi (i variant de 1 à k si le nombre de modalités est k). Dans notre exemple, k=7 2e colonne : On indique l’effectif ni de la modalité xi c.-à-d. le nombre de fois où la modalité xi apparaît dans le relevé des données. Sous la deuxième colonne, on indique l’effectif total n = n1 + n2 + n3 + … + nk. Il correspond au nombre d’individus observés. Remarque : Dorénavant, nous utiliserons le symbole sommatoire suivant : k ∑n i =1 i = n1 + n2 + n3 + ... + nk 3e colonne : On calcule les fréquences fi en divisant l’effectif ni par l’effectif total. n fi = i n Les fréquences des modalités sont intéressantes car elles ne font pas intervenir le nombre d’individus de l’échantillon et permettent de comparer des échantillons de tailles différentes. Sous la troisième colonne, on vérifie que la somme des fréquences calculées est 1. n n + n2 + ... + nk n n n En effet, f1 + f2 + … + fk = 1 + 2 + ... + k = 1 = =1 n n n n n 43 Par exemple, la fréquence de x2 vaut ≅ 0, 29 , c’est-à-dire que 29 % de ces jeunes 146 préfèrent la musique techno. 10 Statistique descriptive Vérifie ta compréhension : a) Complète Population : Individu : Caractère - Variable : Type de variable : Effectif : Modalités : b) Complète plus tard (Après avoir lu le point III du dossier) Mode : c) Réponds Quel est le pourcentage de jeunes qui préfèrent le Blues ou le Jazz ? b) Représentation sous forme de graphique : La représentation graphique des résultats peut se faire de différentes manières en fonction du type de variable et des renseignements souhaités. Diagramme circulaire ou en secteurs Dans un diagramme circulaire, l’angle de chaque secteur est proportionnel à l’effectif qu’il représente. Cette vision n’impose pas d’ordre sur les modalités ! Il est donc idéal dans le cas d’une variable qualitative. Diagramme en bâtonnets des effectifs ou des fréquences On porte - en abscisse les modalités - en ordonnée les effectifs ou les fréquences correspondant aux différentes modalités Diagramme des fréquences Diagramme des effectifs 0,35 50 45 43 0,3 0,29 40 0,25 35 31 0,21 30 28 27 0,2 0,19 0,18 25 0,15 20 15 0,1 12 0,08 10 0,05 5 0,02 3 2 0,01 0 0 Rock Techno Chanson française Hard Rap Blues, jazz Dance Rock Statistique descriptive Techno Chanson française Hard Rap Blues, jazz Dance 11 2. Cas d’une variable quantitative discrète Exemple: Dans une école, on a demandé à des élèves de 4e secondaire le nombre de postes de télévisions présents dans leur maison. Les résultats sont les suivants: a) Représentation sous forme de tableau : Nbre de postes xi x1 : 0 x2 : 1 x3 : 2 x4 : 3 x5 : 4 x6 : 5 Nbre d'élèves ni fi Ni Fi 2 10 22 9 4 1 n = 48 0,04 0,21 0,46 0,19 0,08 0,02 2 12 34 43 47 48 0,04 0,25 0,71 0,9 0,98 1 6 ∑f i =1 1e colonne : i ( xi − m) 2 =1 On y inscrit les différentes modalités xi et on les ordonne de la plus petite à la plus grande. 2e colonne : On indique l’effectif ni de la modalité xi. Sous la deuxième colonne, on indique l’effectif total n. n fi = i . 3e colonne : On porte les fréquences fi des modalités xi n Sous la troisième colonne, on vérifie que la somme des fréquences calculées est 1. 4e colonne : Elle reprend le nombre d’individus ayant obtenu au plus la modalité reprise dans la première colonne. Ces nombres sont les effectifs cumulés, ils sont notés Ni ou ni Par exemple, l’effectif cumulé de x3 vaut 34, c’est-à-dire que 34 des personnes interrogées ont 2 téléviseurs ou moins dans leur maison. On peut en déduire que 14 personnes ont donc plus de 2 téléviseurs chez eux. 5e colonne : On additionne cette fois les fréquences successives et on obtient les fréquences cumulées, notées Fi ou fi Par exemple, la fréquence cumulée de x3 vaut 0,71, c’est-à-dire que 71% des personnes interrogées ont 2 téléviseurs ou moins dans leur maison. On peut en déduire que 29% des personnes ont donc plus de 2 téléviseurs chez eux. 12 Statistique descriptive Vérifie ta compréhension : a) Complète Population : Caractère - Variable : Individu : Type de variable : Effectif : Modalités : b) Complète plus tard (Après avoir lu le point III du dossier) Paramètres de position : Paramètres de dispersion : Mode : Etendue : Moyenne : Variance : Médiane : Ecart type : c) Réponds Quel est le pourcentage de familles possédant au moins 2 téléviseurs (c.-à–d. 2 TV ou plus) ? b) Représentation sous forme de graphique : Diagramme en bâtonnets des effectifs ou des fréquences Diagramme des effectifs 25 22 20 15 10 10 9 4 5 2 1 0 0 1 2 3 4 5 Postes de TV (nombre) Diagramme des effectifs cumulés ou des fréquences cumulées Pour les variables quantitatives discrètes : On porte - en abscisse les modalités - en ordonnée les effectifs cumulés ou les fréquences cumulées Diagramme des fréquences cumulées 1,2 1 0,98 1 4 5 0,9 0,8 0,71 0,6 Remarque : Se trouver entre deux points n’a pas de sens, ce sont des sauts brusques, un graphique en escalier avec des paliers. Statistique descriptive 0,4 0,25 0,2 0,04 0 0 1 2 3 Poste de TV (nombre) 13 3. Cas d’une variable quantitative continue Exemple: On a demandé à chaque famille d'une rue la somme (en centaines d'euros) qu'elle consacre à ses vacances. Les résultats ont été présentés comme suit: a) Représentation sous forme de tableau : Somme dépensée (Ci ) C1 : ]0, 6] C2 : ]6,12] C3 : ]12,18] C4 : ]18, 24] C5 : ]24,30] ci li fi Ni Fi 6 Nbre de familles ( ni ) 13 3 0,22 13 0,22 9 6 25 0,42 38 0,64 15 6 15 0,25 53 0,89 21 6 5 0,08 58 0,97 27 6 2 0,03 60 1 (ci-m)2 n =60 1e colonne : On y ordonne les différentes classes de modalités notées Ci . 2e colonne : On reprend les centres de classes ou les milieux c.-à-d. la somme des extrémités de la classe divisée par deux. On les note ci . 3e colonne : Elle reprend la largeur de la classe, notée li . C’est la différence entre les extrémités de la classe. 4e colonne : On indique l’effectif ni de la classe Ci et l’effectif total n en dessous de la colonne. n fi = i . 5e colonne : On calcule les fréquences fi de chaque classe Ci n 6e colonne : Elle reprend les effectifs cumulés, notés Ni ou ni 7e colonne : On calcule les fréquences cumulées notées Fi ou fi Par exemple, la fréquence cumulée de C3 vaut 0,89, c’est-à-dire que 89 % des familles interrogées dépensent moins de 1800€ pour leurs vacances. On peut en déduire que 11% des familles dépensent donc plus de 1800€ pour leurs vacances. 14 Statistique descriptive Vérifie ta compréhension : a) Complète Population : Caractère - Variable : Individu : Type de variable : Effectif : Classe des modalités : b) Complète plus tard (Après avoir lu le point III du dossier) Paramètres de position : Paramètres de dispersion : Classe Modale : Etendue : Moyenne : Variance : Classe Médiane : Ecart type : c) Réponds Quel est le nombre de familles dépensant plus de 1800€ pour leurs vacances ? b) Représentation sous forme de graphique : Histogramme des effectifs ou des fréquences Pour les variables quantitatives continues : Un histogramme est un ensemble de rectangles dont chaque base représente une classe de modalités et dont l’aire est proportionnelle à l’effectif ou la fréquence de cette classe. Remarque : Dans le cas où les largeurs de classes ne sont pas constantes, la hauteur n f des rectangles se calcule comme suit : hauteur = i ou i . li li Histogramme des effectifs Histogramme des fréquences 0,42 25 0,25 15 0,22 13 0,08 5 2 ]0,6] ]6,12] ]12,18] ]18,24] ]24,30] 0,03 ]0,6] Somme (centaine d'€) ]6,12] ]12,18] ]18,24] ]24,30] Somme (centaine d'€) Statistique descriptive 15 Diagramme des effectifs cumulés ou des fréquences cumulées Pour les variables quantitatives continues : On porte - en abscisse les extrémités des classes de modalités - en ordonnée les effectifs cumulés ou les fréquences cumulées Remarque : On porte Ni ou Fi à la borne supérieure de chaque classe et on joint les points par des segments (se trouver entre deux points a un sens) On obtient un polygone. 16 Statistique descriptive III. Caractérisation des données Devant les résultats d'une enquête, les statisticiens essayent de déterminer - les valeurs centrales ou paramètres de position qui donnent une idée de l'ordre de grandeur des valeurs observées du caractère. - Les paramètres de dispersion qui donnent une indication sur l'étalement des données. 1. Paramètres de position a) Le mode M0 ou la classe modale Il s’agit de la modalité ou la classe modale dont l'effectif est le plus élevé. b) La moyenne arithmétique : (pour des variables quantitatives uniquement) n1 x1 + n2 x2 + ... + nk xk où n est l'effectif total et k le nombre de modalités. n k k nx On écrit m = ∑ i i = ∑ f i xi . i =1 n i =1 m= Remarque : Lorsqu'on a une répartition en classe, on utilise les centres de k k nc classes ci : m = ∑ i i = ∑ f i ci i =1 n i =1 c) La médiane M ou la classe médiane : (pour des variables quantitatives uniquement) La médiane M d'une série statistique est la valeur de la variable qui la partage en deux groupes de même effectif. Dans le cas d’une variable quantitative discrète, il suffit de les classer en ordre croissant ou décroissant et de prendre l'élément du milieu. -Si la série comprend un nombre impair d’éléments, il existe un élément qui tient le milieu de cette liste : c’est la médiane. Exemple : La série 12, 13, 13, 15, 15, 16, 17 comprend 7 éléments ; sa médiane est le quatrième, donc M =15. -Si la série comprend un nombre pair d’éléments, la médiane est la moyenne arithmétique des deux éléments milieux de la liste. Exemple : La série 13, 14, 14, 15, 16, 16 comprend 6 éléments. La médiane est donc la moyenne arithmétique entre le 3e et le 4e. 14 + 15 Donc M = = 14.5 2 Statistique descriptive 17 Dans le cas d’une variable quantitative continue, la détermination de M se fait graphiquement. La médiane est l'abscisse du point d'intersection du polygone des effectifs cumulés n et de la droite d'équation y = . 2 Sur un diagramme cumulatif des fréquences, on trace la droite y = 1 . 2 La classe médiane d’une série statistique est la classe dans laquelle se situe(nt) la médiane. d) Quartiles, centiles, déciles : (pour des variables quantitatives uniquement) Par extension de la médiane qui divise en deux un ensemble de nombres rangés par ordre croissant, on peut penser aux valeurs qui divisent l’ensemble en quatre parties égales. On note ces valeurs Q1, Q2 et Q3. Ainsi, un quart des observations sont inférieures à Q1, un quart des observations sont comprises entre Q1 et Q2 et entre Q2 et Q3 et le dernier quart des observations sont supérieures à Q3. Ces valeurs sont appelées quartiles et Q2 correspond à la médiane. L’intervalle [Q1 , Q3] est appelé intervalle interquartile. On peut représenter cet intervalle par un diagramme en boîte. (voir ci-dessous) Rem : De même, on appelle déciles les valeurs qui divisent l’ensemble en dix parties égales et centiles celles qui les divisent en cent parties égales. Exemple : 18 Statistique descriptive e) Remarque: Pour bien analyser une situation donnée, il faut tenir compte des paramètres de position mais également des paramètres de dispersion. Montrons par deux exemples que ces paramètres doivent être interprétés ensemble sous peine de mal interpréter la situation réelle. Exemple 1 : La moyenne est influencée par toutes les valeurs et malheureusement très sensible aux valeurs extrêmes, au point d'en perdre parfois une bonne partie de sa représentativité, surtout dans des échantillons de petite taille. Ainsi, la moyenne des 6 salaires mensuels suivants 1.100€ - 1.400€ - 1.500€ - 1.700€ - 2.100€ - 12.000€ est égale à 3.300€ ! , alors qu'un seul salaire dépasse cette moyenne. Exemple 2 : Décidément, je n'ai pas de chance ! • L'interrogation de statistique n'a pas été terrible : 8/20. Comment annoncer cela à mes parents? Dans l'ensemble il faut dire que ce n'était pas fameux. Nous sommes 10 en classe et les résultats sont catastrophiques! Pensez donc. Le petit génie a bien sûr fait 19, mais à part cela il y avait un 10, quatre 9 et trois 2. D'accord, le mode est 9/20 et la médiane est également 9/20. Mais si je calcule la moyenne, je trouve 7,9/20. Je dirai donc à Papa que j'ai au-dessus de la moyenne. • Encore un 8. Mais cette fois les notes sont: 2, 3, 4, 5, 7, 8 (moi), 9, 9, 18 et 19 (le génie). J'ai calculé la moyenne, mais cette fois elle est de 8,4; je suis en dessous de la moyenne; et le mode est 9. Heureusement, il n'y en a que 4 qui ont mieux réussi que moi et les 5 autres sont après. Je dirai donc à Papa que je suis au-dessus de la médiane. • Décidément, je n'ai pas de chance. Je suis abonné au 8/20. C'est sûrement la faute du prof! Cette fois les questions étaient tellement dures qu'il y en a 3 qui ont eu 7/20!. Les autres ont obtenu 19 (toujours le même), 18, 12, 11, 10 et 2 (c'est aussi toujours le même). J'ai calculé la moyenne; cela fait 10,1. Pas de chance, je suis en dessous. Et cette fois il y en a 5 qui ont plus que moi! Ça ne va plus l'histoire de la médiane! Heureusement grâce aux trois copains, le mode est 7. Je dirai cette fois à Papa que je suis au-dessus du mode. Il semble donc interéssant pour caractériser une série statistique de donner, en plus de la moyenne, une mesure de dispersion autour de cette moyenne. Statistique descriptive 19 2. Paramètres de dispersion Ils permettent de rendre compte de la façon dont la série de données se répartit autour des valeurs centrales. Puisqu’il s’agit d’étudier la répartition des données autour de la moyenne, ces paramètres ne concernent que les variables quantitatives. a) L’étendue : C’est la différence entre la plus grande et la plus petite des valeurs observées. Remarque : Ce paramètre est fort influencé par les valeurs extrêmes ; d’où on étudie d’autres paramètres de dispersion. b) La variance : On appelle variance d’une distribution statistique, la moyenne arithmétique des carrés des écarts entre les valeurs observées de tous les individus et la moyenne. k ni ( xi − m)2 = ∑ fi ( xi − m) 2 n i =1 i =1 2 k k n (c − m) ou ∑ i i = ∑ f i (ci − m) 2 s’il s’agit d’une répartition en classes. n i =1 i =1 k V = σ²= ∑ Remarques : a) Plus la variance est grande, plus la dispersion autour de la moyenne est grande. b) Normalement, lorsqu’on calcule la variance d’un échantillon (et non de la population entière), le dénominateur est n-1 et est noté s². c) La variance ne s’exprime pas dans la même unité que les modalités ! Pour éliminer le problème de changement d’unité de mesure, on peut prendre comme paramètre de dispersion la racine carrée de la variance, ce nombre est appelé écart type. c) L’écart type : Il s’agit de la racine carrée de la variance. Remarque : σ= V Une faible valeur de l’écart type signifie qu’il y a une forte accumulation des observations autour de la moyenne. Une grande valeur de σ traduit un étalement considérable des observations autour de la moyenne. Vérifie ta compréhension : Tu peux maintenant compléter toutes les réponses aux questions b dans les exemples précédents. 20 Statistique descriptive IV. Résumé Statistique descriptive 21 V. Utilisation du logiciel OpenOffice.org Classeur A. Présentation du logiciel OpenOffice.org Classeur est un tableur, comparable à Excel. Un tableur sert essentiellement à faire des calculs, des plus simples aux plus complexes. Mais il est également utile pour créer de petites bases de données (carnet d'adresses par exemple). Le tableur est l'outil idéal pour faire parler les chiffres avec des diagrammes (ou graphiques). Vous pouvez également trier les données, filtrer les résultats en fonction de critères choisis. Voici à quoi devrait ressembler le classeur d’OpenOffice lors de son lancement : La page de cases s'appelle une feuille de calcul. Les cases sont appelées des cellules. Elles peuvent contenir des nombres, du texte, des formules de calcul. Chaque cellule est désignée par une lettre majuscule (représentant la colonne) suivie d’un numéro (représentant la ligne). Par exemple, la première cellule en haut à gauche de la feuille de calcul est la cellule A1. Ce logiciel est téléchargeable gratuitement sur le site : http://fr.openoffice.org/ 22 Statistique descriptive B. Activité 1 : étude d’une série statistique Cas d’une variable quantitative discrète Exploitons un exemple afin de guider nos premiers pas dans l’utilisation de ce programme très puissant que vous pourrez découvrir de manière plus approfondie dans une utilisation personnelle. Dans une classe de 25 élèves, on relève les cotes obtenues sur 20 à un contrôle de géographie. 12 11 11 8 10 3 15 13 12 17 13 13 20 5 5 15 13 12 8 15 17 18 20 11 19 Complète : Population : Caractère – variable : Type de variable : (1) Présentation des données Ouvrons une nouvelle feuille de calcul dans OpenOffice.org Classeur que nous enregistrons sous : Exemple - cotes Rangeons les données dans les deux premières colonnes que nous intitulons : 1èrecolonne : Modalités xi 3 5 8 10 … … 2ecolonne : Effectifs ni 1 2 2 1 … … Maintenant que nous avons entré nos données, le logiciel va nous permettre d’effectuer des calculs avec le contenu de ces cellules et donc d’étudier notre série statistique. (2) Effectif total (n) Calculons l’effectif total de la classe : Plaçons-nous dans la case B14 Sélectionnons dans la barre d’outils horizontale la fonction somme : - ∑ . Le programme propose =SOMME(B2 :B13) qui signifie « somme de B2 à B13 ». Nous pouvons valider la formule (ENTER). Si la sélection ne convient pas, nous pouvons modifier la formule. Le résultat s’ajuste automatiquement au contenu des cellules. (Nous pouvons modifier un des effectifs et constater le changement automatique de l’effectif total. N’oublions pas de réécrire les bonnes données ensuite !) Statistique descriptive 23 Remarques : (1) On peut obtenir la fonction SOMME en cliquant dans la barre d’outils sur le symbole fx. Une fenêtre s’ouvre et fait défiler une liste de toutes les fonctions disponibles sur OpenOffice automatiquement. Il suffit de choisir la fonction SOMME et de suivre les instructions. (2) On peut aussi taper manuellement la fonction dans la zone de texte. Il suffit de taper =SOMME (B2 : B13) dans notre cas. (3) Fréquences (fi) Dans la 3e colonne, nous allons calculer les fréquences. Nous indiquons fi dans la cellule C1. n Afin d’obtenir f1 , il faut effectuer 1 : n Plaçons - nous en C2. Cliquons dans la zone de texte de la feuille de calcul. - Nous pouvons maintenant demander d’effectuer un calcul. Nous commençons par taper le symbole « = » suivi de B2/B14. Après avoir validé la formule (ENTER), 0,04 s’inscrit dans C2. - Pour éviter de réitérer cette même opération dans les cellules C3, C4, …, C13, nous allons tenter de « copier » notre formule. - Sélectionnons la case C2. En plaçant la souris sur le coin inférieur droit de la cellule, une croix apparaît. Il suffit alors d’étendre la formule en tirant le coin vers le bas (jusqu’à la case C13) + - Une erreur apparaît !! #DIV/0 ! - Observons le contenu de C3. Le programme a modifié la formule de C2, = B2/B14 est devenu =B3/B15 . Nous voyons donc que si nous glissons d’une ligne, le programme modifie la ligne des éléments utilisés dans la formule. B2 devient B3 et B14 devient B15. Or pour calculer f2, il faudrait effectuer =B3/B14 - Pour bloquer l’évolution du numéro de la ligne 14, il suffit de placer devant le numéro à bloquer le symbole $ dans la formule de la case C2. = B2/B$14 . Nous pouvons alors recommencer à copier la formule en tirant sur le coin inférieur droit de la cellule C2. - Nous pouvons maintenant vérifier que la division s’effectue par B14 dans chaque formule. OpenOffice ajuste la référence B2, mais bloque B14. Remarque : 24 Il est très important de bien comprendre le procédé permettant de « copier » des formules. C’est là tout l’intérêt d’utiliser un logiciel puissant plutôt que de faire un même calcul plusieurs fois. Statistique descriptive (4) Somme des fréquences Effectuons la somme des fréquences en C14. Voir procédé utilisé en (b) ou copier la formule de la cellule B14 qui va s’ajuster à la colonne C. (5) Effectifs cumulés (Ni) Nous intitulerons la colonne Ni. Pour calculer les Ni , il faut additionner n1 + n2 + ... + ni . Créons la formule en D7 par exemple, nous devons donc calculer N6 c.-à-d. n1 + n2 + ... + n6 . - On saisit dans la zone de texte la formule : =SOMME(B$2 :B7) , ce qui signifie « Somme de B2 jusque B7 ». Nous bloquons la valeur de B2 car nous devrons toujours additionner à partir de cette valeur. Seule la valeur B7 doit s’ajuster à la ligne concernée. - On copie ensuite cette formule dans les autres cases de la colonne (en tirant le coin inférieur droit de la case D7 vers le bas et vers le haut). La case D13 doit évidemment contenir 25 (25 élèves ont obtenu au plus 20 points à l’interro). (6) Fréquences cumulées (Fi) Pour calculer les Fi , il faut additionner f1 + f 2 + ... + f i . Nous appellerons la colonne Fi. On copie la formule de D2 dans E2 (clic gauche dans le coin inférieur droit de la cellule et on étend vers la droite). On peut alors étendre la formule à toute la colonne. (7) Moyenne arithmétique ( m = 12 ∑fx i =1 i i ) 12 - Dans la case A16, on écrit « MOYENNE : » et dans B16, on effectue le calcul ∑fx . i =1 i i - Pour cela, il existe une formule prédéfinie, la fonction SOMMEPROD qui va effectuer les produits des éléments des colonnes A (les xi ) et C (les f i ) entre eux avant d’additionner tous les résultats obtenus. Il s’agit donc de la moyenne recherchée. - Sélectionner SOMMEPROD dans l’outil fx et cliquer sur « suivant ». - Dans la matrice 1, on entre ensuite (ou on sélectionne avec la souris) les éléments de la 1ère colonne A2 :A13. Dans la matrice 2, on entre les éléments de la 3èmecolonne C2 :C13. La fonction s’occupe de multiplier A2.C2, A3.C3 ,…,A13.C13 et d’additionner les résultats obtenus. - On obtient dès lors la moyenne : 12,64. - Dans la case C16, on ajoute l’unité : /20 Statistique descriptive 25 (8) Variance 12 Calculons maintenant la variance de cette distribution statistique : V = ∑ f i ( xi − m)2 i =1 - Dans la case A18, on écrit « VARIANCE : » et dans B18, on effectue le calcul. - Nous allons créer une colonne supplémentaire dans laquelle nous calculerons les carrés des écarts de chaque modalité à la moyenne. - Dans la colonne F, on indique le titre en F1 : (xi –m)2 - Dans la case F2, on tape dans la zone de texte la formule : =(A2-B$16)^2 - Nous copions ensuite la formule dans les autres cellules de la colonne. - Revenons à B18 où nous insérons la formule =SOMMEPROD(C2:C13 ;F2:F13) en utilisant le même procédé qu’en (g). (9) Ecart type Calculons maintenant l’écart-type de cette distribution statistique : σ = V . Dans la case A20, nous écrivons « Ecart type » et dans B20, nous calculons =RACINE(B18) Dans la case C20, nous ajoutons l’unité : /20. (10) Tableau final Voici le tableau final que l’on doit obtenir : Modalités xi fi Ni Fi (xi-m)^2 3 1 0,04 1 0,04 92,93 5 2 0,08 3 0,12 58,37 8 2 0,08 5 0,2 21,53 10 1 0,04 6 0,24 6,97 11 3 0,12 9 0,36 2,69 12 3 0,12 12 0,48 0,41 13 4 0,16 16 0,64 0,13 15 3 0,12 19 0,76 5,57 17 2 0,08 21 0,84 19,01 18 1 0,04 22 0,88 28,73 19 1 0,04 23 0,92 40,45 20 2 0,08 25 1 54,17 25 1 Moyenne : 12,64 Variance : 20,07 Ecart type : 26 Effectifs ni /20 4,48 /20 Statistique descriptive Quelques informations utiles dans OpenOffice.org Calc : • Toutes les fonctions disponibles se trouvent dans fx . • Pour ordonner une colonne, cliquer sur ↓ ZA . • Pour additionner des cellules, cliquer sur ∑ et donner les cellules à sommer. Pour insérer une formule personnelle, la précéder de « = ». Pour copier une même formule, cliquer dans le coin inférieur droit et étirer la cellule. Pour bloquer une valeur, cliquer sur « $ » : Exemple : $C$15 : le premier symbole fixe la colonne, le second fixe la ligne. Afin d’avoir un tableau plus lisible, on arrondira les nombres à deux chiffres après la virgule si ce n’est pas fait. Pour ce faire, on sélectionne les colonnes et les cases qui doivent être modifiées. Ensuite, en sélectionne le formatage de cellule par le clic droit. Dans l’onglet Nombre, on choisit 2 décimales. • • • • (11) Utilisation de l’outil graphique Pour représenter graphiquement les données, une multitude de possibilités s’offre à nous : diagramme en secteur, histogramme, diagramme des fréquences cumulées,… Dans la feuille de calcul, ouvrons l’outil graphique (Assistant de diagramme) : Diagramme en secteurs. Etape 1 : Type du diagramme Sélectionnons le type Secteur-Normal. Validons le choix en cliquant sur « Suivant ». Etape 2 : Plage de données Il s’agit des nombres à mettre en évidences (les ordonnées y). Nous cliquons sur l’icône permettant de sélectionner la plage de données. Dans notre cas, il s’agit de la colonne des fréquences (fi). Nous cochons Série en colonnes et nous décochons le reste. Validons le choix en cliquant sur « Suivant ». Remarque : On peut choisir de faire apparaître en ordonnée les effectifs ou les fréquences. Statistique descriptive 27 Etape 3 : Séries de données Il s’agit des abscisses x. Dans Catégories, nous cliquons sur l’icône pour faire notre sélection. Dans notre cas, il s’agit de la colonne des modalités (xi). Validons le choix en cliquant sur « Suivant ». Etape 4 : Eléments du diagramme Nous choisissons les différents paramètres : titres, légendes, axes,… Validons le choix en cliquant sur « Terminer ». Le diagramme apparaît alors sur la feuille de calcul. Nous pouvons encore modifier certains paramètres en effectuant un clic droit sur la partie à modifier. Par exemple : Nous pouvons cliquer sur le diagramme circulaire et choisir : Insérer des étiquettes de données. Les valeurs des fréquences apparaissent alors. Si nous préférons qu’elles apparaissent en pourcentage plutôt qu’en décimale, nous cliquons sur la valeur en décimale et nous choisissons : Formater les étiquettes de données. Il suffit alors de cocher Afficher la valeur sous forme de pourcentage à la place de nombre. 28 Statistique descriptive Diagramme en bâtonnets Dans le cas d’une variable quantitative discrète, on préfère souvent effectuer un diagramme en bâtonnets des effectifs ou des fréquences. Reprenons les 4 mêmes étapes : Etape 1 : Nous sélectionnons cette fois le type de diagramme Colonne-Normal. Validons le choix en cliquant sur « Suivant ». Etape 2 : Nous sélectionnons comme plage de donnée (les ordonnées) la colonne des effectifs par exemple. Nous cochons Série en colonnes et nous décochons le reste. Etape 3 : Nous sélectionnons comme catégorie (les abscisses) la colonne des modalités xi . Etape 4 : On indique les titres complets (avec les unités sur les axes) et on choisit de ne pas afficher la légende. Diagramme en bâtonnets des effectifs 4,5 4 3,5 Effectif (ni) 3 2,5 2 1,5 1 0,5 0 3 5 8 10 11 12 13 15 17 18 19 20 Cotes sur 20 (xi) Statistique descriptive 29 Activité 2 : étude d’une série statistique Cas d’une variable quantitative continue Durée (en min) Effectifs Exploitons un 2e exemple. Cette fois, la variable est quantitative continue. On a demandé à des élèves de 4e combien de temps ils passaient devant un ordinateur par jour. Les résultats sont repris dans le tableau ci-joint où la durée est exprimée en minutes. (1) Tableau [0;30[ 37 [30;60[ 80 [60,90[ 220 [90;120[ 218 [120,150[ 130 [150;180[ 74 [180,210[ 182 [210;240[ 46 [240,270[ 7 [270;300[ 2 Pour effectuer l’étude statistique, nous reprenons les mêmes étapes que dans l’exemple précédent. Ce qui change : La première colonne qui reprenait les modalités xi est remplacée par 3 nouvelles colonnes : les Classes de modalités (Ci), les centres des classes (ci) et les largeurs des classes (li) Ce sont les centres des classes (ci) qui remplacent les modalités (xi) dans les différentes formules (Moyenne, Variance,…). Pour représenter les données dans le cas continu, on préférera un histogramme ou un diagramme cumulatif. (Voir ci – après) Au final, le tableau complété est celui-ci : Classes de modalités Ci [0;30[ Centres ci largeurs li Effectifs ni fi Ni Fi (ci-m)^2 15 30 37 0,04 37 0,04 11446,42 [30;60[ 45 30 80 0,08 117 0,12 5927,14 [60,90[ 75 30 220 0,22 337 0,34 2207,87 [90;120[ 105 30 218 0,22 555 0,56 288,59 [120,150[ 135 30 130 0,13 685 0,69 169,31 [150;180[ 165 30 74 0,07 759 0,76 1850,04 [180,210[ 195 30 182 0,18 941 0,94 5330,76 [210;240[ 225 30 46 0,05 987 0,99 10611,48 [240,270[ 255 30 7 0,01 994 1 17692,2 [270;300[ 285 30 2 0 996 1 26572,93 996 1 Moyenne : Variance : Ecart type : 30 121,99 minutes 3253,58 57,04 minutes Statistique descriptive (2) Utilisation de l’outil graphique Histogramme Dans le cas d’une variable quantitative continue (série répertoriée en classes de mêmes largeurs), on peut effectuer un histogramme des effectifs ou des fréquences. Reprenons les 4 mêmes étapes : Etape 1 : Nous sélectionnons cette fois le type de diagramme Colonnes. Etape 2 : Nous sélectionnons comme plage de donnée la colonne des effectifs par exemple. Nous cochons Série en colonnes et nous décochons le reste. Etape 3 : Nous sélectionnons comme catégorie la colonne des classes de modalités. Etape 4 : On indique le titre, le titre de l’axe x et on choisit de ne pas afficher la légende. Une fois le graphique terminé, nous constatons que les rectangles n’ont pas une largeur suffisante pour couvrir toutes les largeurs des classes. Il faut modifier l’apparence du graphique (Clic droit sur un des rectangles) : - Formater les séries de données Histogramme des effectifs - Options - Paramètre d’espacement : 0 220 218 182 Il faut ensuite supprimer l’axe y (Clic droit sur l’axe) : - Supprimer l’axe 130 80 Il faut aussi afficher les étiquettes au-dessus de chaque colonne (Clic droit sur un des rectangles) : - Insérer des étiquettes de données 74 46 37 7 [0;30[ [30;60[ [60,90[ [90;120[ [120,150[ [150;180[ [180,210[ [210;240[ [240,270[ [270;300[ Durée (min) Diagramme cumulatif Dans le cas d’une variable quantitative continue, on peut aussi effectuer un diagramme des effectifs ou des fréquences cumulées. Avant de reprendre les 4 étapes, nous devons créer une colonne supplémentaire (colonne I) dans laquelle nous indiquons l’extrémité de chaque classe. Cette colonne aura une importance au moment de choisir les étiquettes de série. Reprenons à présent les 4 mêmes étapes : Etape 1 : Nous sélectionnons cette fois le type de diagramme Lignes (Points et lignes). Etape 2 : Nous sélectionnons comme plage de donnée la colonne des effectifs cumulés par exemple. Etape 3 : Nous sélectionnons comme catégorie la colonne des extrémités de classe. Etape 4 : On indique les titres. Remarque : Dans le cas discret, le diagramme cumulatif est un diagramme en escalier. Statistique descriptive 2 31 C. EXERCICES 1) Le tableau suivant indique la répartition des cyclomotoristes victimes des accidents de la route selon, l'âge pour l'année 2001 en Belgique. Age (ans) Nombre d'accidentés ]12,13] ]13,14] ]14,15] ]15,16] ]16,17] ]17,18] ]18,19] ]19, 20] ]20, 21] 13 a) Donne la population, la variable étudiée et le type de la variable. b) Complète le tableau avec les fréquences, effectifs cumulés et fréquences cumulées. (Remarquons qu’en arrondissant à 2 chiffres 32 après la virgule nous perdons un peu d’information.) 275 489 c) Représente l'histogramme des effectifs et le diagramme des effectifs cumulés. 652 d) Estime les paramètres de position et de dispersion de la variable. 614 e) Quel est le pourcentage de victimes qui avaient plus de 18 ans ? 389 201 149 2) Lors d'un contrôle de vitesse, la police a relevé les vitesses suivantes (en km/h) des automobilistes passant sur une autoroute. (arrondies à l'entier inférieur ou égal) : 117 126 134 111 140 92 134 101 146 143 105 104 130 106 111 145 119 113 113 121 139 111 134 130 127 121 123 110 128 120 125 104 124 119 119 84 98 124 130 114 137 166 110 117 123 104 109 138 124 109 120 126 122 129 122 128 133 99 130 119 a) Donne la population, la variable étudiée et le type de la variable. b) Groupe ces données par classes : ]80,90] , ]90,100] , etc. Pour éviter des erreurs dans tes comptages, tu peux introduire toutes tes données dans le tableur, puis les ordonner à l’aide de l’icône ↓ ZA . (Ou demander le classement à ton professeur, si tu as du retard.☺) c) Estime les paramètres de position et de dispersion de la variable. d) Représente l'histogramme des fréquences et le diagramme des fréquences cumulées. e) Quel est le pourcentage des automobilistes roulant à 100km/h ou moins ? f) Si la vitesse est limitée à 120km/h, quel est le pourcentage d’automobilistes en infraction ? Combien cela rapportera-t-il à l’Etat s’ils sont pénalisés d’une amende de 100€ ? 32 Statistique descriptive 3) Le service de contrôle de qualité d’une PME décide de contrôler le contenu de 355 sacs de riz étiquetés « 500g ». Les mesures ont donné les résultats suivants : Masse en g Effectif a) Donne la population, la variable étudiée et le type de la variable. ]475 ;480] 19 b) Estime les paramètres de position et de dispersion de la variable. ]480 ;485] 20 c) Représente l'histogramme des effectifs et le diagramme des effectifs ]485 ;490] 27 ]490 ;495] 32 ]495 ;500] 35 ]500 ;505] 56 ]505 ;510] 54 La moyenne appartient à [495,505] ; ]510 ;515] 45 L’écart-type est inférieur à 10 ; ]515 ;520] 28 95% de la production se situe dans l’intervalle [500-2σ ; 500+2σ]. ]520 ;525] 21 ]525 ;530] 18 cumulés. d) La production sera jugée satisfaisante si les mesures effectuées sur l’échantillon prélevé vérifient les conditions suivantes : Dans ces conditions, la production est-elle jugée satisfaisante ? 4) Un fabricant de cigarettes souhaite commercialiser une nouvelle sorte de cigarette. Il a besoin de connaître la concentration moyenne de goudron par cigarette. Pour cela, il a fait mesurer la quantité moyenne de goudron (en mg) d'un échantillon de 50 de ces cigarettes. Voici les résultats : 11.70 10.32 10.86 11.36 10.90 10.31 11.06 10.66 10.87 11.87 11.02 10.33 11.05 10.65 10.74 11.85 11.68 10.94 11.14 10.98 11.24 10.89 11.23 11.33 11.42 10.88 10.82 11.14 10.79 10.92 11.12 11.88 9.67 12.00 10.03 10.97 10.16 10.28 10.65 11.20 12.23 10.72 10.88 10.71 10.35 10.77 9.89 10.35 11.07 11.49 a) Donne la population, la variable étudiée et le type de la variable. b) Réunis ces données en 9 classes d'amplitude égale entre 9.60 mg et 12.30 mg. c) Dessine l'histogramme des effectifs en utilisant les classes obtenues au point b), puis dessine le diagramme cumulatif des effectifs. d) Calcule la valeur moyenne m de la qualité de goudron par cigarette ainsi que l'écart type σ . e) La qualité de cette nouvelle cigarette est jugée stable si la quantité de goudron d'au moins 3/4 des cigarettes se situe entre m − σ et m + σ . Est-ce que cet échantillon donne satisfaction ? Statistique descriptive 33 5) Lors d’un recensement, on a relevé le nombre de pièces habitables par logement dans une ville de Flandre. Les résultats sont les suivants : Nombre de pièces Fréquences (en %) 1 2 3 4 5 6 2,2 8,1 20,3 28,1 29,4 11,9 a) Donne la population, la variable étudiée et le type de la variable. b) Sachant que, dans cette ville, 2950 foyers ont participé à ce recensement, trouve les effectifs arrondis à l’unité, les fréquences et les effectifs cumulés de cette série. c) Calcule la moyenne et l’écart type de cette série. d) Détermine le pourcentage de la population pour lequel le nombre de pièces habitables est dans l’intervalle [ m − 2σ ; m + 2σ ] . 6) Une machine fabrique des pièces cylindriques dont le diamètre théorique est de 25 mm. Sur un échantillon de 100 pièces, les mesures du diamètre ont donné les résultats suivants : Diamètre (en mm) ]24, 2; 24, 4] ]24, 4; 24, 6] ]24, 6; 24,8] ]24,8; 25] ]25; 25, 2] ]25, 2; 25, 4] ]25, 4; 25, 6] ]25, 6; 25,8] ]25,8; 26] Pièces cylindriques 5 13 24 19 14 10 8 5 2 a) Calcule la moyenne à 10−2 près ainsi que la variance et l’écart type de cette série. b) La production sera jugée bonne si la série des mesures est telle que : • m ∈ [ 24,9; 25,1] • σ < 0, 4 • 90% au moins de l’effectif se trouve dans l’intervalle [ m − σ ; m + σ ] . Dans ces conditions, la production est-elle jugée bonne ? 34 Statistique descriptive 7) L’histogramme suivant donne la répartition des retraits effectués par plusieurs clients à un guichet automatique : Histogramme des effectifs 31 22 18 14 13 2 ]0,10] ]10,20] ]20,30] ]30,40] ]40,50] ]50,60] Sommes (€) a) Sur combien de clients s’est effectuée cette statistique ? b) A partir de ce graphique, établis le tableau représentatif de cette répartition (classes, effectifs, fréquences, effectifs cumulés, fréquences cumulées). c) Estime les paramètres de position et de dispersion de la variable. d) Etablis le graphique des fréquences cumulées. e) Quel est le pourcentage des clients qui retirent au maximum 30€ ? f) A partir du graphique des fréquences cumulées, détermine les quartiles. 8) Durant l'année 1997, l'officier de l'état-civil d'une commune a relevé l'âge de l'épouse pour chacun des mariages contractés. Tu trouveras ci-dessous le diagramme d'effectifs cumulés qu'il a obtenu pour les 340 mariages de l'année 1997. a) Donne la population, la variable étudiée et le type de la variable. b) A partir de ce graphique, établis le tableau représentatif de cette répartition (classes, effectifs, fréquences, effectifs cumulés, fréquences cumulées). c) Estime les paramètres de position et de dispersion de la variable. d) Représente l'histogramme des fréquences. e) Pour combien de mariages l'épouse était-elle âgée de 30 ans ou moins ? Statistique descriptive 35 SOLUTIONS 1) Ci ]12,13] ]13,14] ]14,15] ]15,16] ]16,17] ]17,18] ]18,19] ]19,20] ]20,21] ci 12,5 13,5 14,5 15,5 16,5 17,5 18,5 19,5 20,5 Moyenne : li 1 1 1 1 1 1 1 1 1 ni 13 32 275 489 652 614 389 201 149 2814 17,00 ans fi 0,00 0,01 0,10 0,17 0,23 0,22 0,14 0,07 0,05 1 Ni 13 45 320 809 1461 2075 2464 2665 2814 Fi 0,00 0,02 0,11 0,29 0,52 0,74 0,88 0,95 1,00 2,75 Variable : age en ans Ecart Type 1,66 ans Type : quantitative continue ]16,17] ans Classe médiane : ]16,17] ans Pourcentage des victimes de + de 18 ans : Etendue : 9 ans Histogramme des effectifs 652 614 489 389 275 201 149 13 32 ]12,13] ]13,14] ]14,15] ]15,16] ]16,17] ]17,18] ]18,19] ]19,20] ]20,21] Age (ans) 36 13 14 15 16 17 18 19 20 21 Population : les cyclomotoristes victimes des accidents de la route Variance : Classe modale : (ci-m)^2 20,24 12,24 6,24 2,25 0,25 0,25 2,25 6,26 12,26 Statistique descriptive 26,26% 2) Ci ]80,90] ]90,100] ]100,110] ]110,120] ]120,130] ]130,140] ]140,150] ]150,160] ]160,170] ci 85 95 105 115 125 135 145 155 165 li 10 10 10 10 10 10 10 10 10 ni 1 3 10 14 20 8 3 0 1 60 fi 0,02 0,05 0,17 0,23 0,33 0,13 0,05 0,00 0,02 1 Ni 1 4 14 28 48 56 59 59 60 Fi 0,02 0,07 0,23 0,47 0,80 0,93 0,98 0,98 1,00 (ci-m)^2 1236,69 633,36 230,03 26,69 23,36 220,03 616,69 1213,36 2010,03 90 100 110 120 130 140 150 160 170 Moyenne : 120,17 km/h Population : automobilistes passant sur une autoroute Variance : 198,31 Variable : vitesse en km/h Ecart Type : 14,08 km/h Type : Variable quantitative continue Classe modale : ]120,130] km/h Pourcentage des automobilistes roulant à 100 ou moins : 6,67% Classe médiane: ]120,130] km/h Pourcentage d'automobilistes en infraction : 53,33% Gain de l'Etat en € : 3.200 € Etendue : 90 km/h Histogramme des fréquences 0,33 0,23 0,17 0,13 0,05 0,05 0,02 0,02 0,00 ]90,100] ]80,90] ]110,120] ]130,140] ]150,160] ]100,110] ]120,130] ]140,150] ]160,170] Vitesse (km/h) Statistique descriptive 37 3) Moyenne : 503,16 g Population : les sacs de riz d'une PME Variance : 173,72 Variable : masse en g Ecart Type : 13,18 g Classe modale : ] 500,505] g Classe médiane : ] 500,505] g Type : variable quantitative continue Production non satisfaisante Etendue : 55 g 4) Moyenne : 10,94 mg Population : Cigarettes d'une nouvelle sorte Variance : 0,28 Variable : concentration de goudron en mg Ecart Type : 0,53 mg Type : Variable quantitative continue Classe modale : ]10,8;11,1] mg [m-σ, m+σ]= Classe médiane : [10,405;11,471] ]10,8;11,1] mg Pourcentage des cigarettes dans cet intervalle : Etendue : 5) Moyenne : 4,10 pièces/logement Variance : 1,48 Ecart type : 66% 2,7 mg 1,22 pièces/logement Population : Logements d'une ville de Flandre Variable : Nombre de pièces par logement Type : quantitative discrète [m-2σ, m+2σ]= [1,664;6,538] Pourcentage dans cet intervalle : 97,7966102 6) Moyenne 24,95 mm Variance 0,15 Écart type 0,39 mm 38 Non, car il n’y a pas 90% de l’effectif dans l’intervalle [m-σ, m+σ]= [24,56;25,33] Statistique descriptive 7) Ci ]0,10] ]10,20] ]20,30] ]30,40] ]40,50] ]50,60] ci 5 15 25 35 45 55 li 10 10 10 10 10 10 ni 18 22 31 14 13 2 100 fi 0,18 0,22 0,31 0,14 0,13 0,02 1,00 Ni 18 40 71 85 98 100 Fi 0,18 0,40 0,71 0,85 0,98 1,00 (ci-m)^2 353,44 77,44 1,44 125,44 449,44 973,44 Moyenne : 23,8 € Pourcentage de clients qui retirent maximum 30€ : 71% Variance : 176,56 Q1 : environ 13 € ; Q2 : environ 23 € ; Q3 : environ 32 € Ecart Type : 13,29 € 10 20 30 40 50 60 Classe modale : ]20 ; 30] € Classe médiane : ]20 ; 30] € Etendue : 8) Ci ]15,20] ]20,25] ]25,30] ]30,35] ]35,40] ]40,45] ]45,50] 60 € ci 17,5 22,5 27,5 32,5 37,5 42,5 47,5 li 5 5 5 5 5 5 5 ni 60 150 70 20 20 10 10 340 fi 0,18 0,44 0,21 0,06 0,06 0,03 0,03 1,00 Ni 60 210 280 300 320 330 340 Fi 0,18 0,62 0,82 0,88 0,94 0,97 1,00 (ci-m)^2 63,06 8,65 4,24 49,83 145,42 291,00 486,59 20 25 30 35 40 45 50 Moyenne : 25,44 ans Population : Épouses des mariages d'une commune en 97 Variance : 50,17 Variable : Age en ans Ecart Type : 7,08 ans Type : Variable quantitative continue Nombre de mariages où l'épouse a moins de 30 ans : 280 Classe modale : ]20 ; 25] ans Histogramme des fréquences Classe médiane : ]20 ; 25] ans Etendue : 0,44 35 ans 0,21 0,18 0,06 ]15,20] ]20,25] ]25,30] ]30,35] 0,06 ]35,40] 0,03 0,03 ]40,45] ]45,50] Age (ans) Statistique descriptive 39 40 Statistique descriptive