CHAPITRE 1 : Séries statistiques à une variable. OBJECTIFS Découvrir les méthodes de représentation des données économiques, Etudier les différentes caractéristiques des séries statistiques à une seule variable, Analyser des séries statistiques à deux dimensions : présentation, caractéristiques de forme et de liaison entre deux variables. Interpréter les séries économiques temporelles à l’aide des pourcentages d’évolution et d’indice. OUVRAGES (listes non exhaustive) Lucien Leboucher, Marie-José Voisin Introduction à la statistique descriptive Cépaduès, 2013 Bernard Py, Statistique descriptive Economica, 2007 Agnès Hamon, Nicolas Jégou, Statistique descriptive, Presses Universitaires de Rennes (PUR);Coll. : Pratique de la statistique, 2008 SOMMAIRE 1. Méthodes de représentation. 2. Caractéristiques de position. 3. Caractéristiques de dispersion. 4. Paramètres de concentration. 1. Méthodes de représentation 1.1 Vocabulaire Définition 1.1 La population est l’ensemble que l’on observe et dont chaque élément est appelé individu ou unité statistique. Définition 1.2 Un échantillon (ou lot) est une partie (ou sous-ensemble) de la population considérée. Exemples de populations: Les habitants d’une ville, Les voitures fabriquées par une marque, Les étudiants d’une université. Echantillons: 150 habitants, Les voitures fabriquées dans une seule journée, 30 étudiants de S2 et 10 étudiants de S4. Définition 1.3 Le caractère étudié est la propriété observée dans la population ou l’échantillon considéré. Classification des caractères Exemple 1: • Le nombre d’enfants par famille observé lors d’un recensement. • La taille des élèves d’un lycée. Dans ces deux exemples, le caractère est dit quantitatif car il est mesurable. Classification des caractères (suite) Exemple 2: • La région de résidence de chaque marocain observé lors d’un recensement, • Le pays de fabrication d’une voiture de marque. Dans ces deux exemples, le caractère est dit qualitatif car il n’est pas mesurable. Classification des caractères quantitatifs Caractère quantitatif discret Un caractère quantitatif est dit discret s’il ne peut prendre que des valeurs numériques isolées. Exemples: • nombre d’enfants par famille, • nombre de modules validés pour un étudiant en S1, • nombre d’accidents sur la route en 2005, … Classification des caractères quantitatifs Caractère quantitatif continu Un caractère quantitatif est dit continu s’il peut prendre, au moins théoriquement, n’importe quelle valeur d’un intervalle de nombre réels. Exemples: • Les revenus d’un foyer au Maroc, • La poids d’une orange produite au Maroc, • La valeur d’une action boursière, • Le montant d’une facture de téléphone. Exercice: • citez des exemples d’échantillons dans une population que vous préciserez. • Précisez le type des caractères suivants : i. Le code postal d’une ville marocaine ii. Le nombre de go de mémoire d’une clé USB, iii.Le numéro de téléphone personnel d’un habitant du Maroc iv.La pointure de chaussure v.La couleur des yeux vi.Le taux d’émission de CO2 d’une voiture Les tableaux la population : semaine d’opération de vente échantillon: 40semaines le caractère: Nombre de voiture vendue par semaine Exemple : Un concessionnaire d’automobiles a enregistré au cours de ses 40 premières semaines d’opération le nombre X d’automobiles qu’il a vendu hebdomadairement. Il a obtenu les résultats suivants: 5,7,2,6,3,4,8,5,4,3,9,6,5,7,6,8,3,4,4,0, 8,6,7,1,5,5,4,6,6,10,9,8,1,5,5,6,7,8,5,5 Question: Comment résumer cette série ? On va noter par X = Nombre d’automobiles vendues {X} = {xk | k=1,…,40} (ensemble de valeur de X) = { 5,7,2,6,3,4,8,5,4,3,9,6,5,7,6,8,3,4,4,0,8, 6,7,1,5,5,4,6,6,10,9,8,1,5,5,6,7,8,5,5} On peut présenter de manière synthétique ces résultats à l’aide du tableau ci-dessous : classe n°i de valeurs de X Nombre de vente Nombre de semaines relatives à xi i 1 2 3 4 5 6 7 8 9 10 11 xi 0 1 2 3 4 5 6 7 8 9 10 Total ni 1 2 1 3 5 9 7 4 5 2 1 L’effectif total de l’échantillon 40 Les classes (ou les modalités) Définition 1.4 Une classe (ou modalité) est un sousensemble de la population correspondant à une même valeur ou à des valeurs voisines prises par le caractère. L’effectif Définition 1.5 L’effectif d’une classe est son nombre d’éléments. Remarque: Ces classes peuvent être : des valeurs ponctuelles, Exp.: nombre d’enfants par famille, « 2 enfants » est une classe. des intervalles, Exp.: salaire en dirhams des employés d’une entreprise, [2000, 6000[ est une classe. Une série statistique à une variable peut être définie par un tableau de la forme : i 1 2 … … p Valeurs prises par le caractère (ou classes) xi x1 x2 … … xp Effectifs correspondants ni n1 n2 … … np p : le nombre de classes (ou modalités) ni : l’effectif de la ième classe. L’effectif total de l’échantillon n est tel que p n = n1+n2+⋯+np= n i i 1 avec nin, 1 i p La fréquence Définition 1.6 La fréquence d’une classe est la proportion d’individus de la population (ou de l’échantillon) appartenant à cette classe. La ième classe a pour fréquence ni fi n Propriété 1.1 Les fréquences d’une série statistique vérifiant les propriétés suivantes : 1) p f i 1 i 1 2) 0 fi 1 , 1 i p Exercice : reprenons l’exemple de ventes hebdomadaires de voitures. Calculer les fréquences de chacune des modalités de la série statistique i 1 2 3 4 5 6 7 8 9 10 11 Total xi ni fi 0 1 1 2 2 1 3 3 4 5 5 9 6 7 7 4 8 5 9 2 10 1 1/40 2/40 1/40 3/40 5/40 9/40 7/40 4/40 5/40 2/40 1/40 -40 1 1.2 Les graphiques 1.2.1 Caractère qualitatif Exemple : On s’intéresse aux étudiants de S5 sciences économiques option Finance d’Entreprise. Nous pouvons classer les étudiants de cette année selon 4 catégories (classes): Catégorie Descriptif Nombre d’étudiants CAT 1 S1 ET S3 validés 47 CAT 2 S1 validé + au moins deux modules validés en S3 9 CAT 3 Etudiant(e)s n'ayant pas suivi les cours de S1 et S2 (Redoublants ou tranferts) + au moins deux modules validés en S3 11 CAT 4 Etudiant(e)s de 3ème année Eco reversés dans le Semestre 5 18 Fréquences et pourcentages Nombre Pourcentage Fréquence i d’étudiants i Catégorie 1 CAT 1 47 55,3% 0,553 2 CAT 2 9 10,6% 0,106 3 CAT 3 11 12,9% 0,129 4 CAT 4 18 21,2% 0,212 5 Total 85 100,00% 1 Diagramme en tuyaux d’orgue Etudiants de S5 Eco. option Finance d'Entreprise 60,0% 55,3% 50,0% 40,0% 30,0% 21,2% 20,0% 10,6% 12,9% CAT 2 CAT 3 10,0% 0,0% CAT 1 CAT 4 Diagramme à secteurs circulaires Etudiants de S5 Eco. option Finance d'Entreprise CAT 4 21,2% CAT 3 12,9% CAT 2 10,6% CAT 1 55,3% Angles des secteurs circulaires Nombre Pourcentage d’étudiants Angle i i Catégorie 1 CAT 1 47 55,3% 199,08 2 CAT 2 9 10,6% 38,16 3 CAT 3 11 12,9% 46,44 4 CAT 4 18 21,2% 76,32 5 Total 85 100,00% 360 ° Diagramme en bandes Etudiants de S5 Eco. option Finance d'Entreprise CAT 3 21,2% CAT 3 12,9% CAT 2 10,6% CAT 1 55,3% 1.2 Les graphiques 1.2.2 Caractère quantitatif discret Exemple : Le responsable des ventes d’un magasin a noté le niveau de la demande journalière pour un produit pendant cent jours ouvrables consécutifs en 1992 : Nombre xi d’unités demandées par jours Nombre ni de jours où l’on a vendu xi 0 5 1 15 2 23 3 22 5 16 6 9 7 5 7 et plus 5 TOTAL 100 Effectifs cumulés croissant Ni Fréquences i Fréquences cumulées croissantes i Diagramme des effectifs, en bâtons On obtient le diagramme en bâtons des fréquence par simple changement d’échelle 25 23 Titre du graphique ? 22 Effectifs 20 16 15 15 9 10 5 5 5 6 7 et plus 5 0 0 1 2 3 4 5 Nombre d'unités demandées xi Diagramme des frequences, en bâtons On obtient le diagramme en bâtons des fréquence par simple changement d’échelle 0,25 0,23 0,22 Fréquences 0,2 0,16 0,15 0,15 0,09 0,1 0,05 0,05 0,05 6 7 et plus 0,05 0 0 1 2 3 4 5 Nombre d'unités de mandée s xi Diagramme des effectifs cumulés croissants, en escalier Le cumul des journées de ventes en fonction de nombre d'unités demandés Effectifs cumulés croissants 120 100 81 80 100 6 7 8 65 60 43 40 20 90 95 20 5 0 1 2 3 4 5 Nombre d'unités demandés Remarque : Comme précédemment, on obtient le diagramme des fréquences cumulées croissants par simple changement d’échelle. 1.2 Les graphiques 1.2.3 Caractère quantitatif continu Exemple : On relève dans une banque à une date donnée les montants des économies de 1000 clients en dirhams. Les résultats obtenus sont les suivants : Nombre des économies (en milliers de DH) xi Nombre ni de clients Effectifs cumulés croissant Ni Fréquences i Fréquences cumulées croissantes i [0,5[ 5 5 5/1000 5/1000 [5,10[ 12 17 12/1000 17/1000 [10,15[ 33 [15,20[ 71 [20,25[ 119 [25,30[ 175 [30,35[ 185 [35,40[ 158 [40,45[ 122 [45,50[ 69 [50,55[ 35 [55,60[ 11 60 et plus 5 TOTAL 1000 Quelles représentation graphique des données relatives à un caractère quantitatif continu? Le graphique utilisé pour ce type de données est appelé Histogramme des effectifs ( ou de fréquence) Diagramme des effectifs, histogramme Remarque : Comme précédemment, on obtient l’histogramme des fréquences par simple changement d’échelle. Diagramme des effectifs cumulés croissants, courbe polygonale Effectifs cumulés croissants Ni Le cumul des clients selon le montant d'économies 1200 1000 800 600 400 200 0 0 5 10 15 20 25 30 35 40 45 50 55 60 Montant en m illiers de DH Remarque : On note que le diagramme des fréquences cumulées croissantes est obtenu à l’aide d’un simple changement d’échelle sur l’axe des ordonnées. 2. Caractéristique de position 2.1 Le mode (ou la dominante) 2.2 La moyenne 2.3 La médiane Introduction On a vu dans la première partie (méthodes de présentation) comment : condenser les informations pour rendre plus lisibles et utilisables. Une liste de plusieurs dizaines, centaines, éventuellement milliers de données Tableau reposant sur un regroupement des données en quelques classes Graphiques Notre but est de synthétiser davantage l’information pour les caractères. La première idée concerne naturellement la tendance centrale de la population Cela peut signifier : Calculer une moyenne, Chercher un nombre séparent la population en deux parties représentant chacune 50% de l’effectif total. Choisir la (ou une) classe de plus grand effectif. Ces trois points de vue présentent de l’intérêt et conduisent à définir des caractéristiques de position 2.1 Le mode (ou la dominante) Définition 2.1 On appelle mode d’une série statistique la ou les valeurs du caractère dont l’effectif est le plus élevé. Dans le cas d’une répartition à l’aide de classes, la classe dont l’effectif est le plus élevé est appelée classe modale, le mode étant le centre de la classe. Remarques • Le mode correspond à un sommet sur l’histogramme ou le diagramme en bâtons. • Il peut exister des séries unimodales ou plurimodales (dans le cas ou plusieurs classes de même effectif maximal). • Le mode est une caractéristique peu utilisée en pratique car elle ne fait pas intervenir l’ensemble des valeurs. Exemple 1 : reprenons l’exemple de la section S5 Sciences Economiques option Finance d’entreprise. i Catégorie Pourcentage Fréquence i 1 CAT 1 55,3% 0,553 2 CAT 2 10,6% 0,106 3 CAT 3 12,9% 0,129 4 CAT 4 21,2% 0,212 5 Total 100,00% 1 Question 1 : déterminer le mode de cette série ? Mo= CAT1 Exemple 2 : reprenons l’exemple de ventes de hebdomadaires de voitures. i xi ni 1 0 1 2 1 2 3 2 1 4 3 3 5 4 5 6 5 9 7 6 7 8 7 4 9 8 5 10 9 2 11 10 1 Total -40 Question: déterminer le mode de cette série? mo=5 Exemple 3 : On relève dans une banque à une date donnée les montants des économies de 1000 clients en dirhams : montant des économies (en milliers de DH) xi Nombre ni de clients [0,5[ 5 [5,10[ 12 [10,15[ 33 [15,20[ 71 [20,25[ 119 [25,30[ 175 [30,35[ 185 [35,40[ 158 [40,45[ 122 [45,50[ 69 [50,55[ 35 [55,60[ 11 60 et plus 5 TOTAL 1000 Question 1 : Quelle est la classe modale ? [30,35[ Question 2 : déterminer le mode de cette série ? Mo=(30+35)/2=32,5 Inter: le montant des économies le plus important est 32500 dh 2.2 La moyenne ( caractère quantitatif) Les séries statistiques (à une variable quantitative) peuvent se présenter directement ou indirectement sous les trois formes suivantes: 1. Une liste de « brute » de n valeurs x1, x2 , … , xn . 2. Un tableau des effectifs ni des p classes xi . 3. Un tableau des effectifs ni des p classes [ai , bi [. Définition 2.2 La moyenne arithmétique de n nombres y1, y2, …,yn est n y1 y 2 y n 1 y n n y i 1 i 1er cas: on dispose de la liste de n valeurs (du caractère) x1, x2, …,xn. La moyenne est obtenue à l’aide de la formule x1 x 2 x n 1 x n n n x i 1 i 2ème cas: on dispose du tableau des effectifs ni des p classes xi. La moyenne est obtenue à l’aide de la formule x n1x1 n 2 x 2 n p x p n 1 n p n x i i 1 i 3ème cas: on dispose du tableau des effectifs ni des p classes [ai, bi [ de centre ci=(ai+bi)/2. x n1c1 n 2 c 2 n p c p n 1 n p n c i i i 1 2.3 La médiane En économie, la moyenne arithmétique n’est pas la caractéristique la plus pertinente. C’est pour cette raison qu’on définit la médiane. Définition 2.3 Dans une série statistique rangé en ordre de grandeur croissant (ou décroissant), la médiane est la valeur qui occupe la position centrale. On la note Me. La médiane - variable discrète 1er Cas : la série comporte un nombre impair de valeurs, soit 2k + 1 valeurs, la médiane sera la (k + 1)-i`eme valeur. x1 ≤ x2 ≤ . . . ≤ xk−1 ≤ xk ≤ xk+1 ≤ xk+2 ≤ xk+3 ≤ . . . ≤ x2k ≤ x2k+1 k valeurs k valeurs Me = xk+1 Exemple 5,7,8,3,4,3,4,9,4,5,10,9,7 On vérifie que la série comporte 13 = 2 × 6 + 1 valeurs. Si la série est ordonnée, on peut affirmer que la médiane est la 6-i`eme valeur. Rangeons cette série en ordre croissant : 3,3,4,4,4,5, 5 ,7,7,8,9,9,10 Me = 5 La médiane - variable dicrète 2ème Cas : la série comporte un nombre pair de valeurs, soit 2k valeurs, la médiane sera la ½ somme des k-ème et (k + 1)-i`eme valeur. x1 ≤ x2 ≤ . . . ≤ xk−1 ≤ xk ≤ xk+1 ≤ xk+2 ≤ xk+3 ≤ . . . ≤ x2k k valeurs k valeurs Me = (xk + xk+1)/2 Exemple 5,5,5,7,6,5,6,4,3,7 On vérifie que la série comporte 10 = 2×5 valeurs. Si la série est ordonnée, on peut affirmer que la médiane est la 1/2 somme de la 5-i`eme et de la 6-i`eme valeurs. Rangeons cette série en ordre de grandeur croissant : 3,4,5,5,5,5,6,6,7,7 Me = (5+5)/2 = 5 La médiane - variable continue Dans ce cas, la détermination de la médiane est très différente. Il faut tout d’abord repérer la classe qui contient la médiane à l’aide de la moitié de l’effectif total n/2 soit [xA, xB[. Cette classe peut également être repérée sur le diagramme des effectifs (ou fréquences) cumulés croissants : La médiane - variable continue Effectifs cumulés croissants Ni Le cumul des clients selon le montant d'économies 1200 1000 800 600 400 200 0 0 5 10 15 20 25 30 35 40 45 50 55 60 Montant en m illiers de DH Grâce à une méthode d’interpolation linéaire, on peut montrer que si Me[xA, xB[ alors Me x A xB x A n nA 2 nB nA Et donc n nA Me x A 2 (x B x A ) nB nA Exemple : On relève dans une banque à une date donnée les montants des économies de 1000 clients en dirhams : Nombre des économies (en milliers de DH) xi Nombre ni de clients ECC [0,5[ 5 5 [5,10] 12 17 [10,15[ 33 50 [15,20[ 71 121 [20,25[ 119 240 [25,30[ 175 415 [30,35[ 185 600 [35,40[ 158 758 [40,45[ 122 880 [45,50[ 69 949 [50,55[ 35 984 [55,60[ 11 995 60 et plus 5 1000 TOTAL 1000 On a n/2= 500 et Me[30,35[ 500 415 (35 30) M e 30 600 415 32,2973 Remarque Il est possible de travailler avec les fréquence pour calculer la médiane : Me x A 0,5 f A xB x A fB f A 0,5 f A Me x A (x B x A ) fB f A Les quartiles Définition 2.4 Le quartile est une extension de la médiane puisqu’il s’agit de partager l’effectif en quatre parties égales. Les quartiles sont au nombre de 3 et on les note Q1, Q2 et Q3. Le quartile Q2 correspond à la médiane Me.Q1 (respectivement Q3) est la valeur telle que 25% (respectivement 75%) des valeurs de l’effectif total de la population étudiée lui sont inférieures et 75% (respectivement 25%) supérieures. Remarques : quartiles Q1 et Q3 permettent d’apprécier l’importance de la dispersion d’une série autour de la médiane. – Les –Q3−Q1 est appelée l’amplitude de l’intervalle interquartile [Q1,Q3]. 50% de la population de l’échantillon se retrouvent dans cet intervalle. –On peut définir de même dans le cas d’un effectif n très important.: • les déciles permettent de séparer une série statistique en dix groupes de même effectif (à une unité près) Dans le cas d’une variable discrete: Exemple 1: Prenons les valeurs rangées dans l'ordre croissant : 1-3-3-3-5-5-6-7-7-8-8-8-9-9-10-10-10-10-11-11-12-13-13-13-14-15-16-19 Pour Q1: N = 28 valeurs, N/4 = 7 donc Q1 = la 7ème valeur de la série rangée dans l'ordre croissant= Q1= 6 pour Q3: 3N/4 = 21 donc Q3 = la 21ème valeur de la série rangée dans l'ordre croissant= 12=Q3 Exemple 2: Prenons les valeurs rangées dans l'ordre croissant : 3-5-5-6-7-8-8-9-9-10-10-10-10-11-11-12-13-13-13-14-15-16-19 N = 23 valeurs; Pour Q1: N/4 = 5,75 donc Q1 est la 6ème valeur de la série rangée dans l'ordre croissant donc Q1= 8, Pour Q3:3N/4 = 17,25 donc Q3 est la 18 ème valeur de la série rangée dans l'ordre croissant donc Q3= 13 le cas d’une variable continue La méthode est la même que celle utilisée pour calculer la médiane : le premier quartile Q1 correspond a l’abscisse du point d’ordonnée 0,25 sur la courbe des fréquences cumulées croissantes (ou n/4 sur la courbe des effectifs cumulés croissants), Le troisième quartile correspond a l’abscisse du point d’ordonnée 0,75 sur la courbe des FCC (3/4*n sur la courbe des EFC) Leur valeur exacte est déterminée par l’interpolation linéaire ; Interprétations: si on connait les quartiles Q1 et Q3 d'une série, que peut-on en déduire? Au moins un quart (25%) des valeurs sont inférieures ou égales à Q1. Au moins trois quarts (75%) des valeurs sont inférieures ou égales à Q3. Environ la moitié des valeurs (75-25) se trouvent dans l'intervalle interquartile [Q1 ; Q3]. Reprenez l’exercice et calculons Q1 et Q3 et donner une interprétation. 3. Caractéristiques de dispersion 3.1 3.2 3.3 3.4 L’étendue L’écart absolu moyen La variance et l’écart-type L’intervalle interquartile 3.1 L’étendue Définition 3.1 L’étendue d’une série est la différence de ses valeurs extrêmes. On le note par e Cette valeur est intéressante pour comparer 2 séries par exemple Exemple : Dans une classe de 30 étudiants en master, on a répertorié la note* obtenue en management dans un tableau : note 10 11 13 14 15 16 effectif 6 7 10 4 2 1 *On considere que la variable note est discrete • e= 16-10=6: l’écart entre la valeur minimale et la valeur maximale est de 6. 3.2 L’écart absolu moyen C'est donc la "distance moyenne à la moyenne". Exemple: soit 9 étudiants et leurs notes obtenues en management i note A 12 |12-10|=2 B 9 1 C 10 0 D 11 1 E 10 0 F 8 2 G 7 3 H 10 0 I 13 3 mode ? Som=12 méd ? Em=1,3 moy 10 L'écart absolu moyen est de 1,3, ce qui signifie que les notes s'écartent en moyenne de 1,3 de la moyenne. Il n'y a donc pas, en moyenne, de gros écarts à la moyenne dans ce groupe d’étudiants Rque: l’exercice serait plus intéressant si on comparait ce groupe a un autre, puis on en ferait la comparaison. 3.3 La variance et l’écart-type Définition 3.3 La variance d’une série statistique est la moyenne des carrés des écarts à la moyenne arithmétique x . p 1 n 1 2 2 V ( X ) xi x ou ni xi x n i 1 n i 1 La variance peut être donnée sous une autre forme plus pratique : p 1 n 2 1 V ( X ) xi x 2ou ni xi2 x 2 n i 1 n i 1 Définition 3.4 L’écart-type d’une série statistique est la racine carrée de sa variance V(X). (X ) V (X ) p 1 n 1 2 2 xi x ou ni xi x n i 1 n i 1 Noté aussi s ,il mesure la dispersion autour de la moyenne Remarque L’écart-type est la caractéristique de dispersion la plus utilisée. L’expérience a montré que dans une distribution unimodale et symétrique, • L’intervalle [x (X ), x (X )] contient environ 68% des valeurs de la série, •L’intervalle [x 2 (X ), x 2 (X )] contient environ 95% des valeurs de la série. Exemple : On relève dans une banque à une date donnée les montants des économies de 1000 clients en dirhams : Nombre des économies (en milliers de DH) xi Nombre ni de clients Centre de classe ci nnicici i nnicici2i2 [0,5[ 5 2.5 12.5 31.25 [5,10] 12 7.5 90 675 [10,15[ 33 12.5 412.5 5156.25 [15,20[ 71 17.5 1242.5 21743.75 [20,25[ 119 22.5 2677.5 60243.75 [25,30[ 175 27.5 4812.5 132343.75 [30,35[ 185 32.5 6012.5 195406.25 [35,40[ 158 37.5 5925 222187.5 [40,45[ 122 42.5 5185 220362.5 [45,50[ 69 47.5 3277.5 155681.25 [50,55[ 35 52.5 1837.5 96468.75 [55,60[ 11 57.5 632.5 36368.25 [60,65[ 5 62.5 312.5 19531.25 TOTAL 1000 ///////////// 32430 1166200 p 1 32430 x ni ci 32.430 n i 1 1000 V (X ) 1 n p ni c i2 x 2 i 1 1166200 (32.430)2 1000 114.4951 L’écart-type de la série égale à: (X ) V(X ) 114.4951 10,7002 L’intervalle (cette série est unimodale et symétrique) [x ( X ), x ( X )] [ 32430 10700 , 32430 10700 ] [ 21730 , 43130 ] contient environ 68% des valeurs de la série. L’intervalle [x 2 ( X ), x 2 ( X )] [ 32430 2 10700 , 32430 2 10700 ] [ 11030 , 53830 ] contient environ 95% des valeurs de la série. Généralement, plus les valeurs sont largement distribuées, plus l'écart-type est élevé. par exemple: nous devons séparer deux ensembles différents de résultats d'examens de 30 élèves: les notes du premier examen varient de 31 % à 98 % et celles du second, de 82 % à 93 %. Compte tenu de ces étendues, l'écart-type serait plus grand pour les résultats du premier examen. Le coefficient de variation Le coefficient de variation (CV) est le rapport de l'écarttype à la moyenne. Plus la valeur du coefficient de variation est élevée, plus la dispersion autour de la moyenne est grande. Il est généralement exprimé en pourcentage. Sans unité, il permet la comparaison de distributions de valeurs dont les échelles de mesure ne sont pas comparables. 4. l’intervalle interquartile La connaissance des Q 1 et Q3 est surtout intéressante pour calculer le paramètre de dispersion appelé «l’intervalle interquartile ». Nous pouvons cependant déjà remarquer qu’entre les valeurs Q 1 et Q3 se trouve 50% de la population Plus l’écart interquartile (Q3- Q 1 ) est grand, plus la dispersion est importante. 4. Caractéristique de concentration 4.1 La courbe de LORENZ 4.2 L’indice de Gini 4.1 La courbe de LORENZ Exemple: On s’intéresse à la masse salariale versée chaque mois par une entreprise. Notre question est la suivante: « Cette masse est-elle répartie de manière égale sur l’ensemble du personnel ou bien au contraire seules quelques personnes s’en octroient la plus grande partie ? » Définition(s) 4.1 - La fréquence cumulée croissante pi FCCi f j j i - Le coefficient qi comme étant le rapport entre la masse salariale cumulée divisée par la masse salariale totale qi n jxj n jxj j i p j 1 Nous illustrons ces deux formules dans le cadre de l’exemple suivant: Exp: Les salaires des employés d’une entreprise sont répartis de la manière suivante Interprétation de la colonne des qi: Si on considère sa 2ème ligne, 28,7% de la masse salariale est distribuée à 40% des employés, ceux gagnent moins de 5000 DH La courbe de LORENZ Max Otto Lorenz ( 1876 - 1959) était un économiste américain qui inventa le concept de courbe de Lorenz en 1905 pour décrire les inégalités de revenu Le but de cette courbe est de : mesurer la concentration de la masse salariale graphiquement Elle est représentée à l’ aide des points ( pi, qi) La courbe polygonale (OM1M2M3Mn) représente la courbe de Lorenz. La droite en pointillés appelée bissectrice représente une concentration salariale nulle (les salaires sont répartis de manière égale sur l’ensemble du personnel). Plus la courbe de Lorenz sera proche de la bissectrice, plus la concentration sera faible. Plus elle en sera éloignée, plus la concentration sera forte. L’indice de Gini Définition(s) 4.2 On appelle indice de concentration ou indice de Gini le rapport iG de la surface S comprise entre la courbe de concentration et la bissectrice du repère avec la surface S0 du triangle OAMn : iG S S0 L’indice de Gini iG vérifie l’inégalité 0 ≤ iG ≤ 1 Interprétation : lorsque iG est faible (ou proche de 0), la courbe est proche de la bissectrice, la série est peu concentrée, la répartition de la masse salariale est assez homogène, lorsque iG est proche de 1, la courbe de Gini reste longtemps proche de l’axe des abscisses, la série est très concentrée, il y a une répartition très inégalitaire de la masse salariale. Le calcul de l’indice de Gini • Calcul de S0 En termes de fréquences: 11 1 S0 2 2 En termes de pourcentages: 100 100 S0 5000 2 Le Calcul de l’indice de Gini • Calcul de S (en terme de pourcentage) S = (Aire du triangle OAMn)−(aire des trapèzes AiAi+1Mi+1Mi) = 5000 − (aire des trapèzes AiAi+1Mi+1Mi). = 5000 − (S1+S2+⋯+Sp) tel que p1 q1 S1 2 et Sk pk pk 1 qk 1 qk 2 2 k p S4 S3 S1 iG S2 5 0 0 0-( S1 S 2 S p ) 5000 Exercice: reprenons l’exemple précédent et calculons l’indice de Gini S1 = ½ p1 × q1= 154 Ainsi S2 =½(p2 − p1)(q1 + q2) = ½(18 × 42.7) = 384.3 puis S3 = ½(p3 − p2)(q2 + q3) = ½(47 × 108.6) = 2552.1 et S4 = ½(100 − p3)(q3 + 100) = ½(13 × 179.9) = 1169.35 Finalement S = 5000 − (154 + 384.3 + 2552.1 + 1169.35) =740.25 On en déduit que iG 740,25 0,14805 5000 Interprétation : La concentration est faible puisque l’indice de Gini est proche de 0. La masse salariale est répartie de manière égalitaire.