statistiques chapitre i

publicité
CHAPITRE 1 :
Séries statistiques à
une variable.
OBJECTIFS




Découvrir les méthodes de représentation des données
économiques,
Etudier les différentes caractéristiques des séries
statistiques à une seule variable,
Analyser des séries statistiques à deux dimensions :
présentation, caractéristiques de forme et de liaison
entre deux variables.
Interpréter les séries économiques temporelles à l’aide
des pourcentages d’évolution et d’indice.
OUVRAGES (listes non exhaustive)

Lucien Leboucher, Marie-José Voisin Introduction à la statistique
descriptive Cépaduès, 2013

Bernard Py, Statistique descriptive Economica, 2007

Agnès Hamon, Nicolas Jégou, Statistique descriptive, Presses
Universitaires de Rennes (PUR);Coll. : Pratique de la statistique,
2008
SOMMAIRE
1. Méthodes de représentation.
2. Caractéristiques de position.
3. Caractéristiques de dispersion.
4. Paramètres de concentration.
1. Méthodes de représentation
1.1 Vocabulaire
Définition 1.1
La population est l’ensemble que l’on
observe et dont chaque élément est
appelé individu ou unité statistique.
Définition 1.2
Un échantillon (ou lot) est une partie
(ou sous-ensemble) de la population
considérée.
Exemples de populations:
 Les habitants d’une ville,
 Les voitures fabriquées par une marque,
 Les étudiants d’une université.
Echantillons:
 150 habitants,
 Les voitures fabriquées dans une seule
journée,
 30 étudiants de S2 et 10 étudiants de S4.
Définition 1.3
Le caractère étudié est la propriété
observée dans la population ou
l’échantillon considéré.
Classification des caractères
Exemple 1:
• Le nombre d’enfants par famille observé lors
d’un recensement.
• La taille des élèves d’un lycée.
Dans ces deux exemples, le caractère est dit
quantitatif car il est mesurable.
Classification des caractères (suite)
Exemple 2:
• La région de résidence de chaque marocain
observé lors d’un recensement,
• Le pays de fabrication d’une voiture de
marque.
Dans ces deux exemples, le caractère est dit
qualitatif car il n’est pas mesurable.
Classification des caractères quantitatifs
Caractère quantitatif discret
Un caractère quantitatif est dit discret s’il ne
peut prendre que des valeurs numériques
isolées.
Exemples:
• nombre d’enfants par famille,
• nombre de modules validés pour un étudiant
en S1,
• nombre d’accidents sur la route en 2005, …
Classification des caractères quantitatifs
Caractère quantitatif continu
Un caractère quantitatif est dit continu s’il peut
prendre, au moins théoriquement, n’importe
quelle valeur d’un intervalle de nombre réels.
Exemples:
• Les revenus d’un foyer au Maroc,
• La poids d’une orange produite au Maroc,
• La valeur d’une action boursière,
• Le montant d’une facture de téléphone.
Exercice:
• citez des exemples d’échantillons dans une
population que vous préciserez.
• Précisez le type des caractères suivants :
i. Le code postal d’une ville marocaine
ii. Le nombre de go de mémoire d’une
clé USB,
iii.Le numéro de téléphone personnel
d’un habitant du Maroc
iv.La pointure de chaussure
v.La couleur des yeux
vi.Le taux d’émission de CO2 d’une
voiture
Les tableaux
la population : semaine
d’opération de vente
échantillon: 40semaines
le caractère:
Nombre de
voiture vendue
par semaine
Exemple :
Un concessionnaire d’automobiles a enregistré au
cours de ses 40 premières semaines d’opération le
nombre X d’automobiles qu’il a vendu
hebdomadairement. Il a obtenu les résultats suivants:
5,7,2,6,3,4,8,5,4,3,9,6,5,7,6,8,3,4,4,0,
8,6,7,1,5,5,4,6,6,10,9,8,1,5,5,6,7,8,5,5
Question: Comment résumer cette série ?
On va noter par
X = Nombre d’automobiles vendues
{X} = {xk | k=1,…,40} (ensemble de valeur de X)
= { 5,7,2,6,3,4,8,5,4,3,9,6,5,7,6,8,3,4,4,0,8,
6,7,1,5,5,4,6,6,10,9,8,1,5,5,6,7,8,5,5}
On peut présenter de manière synthétique ces
résultats à l’aide du tableau ci-dessous :
classe n°i de
valeurs de X
Nombre de
vente
Nombre de
semaines
relatives à xi
i
1
2
3
4
5
6 7 8 9 10 11
xi
0
1
2
3
4
5 6 7 8
9
10 Total
ni
1
2
1
3
5
9 7 4 5
2
1
L’effectif total de l’échantillon
40
Les classes (ou les modalités)
Définition 1.4
Une classe (ou modalité) est un sousensemble de la population correspondant
à une même valeur ou à des valeurs
voisines prises par le caractère.
L’effectif
Définition 1.5
L’effectif d’une classe est son nombre
d’éléments.
Remarque:
Ces classes peuvent être :
des valeurs ponctuelles,
Exp.: nombre d’enfants par
famille,
« 2 enfants » est une classe.
des intervalles,
Exp.: salaire en dirhams des
employés d’une entreprise,
[2000, 6000[ est une classe.
Une série statistique à une variable peut être définie
par un tableau de la forme :
i
1
2
…
…
p
Valeurs prises par le
caractère (ou classes) xi
x1
x2
…
…
xp
Effectifs correspondants ni n1
n2
…
…
np
p : le nombre de classes (ou modalités)
ni : l’effectif de la ième classe.
L’effectif total de l’échantillon n est tel que
p
n = n1+n2+⋯+np=
n
i
i 1
avec nin, 1  i  p
La fréquence
Définition 1.6
La fréquence d’une classe est la proportion
d’individus de la population (ou de
l’échantillon) appartenant à cette classe.
La ième classe a pour fréquence
ni
fi 
n
Propriété 1.1
Les fréquences d’une série statistique
vérifiant les propriétés suivantes :
1)
p
f
i
1
i 1
2)
0 fi  1 , 1  i  p
Exercice : reprenons l’exemple de ventes
hebdomadaires de voitures.
Calculer les fréquences de chacune des modalités de
la série statistique
i
1
2
3
4
5
6
7
8
9
10
11
Total
xi
ni
fi
0
1
1
2
2
1
3
3
4
5
5
9
6
7
7
4
8
5
9
2
10
1
1/40
2/40
1/40
3/40
5/40
9/40
7/40
4/40
5/40
2/40
1/40
-40
1
1.2 Les graphiques
1.2.1 Caractère qualitatif
Exemple : On s’intéresse aux étudiants de S5
sciences économiques option Finance d’Entreprise.
Nous pouvons classer les étudiants de cette année
selon 4 catégories (classes):
Catégorie
Descriptif
Nombre
d’étudiants
CAT 1
S1 ET S3 validés
47
CAT 2
S1 validé + au moins deux modules validés en S3
9
CAT 3
Etudiant(e)s n'ayant pas suivi les cours de S1 et S2
(Redoublants ou tranferts) + au moins deux modules
validés en S3
11
CAT 4
Etudiant(e)s de 3ème année Eco reversés dans le
Semestre 5
18
Fréquences et pourcentages
Nombre
Pourcentage Fréquence i
d’étudiants
i
Catégorie
1
CAT 1
47
55,3%
0,553
2
CAT 2
9
10,6%
0,106
3
CAT 3
11
12,9%
0,129
4
CAT 4
18
21,2%
0,212
5
Total
85
100,00%
1
Diagramme en tuyaux d’orgue
Etudiants de S5 Eco. option Finance d'Entreprise
60,0%
55,3%
50,0%
40,0%
30,0%
21,2%
20,0%
10,6%
12,9%
CAT 2
CAT 3
10,0%
0,0%
CAT 1
CAT 4
Diagramme à secteurs circulaires
Etudiants de S5 Eco. option Finance d'Entreprise
CAT 4
21,2%
CAT 3
12,9%
CAT 2
10,6%
CAT 1
55,3%
Angles des secteurs circulaires
Nombre
Pourcentage
d’étudiants
Angle i
i
Catégorie
1
CAT 1
47
55,3%
199,08
2
CAT 2
9
10,6%
38,16
3
CAT 3
11
12,9%
46,44
4
CAT 4
18
21,2%
76,32
5
Total
85
100,00%
360 °
Diagramme en bandes
Etudiants de S5 Eco. option Finance d'Entreprise
CAT 3
21,2%
CAT 3
12,9%
CAT 2
10,6%
CAT 1 55,3%
1.2 Les graphiques
1.2.2 Caractère quantitatif discret
Exemple :
Le responsable des ventes d’un magasin a noté le
niveau de la demande journalière
pour un produit pendant cent jours ouvrables
consécutifs en 1992 :
Nombre xi d’unités
demandées par
jours
Nombre ni de
jours où l’on a
vendu xi
0
5
1
15
2
23
3
22
5
16
6
9
7
5
7 et plus
5
TOTAL
100
Effectifs
cumulés
croissant Ni
Fréquences
i
Fréquences
cumulées
croissantes i
Diagramme des effectifs, en bâtons
On obtient le diagramme en
bâtons des fréquence par
simple changement d’échelle
25
23
Titre du
graphique ?
22
Effectifs
20
16
15
15
9
10
5
5
5
6
7 et plus
5
0
0
1
2
3
4
5
Nombre d'unités demandées xi
Diagramme des frequences, en bâtons
On obtient le diagramme en
bâtons des fréquence par
simple changement d’échelle
0,25
0,23
0,22
Fréquences
0,2
0,16
0,15
0,15
0,09
0,1
0,05
0,05
0,05
6
7 et
plus
0,05
0
0
1
2
3
4
5
Nombre d'unités de mandée s xi
Diagramme des effectifs cumulés croissants, en escalier
Le cumul des journées de ventes en fonction de nombre d'unités
demandés
Effectifs cumulés
croissants
120
100
81
80
100
6
7
8
65
60
43
40
20
90
95
20
5
0
1
2
3
4
5
Nombre d'unités demandés
Remarque :
Comme précédemment, on obtient le diagramme
des fréquences cumulées croissants par simple
changement d’échelle.
1.2 Les graphiques
1.2.3 Caractère quantitatif continu
Exemple :
On relève dans une banque à une date donnée les
montants des économies de 1000 clients en
dirhams. Les résultats obtenus sont les suivants :
Nombre des
économies
(en milliers de DH)
xi
Nombre ni de
clients
Effectifs
cumulés
croissant Ni
Fréquences
i
Fréquences
cumulées
croissantes i
[0,5[
5
5
5/1000
5/1000
[5,10[
12
17
12/1000
17/1000
[10,15[
33
[15,20[
71
[20,25[
119
[25,30[
175
[30,35[
185
[35,40[
158
[40,45[
122
[45,50[
69
[50,55[
35
[55,60[
11
60 et plus
5
TOTAL
1000
Quelles représentation graphique des données
relatives à un caractère quantitatif continu?
Le graphique utilisé pour
ce type de données est
appelé
Histogramme des effectifs
( ou de fréquence)
Diagramme des effectifs, histogramme
Remarque :
Comme précédemment, on obtient l’histogramme
des fréquences par simple changement d’échelle.
Diagramme des effectifs cumulés croissants,
courbe polygonale
Effectifs cumulés croissants
Ni
Le cumul des clients selon le montant d'économies
1200
1000
800
600
400
200
0
0
5 10 15 20 25 30 35 40 45 50 55 60
Montant en m illiers de DH
Remarque :
On note que le diagramme des fréquences
cumulées croissantes est obtenu à l’aide d’un
simple changement d’échelle sur l’axe des
ordonnées.
2. Caractéristique de position
2.1 Le mode (ou la dominante)
2.2 La moyenne
2.3 La médiane
Introduction
On a vu dans la première partie (méthodes de
présentation) comment :
condenser les informations pour rendre plus
lisibles et utilisables.
Une liste de plusieurs
dizaines, centaines,
éventuellement
milliers de données
Tableau reposant sur
un regroupement
des données en quelques classes
Graphiques
Notre but est de synthétiser davantage
l’information pour les caractères.
La première idée concerne naturellement
la tendance centrale de la population
Cela peut signifier :
 Calculer une moyenne,
 Chercher un nombre séparent la
population en deux parties représentant
chacune 50% de l’effectif total.
 Choisir la (ou une) classe de plus grand
effectif.
Ces trois points de vue présentent de
l’intérêt et conduisent à définir
des caractéristiques de position
2.1 Le mode (ou la dominante)
Définition 2.1
On appelle mode d’une série statistique la
ou les valeurs du caractère dont l’effectif est
le plus élevé.
Dans le cas d’une répartition à l’aide de
classes, la classe dont l’effectif est le plus
élevé est appelée classe modale, le mode
étant le centre de la classe.
Remarques
• Le mode correspond à un sommet sur
l’histogramme ou le diagramme en bâtons.
• Il peut exister des séries unimodales ou
plurimodales (dans le cas ou plusieurs
classes de même effectif maximal).
• Le mode est une caractéristique peu
utilisée en pratique car elle ne fait pas
intervenir l’ensemble des valeurs.
Exemple 1 : reprenons l’exemple de la section
S5 Sciences Economiques option Finance
d’entreprise.
i
Catégorie Pourcentage Fréquence i
1
CAT 1
55,3%
0,553
2
CAT 2
10,6%
0,106
3
CAT 3
12,9%
0,129
4
CAT 4
21,2%
0,212
5
Total
100,00%
1
Question 1 : déterminer le mode de cette série ?
Mo= CAT1
Exemple 2 : reprenons l’exemple de ventes de
hebdomadaires de voitures.
i
xi
ni
1
0
1
2
1
2
3
2
1
4
3
3
5
4
5
6
5
9
7
6
7
8
7
4
9
8
5
10
9
2
11
10
1
Total
-40
Question: déterminer le mode de cette série?
mo=5
Exemple 3 : On relève dans une banque à une
date donnée les montants des économies de 1000
clients en dirhams :
montant des
économies
(en milliers de DH) xi
Nombre ni de clients
[0,5[
5
[5,10[
12
[10,15[
33
[15,20[
71
[20,25[
119
[25,30[
175
[30,35[
185
[35,40[
158
[40,45[
122
[45,50[
69
[50,55[
35
[55,60[
11
60 et plus
5
TOTAL
1000
Question 1 :
Quelle est la classe modale ?
[30,35[
Question 2 :
déterminer le mode
de cette série ?
Mo=(30+35)/2=32,5
Inter: le montant des
économies le plus important
est 32500 dh
2.2 La moyenne ( caractère quantitatif)
Les séries statistiques (à une variable
quantitative) peuvent se présenter
directement ou indirectement sous les trois
formes suivantes:
1. Une liste de « brute » de n valeurs x1, x2 ,
… , xn .
2. Un tableau des effectifs ni des p classes xi .
3. Un tableau des effectifs ni des p classes
[ai , bi [.
Définition 2.2
La moyenne arithmétique de n nombres
y1, y2, …,yn est
n
y1  y 2    y n
1
y 

n
n
y
i 1
i
1er cas:
on dispose de la liste de n valeurs (du
caractère) x1, x2, …,xn. La moyenne est
obtenue à l’aide de la formule
x1  x 2    x n
1
x 

n
n
n
x
i 1
i
2ème cas:
on dispose du tableau des effectifs ni des
p classes xi. La moyenne est obtenue à
l’aide de la formule
x
n1x1  n 2 x 2    n p x p
n
1

n
p
n x
i
i 1
i
3ème cas:
on dispose du tableau des effectifs ni des
p classes [ai, bi [ de centre ci=(ai+bi)/2.
x
n1c1  n 2 c 2    n p c p
n
1

n
p
n c
i i
i 1
2.3 La médiane
En économie, la moyenne arithmétique
n’est pas la caractéristique la plus
pertinente. C’est pour cette raison qu’on
définit la médiane.
Définition 2.3
Dans une série statistique rangé en ordre de
grandeur croissant (ou décroissant), la
médiane est la valeur qui occupe la
position centrale. On la note Me.
La médiane - variable discrète
1er Cas : la série comporte un nombre impair de
valeurs, soit 2k + 1 valeurs, la médiane sera la
(k + 1)-i`eme valeur.
x1 ≤ x2 ≤ . . . ≤ xk−1 ≤ xk ≤ xk+1 ≤ xk+2 ≤ xk+3 ≤ . . . ≤ x2k ≤ x2k+1
k valeurs
k valeurs
Me = xk+1
Exemple
5,7,8,3,4,3,4,9,4,5,10,9,7
On vérifie que la série comporte 13 = 2 × 6 + 1
valeurs.
Si la série est ordonnée, on peut affirmer que la
médiane est la 6-i`eme valeur.
Rangeons cette série en ordre croissant :
3,3,4,4,4,5, 5 ,7,7,8,9,9,10
Me = 5
La médiane - variable dicrète
2ème Cas : la série comporte un nombre pair de
valeurs, soit 2k valeurs, la médiane sera la ½ somme
des k-ème et (k + 1)-i`eme valeur.
x1 ≤ x2 ≤ . . . ≤ xk−1 ≤ xk ≤ xk+1 ≤ xk+2 ≤ xk+3 ≤ . . . ≤ x2k
k valeurs
k valeurs
Me = (xk + xk+1)/2
Exemple
5,5,5,7,6,5,6,4,3,7
On vérifie que la série comporte 10 = 2×5 valeurs.
Si la série est ordonnée, on peut affirmer que la
médiane est la 1/2 somme de la 5-i`eme et de la 6-i`eme
valeurs.
Rangeons cette série en ordre de grandeur croissant :
3,4,5,5,5,5,6,6,7,7
Me = (5+5)/2 = 5
La médiane - variable continue
Dans ce cas, la détermination de la médiane est très
différente.
Il faut tout d’abord repérer la classe qui contient la
médiane à l’aide de la moitié de l’effectif total n/2 soit
[xA, xB[.
Cette classe peut également être repérée sur le
diagramme des effectifs (ou fréquences) cumulés
croissants :
La médiane - variable continue
Effectifs cumulés croissants
Ni
Le cumul des clients selon le montant d'économies
1200
1000
800
600
400
200
0
0
5 10 15 20 25 30 35 40 45 50 55 60
Montant en m illiers de DH
Grâce à une méthode d’interpolation linéaire, on peut
montrer que si Me[xA, xB[ alors
Me  x A
xB  x A
n
 nA
 2
nB  nA
Et donc
n
 nA
Me  x A  2
(x B  x A )
nB  nA
Exemple : On relève dans une banque à une date
donnée les montants des économies de 1000 clients
en dirhams :
Nombre des
économies
(en milliers de DH) xi
Nombre ni
de clients
ECC
[0,5[
5
5
[5,10]
12
17
[10,15[
33
50
[15,20[
71
121
[20,25[
119
240
[25,30[
175
415
[30,35[
185
600
[35,40[
158
758
[40,45[
122
880
[45,50[
69
949
[50,55[
35
984
[55,60[
11
995
60 et plus
5
1000
TOTAL
1000
On a n/2= 500
et
Me[30,35[
500  415
(35  30)
M e  30 
600  415
 32,2973
Remarque
Il est possible de travailler avec les
fréquence pour calculer la médiane :
Me  x A
0,5  f A

xB  x A
fB  f A
0,5  f A
Me  x A 
(x B  x A )
fB  f A
Les quartiles
Définition 2.4
Le quartile est une extension de la médiane puisqu’il
s’agit de partager l’effectif en quatre parties égales.
Les quartiles sont au nombre de 3 et on les note Q1,
Q2 et Q3. Le quartile Q2 correspond à la médiane
Me.Q1 (respectivement Q3) est la valeur telle que
25% (respectivement 75%) des valeurs de l’effectif
total de la population étudiée lui sont inférieures et
75% (respectivement 25%) supérieures.

Remarques
:
quartiles Q1 et Q3 permettent d’apprécier
l’importance de la dispersion d’une série autour de
la médiane.
– Les
–Q3−Q1 est appelée l’amplitude de l’intervalle
interquartile [Q1,Q3].
50% de la population de l’échantillon se retrouvent
dans cet intervalle.
–On peut définir de même dans le cas d’un effectif
n très important.:
• les déciles permettent de séparer une série
statistique en dix groupes de même
effectif (à une unité près)

Dans le cas d’une variable discrete:
Exemple 1: Prenons les valeurs rangées dans l'ordre croissant :
1-3-3-3-5-5-6-7-7-8-8-8-9-9-10-10-10-10-11-11-12-13-13-13-14-15-16-19
 Pour Q1: N = 28 valeurs, N/4 = 7 donc Q1 = la 7ème valeur de la
série rangée dans l'ordre croissant= Q1= 6
 pour Q3: 3N/4 = 21 donc Q3 = la 21ème valeur de la série rangée
dans l'ordre croissant= 12=Q3
Exemple 2: Prenons les valeurs rangées dans l'ordre croissant :
3-5-5-6-7-8-8-9-9-10-10-10-10-11-11-12-13-13-13-14-15-16-19
N = 23 valeurs;
 Pour Q1: N/4 = 5,75 donc Q1 est la 6ème valeur de la série rangée
dans l'ordre croissant donc Q1= 8,
 Pour Q3:3N/4 = 17,25 donc Q3 est la 18 ème valeur de la série
rangée dans l'ordre croissant donc Q3= 13
le cas d’une variable continue
La méthode est la même que celle utilisée pour calculer la
médiane :
 le premier quartile Q1 correspond a l’abscisse du
point d’ordonnée 0,25 sur la courbe des fréquences
cumulées croissantes (ou n/4 sur la courbe des
effectifs cumulés croissants),
 Le troisième quartile correspond a l’abscisse du point
d’ordonnée 0,75 sur la courbe des FCC (3/4*n sur la
courbe des EFC)
 Leur valeur exacte est déterminée par l’interpolation
linéaire ;

Interprétations: si on connait les quartiles Q1 et Q3 d'une
série, que peut-on en déduire?
 Au
moins un quart (25%) des valeurs sont inférieures
ou égales à Q1.
 Au
moins trois quarts (75%) des valeurs sont
inférieures ou égales à Q3.
 Environ
la moitié des valeurs (75-25) se trouvent
dans l'intervalle interquartile [Q1 ; Q3].

Reprenez l’exercice et calculons Q1 et Q3
et donner une interprétation.
3. Caractéristiques de dispersion
3.1
3.2
3.3
3.4
L’étendue
L’écart absolu moyen
La variance et l’écart-type
L’intervalle interquartile
3.1 L’étendue
Définition 3.1
L’étendue d’une série est la différence de ses
valeurs extrêmes. On le note par e

Cette valeur est intéressante pour
comparer 2 séries par exemple

Exemple
:
Dans une classe de 30 étudiants en master, on a répertorié
la note* obtenue en management dans un tableau :
note
10
11
13
14
15
16
effectif
6
7
10
4
2
1
*On considere que la variable note est discrete
• e= 16-10=6: l’écart entre la valeur minimale et la
valeur maximale est de 6.
3.2 L’écart absolu moyen
C'est donc la "distance moyenne à la moyenne".
Exemple: soit 9 étudiants et leurs notes obtenues en management
i
note
A
12
|12-10|=2
B
9
1
C
10
0
D
11
1
E
10
0
F
8
2
G
7
3
H
10
0
I
13
3
mode
?
Som=12
méd
?
Em=1,3
moy
10
L'écart absolu moyen est de
1,3, ce qui signifie que les
notes s'écartent en moyenne
de 1,3 de la moyenne.
Il n'y a donc pas, en moyenne,
de gros écarts à la moyenne
dans ce groupe d’étudiants
Rque: l’exercice serait plus
intéressant si on comparait ce
groupe a un autre, puis on en
ferait la comparaison.
3.3 La variance et l’écart-type
Définition 3.3
La variance d’une série statistique est la
moyenne des carrés des écarts à la moyenne
arithmétique x .
p
1 n
1
2
2
V ( X )   xi  x  ou  ni xi  x 
n i 1
n i 1
La variance peut être donnée sous une autre
forme plus pratique :
p
1 n 2
1
V ( X )   xi  x 2ou  ni xi2  x 2
n i 1
n i 1
Définition 3.4
L’écart-type d’une série statistique est la
racine carrée de sa variance V(X).
 (X )  V (X )
p
1 n
1
2
2
xi  x  ou  ni xi  x 


n i 1
n i 1
Noté aussi s ,il mesure la dispersion autour
de la moyenne
Remarque
L’écart-type est la caractéristique de
dispersion la plus utilisée.
L’expérience a montré que dans une
distribution unimodale et symétrique,
• L’intervalle [x   (X ), x   (X )] contient
environ 68% des valeurs de la série,
•L’intervalle [x  2 (X ), x  2 (X )] contient
environ 95% des valeurs de la série.
Exemple : On relève dans une banque à une date
donnée les montants des économies de 1000 clients
en dirhams :
Nombre des
économies
(en milliers
de DH) xi
Nombre ni
de clients
Centre de
classe
ci
nnicici i
nnicici2i2
[0,5[
5
2.5
12.5
31.25
[5,10]
12
7.5
90
675
[10,15[
33
12.5
412.5
5156.25
[15,20[
71
17.5
1242.5
21743.75
[20,25[
119
22.5
2677.5
60243.75
[25,30[
175
27.5
4812.5
132343.75
[30,35[
185
32.5
6012.5
195406.25
[35,40[
158
37.5
5925
222187.5
[40,45[
122
42.5
5185
220362.5
[45,50[
69
47.5
3277.5
155681.25
[50,55[
35
52.5
1837.5
96468.75
[55,60[
11
57.5
632.5
36368.25
[60,65[
5
62.5
312.5
19531.25
TOTAL
1000
/////////////
32430
1166200
p

1
32430
x
ni ci 
 32.430
n i 1
1000
V (X ) 
1
n
p

ni c i2  x 2
i 1
1166200

 (32.430)2
1000
 114.4951
L’écart-type de la série égale à:
 (X )  V(X )  114.4951  10,7002
L’intervalle (cette série est unimodale et
symétrique)
[x   ( X ), x   ( X )]  [ 32430  10700 , 32430  10700 ]
 [ 21730 , 43130 ]
contient environ 68% des valeurs de la
série.
L’intervalle
[x  2 ( X ), x  2 ( X )]  [ 32430  2  10700 , 32430  2  10700 ]
 [ 11030 , 53830 ]
contient environ 95% des valeurs de la
série.
Généralement, plus les valeurs sont largement distribuées,
plus l'écart-type est élevé.
par exemple: nous devons séparer deux ensembles
différents de résultats d'examens de 30 élèves:
les notes du premier examen varient de 31 % à 98 % et
celles du second, de 82 % à 93 %.
Compte tenu de ces étendues, l'écart-type serait plus
grand pour les résultats du premier examen.
Le coefficient de variation

Le coefficient de variation (CV) est le rapport de l'écarttype à la moyenne.

Plus la valeur du coefficient de variation est élevée, plus
la dispersion autour de la moyenne est grande.

Il est généralement exprimé en pourcentage. Sans unité,
il permet la comparaison de distributions de valeurs dont
les échelles de mesure ne sont pas comparables.
4. l’intervalle interquartile

La connaissance des Q 1 et Q3 est surtout
intéressante pour calculer le paramètre de
dispersion appelé «l’intervalle interquartile ».

Nous pouvons cependant déjà remarquer
qu’entre les valeurs Q 1 et Q3 se trouve 50% de
la population

Plus l’écart interquartile (Q3- Q 1 ) est grand, plus
la dispersion est importante.
4. Caractéristique de concentration
4.1 La courbe de LORENZ
4.2 L’indice de Gini
4.1 La courbe de LORENZ
Exemple: On s’intéresse à la masse salariale
versée chaque mois par une entreprise. Notre
question est la suivante:
« Cette masse est-elle répartie de manière
égale sur l’ensemble du personnel ou bien au
contraire seules quelques personnes s’en
octroient la plus grande partie ? »
Définition(s) 4.1
- La fréquence cumulée croissante
pi  FCCi 
f
j
j i
- Le coefficient qi comme étant le rapport entre
la masse salariale cumulée divisée par la
masse salariale totale
qi 
n
jxj
n
jxj
j i
p
j 1
Nous illustrons ces deux formules dans le
cadre de l’exemple suivant:
Exp:
Les salaires des employés d’une entreprise
sont répartis de la manière suivante
Interprétation de la colonne des qi:
Si on considère sa 2ème ligne, 28,7% de la
masse salariale est distribuée à 40% des
employés, ceux gagnent moins de 5000 DH
La courbe de LORENZ
Max Otto Lorenz ( 1876 - 1959) était
un économiste américain qui inventa le concept
de courbe de Lorenz en 1905 pour décrire les
inégalités de revenu
Le but de cette courbe est de :
mesurer la concentration de la masse salariale
graphiquement
Elle est représentée à l’ aide des points ( pi, qi)
La courbe polygonale (OM1M2M3Mn)
représente la courbe de Lorenz.
La droite en pointillés appelée
bissectrice représente une
concentration salariale nulle (les salaires
sont répartis de manière égale sur
l’ensemble du personnel).
Plus la courbe de Lorenz sera proche de
la bissectrice, plus la concentration sera
faible.
Plus elle en sera éloignée, plus la
concentration sera forte.
L’indice de Gini
Définition(s) 4.2
On appelle indice de concentration ou indice
de Gini le rapport iG de
la surface S comprise entre la courbe de
concentration et la bissectrice du
repère avec la surface S0 du triangle OAMn :
iG
S

S0
L’indice de Gini iG vérifie l’inégalité
0 ≤ iG ≤ 1
Interprétation :
lorsque iG est faible (ou proche de 0), la courbe
est proche de la bissectrice, la série est peu
concentrée, la répartition de la masse salariale
est assez homogène,
lorsque iG est proche de 1, la courbe de Gini
reste longtemps proche de l’axe des abscisses,
la série est très concentrée, il y a une répartition
très inégalitaire de la masse salariale.
Le calcul de l’indice de Gini
• Calcul de S0
 En termes de fréquences:
11 1
S0 

2
2
 En termes de pourcentages:
100  100
S0 
 5000
2
Le Calcul de l’indice de Gini
• Calcul de S (en terme de pourcentage)
S = (Aire du triangle OAMn)−(aire des trapèzes AiAi+1Mi+1Mi)
= 5000 − (aire des trapèzes AiAi+1Mi+1Mi).
= 5000 − (S1+S2+⋯+Sp)
tel que
p1  q1
S1 
2
et
Sk

pk

 pk 1 qk 1  qk 
2
2  k  p
S4
S3
S1
iG 
S2
5 0 0 0-( S1  S 2    S p )
5000
Exercice: reprenons l’exemple précédent
et calculons l’indice de Gini
S1 = ½ p1 × q1= 154
Ainsi
S2 =½(p2 − p1)(q1 + q2) = ½(18 × 42.7) = 384.3
puis
S3 = ½(p3 − p2)(q2 + q3) = ½(47 × 108.6) = 2552.1
et
S4 = ½(100 − p3)(q3 + 100) = ½(13 × 179.9) = 1169.35
Finalement
S = 5000 − (154 + 384.3 + 2552.1 + 1169.35) =740.25
On en déduit que
iG
740,25

 0,14805
5000
Interprétation :
La concentration est faible puisque l’indice de
Gini est proche de 0.
La masse salariale est répartie de manière
égalitaire.
Téléchargement