INTRODUCTION - Luca Scuderi

publicité
Chapitre 3 : Mesures de dispersion et de forme,
observations atypiques et extrêmes,
corrélation, concentration
Autres caractéristiques d’une distribution de
fréquences
données brutes
ordonner (données rangées)
 condenser (données condensées)
 ventiler (données groupées en classes)

Mesures de la tendance centrale (mode, moyenne,
médiane) : insuffisant.
Calculer la dispersion
 en absolu : l’étendue
 autour de la tendance centrale :
- La variance
- L’écart-type (autour de la moyenne)
- L’écart semi-interquartiles (autour de la médiane)
1
dispersion « faible »
Données brutes
• •••• ••
x
dispersion « forte »
• • • • • • •• • •
x
Polygone
des fréquences
x
x
(Ouellet p.56)
Étendue
1. Données rangées :
x N  x1 (population)
x n  x1 (échantillon).
2. Données condensées :
x k  x1 .
3. Données groupées en classes :
bk  b0 .
Le champ des données est l’intervalle dans lequel elles
tombent. L’étendue est la longueur de ce champ.
2
Valeur absolue et distance
Soit x un nombre réel. On définit la valeur absolue de x
comme
2
 x x
si x  0
x
x



si x  0 .
 x
Distance entre deux nombres réels x et y :
d( x, y)  x  y
 Positive : d(x,y) ≥ 0
 Symétrique :
d( x, y )  d( y, x),
car
d( y, x)  y  x
  ( x  y)  x  y  d( x, y)
3
Variance
 Pas interprétable en soi. Calcul transitoire pour
l’écart-type, qui est sa racine carrée.
 Formule varie légèrement entre population
(somme des carrés des écarts divisée par N)
et échantillon (division par n-1).
 Cette différence, mineure, est justifiée pour des
raisons théoriques.
Variance de la population :
1. Données rangées
N
 X2 

 (x
i 1
i
  X )2
N
.
moyenne des carrés des distances
Formule difficile à lire sous cette forme.
En fait résultat d’un calcul simple sur un tableau.
Total
xi
xi   X
( xi   X ) 2
x1
x2
x1   X
x2   X
( x1   X ) 2
( x2   X ) 2



xN
xN   X
(xN   X )2
N X
0
N X2
4
2. Données condensées
k
 
2
X
 n (x
i 1
i
i
  X )2
N
k
  f i ( xi   X ) 2 .
i 1
k est le nombre de modalités distinctes
Même formule que pour les données rangées, mais
uniquement à partir des modalités distinctes.
Les multiplicités (ni) de ces modalités doivent donc
apparaître.
3. Données groupées en classes
k
 
2
X
2
n
(
m


)
 i i X
i 1
N
k
  f i (mi   X ) 2
i 1
k est le nombre de classes.
Comme si on donnait la valeur mi aux modalités
tombant dans la i° classe.

Comme dans le cas des données condensées
5
Variance échantillonnale:
1. Données rangées
n
s X2 
 (x
i 1
i
 x)
n
2
(
n 1
n
n 1
 (x
i 1
i
 x)2
n
) .
2. Données condensées
k
s 
2
X
2
n
(
x

x
)
 i i
i 1
n 1
k
n

  f i ( xi  x ) 2
n  1 i 1
Même formule que pour les données rangées
Tenu compte des k modalités distinctes et de leur
multiplicité.
3. Données groupées en classes
k
s 
2
X
 n (m
i 1
i
i
 x)2
n 1
k
n

  f i (mi  x ) 2
n  1 i 1
6
Exemple :
Supposons :
 Population de 1000 truites dans une pisciculture
 Variable X = la taille.
 Il existe une vraie variance pour X.
 On tire au hasard un échantillon de 50 truites (trop
long, trop cher de mesurer la taille de tous les
individus de la population)
La vraie variance, celle de la population, restera
inconnue car on ne veut pas mesurer la taille de 1000
individus. Cette variance est
1000
 X2 
 (x
i 1
i
  X )2
X
,
1000
inconnue.
Un estimateur de  X2 (inconnue) sera
50
s 
2
X
 (x  x)
i 1
2
49
,
(où
50
et non

1
50
x
x

i 1 i )
50
i
~
s X2 
 (x
i 1
i
 x)2
50
,
aurait tendance à sous-estimer
 X2 .
7
Ecart-type
La racine carrée de la variance.
 X (population)
et
s X (échantillon).
 Toujours non négatif.
 Avantage sur la variance : mesure la dispersion dans
les unités de la variable et des valeurs centrales.
 Si X est une température, l’unité est le degré. La
moyenne, la médiane, le mode seront en degrés. La
variance est exprimée en degrés au carré,  pas de
sens. On utilise donc l’écart-type, qui est lui aussi
exprimé en degrés.
 Il est donc comparable à la moyenne (on pourra dire
si l’écart-type est « petit » ou « grand » par rapport à
la moyenne).
 Dans un tableau de statistiques élémentaires, l’écarttype devrait toujours figurer au côté de la moyenne.
8
Illustration :
Ecart-type « petit »
Données brutes
• •••• ••
x
Ecart-type « grand »
•
•
•• • •
•• • •
x
Polygone
des fréquences
x
x
Mesures de dispersion d’une transformation linéaire
Variable X
Transformation linéaire Y = aX + d.
Théorème :
 Étendue de Y = |a| (étendue de X)
2
2 2


a
X
 Y
 Y  a X
.
9
Notes à propos des mesures de dispersion
L’étendue :
1. Ce qui est vraiment utile n’est pas tant l’étendue que
le champ des données  l’intervalle dans lequel
tombent les données. Plus intéressant de savoir que
les salaires d’une entreprise tombent entre 40'000
francs et 145'000 francs plutôt que de savoir que
l’étendue est de 105'000 francs.
2. L’étendue n’est pas robuste (dépend de seulement
deux données : la plus grande et la plus petite).
3. Souffre d’instabilité d’un échantillon à l’autre dans
une même population.
L’écart-type :
N
X 
 (x  
i 1
i
2
)
X
N
1. Moyenne quadratique des données centrées.
2. Il n’est pas robuste (les données éloignées du centre
sont sur-pondérées). Ne pas l’utiliser si on a une ou
plusieurs observations atypiques. Préférer l’écart
semi-interquartile.
10
3. Se prête très bien aux manipulations algébriques
nécessaires pour développer une théorie.  On le
verra apparaître de façon essentielle en inférence
statistique.
4. Stable d’un échantillon à l’autre.
Autres mesures de dispersion
Ecart semi-interquartile :
 Mesure de dispersion robuste.
 S’utilise en paire avec la médiane lorsque la
distribution est dissymétrique ou lorsqu'il y a des
données extrêmes.
Q
Q3  Q1
2 .
11
Coefficient de variation classique :
CV   / 
(population)
CV  s / x (échantillon)
Si l’unité de la variable est le kilo, la moyenne et
l’écart-type sont en kilos, mais pas le CV, qui est une
grandeur sans unité.
 Mesure la dispersion relative des données ou de la
distribution.
 Mesures sans unité.
 Coefficient de variation inférieur à 0.15 
population est homogène. Sinon, dispersée (0.15
ordre de grandeur, forcément un peu arbitraire).
Coefficient de variation interquartile :
Concurrent robuste de CV  s’utilise donc si on a des
données atypiques ou une distribution dissymétrique.
CVI  Q / Q2 .
12
Illustration :
A
B
Q1
Q2
Q3
Q1
Q2
Q3
1
2
3
10
20
30
Distribution la plus dispersée ?
QA = 1
QB = 10
CVIA = ½
 Q, l’écart semi-interquartile
absolue.
CVIB = ½

dispersion
 Diviser par la médiane pour obtenir le CVI, qui est
dès lors sans unité  dispersion relative
13
En résumé…
Population
Mesure non robuste (  ,  )
Mesure robuste
Échantillon
( x , s)
CV   / 
CV  s / x
(Q2 , Q)
(Q2 , Q)
CVI  Q / Q2
CVI  Q / Q2
 Distribution dissymétrique ou données atypiques,
 utiliser des mesures robustes.
 CV et CVI très utiles pour comparer des distributions.
 Comme CV et CVI sont des mesures sans unité, on
peut comparer des distributions de variables ayant des
unités différentes (par exemple une variable exprimée
en kg et l’autre en tonnes).
14
Application à la finance
Ecart-type
Ratio de Sharpe
Dans une économie de marché, la volatilité est une
mesure de l'ampleur des variations du cours d'un actif
financier.
Elle permet de quantifier le risque lié à cet actif: plus un
titre financier est risqué, plus son cours est volatil, et
réciproquement.
Cette volatilité se traduit mathématiquement par l’écarttype annualisé des rendements (mensuels) d'une série
historique (actif, fonds, indice) sur une période donnée
(au moins 30 mois).
Exemple 1 : (Données brutes)
Considérons l’évolution du cours de deux actions
françaises, AGF et Canal+.
Le graphique correspond au cours des deux actions sur
12 mois, de décembre 1999 à novembre 2000.
15
Tableau 1
1
2
3
4
5
6
7
8
9
10
11
12
13
Date
mardi 30/11/1999
jeudi 30/12/1999
lundi 31/01/2000
mardi 29/02/2000
vendredi 31/03/2000
vendredi 28/04/2000
mercredi 31/05/2000
vendredi 30/06/2000
lundi 31/07/2000
jeudi 31/08/2000
vendredi 29/09/2000
mardi 31/10/2000
jeudi 30/11/2000
Rendements
Rendements
Cours AGF simples Cours Canal+ simples
54.60
82.10
53.80
-0.0147
144.50
0.7600
50.15
-0.0678
166.50
0.1522
50.20
0.0010
293.00
0.7598
54.05
0.0767
230.00
-0.2150
54.65
0.0111
212.00
-0.0783
54.50
-0.0027
204.00
-0.0377
55.35
0.0156
176.00
-0.1373
55.70
0.0063
171.00
-0.0284
56.80
0.0197
183.90
0.0754
61.00
0.0739
169.70
-0.0772
64.50
0.0574
170.50
0.0047
71.50
0.1085
145.50
-0.1466
Les rendements simples ne sont pas additifs. Ils ne
conviennent pas pour le calcul statistique utilisant
moyenne et variance.
16
Exemple : vous placez un capital de départ de 1000. Le
rendement simple de la première année est de ‒ 50% et
celui de la seconde année de + 50%. Le rendement
global sur les deux ans est de – 25%, et non pas de
‒ 50% + 50% = 0 → non additifs →utiliser rendements
continus :
c  ln( 1  r )
Dans l’autre sens :
r  e c  1.
Exemple : vous placez un capital de départ de 1000. Le
rendement simple de la première année est de + 50% et
celui de la seconde année de ‒ 1/3 (– 33.33%). Le
rendement global sur les deux ans est de 0% :
Rendement
simple
Rendement
continu
Période 1
+ 0.5
Période 2
‒ 1/3
ln (1 + 0.5) =
+ 0.405465
ln (1 – 1/3) =
‒ 0. 405465
Rendement continu global : 0.405465 ‒ 0.405465 = 0,
ce qui, transformé en rendement simple, donne
0
également zéro : e  1  0 .
→ rendements simples pas cumulables pour le
rendement global
→ rendements continus cumulables
17
Tableau2
rendements simples et continus pour les deux actions
Mois 1
Mois 2
Mois 3
Mois 4
Mois 5
Mois 6
Mois 7
Mois 8
Mois 9
Mois 10
Mois 11
Mois 12
Moyenne des rendements ( x )
Ecart-type des rendements (s)
Moyenne mensuelle annualisée ( x p )
Ecart-type mensuel annualisé (sp)
AGF
simples continus
-0.0147 -0.0148
-0.0678 -0.0703
0.0010 0.0010
0.0767 0.0739
0.0111 0.0110
-0.0027 -0.0027
0.0156 0.0155
0.0063 0.0063
0.0197 0.0196
0.0739 0.0713
0.0574 0.0558
0.1085 0.1030
0.0225
0.0469
Canal+
simples continus
0.7600 0.5653
0.1522 0.1417
0.7598 0.5652
-0.2150 -0.2421
-0.0783 -0.0815
-0.0377 -0.0385
-0.1373 -0.1476
-0.0284 -0.0288
0.0754 0.0727
-0.0772 -0.0804
0.0047 0.0047
-0.1466 -0.1586
0.0477
0.2625
0.2697
0.1624
0.5722
0.9094
L’action Canal+ a été plus rentable mais aussi nettement
plus volatile que l’action AGF
18
Exemple 2 : (Données groupées en classes)
Deux fonds de placement A et B. Les cours ont été
relevés en fin de mois, sur quatre ans (48 mois).
Tableau 3
Rendements (continus) des deux fonds
Fonds A
Fonds B
mi ni
(exact)
< -1.5%
-0.0299 2 < -1.5%
[ -1.5%, -1% [
-0.0121 3 [ -1.5%, -1% [
[ -1%, -0.5% [
-0.0081 4 [ -1%, -0.5% [
[ -0.5%, 0% [
-0.0029 5 [ -0.5%, 0% [
[ 0%, 0.5% [
0.0021 7 [ 0%, 0.5% [
[ 0.5%, 1% [
0.0073 8 [ 0.5%, 1% [
[ 1%, 1.5% [
0.0129 8 [ 1%, 1.5% [
[ 1.5%, 2% [
0.0176 7 [ 1.5%, 2% [
[ 2%, 2.5% [
0.0222 3 [ 2%, 2.5% [
> 2.5%
0.0477 1
> 2.5%
Moyenne des
rendements ( x )
Ecart-type des
rendements (s)
Moyenne mensuelle
annualisée ( x p )
Ecart-type mensuel
annualisé (sp)
mi
(exact)
-0.0289
-0.0128
-0.0071
-0.0022
0.0025
0.0079
0.0139
0.0166
0.0228
0.0472
k
x   f i mi
0.0056
i 1
s [
0.0072
n k
f i (mi  x ) 2 ]1 / 2

n  1 i1
0.0136
0.0193
x p  12 x
0.0677
0.0472
0.0869
s p  12  s
0.0670
19
ni
5
4
3
3
4
6
8
6
5
4
Ratio de Sharpe
Permet de comparer différents placements en fonction
de leurs couples rendement / risque.
Sh p 
xp  Rf
sp
x p : rendement moyen mensuel annualisé
Rf : rendement de l'avoir sans risque
sp : écart-type mensuel annualisé (risque).
 Lorsqu’il est positif, un Shp plus élevé est
"meilleur" qu'un Shp bas.
 Un Shp négatif indique un placement dont le
rendement a été inférieur à celui de l'avoir sans
risque (référentiel) ; la situation est mauvaise.
 Un Shp inférieur à 1 indique un placement dont
l'excédent de rendement par rapport au taux sans
risque est inférieur au risque pris. Autrement dit, le
risque pris est trop élevé pour le rendement obtenu.
 Si Shp est plus grand que 1, le placement
surperforme l’avoir sans risque. La surperformance
de l’actif concerné ne se fait pas au prix d'un risque
trop élevé.
20
Ratio Shp du fonds A pour un rendement annuel de
l’avoir sans risque de 2 % :
Shp 
xp  Rf
sp

0.0677  0.02
 1.0106
0.0472
Ratio Shp du fonds B pour un rendement annuel de
l’avoir sans risque de 2 % :
Shp 
xp  Rf
sp

0.0869  0.02
 0.9985
0.0670
→ Shp légèrement meilleur pour le fonds A
→ proche de l’unité pour les deux fonds, quasi
équivalents
21
Diagramme en boîte ou « box-plot »
Nous renseigne sur les caractéristiques essentielles
d’un jeu de données :




le centre
la dispersion
la symétrie
l’existence – ou non – de données atypiques
Q1, Q2 et Q3 et Q
Q1 et Q3


Diagramme en boîte
boîte centrale
Q2 : se trouve dans la boîte
Donnée atypique :
 à droite : si elle est plus grande que Q3 + 3Q
 à gauche : si elle est plus petite que Q1 – 3Q,
Moustaches
 à droite : s’arrête à la plus grande donnée non
atypique
 à gauche : s’arrête à la plus petite donnée non
atypique
22
Exemple 1:
Consommation mensuelle d’une boisson gazeuse
N°
modalité
1 2
8 10
3
7
4
6
5
3
6
5
7 8
7 13
9 10
6 9
N° 11 12 13 14 15 16 17 18 19 20
modalité 0 4 14 9 3 7 8 6 8 5
N° 21 22 23 24 25 26 27 28 29 30
modalité 3 9 6 5 8 10 7 6 3 9
N° 31 32 33 34 35 36 37 38 39 40
modalité 4 7 8 6 8 5 8 5 3 9
Résumé
Q1
5
Q2
7
Q3
8
Q
1.5
Diagramme en boîte
Cons ommation
-2
11
0
8
2
4
6
8
10
12
13
14
16
23
Diagramme en boîte
11
Cons ommation
-2
8
0
2
4
6
8
10
12
13
14
16
Histogramme
14
12
10
8
6
4
Std. Dev = 2,77
2
Mean = 6,7
N = 40,00
0
0,0
2,5
5,0
7,5
10,0
12,5
15,0
Consommation
24
Exemple 2 : Le cas des vins de Bordeaux
Individus : les millésimes
Variables:
 qualité du vin : (1 = bonne ; 2 = moyenne ;
3 = inférieure)
 température : (somme des températures
moyennes en degrés)
 soleil : (durée d’insolation en heures)
 chaleur : (nombre de jours de grande chaleur)
 pluie : (hauteur des pluies en millimètres)
N.B. : La qualité du vin est une variable qualitative
ordinale, alors que température, soleil, chaleur et
pluie sont des variables quantitatives.
25
Les vins de Bordeaux : tableau individus/variables
Année Qualité Température Soleil Chaleur Pluie
1924
2
3064 1201
10
361
1925
3
3000 1053
11
338
1926
2
3155 1133
19
393
1927
3
3085
970
4
467
1928
1
3245 1258
36
294
1929
1
3267 1386
35
225
1930
3
3080
966
13
417
1931
3
2974 1189
12
488
1932
3
3038 1103
14
677
1933
2
3318 1310
29
427
1934
1
3317 1362
25
326
1935
3
3182 1171
28
326
1936
3
2998 1102
9
349
1937
1
3221 1424
21
382
1938
2
3019 1230
16
275
1939
2
3022 1285
9
303
1940
2
3094 1329
11
339
1941
3
3009 1210
15
536
1942
2
3227 1331
21
414
1943
1
3308 1366
24
282
1944
2
3212 1289
17
302
1945
1
3361 1444
25
253
1946
2
3061 1175
12
261
1947
1
3478 1317
42
259
1948
2
3126 1248
11
315
1949
1
3458 1508
43
286
1950
2
3252 1361
26
346
1951
3
3052 1186
14
443
1952
1
3270 1399
24
306
1953
1
3198 1259
20
367
1954
3
2904 1164
6
311
1955
1
3247 1277
19
375
1956
3
3083 1195
5
441
1957
3
3043 1208
14
371
Moyennes et écart-types des variables en fonction de la qualité
Qualité
Effectif
Température
Soleil
Chaleur
Pluie
1
11
3306 (92)
1364 (80)
29 (9)
305 (52)
2
11
3141 (100)
1263 (72)
16 (7)
340 (55)
3
12
3037 (69)
1126 (88)
12 (6)
430 (104)
Total
Total
34
3158 (141)
1247 (127)
19 (10)
360 (91)
26
Distributions des variables météorologiques en
fonction de la qualité du vin (1, 2 ou 3) :
Température
3600
3500
3400
3300
3200
3100
Temp
3000
2900
2800
N=
11
11
12
1,00
2,00
3,00
Qualité
Soleil
1600
1500
1400
1300
1200
Soleil
1100
1000
900
N=
11
11
12
1,00
2,00
3,00
Qualité
27
Chaleur
50
40
30
12
20
Chaleur
10
0
N=
11
11
12
1,00
2,00
3,00
Qualité
Pluie
800
700
600
500
400
300
Pluie
200
100
N=
11
11
12
1,00
2,00
3,00
Qualité
28
Mesures de forme
Qu’est-ce qui nous intéresse lorsqu’on a des données ou
une distribution ?




Le centre
La dispersion
La symétrie
L’aplatissement et les données atypiques
Le coefficient de dissymétrie
Mesurer la symétrie ou la dissymétrie par rapport à un
axe central.
Le coefficient de dissymétrie de Pearson:
CD 
3(   Q2 )

Généralement :
(pop.)
CD 
3( x  Q2 )
s
(échant.)
 1  CD  1.
 CD  0 si la distribution est étalée à gauche
(biais négatif)
 CD  0 si la distribution est symétrique (non
biaisée)
 CD  0 si la distribution est étalée à droite
(biais positif)
29
Intuitivement :
Un histogramme étalé à droite signifie qu’un nombre de
plus en plus restreint de données sont situées à droite de
la distribution et sont très éloignées du mode.
La moyenne μ (non robuste) est aspirée vers la droite.
 Q2 (robuste) glisse à droite, mais moins que μ.

(Ouellet pp.116, 117)
La définition du CD se justifie ainsi :
D’après la relation empirique de Pearson, on a
  Mo  3  Q2 
CD 
3(   Q2 )

Mo

(population)
  Mo
.

μ
30
   Mo mesure un étalement absolu
 Il faut le rapporter à une grandeur adéquate pour avoir
un étalement relatif.  division par  .
Si la distribution est étalée à gauche, la moyenne est
plus petite que le mode et CD est négatif.
Si la distribution est étalée à droite, la moyenne est plus
grande que le mode et CD est positif.
Le coefficient d’aplatissement
CA 
C75  C25
Q

C90  C10 2(C90  C10 ) .
Q
C75  C 25
2
Loi normale centrée réduite (loi de Gauss,) :
µ-σ
µ
µ+σ
x
31
C10  1.2816
C25  0.6745
C75  0.6745
C90  1.2816

CA  0.263 .
Comme c’est la loi normale qui sert d’étalon pour les
distributions, on dira que :
 la distribution est plus relevée que la normale
lorsque CA  0.263
 la distribution est normalement aplatie lorsque
CA  0.263
 la distribution est plus aplatie que la normale
lorsque CA  0.263 .
Courbe relevée
Courbe normalement étalée
Courbe aplatie
32
La cote Z
On s’intéresse à une variable X.
Première utilisation :
Comparer des individus lorsqu’ils proviennent de
populations différentes.
Deux individus A et B appartiennent à deux populations
distinctes. Qui, de A ou de B, se distingue-t-il le plus
par rapport à sa propre population ?
 transformation linéaire de la variable X :
Z
X 


1

X

 .
 A : individu provenant d’une population où X a pour
moyenne  1 et pour écart-type  1 .
 B : individu provenant d’une population où X a pour
moyenne  2 et pour écart-type  2 .
xA : valeur que prend X sur l’individu A.
xB : valeur que prend X sur l’individu B.
33
Comparer directement xA et xB n’a pas beaucoup de
sens, car ces valeurs appartiennent à des distributions
différentes.
On comparera plutôt les cotes Z :
zA 
x A  1
1
et
zB 
xB   2
2
.
 Populations doivent être assez nombreuses (> 30)
 Distributions de X sur les deux populations : doivent
être de forme assez semblable.
Exemple :
Deux classes d’étudiants, C1 et C2 ; examen portant sur
une même matière.
Cas 1 :
C1 :
C2 :
  4,
  5,
  1.
  1.
Anne est élève de C1, Benoît de C2, tous deux font la
note 5.5.
34
Qui, d’Anne ou de Benoît, se distingue-t-il le plus au
sein de sa classe respective ?

Anne, car
z Anne 
5.5  4
 1.5
1
et
z Benoît 
5.5  5
 0.5 .
1
Il est naturellement d’autant plus « remarquable »
d’avoir 5.5 que la moyenne de la classe est basse.
Cas 2 :
C1 :   4,   1 .
C2 :   4,   2 .
Anne est élève de C1, Benoît de C2, tous deux font la
note 5.5.
Qui, d’Anne ou de Benoît, se distingue-t-il le plus au
sein de sa classe respective ?

Anne, car
z Anne 
5.5  4
 1.5
1
et
z Benoît 
5.5  4
 0.75 .
2
Il est plus « remarquable » de faire 5.5 si la distribution
des notes est peu dispersée autour de 4.
35
Deuxième utilisation :
Dans une population donnée, comparaison de la
situation d’un individu par rapport à la moyenne
A : individu provenant d’une population sur laquelle est
définie une variable X avec paramètres  et  .
Remplacer  par x et  par s si échantillon.
xA : valeur que prend X sur l’individu A.
Interprétation :
 est l’unité mesurant l’éloignement de xA par rapport
à .
Comment déterminer le nombre d’écart-types séparant
xA de  ?
Poser
x A    z A
et donc
zA 
xA  

.
36
  10 et
Exemple :
 Si xA = 15, alors
zA 
 2
15  10
 2.5
2
xA se trouve à 2.5 écart-types au-dessus de la moyenne.
 Si xA = 6, alors
zA 
6  10
 2
2
xA se trouve à 2 écart-types au-dessous de la moyenne.
Un individu (ou la modalité lui correspondant) dont la
cote Z est inférieure à –2 ou supérieure à 2 est
relativement éloigné de la moyenne de la distribution.
En effet, si la distribution de la variable
est normale seuls 5 % environ des individus ont une
cote Z inférieure à –2 ou supérieure à 2.
Un individu dont la cote Z égale 3, 4 ou 5 (ou –3, –4 ou
–5) est considéré comme très éloigné du centre de la
distribution.
37
Mesure du lien linéaire entre 2 variables
quantitatives
Le coefficient de corrélation (Bravais-Pearson)
Utilisé dans les sciences physiques ou humaines. En
économie, dans les méthodes quantitatives de la gestion
ou de la finance.
En finance, lorsqu’on veut mesurer l’exposition au
risque pour un portefeuille. Un portefeuille diversifié est
moins risqué qu’un portefeuille que ne l’est pas.
→ Outil adéquat pour mesurer le degré de
diversification : le coefficient de corrélation entre les
actions qui le composent.
Mesure du lien linéaire entre deux variables
quantitatives X et Y
Il y a corrélation entre deux variables quantitatives
X et Y si celles-ci varient ensemble de manière linéaire
(cf. Ouellet page 419)
X  (x1, x2,…, xi,..., xn)
Y  (y1, y2,…, yi,..., yn)
38
Taille et poids mesurés sur les mêmes individus
Tableau individus / variables :
X
Y
Individu 1
x1 y1
Individu 2
x2 y2



Individu i
xi
yi



Individu n xn yn
Chaque couple de modalités ( xi , yi ) repère un point dans
le plan.
xi  première coordonnée
yi  deuxième coordonnée
n points ( xi , yi )

diagramme de dispersion ou nuage
de points.
Excel nous permet de réaliser très facilement de tels
graphiques.
39
Y
Y
r ≈1
X
X
Y
Y
r = 0.9
r ≈-1
r = -0.9
X
Y
Y
X
r=0
r = -0.4
X
X
Coefficient de corrélation : indice de l’intensité du lien
linéaire entre X et Y
n
r
 ( x  x )( y
i
i 1
i
n
 y)
n
(x  x)  ( y
2
i 1
i
i 1
i
 y )2
40
–1  r
Excel
onglet


1,
r
fx : « Coller une fonction »  Statistiques
coefficient.correlation

 r > 0 : à de grandes valeurs de X correspondent de
grandes valeurs de Y, et à de petites valeurs de X
correspondent de petites valeurs de Y.
 r < 0 : à de grandes valeurs de X correspondent de
petites valeurs de Y, et à de petites valeurs de X
correspondent de grandes valeurs de Y.
 r(X,Y) = r(Y, X)
 r est invariant par rapport à l’échelle tant de X que de
Y (francs, $ ; kg, tonnes)
 r(X,Y) = r(aX+d, cY+b)
au signe près
 r = – 1 : les points ( xi , yi ) du nuage sont alignés sur
une droite descendante.
 r = + 1 : les points ( xi , yi ) du nuage sont alignés sur
une droite ascendante.
41
Exemple :
Echantillon aléatoire de 12 villes américaines parmi les
75 où une très grande chaîne de magasins (Excelsior
Department store) est implantée.
Étude de la force du lien linéaire entre
Y : les ventes annuelles (en millions de $) et
X : l’emploi (en centaines d’employés).
Tableau des données et résultats intermédiaires
yi ( xi  x ) ( y i  y ) ( xi  x )( yi  y ) ( xi  x ) 2
xi
Abilene
22 250
Alexandria 31 200
Charleston 90 980
Evansville 82 850
Fort Smith 43 710
Jackson
65 280
Roanoke
59 630
Sante Fe
16 180
St Joseph 61 670
Springfield 46 420
Texarkana 35 190
Waco
50 460
Total
600 5820
n
r
 (x
i
i 1
n
 (x
i 1
i
-28
-19
40
32
-7
15
9
-34
11
-4
-15
0
-235
-285
495
365
225
-205
145
-305
185
-65
-295
-25
 x )( yi  y )
n
 x )   ( yi  y ) 2
2
6580
5415
19800
11680
-1575
-3075
1305
10370
2035
260
4425
0
57220

( yi  y ) 2
784 55225
361 81225
1600 245025
1024 133225
49 50625
225 42025
81 21025
1156 93025
121 34225
16
4225
225 87025
0
625
5642 847500
57'220
 0.8275
5'642  847500
i 1
42
Remarque 1 :
r peut également être défini à partir du coefficient de
covariance :
1 n
Cov( X , Y ) 
( xi  x )( yi  y ) .

n  1 i 1
On a alors :
r
Cov( X , Y )

s X sY
1 n
( xi  x )( yi  y )

n  1 i1
n
n
 (x  x)  ( y
2
i 1
i
n 1
i 1
i
 y)2 .
n 1
Remarque 2 :
Erreur courante : confondre corrélation et causalité
entre deux variables ou deux phénomènes.
L'existence d'une corrélation entre deux variables ne
signifie pas nécessairement que l'une influe directement
sur l'autre.
Par exemple, la corrélation est positive entre le loyer
payé par les ménages et la longueur de leurs vacances
d’hiver. Cela ne signifie pas qu’une augmentation des
43
loyers entraînerait un allongement du temps consacré
aux vacances hivernales ! ! !
La corrélation positive est due à une cause commune
aux deux phénomènes étudiés : le niveau des ressources.
Les gens de revenu élevé vivent dans des appartements
de loyer élevé et ont les moyens de se rendre aux sports
d’hiver.
Pour qu’il existe une relation causale entre X et Y, il faut
en plus de l’observation d’une corrélation entre elles un
argument extérieur, non exclusivement statistique.
La corrélation entre le nombre de cigarettes fumées (X)
et la probabilité de développer un cancer du poumon (Y)
ne suffisait pas à démontrer formellement le lien causal
entre les deux variables. Le lien fut établi définitivement
par la découverte du mécanisme par lequel la fumée fait
muter la cellule.
En bref ...
lorsque deux variables sont corrélées,
 soit elles sont effectivement liées par une relation
causale (lien fort), mais il faut encore démontrer le
lien causal par des arguments autres que statistiques
 soit elles évoluent simplement de manière parallèle
parce qu’une ou plusieurs variables extérieures
influencent à la fois X et Y (lien faible).
44
La concentration
Éléments techniques
Milieu de classe ou centre calculé :
Δi  [ ai , bi [
mi =
ai  bi
2
.
Supposons qu’une variable X prenne ni valeurs dans Δi :
xi1 , xi 2 , xij , xini .
Centre exact :
1
xi 
ni

ni
x
j 1
ij
moyenne des modalités tombant dans
Δi .
mi est une approximation de xi
Si possible utiliser les centres exacts
Dans les formules on notera mi aussi bien le centre
exact que le centre calculé.
45
Exemple :
Population = classe d’étudiants ; X = poids ; Δi = [60 ,
65 [.
 Si X

60, 62, 63, 64,
xi1 xi2 xi3 xi4
(ni = 4)
répartition homogène
mi 
xi =

60  65
 62.5
2
60  62  63  64
 62.25
4
bonne approximation
 Si X

60, 60, 60, 60,
répartition non homogène
mi = 62.5 : mauvaise approximation de xi  60
En pratique les résultats des calculs ne diffèrent guère.
Le centre calculé d'une classe ouverte n'est pas défini.
46
Exemple :
Δ8  [500 , [
« 500 et plus »
m8 
500  

2
centre calculé n’existe pas. L’instance publiant la
distribution donne le centre exact xi ou la masse absolue
exacte xi ni pour cette classe.

Grandeurs synthétiques (ou composées)
Masse absolue et masse relative d’une classe :
Δi  [ ai , bi [ La masse absolue de Δi est définie par
mini
 Si mi est le centre exact, mini est la somme des
modalités tombant dans Δi .
 Si mi est le centre calculé, mini est une
approximation de cette somme.
Du point de vue de l’interprétation, mini représente le
poids, l'importance de Δi .
47
Si X = « salaire », mini représente la masse salariale de
Δi .
k
n   ni
i 1
fi 
(effectif global)
ni
n
( fréquence
relative)
mifi
est appelée masse relative de Δi .
Pas d’interprétation claire. Juste utilisée pour le calcul.
Masse absolue totale
k
MAT   mi ni
i 1
somme de l’ensemble des modalités de la variable si
les
mi sont exacts
 approximation de cette somme si les mi sont calculés.

Masse relative totale
k
MRT   mi f i
i 1
moyenne de l’ensemble des modalités de la variable
si les mi sont exacts
 approximation de cette moyenne si les mi sont
calculés.

48
Part de la classe i à la masse absolue totale
Utilisée pour le calcul des indicateurs de concentration :
qi 
mi ni
mn
( k i i )
.
MAT
m
n
 ii
i 1
Peut aussi être calculée avec les fréquences relatives :
qi 
mi f i
m f
( k i i )
MRT
.
m
f
 i i
i 1
En effet,
ni
mn
n  mi f i
qi  k i i 

k
k
ni
.
1 k
mi n i
mi n i  mi
mi f i



n i 1
n
i 1
i 1
i 1
1
mi n i
n
mi
Interprétation : importance relative de la classe i dans
l’ensemble des classes.
Si X est le salaire, q i sera la proportion de la masse
salariale totale représentée par la classe i.
La somme des qi est l'unité :
k
k
mi n i
1 k
MAT
q
i


m
n

 1.



i i
MAT i 1
MAT
i 1
i 1 MAT
49
La notion de concentration
La concentration : accumulation de beaucoup de biens
(salaires, revenus, fortunes, surfaces agricoles, capital)
entre les mains de peu d’individus (personnes, ménages,
entreprises agricoles, entreprises).
L’emploi est concentré si une grande proportion des
travailleurs sont employés par peu d’entreprises.
La distribution des points lors d’un examen est
concentrée si une petite proportion des étudiants
réussissent une forte proportion des points attribués.
Tableau 1
Concentration du patrimoine
(France, 2000)
Part du patrimoine détenu par
Les 3 % les plus riches :
Les 5 % les plus riches :
Les 10 % les plus riches :
Les 25 % les plus riches :
Les 50 % les plus riches*:
27 %
34 %
46 %
69 %
91 %
* ces pourcentages être lus dans l’autre sens, e.g. les 50
% les moins riches possèdent 9 % du patrimoine.
10 % d'Américains (qui ont gagné le plus) en 2006 ont
gagné 48.5 % de tous les revenus (New York Times)
50
Cas extrêmes :
 La concentration (ou inégalité) sera maximale si
99.99 % des individus d’une population ne possèdent
presque rien d’un bien et donc 0.01% en possèdent
presque l’entier.   le coefficient de Gini est
proche de 1.
 Absence totale de concentration s’il y a équirépartition.  le coefficient de Gini est égal à 0.
Outils pour étudier la concentration :
 la courbe de Lorenz (graphique)
 l’indice de Gini (mesure).
Analyse de la concentration : la courbe de Lorenz
La courbe de Lorenz (et l’indice de Gini) peuvent être
appliqués à la distribution de toute variable quantitative
X – continue ou discrète – pouvant être représentée
sous la forme d’un histogramme.
Distribution d'une variable statistique quantitative X .
Les données sont réparties dans k classes :
Δ1 , Δ 2 ,, Δi ,, Δ k .
51
Construction de la courbe
Placer dans le plan les points
( Fi , Qi ),
i  1,2,, k
Fi  f1  f 2    f i : fréquence relative cumulée de ∆i
Qi  q1  q2    qi : part à la masse totale cumulée
de ∆i
( F0 , Q0 )  (0,0)
( Fk , Qk )  (1,1)

relier les points par un segment de droite
Graphique 1
La courbe de Lorenz
(0.1)
(1,1)
C.L.
(Fi, Qi)
(0,0)
(1,0)
52
Propriétés
On peut démontrer que la courbe de Lorenz
 est non décroissante
 est au-dessous de la diagonale ( Q
 est convexe
i
 Fi
)
Interprétation
Courbe se confond avec la diagonale : équi-répartition
(absence totale de concentration).
Si X = salaire : chaque employé dispose du même
salaire : 10 % des salariés reçoivent 10 % de la masse
salariale totale, 20 % reçoivent 20 %, etc.

Qi  Fi
X = nombre d’employés dans divers établissements :
absence de concentration veut dire que tous les
établissements occupent le même nombre de personnes.
Courbe proche du fond de la boîte : inégalité (ou
concentration) totale : un seul individu dispose de tous
les biens, salaires ou revenus. Une seule entreprise
occuperait tous les travailleurs du pays.
La réalité est toujours entre ces deux extrêmes.
53
Interpolation linéaire
On a toujours z  x (car courbe en dessous de la
diagonale)
d
z
c
a
x
b
a, b, c et d : connues
Thalès :
z c xa

d c ba .
Supposons X = salaire. La courbe de Lorenz permet de
répondre aux questions suivantes :
1. Quelle est la part à la masse salariale totale gagnée
par les x % des salariés gagnant le moins ?
(x est connue, de même que a, b, c et d) :
z
( x  a)  (d  c)
c.
ba
54
2. A l'inverse, connaissant z, on peut calculer x : quelle
est la proportion de personnes (ayant forcément un
salaire inférieur) gagnant z % de masse salariale ?
(z est connue, de même que a, b, c et d) :
x
( z  c)  (b  a )
a
d c
Remarque (courbe de Pareto)
Deux différences avec celle de Lorenz :
 S'établit à partir d'une série de données au lieu d'une
distribution.
 Construite selon un ordre décroissant au lieu d'un
ordre croissant  au-dessus de la diagonale. Utilisée
notamment en gestion des stocks (de supermarchés,
de pharmacies, etc.) où elle intervient dans la méthode
dite ABC. Permet de répondre à des questions du
type :
1. Quel pourcentage des articles permet-il de faire
z = 80% du bénéfice ?
Réponse : x %.
2. Quel pourcentage du bénéfice les x = 20% des
articles les plus lucratifs représentent-ils ?
Réponse : z %.
55
Assez souvent : règle empirique du 20/80 : avec 20%
des articles, on fait 80% du bénéfice.
Stratégie ABC : contrôle serré (et donc coûteux) sur un
petit nombre d'articles de forte valeur. D'où un gain sur
le coût du contrôle serré (lequel se limite à un petit
nombre d'articles) et un gain sur le capital immobilisé
(le nombre d'articles chers stockés est sous contrôle,
donc maintenu à un niveau inférieur).
Indice de concentration de Gini :
Mesure du degré d'inégalité (ou concentration)
Corrado Gini (1884 – 1965) : statisticien, démographe
et sociologue. Etudie les inégalités de revenus.
0  Gini  1


concentration nulle concentration extrême
égalité absolue
inégalité absolue
Gini 
surface de concentrat ion
surface du Δ inférieur
56
Graphique 2
Surface de concentration (A) et surface
du triangle inférieur (B)
Fi 1 : fréquence relative cumulée de la classe i – 1
F0  0
m f (F  F

Gini 
mf
i i
)
i 1
i
1
i i
  mifiFi  mifiFi  1 
 1
Gini  

  mifi
 mifi  ,

Utilité
Comparaison
 d'inégalités dans le temps (revenus, salaires, capital,
terre)
 d'inégalités dans l’espace (cantons, pays, entreprises)
57
Inconvénient : un peu réducteur. Différentes courbes de
Lorenz peuvent aboutir à un même indice de Gini, alors
qu’elle correspondent à des situations différentes.
Exemples : l’indice de Gini comme outil d’analyse
Graphique 3
Comparaison chronologique de l’inégalité avant impôts aux
États-Unis et en France
Source : INSEE 2007
Suisse : répartition régionale des revenus
Les plus grandes inégalités sont observées dans certains
cantons à revenus élevés – Schwyz (0.48), Genève
(0.48) et Zoug (0.46) – et faibles – Valais (0.45) et
Grisons (0.44). C'est dans le canton d'Uri, où les
revenus sont également faibles, qu'ils sont répartis de la
façon la plus égale (0.30). Gini vaut 0.40 à l'échelle de
la Suisse.
58
Suisse : répartition régionale des fortunes
Répartition de la fortune nettement plus inégale que
celle des revenus (inégalités se cumulent avec le temps).
Plus grandes inégalités dans les cantons de Vaud (Gini
= 0.91) et de Bâle-Ville (0.90); c'est le canton d'Uri qui
présente la moins forte concentration des fortunes
(0.69).
Monde : répartition internationale des revenus
Les pays historiquement égalitaires en matière de
revenu ont un coefficient de l'ordre de 0.2 (Bulgarie,
Hongrie, Slovaquie, Tchèquie, Pologne,...). Les pays les
plus inégalitaires au monde ont un coefficient de 0.6
(Brésil, Mexique, Guatémala, Honduras, Panama,...). En
France, le coefficient de Gini était de 0.36 en 2004.
Celui de la Chine est en train de monter et dépasse
maintenant 0.5, alors que le coefficient suédois est de
0.25. On note avec intérêt qu’en Chine, le coefficient de
Gini est passé de 0.28 à près de 0.5 entre 1982 et 2005,
passant en vingt ans du niveau de la Suède à celui du
Brésil.
59
Étude de cas : la fortune imposable dans le canton de
Fribourg
Calcul de l’indice de Gini
Tableau 2
Fortune imposable en milliers de francs dans le cas des
contribuables physiques acquittant un impôt cantonal
(Fribourg : 2003). Calcul de l’indice de Gini.
i
mi
[0, 20[
1105
[20, 100[ 50022
[100, 200[ 145783
[200, 300[ 244658
[300, 400 [ 345782
[400, 500 [ 445449
[500, 600 [ 546214
[600, 700 [ 647727
[700, 800 [ 747153
[800, 900 [ 844845
[900,1000[ 945829
 1000 3507587
Total
ni
fi
87'551
14'671
12'712
6'854
3'842
2'289
1'468
897
715
513
401
2'279
134'192
0.65
0.11
0.09
0.05
0.03
0.02
0.01
0.01
0.01
0.00
0.00
0.02
mifi
Fi Fi-1 mifiFi mifiFi-1
721 0.65 0
470
5469 0.76 0.65 4166
13810 0.86 0.76 11828
12496 0.91 0.86 11341
9900 0.94 0.91 9268
7598 0.95 0.94 7243
5975 0.96 0.95 5761
4330 0.97 0.96 4204
3981 0.98 0.97 3886
3230 0.98 0.98 3165
2826 0.98 0.98 2778
59570 1.00 0.98 59570
129’906
123’682
0
3568
10520
10703
8985
7114
5696
4175
3865
3153
2770
58558
119’106
N.B. : les centres exacts ont été publiés par le SCC
  mifiFi  mifiFi  1 
  1  123'682  119'106  1  0.869
Gini  

  mifi
129'906 129'906
 mifi 

60
Tableau 3
X=Fortune imposable(francs) dans le cas des contribuables physiques
acquittant un impôt cantonal. Valeurs du centre, de la dispersion
(exprimées en francs constants de 2003) et indice de Gini
(Fribourg : 1981 – 2003)
1981
1983
1985
1987
1989
1991
1993
1995
1997
1999
2001
2003
Mode
13'870
13'768
11'310
11'212
11'180
11'178
11'280
11'300
11'277
11'244
10'946
10'915
Q2
18'326
18'957
15'279
14'977
15'020
15'171
16'325
16'476
16'438
16'365
15'448
15'328
μ
60'886
74'581
73'416
77'032
82'908
88'903
107'754
115'042
119'618
124'491
124'557
129’906
σ
106'682
166'438
189'183
220'180
245'887
267'140
305'358
333'502
352'053
372'283
372'001
467'619
Gini
0.625
0.664
0.722
0.741
0.753
0.761
0.759
0.766
0.773
0.781
0.793
0.869
Moyenne, médiane, mode, écart-type sont évalués dans
les mêmes unités que X  doivent être corrigés de
l’inflation, exprimés en francs constants (ici 2003).
X = fortune nominale d’une des années précédant 2003
Y = fortune réelle (la même fortune, mais en francs
constants de 2003)
Y  aX ,
I 2003
a
It
61
Mode(Y) = a Mode(X)
Md(Y) = a Md(X)
Y  a X
Y  a X .

inutile d’établir la distribution de Y pour chacune des
années 1981,1983,...,2001.
Le coefficient de Gini est un ratio (grandeur sans
unité) : il n’est pas mesuré en francs, donc ne doit pas
être déflaté.
La transformation linéaire Y  aX le laisse inchangé :
GiniY = GiniX.
GiniY 
 am f (F  F
 am f
i i
i 1
i
)
1 
i i

 m f (F  F
m f
i i
)
i 1
i
i i
a mi fi ( Fi  Fi1 )
a mi f i
1
 1  GiniX
62
Courbe de Lorenz de la fortune imposable
Tableau 4
Fortune imposable dans le cas des contribuables physiques
acquittant un impôt cantonal (Fribourg : 2003).
Construction de la courbe de Lorenz.
i
mi
ni
fi
Fi
mifi
[0, 20[
1105 87'551 0.65 0.65 721
[20, 100[ 50022 14'671 0.11 0.76 5469
[100, 200[ 145783 12'712 0.09 0.86 13810
[200, 300[ 244658 6'854 0.05 0.91 12496
[300, 400 [ 345782 3'842 0.03 0.94 9900
[400, 500 [ 445449 2'289 0.02 0.95 7598
[500, 600 [ 546214 1'468 0.01 0.96 5975
[600, 700 [ 647727 897 0.01 0.97 4330
[700, 800 [ 747153 715 0.01 0.98 3981
[800, 900 [ 844845 513 0.00 0.98 3230
[900,1000[ 945829 401 0.00 0.98 2826
 1000 3507587 2'279 0.02 1.00 59570
Total
134'192 1
129’906
qi 
mi f i
 mi f i
0.01
0.04
0.11
0.10
0.08
0.06
0.05
0.03
0.03
0.02
0.02
0.46
1
Qi
0.01
0.05
0.15
0.25
0.33
0.38
0.43
0.46
0.49
0.52
0.54
1.00
63
Graphique 4
Fortune imposable dans le cas des contribuables physiques
acquittant un impôt cantonal (Fribourg ). La courbe de
Lorenz correspondant à l’année 2003 et aux données du
tableau 4 est la plus éloignée de l’égalité. La courbe de
Lorenz la plus proche de l’égalité est celle de 1981.
On observe un glissement des fortunes vers plus de
concentration.
Part cumulée fortune imposable
Courbe de Lorenz : fortune imposable cantonale
100%
80%
60%
40%
20%
0%
0%
25%
50%
75%
100%
Part cumulée des contribuables
Egalité parfaite
1981
1991
2001
2003
64
Téléchargement