quelques_diamants

publicité
Exploration d’un fichier de données
Valérie Fontanieu - Ingénieur statisticien
Institut National de Recherche Pédagogique
Les diamants
Prix et caractéristiques
Données parues dans le Singapore’s Business Times du 18 février 2000
Accessibles sur :
http://www.amstat.org/publications/jse/jse_data_archive.html
Ce document présente les premiers résultats de l’exploration d’un fichier de
données à l’aide des méthodes de statistique descriptive (uni- et bi-dimensionnelle)
et quelques explications sur les résultats couramment proposés par les logiciels de
traitement et d’analyse de données statistiques.
Des parties de ce fichier peuvent être utilisées pour illustrer des définitions de
termes couramment utilisés en statistique descriptive.
1
Sommaire
1 - Les données : le prix et 4 variables caractérisant les diamants
2 - Le tableau des données
3 - Description d’une variable quantitative : les résumés numériques
4 - Représentation graphique synthétique : le boxplot
5 - Représentation de la distribution des valeurs : l’histogramme
6 - Représentation des fréquences cumulées : la fonction de répartition
7 - Description d’une variable qualitative : le tri à plat
8 - Représentations graphiques : les diagrammes en colonnes et secteurs
9 - Description simultanée de deux variables quantitatives : le nuage de points
10 - Description simultanée d’une variable quantitative et d’une variable qualitative
11 - Description simultanée de deux variables qualitatives : la table de contingence
Annexes
A - Les résumés numériques
B - Le boxplot
C - Le coefficient de corrélation linéaire et la régression linéaire
1 - Les données : le prix et 4 variables caractérisant les diamants
- Carats : le poids du diamant exprimé en carats (1 carat = 0,20g)
- Couleur : l’échelle de graduation de la couleur s’étend de la lettre D à la lettre Z, de la teinte la plus incolore vers une
teinte jaune et même parfois d’autres teintes (bleu, vert…) ; dans cet échantillon les diamants appartiennent aux 6
premières catégories :
D
E
F
G
H
I
Blanc exceptionnel +
Blanc exceptionnel
Blanc rare +
Blanc rare
Blanc
Blanc légèrement teinté +
- Clarté : indique la présence plus ou moins importante d’imperfections (11 catégories) ; dans l’échantillon les diamants
sont caractérisés par 5 catégories parmi les mieux classées, de la plus grande clarté vers la présence croissante
d’imperfections et d’inclusions :
IF
VVS1
VVS2
VS1
VS2
Internally Flawless - absence d’inclusions mais minuscules imperfections de surface
Very Very Small inclusions - minuscules inclusions et éventuellement minuscules imperfections de surface
imperfections de surface légèrement plus présentes que VVS1
Very Small inclusions - petites inclusions et éventuellement petites imperfections de surface
imperfections de surface légèrement plus présentes que VS1
- Certification : 3 instituts de certification :
GIA
HRD
IGI
Gemological Institute of America
Hoge Raad voor Diamant
International Gemological Institute
- Prix en dollars
Remarque : Ces variables n’apporte pas le même type d’information. Le poids en carats, la couleur et la clarté sont des
attributs des diamants. Ces caractéristiques intrinsèques sont évaluées par un institut de certification qui établit un
certificat, garantissant l’exactitude des informations. Le prix quant à lui est estimé par le vendeur et est vraisemblablement
établi en fonction des caractéristiques des diamants.
2 - Le tableau des données
La structure des données usuellement proposée dans les logiciels est celle d’un tableau croisant, les individus
(diamants) en ligne, et les variables (carats, couleur…) en colonne.
Les variables sont observées sur un échantillon de 308 diamants certifiés.
308
diamants
Les données ont été recueillies dans un encart publicitaire du Singapore’s Business Times.
Cet échantillon n’est représentatif que de lui-même.
3 - Description d’une variable quantitative : les résumés numériques
(voir en annexe la définition des indicateurs)
Résumés numériques :
Carats
Prix ($)
Moyenne
0,631
5019,484
Ecart-type
0,277
3397,587
Minimum
0,180
638,000
Maximum
1,100
16008,000
Etendue (Min - Max)
0,920
15370,000
1er quartile
0,350
1622,000
Médiane
0,620
4215,000
3ème quartile
0,850
7524,000
Interquartile
0,500
5902,000
CV (écart-type/moyenne)
0,439
0,678
Asymétrie (Skewness)
0,015
0,651
-1,252
-0,356
Aplatissement (Kurtosis)
Les quartiles :
- Au moins 25 % des données sont inférieures ou
égales au premier quartile, et au moins 75 % des
données sont supérieures ou égales au premier
quartile.
- Au moins 50 % des données sont inférieures ou
égales à la médiane, et au moins 50% des
données sont supérieures ou égales à la médiane.
- Au moins 75 % des données sont inférieures ou
égales au troisième quartile, et au moins 25 %
des données sont supérieures ou égales au
troisième quartile.
Le plus gros diamant du monde, le Cullinan, a été découvert en 1905 dans la mine Premier près de Pretoria
en Afrique du Sud. Il pesait 3106 carats à l’état brut (soit plus de 621 grammes). Il a été taillé en plusieurs
fragments dont les deux célèbres Cullinan I et Cullinan II, ayant un poids respectif de 530,2 et 317,4 carats.
Les autres diamants taillés célèbres (une dizaine) font entre 40 et 550 carats.
Box plot - Carats
1,2
4 - Représentation graphique
synthétique :
Le Box plot
(voir annexe)
1,100
1
0,8
0,631
0,6
0,620
0,4
0,2
0,180
Le box plot des carats montre une distribution assez
symétrique (position de la médiane, longueur des pattes,
position relative de la médiane et de la moyenne). La
moyenne légèrement supérieure à la médiane témoigne
d’un faible étalement des valeurs supérieures.
0
Box plot - Prix ($)
18000
16008,000
16000
L’asymétrie de la distribution du prix est importante :
les valeurs sont fortement étalées du côté des grandes
valeurs (longueur de la patte supérieure, moyenne
supérieure à la médiane). Les valeurs inférieures
(25 % de celles-ci) sont comprises dans l’intervalle
[638 ; 1622] ; elles sont fortement concentrées par
rapport au reste de la distribution.
14000
12000
10000
8000
5019,484
6000
4000
4215,000
2000
0
638,000
Histogramme / 9 classes
5 - Représentation de la distribution
des valeurs :
L’histogramme (des carats)
Carats
0,25
Fréquence
0,20
La distribution des carats présente plusieurs zones de
concentration des valeurs (intervalles à l’intérieur desquels les
valeurs sont plus fortement concentrées (modes, pics de
distribution).
La distribution est ainsi globalement fortement étalée. Les
indicateurs de tendance centrale ont dans ce cas peu de pouvoir
de représentation des données.
0,15
0,10
0,05
0,00
0,18
0,28
0,38
0,48
0,58
0,68
0,78
0,88
0,98
1,08
37
45
10
50
20
47
25
3
69
Fréquences
0,120
0,146
0,032
0,162
0,065
0,153
0,081
0,010
0,224
Construction des 9 classes :
Borne sup.
0,28
0,38
0,48
0,58
0,68
0,78
0,88
0,98
1,08
Effectifs
Remarque : 2 valeurs n'ont pas été considérées ici (> à 1,08).
Le nombre de classe utilisées pour la construction d’un histogramme
influence la représentation de la distribution : peu de classes, perte
d’information ; nombreuses classes, classes peu fournies voire vides.
L’histogramme construit avec 18 classes laisse apparaître une forte
concentration des valeurs au-delà de 1 carat et une absence de
valeurs en amont (à la lecture du fichier de données, aucune valeur
dans l’intervalle ouvert (0,9 ; 1). Les diamants à peine inférieurs à 1
carat ont-ils été surestimés, ou sont-ils peu mis à la vente ?
Histogramme / 18 classes
Carats
0,25
0,20
Fréquence
Borne inf.
0,18
0,28
0,38
0,48
0,58
0,68
0,78
0,88
0,98
0,15
0,10
0,05
0,00
0,18
0,28
0,38
0,48
0,58
0,68
0,78
0,88
0,98
1,08
Histogramme du prix
Histogramme / 7 classes
Prix
0,30
La distribution est étalée à droite (rappel coefficient
d’asymétrie - skewness = 0,651) et globalement plutôt
concentrée (coefficient d’aplatissement - kurtosis = -0,356).
0,25
Fréquence
0,20
0,15
0,10
Histogramme / 14 classes
0,05
Prix
0,00
638
0,30
2638
4638
6638
8638
10638
12638
14638
0,25
Construction des 7 classes :
Borne sup.
2638
4638
6638
8638
10638
12638
14638
Effectifs
92
71
53
28
48
10
4
Fréquences
0,299
0,231
0,172
0,091
0,156
0,032
0,013
Remarque : 2 valeurs n'ont pas été considérées ici (> à 14 638).
Fréquence
Borne inf.
638
2638
4638
6638
8638
10638
12638
0,20
0,15
0,10
0,05
0,00
638
2638
4638
6638
8638
10638
12638
14638
6 - Représentation des fréquences
cumulées :
La fonction de répartition
Carats
1,00
F (y) = P(Y ≤ y )
Y
0,90
0,80
Fréquence
0,70
On retrouve sur l’axe des abscisses les différents quantiles.
0,60
0,50
0,40
0,30
0,20
0,10
0,00
0,18
0,28
0,38
0,48
0,58
0,68
0,78
0,88
0,98
Prix
1,00
1,08
0,90
0,80
La fonction de répartition permet de déterminer la
proportion
d’observations
de
l’échantillon
inférieures ou égales à une valeur de la série.
Ainsi entre deux valeurs, la plus ou moins forte
croissance de la courbe indique la plus ou moins
forte concentration de valeurs.
Fréquence
0,70
0,60
0,50
0,40
0,30
0,20
0,10
0,00
638
2638
4638
6638
8638
10638 12638 14638
7 - Description d’une variable qualitative : le tri à plat
Couleur (variable qualitative ordinale) :
Modalités
Effectifs
D
E
F
G
H
I
%
16
44
82
65
61
40
5,2
14,3
26,6
21,1
19,8
13,0
% cumulés
5,2
19,5
46,1
67,2
87,0
100,0
Clarté (variable qualitative ordinale) :
Modalités
IF
VVS1
VVS2
VS1
VS2
Effectifs
%
44
52
78
81
53
14,3
16,9
25,3
26,3
17,2
% cumulés
14,3
31,2
56,5
82,8
100,0
Certification (variable qualitative nominale) :
Modalités
GIA
HRD
IGI
Effectifs
151
79
78
%
49,0
25,6
25,3
Un tri à plat décrit la répartition des individus de
l’échantillon dans chacune des modalités : sont
mentionnés les effectifs (et la fréquence) des individus
caractérisés par une modalité. De plus lorsque les
modalités présentent une relation d’ordre, les effectifs
(et fréquence) peuvent être cumulés.
La valeur modale, modalité pour laquelle l’effectif est
le plus grand est respectivement pour chacune des
variables, la couleur F (26 % des diamants), la clarté
VS1 (26 %) et la certification GIA (49 %).
8 - Représentations graphiques : les diagrammes en colonnes et secteurs
Couleur
Couleur
30%
26,6%
25%
21,1%
19,8%
20%
14,3%
15%
10%
13,0%
5,2%
5%
0%
D
E
F
G
H
I
Clarté
30%
25,3%
26,3%
25%
20%
15%
17,2%
16,9%
14,3%
10%
5%
0%
IF
VVS1
VVS2
VS1
VS2
Certification
60%
50%
49,0%
40%
25,6%
30%
25,3%
La lecture de la
répartition des
proportions dans
chacune des
modalités est
facilitée par les
graphiques.
Cependant dans
le cas du
diagramme en
secteur
(camembert)
l’augmentation
du nombre de
modalités
diminue la
lisibilité, en
revanche on
repère tout de
suite que près de
50 % des
diamants de
l’échantillon sont
certifiés GIA.
I
13,0%
F
26,6%
G
21,1%
Clarté
VS2
17,2%
GIA
HRD
IGI
IF
14,3%
VVS1
16,9%
VS1
26,3%
VVS2
25,3%
Certification
IGI
25,3%
GIA
49,0%
HRD
25,6%
0%
E
14,3%
H
19,8%
20%
10%
D
5,2%
9 - Description simultanée de deux variables quantitatives : le nuage de points
Statistique descriptive bivariée
Description de deux variables mesurées simultanément sur les mêmes individus
Recherche d’éventuelles liaisons entre les deux variables
18000
16000
14000
Prix ($)
12000
10000
8000
6000
4000
2000
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
1,1
1,2
Carats
La lecture du nuage de points montre que le prix des diamants augmente avec leur poids (ce dont on se doute).
Néanmoins, le prix n’est pas seulement fonction du poids (on s’en doutait aussi).
Ce graphique incite à étudier le lien entre le poids et le prix, en séparant les diamants en trois classes : ceux de
poids inférieurs ou égal à 0,45 carats, ceux entre 0,46 et 0,90 carats et les autres. Pour ces derniers, les « gros
diamants » de ce fichier, dont le poids est entre 1 et 1,1 carat, le prix toujours supérieur à 7800 $ dépend plus
d’autres facteurs que du poids.
Prix des diamants de petits poids
90 diamants de poids inférieurs ou égal à 0,45 carats
Les poids sont donnés au centième de carat près
2500
Prix ($)
2000
1500
1000
500
0,15
0,2
0,25
0,3
0,35
0,4
0,45
Carats
⌦ Le coefficient de corrélation (voir annexe) est ici 0,84.
⌦ L’équation de la droite de régression (voir annexe) est, en arrondissant les coefficients à l’entier le plus proche :
Prix = 166 + 3923 x poids
Autrement dit, sur les données observées, si le poids augmente d’un centième de carat, en moyenne le prix
augmente de 39,23 dollars.
Prix des diamants de poids moyen
147 diamants de poids compris entre 0,46 et 0,90 carats
10000
9000
8000
Prix ($)
7000
6000
5000
4000
3000
2000
0,45
0,5
0,55
0,6
0,65
0,7
0,75
0,8
0,85
0,9
Carats
⌦ Le coefficient de corrélation est ici 0,86.
⌦ L’équation de la droite de régression est, en arrondissant les coefficients :
Prix = -2138 + 10692 x poids
Sur les données observées, si le poids augmente d’un centième de carat, en moyenne le prix augmente de
106,92 dollars.
Etude des 71 gros diamants de l’échantillon
poids compris entre 1 et 1,1 carats
Pour les gros diamants de notre échantillon :
- La couleur influence beaucoup le prix.
- Il n’y a pas d’influence nette de la clarté sur le prix.
17000
16000
15000
Prix ($)
14000
13000
12000
11000
10000
9000
8000
7000
D
E
F
G
couleurs
H
I
17000
16000
15000
Prix ($)
14000
13000
12000
11000
10000
9000
8000
7000
IF
VS1
VS2
clarte
VVS1
VVS2
La plupart des diamants présentent de minuscules
inclusions. Moins le diamant a d’inclusions et plus
petites elles sont, plus la lumière peut le traverser. La
présence d’inclusions est observée à l’aide d’une loupe
ou d’un microscope (10x). Une imperfection non
détectable à ce degré de grossissement est considérée
comme non existante.
Plus un diamant est incolore (blanc), plus il laisse
traverser la lumière blanche. La couleur d’un diamant
est déterminée à l’aide de pierres étalons et d’une
lumière blanche. Un diamant est composé à plus de 99
% de carbone pur, le reste lui confère une couleur : un
atome d’azote le rend jaune, de bore bleu…
La taille du diamant opérée par le lapidaire a une
incidence très importante sur le pouvoir de réfraction et
de dispersion de la lumière qui donne toute sa brillance
au diamant. C’est un quatrième critère influant sur la
valeur d’un diamant.
Marquage du nuage de points par la couleur des diamants
On retrouve que les couleurs H et I sont moins prisées que les couleurs D et E, ce que la dénomination
blanc exceptionnel pour D et E pouvait laisser présager !
Marquage du nuage de points par la clarté des diamants
Il est plus « facile » et plus commun pour un petit diamant d’être clair et sans défaut que pour un gros !
Marquage des points par la certification des diamants
Dans nos données, la certification HRD ne concerne pas les petits diamants.
10 - Description simultanée d’une variable quantitative et d’une variable qualitative
Chaque modalité de la variable qualitative définit une partition (une sous-population) sur laquelle peut
être analysée la variable quantitative.
Les résumés numériques décrits précédemment peuvent être construits sur chacune des
sous-populations engendrées par la variable qualitative : sur chaque partition, sont calculés les
différents résumés numériques (moyenne, médiane, intervalle interquartile…).
De la même façon des boxplots peuvent être construits sur chacune des sous-populations :
les box plots parallèles.
On met ainsi en avant l’influence de la variable qualitative sur les valeurs de la variable
quantitative.
Boxplot Carats / Couleur
Les résultats observés dans une sous-population et les différences entre les sous-populations doivent
être interprétés avec prudence, lorsque les effectifs sont faibles (les fluctuations d’échantillonnage
peuvent être importantes).
Rappel des effectifs concernés
1,2
16
44
82
1,010
1,0
0,820
0,8
61
0,710
0,775
0,710
0,6
0,570
0,190
0,190
0,430
0,415
0,350
0,305
0,2
0,570
0,545
0,405
0,4
1,090
1,005
0,875
0,790
0,800
40
1,100
1,060
1,040
1,030
1,000
65
0,315
0,180
0,180
0,250
0,180
0,0
D
E
F
G
H
I
Globalement, le poids médian des diamants est sensiblement le même pour les différentes couleurs.
16000
16008
14051
13913
12597
12000
10450
8000
7936
Prix / Couleur
6805
6266
4485
2340
1050
4000
1472
0
880
9890
6882
5030
6434
3714
1636
765
9563
8175
4780
3651
1636
725
6381437
1594
1082
D
E
F
G
H
I
16
44
82
65
61
40
16000
16008
13913
13909
12000
11419
9853
Prix / Clarté
8000
7888
8916
5738
4000
4221
3350
12661070
725
0
IF
44
705
3384
1716
638
VS1
VS2
52
78
7315
7368
4513
3424
4534
3407
800
705
VVS1
VVS2
81
53
16008
16000
14051
12000
Prix / Certification
6905
4759
4000
9713
9203
7680
8000
3205
3130
3995
2651
1412
638
1098
0
GIA
151
HRD
IGI
79
78
995
Les diamants les
plus « clairs »
(couleur D)
enregistrent une
forte amplitude
de prix (de 880 à
16008). Par
ailleurs le fort
étalement global
des valeurs
(position des
quartiles) peutêtre dû au faible
effectif observé
(16) ; on ne peut
garantir une telle
répartition
générale des
valeurs des
diamants de
couleur D.
Les constats sont
globalement les
mêmes que pour
les carats ; ce qui
est peu étonnant
puisque le prix
croît avec les
carats.
11 - Description simultanée de deux variables qualitatives : la table de contingence
La répartitions des catégories d’un critère est-elle égale dans les différentes catégories de l'autre critère ?
Table de contingence Clarté / Certification :
Clarté
Clarté
Clarté
Clarté
Clarté
Total
-
IF
VVS1
VVS2
VS1
VS2
Certification - GIA Certification - HRD Certification - IGI
6
4
34
15
23
14
33
24
21
61
13
7
36
15
2
151
79
78
Total
44
52
78
81
53
308
Profils colonnes (% en colonnes) :
Clarté
Clarté
Clarté
Clarté
Clarté
Total
-
IF
VVS1
VVS2
VS1
VS2
Certification - GIA Certification - HRD Certification - IGI
4,0
5,1
43,6
9,9
29,1
17,9
21,9
30,4
26,9
40,4
16,5
9,0
23,8
19,0
2,6
100
100
100
Total
14,3
16,9
25,3
26,3
17,2
100
Diagramme des profils colonnes
100%
23,8
80%
60%
40,4
2,6
19,0
9,0
16,5
26,9
30,4
17,9
29,1
43,6
5,1
Certif ication - HRD
Certification - IGI
40%
20%
0%
21,9
9,9
4,0
Certif ication - GIA
Clarté - IF
Clarté - V V S1
Clarté - V VS2
Clarté - VS1
Clarté - VS2
Dans notre échantillon, les
proportions de diamants dans
les différents niveaux de clarté
diffèrent selon l’organisme de
certification.
Annexes
A - Les résumés numériques
B - Le boxplot
C - Le coefficient de corrélation linéaire et la régression linéaire
A - Les résumés numériques
Soit une variable aléatoire Y et un échantillon de taille n de celle-ci : y1, y2, …, yn n observations de Y
Les résumés numériques, indicateurs empiriques sont :
n
∑ yi
La moyenne de Y :
y=
i=1
n
Somme des valeurs divisée par le nombre de valeurs ; un indicateur de tendance centrale de la distribution.
n
∑ (y i − y)2
La variance :
s2 =
i=1
n
Indicateur de dispersion des valeurs autour de la moyenne.
L’écart type :
s = s2
Racine carrée de la variance, indicateur de dispersion des valeurs exprimé dans l’unité de mesure de la variable.
Remarque : Ces indicateurs sont sensibles aux valeurs atypiques de l’échantillon. La moyenne et la médiane sont
deux indicateurs de tendance centrale de la distribution des valeurs mais contrairement à la médiane, la moyenne est
sensible à une valeur très grande ou très petite par rapport au reste de la série.
Skewness et Kurtosis :
deux indicateurs de la forme de la distribution des valeurs observées.
Le skewness permet de mesurer le degré d’asymétrie de la distribution des valeurs.
Moment centré d’ordre 3 sur le cube de l’écart type.
n
∑ (y i − y)3
Estimation sur un échantillon :
skewness =
i=1
(n − 1)s
3
Le kurtosis permet de mesurer le degré d’aplatissement d’une distribution.
Moment centré d’ordre 4 sur le carré de la variance.
Le kurtosis de la distribution Normale, ainsi calculé, vaut 3, c’est pourquoi les logiciels proposent souvent le calcul
du kurtosis en ôtant la valeur 3 :
n
∑ (y i − y) 4
Estimation sur un échantillon :
kurtosis =
i =1
(n − 1)s 4
−3
Utilité du skewness et du kurtosis
Une distribution symétrique autour de sa moyenne aura un skewness proche de 0.
Skewness positif étalement des valeurs à droite
Skewness négatif étalement des valeurs à gauche
Le kurtosis d’une loi Normale est nul ; une distribution des valeurs proche de la forme en cloche de la loi normale
donnera un kurtosis proche de 0.
Kurtosis positif forte concentration, pic prononcé
Kurtosis négatif aplatissement de la distribution, faible concentration
Schématiquement, l’allure d’une distribution selon que le skewness et le kurtosis sont positifs, négatifs ou nuls :
Négatif
Positif
Nul
Skewness
Kurtosis
Le Skewness et le Kurtosis sont des indicateurs numériques de la forme de la distribution observée : ils donnent
un indice de l’éloignement ou du rapprochement de la distribution de la série de valeurs de celle
d’une distribution de loi Normale.
B - Le Box plot (ou boîte à moustache) :
Représentation graphique synthétique de Tukey
Le Boxplot est un résumé de la série (de la distribution) construit à partir de sa médiane, ses 1er et 3ème quartiles et
ses valeurs extrêmes. Il permet de repérer rapidement, de façon visuelle, l’allure générale de la distribution.
Construction utilisée ici :
Une boîte, deux moustaches et des valeurs extrêmes :
La boîte est délimitée en bas par le premier quartile, en haut par le troisième quartile. Entre les deux se trouve la
médiane. Parfois la moyenne est ajoutée.
Les extrémités des moustaches ou valeurs extrêmes sont :
- le min et le max ;
Ou encore, souvent proposées dans les logiciels (parfois paramétrables) :
- la plus petite valeur supérieure à q1 - 1,5*(q3 - q1) et la plus grande valeur inférieure à q3 + 1,5*(q3 - q1) avec (q1 =
premier quartile ; q3 = troisième quartile). Dans ce cas, les valeurs extrêmes sont les valeurs de la série qui sont hors
des limites définies par les extrémités des moustaches (aucune si aucune des valeurs ne sort des limites).
Attention, les valeurs extrêmes telles que définies n’ont de sens que lorsque la distribution est Normale (voir la suite).
Remarques :
- d’autres extrémités des moustaches peuvent être proposées comme les déciles (délimitant 10 % des valeurs) ;
- la largeur de la boîte est arbitraire et ne s’interprète donc pas.
Représentation :
Box plot - Carats
1,2
Echelle : unité de valeur
de la variable
1,100
Maximum
1
3ème quartile
0,8
Intervalle interquartiles
0,6
(50 % des valeurs)
0,631
Moyenne
0,620
Médiane
0,4
1er quartile
0,2
0,180
Minimum
0
Le box plot permet de visualiser rapidement :
- La plus ou moins forte concentration des valeurs : autour de la médiane (intervalle inter-quartiles, hauteur de la
boîte) et celle des queues de distribution (les pattes, chacune 25 % des valeurs).
Remarque : la hauteur de la boîte représente 50 % des valeurs, plus cette hauteur est grande (petite) plus les valeurs
correspondantes sont étalées (concentrées).
- La symétrie de la distribution : position de la médiane dans la boîte et globalement ; différence de longueur des
pattes. Plus la moyenne s’écarte de la médiane plus la distribution est asymétrique (attention aux valeurs aberrantes qui
influence la valeur de la moyenne) et inversement plus la médiane et la moyenne sont proches plus la distribution est
symétrique. Lorsque la médiane est inférieure à la moyenne, les valeurs inférieures sont plus fortement concentrées, les
valeurs supérieures plus fortement étalées.
L’indice 1,5 utilisé parfois pour la définition des valeurs extrêmes :
L’intervalle de Tukey, en dehors duquel les valeurs sont représentées comme extrêmes, repose sur l’hypothèse de
normalité de la distribution.
I = [q1 − 1,5 × (q3 − q1 ); q3 + 1,5 × (q3 − q1 )] Si la distribution suit une loi N(µ; σ) alors, I = [µ − 2,7σ ; µ + 2,7σ ]
Dans le cas d’une distribution normale, cet intervalle doit comprendre 99,3 % des valeurs. Les valeurs en dehors de
l’intervalle sont individualisées et marquées d’une croix pour signaler leur caractère atypique, car d’une faible
probabilité d’occurrence sous l’hypothèse de normalité.
La longueur de cet intervalle fondée sur l’indice 1,5 est arbitraire. C’est un compromis entre les valeurs 1 et 2 qui
engendreraient respectivement des intervalles comprenant 95,7 % et 99,8 % des valeurs.
Le marquage des valeurs atypiques n’est significatif que si la distribution s’apparente à celle d’une distribution
Normale.
Comparaison de plusieurs sous-populations (box plots parallèles) :
Le box plot permet de comparer visuellement la distribution d’une variable à l’intérieur des sous-populations formant
l’échantillon, par la construction d’un box plot pour chacune des sous-populations sur un même graphique (même
échelle). La position des indicateurs de tendance centrale et la variabilité de la distribution dans chacune des souspopulations peuvent ainsi être comparées.
1,2
1,100
1,0
1,090
1,010
1,000
0,895
0,810
0,8
0,700
0,655
0,6
0,500
0,500
0,480
0,4
0,300
0,290
0,2
0,180
0,0
GIA
HRD
IGI
0,210
C - Le coefficient de corrélation linéaire et la régression linéaire
Soit X et Y deux variables quantitatives.
Le coefficient de corrélation linéaire est un indice rendant compte de la manière dont les deux variables considérées
varient simultanément. Il permet de vérifier l’existence d’une relation linéaire entre deux variables, de la forme Y=aX+b.
Calcul du coefficient de corrélation linéaire sur l’échantillon :
r=
1 n
∑ ( x i − x )( y i − y)
n i=1
sx × sy
avec s x =
=
s xy
sx × sy
1 n
∑ (s i − s) 2 et s y =
n i=1
Rapport covariance empirique sur le produit des écarts-types empiriques
1 n
∑ (s i − s) 2 , les écarts types respectifs de X et de Y
n i=1
Le coefficient de corrélation linéaire est compris entre -1 et +1.
S’il est proche de 1 ou de -1, les deux variables sont corrélées linéairement (le nuage de points est presque aligné sur
une droite), s’il est proche de 0 les variables sont non corrélées linéairement.
Plus r est proche de 1 ou de -1 plus le nuage de points est aligné. Si |r|=1, il existe deux constantes a et b définissant
une relation linéaire parfaite : Y=aX+b.
Une valeur positive du coefficient indique une pente positive de la droite (croissance simultanée des deux variables),
une valeur négative une pente négative de la droite (décroissance de l’une liée à la croissance de l’autre).
Si le coefficient est proche de 0, une relation linéaire entre les deux variables est exclue, cependant une relation
non linéaire peut exister.
Détermination de la droite d’équation linéaire Y=aX+b :
L’objectif est de modéliser Y par une fonction affine aX+b, plus un aléa résiduel (un bruit blanc). Les estimateurs des
paramètres a et b, par la méthode des moindres carrés, donne les résultats suivants, sous certaines hypothèses de
validité du modèle :
b̂ =
1 n
∑(xi − x)(y i − y)
n i=1
s *x2
=
s xy
2
sx
â = y − b̂x
Le coefficient de détermination :
Ce coefficient est une mesure du pouvoir explicatif du modèle de régression linéaire.
2
r =
2
s xy
2
2
sx × sy
=
variance expliquée par le modèle
variance totale
r2 (carré du coefficient de corrélation) est compris entre 0 et 1.
Plus il est proche de 1, meilleur est l’ajustement par le modèle.
Remarque : le modèle de régression par les moindres carrés est sensible aux valeurs aberrantes, la dissymétrie des
distributions engendre également une mauvaise modélisation ; c’est pourquoi l’analyse descriptive uni-variée de chacune
des variables et l’analyse bi-variée du nuage de points sont des étapes indispensables à la construction d’un modèle.
Dans certains cas, la transformation des variables (logarithme, puissance…) afin d’atténuer les dissymétries et les valeurs
atypiques permet d’obtenir un bon modèle linéaire.
Téléchargement