Exploration d’un fichier de données Valérie Fontanieu - Ingénieur statisticien Institut National de Recherche Pédagogique Les diamants Prix et caractéristiques Données parues dans le Singapore’s Business Times du 18 février 2000 Accessibles sur : http://www.amstat.org/publications/jse/jse_data_archive.html Ce document présente les premiers résultats de l’exploration d’un fichier de données à l’aide des méthodes de statistique descriptive (uni- et bi-dimensionnelle) et quelques explications sur les résultats couramment proposés par les logiciels de traitement et d’analyse de données statistiques. Des parties de ce fichier peuvent être utilisées pour illustrer des définitions de termes couramment utilisés en statistique descriptive. 1 Sommaire 1 - Les données : le prix et 4 variables caractérisant les diamants 2 - Le tableau des données 3 - Description d’une variable quantitative : les résumés numériques 4 - Représentation graphique synthétique : le boxplot 5 - Représentation de la distribution des valeurs : l’histogramme 6 - Représentation des fréquences cumulées : la fonction de répartition 7 - Description d’une variable qualitative : le tri à plat 8 - Représentations graphiques : les diagrammes en colonnes et secteurs 9 - Description simultanée de deux variables quantitatives : le nuage de points 10 - Description simultanée d’une variable quantitative et d’une variable qualitative 11 - Description simultanée de deux variables qualitatives : la table de contingence Annexes A - Les résumés numériques B - Le boxplot C - Le coefficient de corrélation linéaire et la régression linéaire 1 - Les données : le prix et 4 variables caractérisant les diamants - Carats : le poids du diamant exprimé en carats (1 carat = 0,20g) - Couleur : l’échelle de graduation de la couleur s’étend de la lettre D à la lettre Z, de la teinte la plus incolore vers une teinte jaune et même parfois d’autres teintes (bleu, vert…) ; dans cet échantillon les diamants appartiennent aux 6 premières catégories : D E F G H I Blanc exceptionnel + Blanc exceptionnel Blanc rare + Blanc rare Blanc Blanc légèrement teinté + - Clarté : indique la présence plus ou moins importante d’imperfections (11 catégories) ; dans l’échantillon les diamants sont caractérisés par 5 catégories parmi les mieux classées, de la plus grande clarté vers la présence croissante d’imperfections et d’inclusions : IF VVS1 VVS2 VS1 VS2 Internally Flawless - absence d’inclusions mais minuscules imperfections de surface Very Very Small inclusions - minuscules inclusions et éventuellement minuscules imperfections de surface imperfections de surface légèrement plus présentes que VVS1 Very Small inclusions - petites inclusions et éventuellement petites imperfections de surface imperfections de surface légèrement plus présentes que VS1 - Certification : 3 instituts de certification : GIA HRD IGI Gemological Institute of America Hoge Raad voor Diamant International Gemological Institute - Prix en dollars Remarque : Ces variables n’apporte pas le même type d’information. Le poids en carats, la couleur et la clarté sont des attributs des diamants. Ces caractéristiques intrinsèques sont évaluées par un institut de certification qui établit un certificat, garantissant l’exactitude des informations. Le prix quant à lui est estimé par le vendeur et est vraisemblablement établi en fonction des caractéristiques des diamants. 2 - Le tableau des données La structure des données usuellement proposée dans les logiciels est celle d’un tableau croisant, les individus (diamants) en ligne, et les variables (carats, couleur…) en colonne. Les variables sont observées sur un échantillon de 308 diamants certifiés. 308 diamants Les données ont été recueillies dans un encart publicitaire du Singapore’s Business Times. Cet échantillon n’est représentatif que de lui-même. 3 - Description d’une variable quantitative : les résumés numériques (voir en annexe la définition des indicateurs) Résumés numériques : Carats Prix ($) Moyenne 0,631 5019,484 Ecart-type 0,277 3397,587 Minimum 0,180 638,000 Maximum 1,100 16008,000 Etendue (Min - Max) 0,920 15370,000 1er quartile 0,350 1622,000 Médiane 0,620 4215,000 3ème quartile 0,850 7524,000 Interquartile 0,500 5902,000 CV (écart-type/moyenne) 0,439 0,678 Asymétrie (Skewness) 0,015 0,651 -1,252 -0,356 Aplatissement (Kurtosis) Les quartiles : - Au moins 25 % des données sont inférieures ou égales au premier quartile, et au moins 75 % des données sont supérieures ou égales au premier quartile. - Au moins 50 % des données sont inférieures ou égales à la médiane, et au moins 50% des données sont supérieures ou égales à la médiane. - Au moins 75 % des données sont inférieures ou égales au troisième quartile, et au moins 25 % des données sont supérieures ou égales au troisième quartile. Le plus gros diamant du monde, le Cullinan, a été découvert en 1905 dans la mine Premier près de Pretoria en Afrique du Sud. Il pesait 3106 carats à l’état brut (soit plus de 621 grammes). Il a été taillé en plusieurs fragments dont les deux célèbres Cullinan I et Cullinan II, ayant un poids respectif de 530,2 et 317,4 carats. Les autres diamants taillés célèbres (une dizaine) font entre 40 et 550 carats. Box plot - Carats 1,2 4 - Représentation graphique synthétique : Le Box plot (voir annexe) 1,100 1 0,8 0,631 0,6 0,620 0,4 0,2 0,180 Le box plot des carats montre une distribution assez symétrique (position de la médiane, longueur des pattes, position relative de la médiane et de la moyenne). La moyenne légèrement supérieure à la médiane témoigne d’un faible étalement des valeurs supérieures. 0 Box plot - Prix ($) 18000 16008,000 16000 L’asymétrie de la distribution du prix est importante : les valeurs sont fortement étalées du côté des grandes valeurs (longueur de la patte supérieure, moyenne supérieure à la médiane). Les valeurs inférieures (25 % de celles-ci) sont comprises dans l’intervalle [638 ; 1622] ; elles sont fortement concentrées par rapport au reste de la distribution. 14000 12000 10000 8000 5019,484 6000 4000 4215,000 2000 0 638,000 Histogramme / 9 classes 5 - Représentation de la distribution des valeurs : L’histogramme (des carats) Carats 0,25 Fréquence 0,20 La distribution des carats présente plusieurs zones de concentration des valeurs (intervalles à l’intérieur desquels les valeurs sont plus fortement concentrées (modes, pics de distribution). La distribution est ainsi globalement fortement étalée. Les indicateurs de tendance centrale ont dans ce cas peu de pouvoir de représentation des données. 0,15 0,10 0,05 0,00 0,18 0,28 0,38 0,48 0,58 0,68 0,78 0,88 0,98 1,08 37 45 10 50 20 47 25 3 69 Fréquences 0,120 0,146 0,032 0,162 0,065 0,153 0,081 0,010 0,224 Construction des 9 classes : Borne sup. 0,28 0,38 0,48 0,58 0,68 0,78 0,88 0,98 1,08 Effectifs Remarque : 2 valeurs n'ont pas été considérées ici (> à 1,08). Le nombre de classe utilisées pour la construction d’un histogramme influence la représentation de la distribution : peu de classes, perte d’information ; nombreuses classes, classes peu fournies voire vides. L’histogramme construit avec 18 classes laisse apparaître une forte concentration des valeurs au-delà de 1 carat et une absence de valeurs en amont (à la lecture du fichier de données, aucune valeur dans l’intervalle ouvert (0,9 ; 1). Les diamants à peine inférieurs à 1 carat ont-ils été surestimés, ou sont-ils peu mis à la vente ? Histogramme / 18 classes Carats 0,25 0,20 Fréquence Borne inf. 0,18 0,28 0,38 0,48 0,58 0,68 0,78 0,88 0,98 0,15 0,10 0,05 0,00 0,18 0,28 0,38 0,48 0,58 0,68 0,78 0,88 0,98 1,08 Histogramme du prix Histogramme / 7 classes Prix 0,30 La distribution est étalée à droite (rappel coefficient d’asymétrie - skewness = 0,651) et globalement plutôt concentrée (coefficient d’aplatissement - kurtosis = -0,356). 0,25 Fréquence 0,20 0,15 0,10 Histogramme / 14 classes 0,05 Prix 0,00 638 0,30 2638 4638 6638 8638 10638 12638 14638 0,25 Construction des 7 classes : Borne sup. 2638 4638 6638 8638 10638 12638 14638 Effectifs 92 71 53 28 48 10 4 Fréquences 0,299 0,231 0,172 0,091 0,156 0,032 0,013 Remarque : 2 valeurs n'ont pas été considérées ici (> à 14 638). Fréquence Borne inf. 638 2638 4638 6638 8638 10638 12638 0,20 0,15 0,10 0,05 0,00 638 2638 4638 6638 8638 10638 12638 14638 6 - Représentation des fréquences cumulées : La fonction de répartition Carats 1,00 F (y) = P(Y ≤ y ) Y 0,90 0,80 Fréquence 0,70 On retrouve sur l’axe des abscisses les différents quantiles. 0,60 0,50 0,40 0,30 0,20 0,10 0,00 0,18 0,28 0,38 0,48 0,58 0,68 0,78 0,88 0,98 Prix 1,00 1,08 0,90 0,80 La fonction de répartition permet de déterminer la proportion d’observations de l’échantillon inférieures ou égales à une valeur de la série. Ainsi entre deux valeurs, la plus ou moins forte croissance de la courbe indique la plus ou moins forte concentration de valeurs. Fréquence 0,70 0,60 0,50 0,40 0,30 0,20 0,10 0,00 638 2638 4638 6638 8638 10638 12638 14638 7 - Description d’une variable qualitative : le tri à plat Couleur (variable qualitative ordinale) : Modalités Effectifs D E F G H I % 16 44 82 65 61 40 5,2 14,3 26,6 21,1 19,8 13,0 % cumulés 5,2 19,5 46,1 67,2 87,0 100,0 Clarté (variable qualitative ordinale) : Modalités IF VVS1 VVS2 VS1 VS2 Effectifs % 44 52 78 81 53 14,3 16,9 25,3 26,3 17,2 % cumulés 14,3 31,2 56,5 82,8 100,0 Certification (variable qualitative nominale) : Modalités GIA HRD IGI Effectifs 151 79 78 % 49,0 25,6 25,3 Un tri à plat décrit la répartition des individus de l’échantillon dans chacune des modalités : sont mentionnés les effectifs (et la fréquence) des individus caractérisés par une modalité. De plus lorsque les modalités présentent une relation d’ordre, les effectifs (et fréquence) peuvent être cumulés. La valeur modale, modalité pour laquelle l’effectif est le plus grand est respectivement pour chacune des variables, la couleur F (26 % des diamants), la clarté VS1 (26 %) et la certification GIA (49 %). 8 - Représentations graphiques : les diagrammes en colonnes et secteurs Couleur Couleur 30% 26,6% 25% 21,1% 19,8% 20% 14,3% 15% 10% 13,0% 5,2% 5% 0% D E F G H I Clarté 30% 25,3% 26,3% 25% 20% 15% 17,2% 16,9% 14,3% 10% 5% 0% IF VVS1 VVS2 VS1 VS2 Certification 60% 50% 49,0% 40% 25,6% 30% 25,3% La lecture de la répartition des proportions dans chacune des modalités est facilitée par les graphiques. Cependant dans le cas du diagramme en secteur (camembert) l’augmentation du nombre de modalités diminue la lisibilité, en revanche on repère tout de suite que près de 50 % des diamants de l’échantillon sont certifiés GIA. I 13,0% F 26,6% G 21,1% Clarté VS2 17,2% GIA HRD IGI IF 14,3% VVS1 16,9% VS1 26,3% VVS2 25,3% Certification IGI 25,3% GIA 49,0% HRD 25,6% 0% E 14,3% H 19,8% 20% 10% D 5,2% 9 - Description simultanée de deux variables quantitatives : le nuage de points Statistique descriptive bivariée Description de deux variables mesurées simultanément sur les mêmes individus Recherche d’éventuelles liaisons entre les deux variables 18000 16000 14000 Prix ($) 12000 10000 8000 6000 4000 2000 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 1,1 1,2 Carats La lecture du nuage de points montre que le prix des diamants augmente avec leur poids (ce dont on se doute). Néanmoins, le prix n’est pas seulement fonction du poids (on s’en doutait aussi). Ce graphique incite à étudier le lien entre le poids et le prix, en séparant les diamants en trois classes : ceux de poids inférieurs ou égal à 0,45 carats, ceux entre 0,46 et 0,90 carats et les autres. Pour ces derniers, les « gros diamants » de ce fichier, dont le poids est entre 1 et 1,1 carat, le prix toujours supérieur à 7800 $ dépend plus d’autres facteurs que du poids. Prix des diamants de petits poids 90 diamants de poids inférieurs ou égal à 0,45 carats Les poids sont donnés au centième de carat près 2500 Prix ($) 2000 1500 1000 500 0,15 0,2 0,25 0,3 0,35 0,4 0,45 Carats ⌦ Le coefficient de corrélation (voir annexe) est ici 0,84. ⌦ L’équation de la droite de régression (voir annexe) est, en arrondissant les coefficients à l’entier le plus proche : Prix = 166 + 3923 x poids Autrement dit, sur les données observées, si le poids augmente d’un centième de carat, en moyenne le prix augmente de 39,23 dollars. Prix des diamants de poids moyen 147 diamants de poids compris entre 0,46 et 0,90 carats 10000 9000 8000 Prix ($) 7000 6000 5000 4000 3000 2000 0,45 0,5 0,55 0,6 0,65 0,7 0,75 0,8 0,85 0,9 Carats ⌦ Le coefficient de corrélation est ici 0,86. ⌦ L’équation de la droite de régression est, en arrondissant les coefficients : Prix = -2138 + 10692 x poids Sur les données observées, si le poids augmente d’un centième de carat, en moyenne le prix augmente de 106,92 dollars. Etude des 71 gros diamants de l’échantillon poids compris entre 1 et 1,1 carats Pour les gros diamants de notre échantillon : - La couleur influence beaucoup le prix. - Il n’y a pas d’influence nette de la clarté sur le prix. 17000 16000 15000 Prix ($) 14000 13000 12000 11000 10000 9000 8000 7000 D E F G couleurs H I 17000 16000 15000 Prix ($) 14000 13000 12000 11000 10000 9000 8000 7000 IF VS1 VS2 clarte VVS1 VVS2 La plupart des diamants présentent de minuscules inclusions. Moins le diamant a d’inclusions et plus petites elles sont, plus la lumière peut le traverser. La présence d’inclusions est observée à l’aide d’une loupe ou d’un microscope (10x). Une imperfection non détectable à ce degré de grossissement est considérée comme non existante. Plus un diamant est incolore (blanc), plus il laisse traverser la lumière blanche. La couleur d’un diamant est déterminée à l’aide de pierres étalons et d’une lumière blanche. Un diamant est composé à plus de 99 % de carbone pur, le reste lui confère une couleur : un atome d’azote le rend jaune, de bore bleu… La taille du diamant opérée par le lapidaire a une incidence très importante sur le pouvoir de réfraction et de dispersion de la lumière qui donne toute sa brillance au diamant. C’est un quatrième critère influant sur la valeur d’un diamant. Marquage du nuage de points par la couleur des diamants On retrouve que les couleurs H et I sont moins prisées que les couleurs D et E, ce que la dénomination blanc exceptionnel pour D et E pouvait laisser présager ! Marquage du nuage de points par la clarté des diamants Il est plus « facile » et plus commun pour un petit diamant d’être clair et sans défaut que pour un gros ! Marquage des points par la certification des diamants Dans nos données, la certification HRD ne concerne pas les petits diamants. 10 - Description simultanée d’une variable quantitative et d’une variable qualitative Chaque modalité de la variable qualitative définit une partition (une sous-population) sur laquelle peut être analysée la variable quantitative. Les résumés numériques décrits précédemment peuvent être construits sur chacune des sous-populations engendrées par la variable qualitative : sur chaque partition, sont calculés les différents résumés numériques (moyenne, médiane, intervalle interquartile…). De la même façon des boxplots peuvent être construits sur chacune des sous-populations : les box plots parallèles. On met ainsi en avant l’influence de la variable qualitative sur les valeurs de la variable quantitative. Boxplot Carats / Couleur Les résultats observés dans une sous-population et les différences entre les sous-populations doivent être interprétés avec prudence, lorsque les effectifs sont faibles (les fluctuations d’échantillonnage peuvent être importantes). Rappel des effectifs concernés 1,2 16 44 82 1,010 1,0 0,820 0,8 61 0,710 0,775 0,710 0,6 0,570 0,190 0,190 0,430 0,415 0,350 0,305 0,2 0,570 0,545 0,405 0,4 1,090 1,005 0,875 0,790 0,800 40 1,100 1,060 1,040 1,030 1,000 65 0,315 0,180 0,180 0,250 0,180 0,0 D E F G H I Globalement, le poids médian des diamants est sensiblement le même pour les différentes couleurs. 16000 16008 14051 13913 12597 12000 10450 8000 7936 Prix / Couleur 6805 6266 4485 2340 1050 4000 1472 0 880 9890 6882 5030 6434 3714 1636 765 9563 8175 4780 3651 1636 725 6381437 1594 1082 D E F G H I 16 44 82 65 61 40 16000 16008 13913 13909 12000 11419 9853 Prix / Clarté 8000 7888 8916 5738 4000 4221 3350 12661070 725 0 IF 44 705 3384 1716 638 VS1 VS2 52 78 7315 7368 4513 3424 4534 3407 800 705 VVS1 VVS2 81 53 16008 16000 14051 12000 Prix / Certification 6905 4759 4000 9713 9203 7680 8000 3205 3130 3995 2651 1412 638 1098 0 GIA 151 HRD IGI 79 78 995 Les diamants les plus « clairs » (couleur D) enregistrent une forte amplitude de prix (de 880 à 16008). Par ailleurs le fort étalement global des valeurs (position des quartiles) peutêtre dû au faible effectif observé (16) ; on ne peut garantir une telle répartition générale des valeurs des diamants de couleur D. Les constats sont globalement les mêmes que pour les carats ; ce qui est peu étonnant puisque le prix croît avec les carats. 11 - Description simultanée de deux variables qualitatives : la table de contingence La répartitions des catégories d’un critère est-elle égale dans les différentes catégories de l'autre critère ? Table de contingence Clarté / Certification : Clarté Clarté Clarté Clarté Clarté Total - IF VVS1 VVS2 VS1 VS2 Certification - GIA Certification - HRD Certification - IGI 6 4 34 15 23 14 33 24 21 61 13 7 36 15 2 151 79 78 Total 44 52 78 81 53 308 Profils colonnes (% en colonnes) : Clarté Clarté Clarté Clarté Clarté Total - IF VVS1 VVS2 VS1 VS2 Certification - GIA Certification - HRD Certification - IGI 4,0 5,1 43,6 9,9 29,1 17,9 21,9 30,4 26,9 40,4 16,5 9,0 23,8 19,0 2,6 100 100 100 Total 14,3 16,9 25,3 26,3 17,2 100 Diagramme des profils colonnes 100% 23,8 80% 60% 40,4 2,6 19,0 9,0 16,5 26,9 30,4 17,9 29,1 43,6 5,1 Certif ication - HRD Certification - IGI 40% 20% 0% 21,9 9,9 4,0 Certif ication - GIA Clarté - IF Clarté - V V S1 Clarté - V VS2 Clarté - VS1 Clarté - VS2 Dans notre échantillon, les proportions de diamants dans les différents niveaux de clarté diffèrent selon l’organisme de certification. Annexes A - Les résumés numériques B - Le boxplot C - Le coefficient de corrélation linéaire et la régression linéaire A - Les résumés numériques Soit une variable aléatoire Y et un échantillon de taille n de celle-ci : y1, y2, …, yn n observations de Y Les résumés numériques, indicateurs empiriques sont : n ∑ yi La moyenne de Y : y= i=1 n Somme des valeurs divisée par le nombre de valeurs ; un indicateur de tendance centrale de la distribution. n ∑ (y i − y)2 La variance : s2 = i=1 n Indicateur de dispersion des valeurs autour de la moyenne. L’écart type : s = s2 Racine carrée de la variance, indicateur de dispersion des valeurs exprimé dans l’unité de mesure de la variable. Remarque : Ces indicateurs sont sensibles aux valeurs atypiques de l’échantillon. La moyenne et la médiane sont deux indicateurs de tendance centrale de la distribution des valeurs mais contrairement à la médiane, la moyenne est sensible à une valeur très grande ou très petite par rapport au reste de la série. Skewness et Kurtosis : deux indicateurs de la forme de la distribution des valeurs observées. Le skewness permet de mesurer le degré d’asymétrie de la distribution des valeurs. Moment centré d’ordre 3 sur le cube de l’écart type. n ∑ (y i − y)3 Estimation sur un échantillon : skewness = i=1 (n − 1)s 3 Le kurtosis permet de mesurer le degré d’aplatissement d’une distribution. Moment centré d’ordre 4 sur le carré de la variance. Le kurtosis de la distribution Normale, ainsi calculé, vaut 3, c’est pourquoi les logiciels proposent souvent le calcul du kurtosis en ôtant la valeur 3 : n ∑ (y i − y) 4 Estimation sur un échantillon : kurtosis = i =1 (n − 1)s 4 −3 Utilité du skewness et du kurtosis Une distribution symétrique autour de sa moyenne aura un skewness proche de 0. Skewness positif étalement des valeurs à droite Skewness négatif étalement des valeurs à gauche Le kurtosis d’une loi Normale est nul ; une distribution des valeurs proche de la forme en cloche de la loi normale donnera un kurtosis proche de 0. Kurtosis positif forte concentration, pic prononcé Kurtosis négatif aplatissement de la distribution, faible concentration Schématiquement, l’allure d’une distribution selon que le skewness et le kurtosis sont positifs, négatifs ou nuls : Négatif Positif Nul Skewness Kurtosis Le Skewness et le Kurtosis sont des indicateurs numériques de la forme de la distribution observée : ils donnent un indice de l’éloignement ou du rapprochement de la distribution de la série de valeurs de celle d’une distribution de loi Normale. B - Le Box plot (ou boîte à moustache) : Représentation graphique synthétique de Tukey Le Boxplot est un résumé de la série (de la distribution) construit à partir de sa médiane, ses 1er et 3ème quartiles et ses valeurs extrêmes. Il permet de repérer rapidement, de façon visuelle, l’allure générale de la distribution. Construction utilisée ici : Une boîte, deux moustaches et des valeurs extrêmes : La boîte est délimitée en bas par le premier quartile, en haut par le troisième quartile. Entre les deux se trouve la médiane. Parfois la moyenne est ajoutée. Les extrémités des moustaches ou valeurs extrêmes sont : - le min et le max ; Ou encore, souvent proposées dans les logiciels (parfois paramétrables) : - la plus petite valeur supérieure à q1 - 1,5*(q3 - q1) et la plus grande valeur inférieure à q3 + 1,5*(q3 - q1) avec (q1 = premier quartile ; q3 = troisième quartile). Dans ce cas, les valeurs extrêmes sont les valeurs de la série qui sont hors des limites définies par les extrémités des moustaches (aucune si aucune des valeurs ne sort des limites). Attention, les valeurs extrêmes telles que définies n’ont de sens que lorsque la distribution est Normale (voir la suite). Remarques : - d’autres extrémités des moustaches peuvent être proposées comme les déciles (délimitant 10 % des valeurs) ; - la largeur de la boîte est arbitraire et ne s’interprète donc pas. Représentation : Box plot - Carats 1,2 Echelle : unité de valeur de la variable 1,100 Maximum 1 3ème quartile 0,8 Intervalle interquartiles 0,6 (50 % des valeurs) 0,631 Moyenne 0,620 Médiane 0,4 1er quartile 0,2 0,180 Minimum 0 Le box plot permet de visualiser rapidement : - La plus ou moins forte concentration des valeurs : autour de la médiane (intervalle inter-quartiles, hauteur de la boîte) et celle des queues de distribution (les pattes, chacune 25 % des valeurs). Remarque : la hauteur de la boîte représente 50 % des valeurs, plus cette hauteur est grande (petite) plus les valeurs correspondantes sont étalées (concentrées). - La symétrie de la distribution : position de la médiane dans la boîte et globalement ; différence de longueur des pattes. Plus la moyenne s’écarte de la médiane plus la distribution est asymétrique (attention aux valeurs aberrantes qui influence la valeur de la moyenne) et inversement plus la médiane et la moyenne sont proches plus la distribution est symétrique. Lorsque la médiane est inférieure à la moyenne, les valeurs inférieures sont plus fortement concentrées, les valeurs supérieures plus fortement étalées. L’indice 1,5 utilisé parfois pour la définition des valeurs extrêmes : L’intervalle de Tukey, en dehors duquel les valeurs sont représentées comme extrêmes, repose sur l’hypothèse de normalité de la distribution. I = [q1 − 1,5 × (q3 − q1 ); q3 + 1,5 × (q3 − q1 )] Si la distribution suit une loi N(µ; σ) alors, I = [µ − 2,7σ ; µ + 2,7σ ] Dans le cas d’une distribution normale, cet intervalle doit comprendre 99,3 % des valeurs. Les valeurs en dehors de l’intervalle sont individualisées et marquées d’une croix pour signaler leur caractère atypique, car d’une faible probabilité d’occurrence sous l’hypothèse de normalité. La longueur de cet intervalle fondée sur l’indice 1,5 est arbitraire. C’est un compromis entre les valeurs 1 et 2 qui engendreraient respectivement des intervalles comprenant 95,7 % et 99,8 % des valeurs. Le marquage des valeurs atypiques n’est significatif que si la distribution s’apparente à celle d’une distribution Normale. Comparaison de plusieurs sous-populations (box plots parallèles) : Le box plot permet de comparer visuellement la distribution d’une variable à l’intérieur des sous-populations formant l’échantillon, par la construction d’un box plot pour chacune des sous-populations sur un même graphique (même échelle). La position des indicateurs de tendance centrale et la variabilité de la distribution dans chacune des souspopulations peuvent ainsi être comparées. 1,2 1,100 1,0 1,090 1,010 1,000 0,895 0,810 0,8 0,700 0,655 0,6 0,500 0,500 0,480 0,4 0,300 0,290 0,2 0,180 0,0 GIA HRD IGI 0,210 C - Le coefficient de corrélation linéaire et la régression linéaire Soit X et Y deux variables quantitatives. Le coefficient de corrélation linéaire est un indice rendant compte de la manière dont les deux variables considérées varient simultanément. Il permet de vérifier l’existence d’une relation linéaire entre deux variables, de la forme Y=aX+b. Calcul du coefficient de corrélation linéaire sur l’échantillon : r= 1 n ∑ ( x i − x )( y i − y) n i=1 sx × sy avec s x = = s xy sx × sy 1 n ∑ (s i − s) 2 et s y = n i=1 Rapport covariance empirique sur le produit des écarts-types empiriques 1 n ∑ (s i − s) 2 , les écarts types respectifs de X et de Y n i=1 Le coefficient de corrélation linéaire est compris entre -1 et +1. S’il est proche de 1 ou de -1, les deux variables sont corrélées linéairement (le nuage de points est presque aligné sur une droite), s’il est proche de 0 les variables sont non corrélées linéairement. Plus r est proche de 1 ou de -1 plus le nuage de points est aligné. Si |r|=1, il existe deux constantes a et b définissant une relation linéaire parfaite : Y=aX+b. Une valeur positive du coefficient indique une pente positive de la droite (croissance simultanée des deux variables), une valeur négative une pente négative de la droite (décroissance de l’une liée à la croissance de l’autre). Si le coefficient est proche de 0, une relation linéaire entre les deux variables est exclue, cependant une relation non linéaire peut exister. Détermination de la droite d’équation linéaire Y=aX+b : L’objectif est de modéliser Y par une fonction affine aX+b, plus un aléa résiduel (un bruit blanc). Les estimateurs des paramètres a et b, par la méthode des moindres carrés, donne les résultats suivants, sous certaines hypothèses de validité du modèle : b̂ = 1 n ∑(xi − x)(y i − y) n i=1 s *x2 = s xy 2 sx â = y − b̂x Le coefficient de détermination : Ce coefficient est une mesure du pouvoir explicatif du modèle de régression linéaire. 2 r = 2 s xy 2 2 sx × sy = variance expliquée par le modèle variance totale r2 (carré du coefficient de corrélation) est compris entre 0 et 1. Plus il est proche de 1, meilleur est l’ajustement par le modèle. Remarque : le modèle de régression par les moindres carrés est sensible aux valeurs aberrantes, la dissymétrie des distributions engendre également une mauvaise modélisation ; c’est pourquoi l’analyse descriptive uni-variée de chacune des variables et l’analyse bi-variée du nuage de points sont des étapes indispensables à la construction d’un modèle. Dans certains cas, la transformation des variables (logarithme, puissance…) afin d’atténuer les dissymétries et les valeurs atypiques permet d’obtenir un bon modèle linéaire.