Chapitre 3 : Mesures de dispersion et de forme, observations atypiques et extrêmes, corrélation, concentration Autres caractéristiques d’une distribution de fréquences données brutes ordonner (données rangées) condenser (données condensées) ventiler (données groupées en classes) Mesures de la tendance centrale (mode, moyenne, médiane) : insuffisant. Calculer la dispersion en absolu : l’étendue autour de la tendance centrale : - La variance - L’écart-type (autour de la moyenne) - L’écart semi-interquartiles (autour de la médiane) 1 dispersion « faible » Données brutes • •••• •• x dispersion « forte » • • • • • • •• • • x Polygone des fréquences x x (Ouellet p.56) Étendue 1. Données rangées : x N x1 (population) x n x1 (échantillon). 2. Données condensées : x k x1 . 3. Données groupées en classes : bk b0 . Le champ des données est l’intervalle dans lequel elles tombent. L’étendue est la longueur de ce champ. 2 Valeur absolue et distance Soit x un nombre réel. On définit la valeur absolue de x comme 2 x x si x 0 x x si x 0 . x Distance entre deux nombres réels x et y : d( x, y) x y Positive : d(x,y) ≥ 0 Symétrique : d( x, y ) d( y, x), car d( y, x) y x ( x y) x y d( x, y) 3 Variance Pas interprétable en soi. Calcul transitoire pour l’écart-type, qui est sa racine carrée. Formule varie légèrement entre population (somme des carrés des écarts divisée par N) et échantillon (division par n-1). Cette différence, mineure, est justifiée pour des raisons théoriques. Variance de la population : 1. Données rangées N X2 (x i 1 i X )2 N . moyenne des carrés des distances Formule difficile à lire sous cette forme. En fait résultat d’un calcul simple sur un tableau. Total xi xi X ( xi X ) 2 x1 x2 x1 X x2 X ( x1 X ) 2 ( x2 X ) 2 xN xN X (xN X )2 N X 0 N X2 4 2. Données condensées k 2 X n (x i 1 i i X )2 N k f i ( xi X ) 2 . i 1 k est le nombre de modalités distinctes Même formule que pour les données rangées, mais uniquement à partir des modalités distinctes. Les multiplicités (ni) de ces modalités doivent donc apparaître. 3. Données groupées en classes k 2 X 2 n ( m ) i i X i 1 N k f i (mi X ) 2 i 1 k est le nombre de classes. Comme si on donnait la valeur mi aux modalités tombant dans la i° classe. Comme dans le cas des données condensées 5 Variance échantillonnale: 1. Données rangées n s X2 (x i 1 i x) n 2 ( n 1 n n 1 (x i 1 i x)2 n ) . 2. Données condensées k s 2 X 2 n ( x x ) i i i 1 n 1 k n f i ( xi x ) 2 n 1 i 1 Même formule que pour les données rangées Tenu compte des k modalités distinctes et de leur multiplicité. 3. Données groupées en classes k s 2 X n (m i 1 i i x)2 n 1 k n f i (mi x ) 2 n 1 i 1 6 Exemple : Supposons : Population de 1000 truites dans une pisciculture Variable X = la taille. Il existe une vraie variance pour X. On tire au hasard un échantillon de 50 truites (trop long, trop cher de mesurer la taille de tous les individus de la population) La vraie variance, celle de la population, restera inconnue car on ne veut pas mesurer la taille de 1000 individus. Cette variance est 1000 X2 (x i 1 i X )2 X , 1000 inconnue. Un estimateur de X2 (inconnue) sera 50 s 2 X (x x) i 1 2 49 , (où 50 et non 1 50 x x i 1 i ) 50 i ~ s X2 (x i 1 i x)2 50 , aurait tendance à sous-estimer X2 . 7 Ecart-type La racine carrée de la variance. X (population) et s X (échantillon). Toujours non négatif. Avantage sur la variance : mesure la dispersion dans les unités de la variable et des valeurs centrales. Si X est une température, l’unité est le degré. La moyenne, la médiane, le mode seront en degrés. La variance est exprimée en degrés au carré, pas de sens. On utilise donc l’écart-type, qui est lui aussi exprimé en degrés. Il est donc comparable à la moyenne (on pourra dire si l’écart-type est « petit » ou « grand » par rapport à la moyenne). Dans un tableau de statistiques élémentaires, l’écarttype devrait toujours figurer au côté de la moyenne. 8 Illustration : Ecart-type « petit » Données brutes • •••• •• x Ecart-type « grand » • • •• • • •• • • x Polygone des fréquences x x Mesures de dispersion d’une transformation linéaire Variable X Transformation linéaire Y = aX + d. Théorème : Étendue de Y = |a| (étendue de X) 2 2 2 a X Y Y a X . 9 Notes à propos des mesures de dispersion L’étendue : 1. Ce qui est vraiment utile n’est pas tant l’étendue que le champ des données l’intervalle dans lequel tombent les données. Plus intéressant de savoir que les salaires d’une entreprise tombent entre 40'000 francs et 145'000 francs plutôt que de savoir que l’étendue est de 105'000 francs. 2. L’étendue n’est pas robuste (dépend de seulement deux données : la plus grande et la plus petite). 3. Souffre d’instabilité d’un échantillon à l’autre dans une même population. L’écart-type : N X (x i 1 i 2 ) X N 1. Moyenne quadratique des données centrées. 2. Il n’est pas robuste (les données éloignées du centre sont sur-pondérées). Ne pas l’utiliser si on a une ou plusieurs observations atypiques. Préférer l’écart semi-interquartile. 10 3. Se prête très bien aux manipulations algébriques nécessaires pour développer une théorie. On le verra apparaître de façon essentielle en inférence statistique. 4. Stable d’un échantillon à l’autre. Autres mesures de dispersion Ecart semi-interquartile : Mesure de dispersion robuste. S’utilise en paire avec la médiane lorsque la distribution est dissymétrique ou lorsqu'il y a des données extrêmes. Q Q3 Q1 2 . 11 Coefficient de variation classique : CV / (population) CV s / x (échantillon) Si l’unité de la variable est le kilo, la moyenne et l’écart-type sont en kilos, mais pas le CV, qui est une grandeur sans unité. Mesure la dispersion relative des données ou de la distribution. Mesures sans unité. Coefficient de variation inférieur à 0.15 population est homogène. Sinon, dispersée (0.15 ordre de grandeur, forcément un peu arbitraire). Coefficient de variation interquartile : Concurrent robuste de CV s’utilise donc si on a des données atypiques ou une distribution dissymétrique. CVI Q / Q2 . 12 Illustration : A B Q1 Q2 Q3 Q1 Q2 Q3 1 2 3 10 20 30 Distribution la plus dispersée ? QA = 1 QB = 10 CVIA = ½ Q, l’écart semi-interquartile absolue. CVIB = ½ dispersion Diviser par la médiane pour obtenir le CVI, qui est dès lors sans unité dispersion relative 13 En résumé… Population Mesure non robuste ( , ) Mesure robuste Échantillon ( x , s) CV / CV s / x (Q2 , Q) (Q2 , Q) CVI Q / Q2 CVI Q / Q2 Distribution dissymétrique ou données atypiques, utiliser des mesures robustes. CV et CVI très utiles pour comparer des distributions. Comme CV et CVI sont des mesures sans unité, on peut comparer des distributions de variables ayant des unités différentes (par exemple une variable exprimée en kg et l’autre en tonnes). 14 Application à la finance Ecart-type Ratio de Sharpe Dans une économie de marché, la volatilité est une mesure de l'ampleur des variations du cours d'un actif financier. Elle permet de quantifier le risque lié à cet actif: plus un titre financier est risqué, plus son cours est volatil, et réciproquement. Cette volatilité se traduit mathématiquement par l’écarttype annualisé des rendements (mensuels) d'une série historique (actif, fonds, indice) sur une période donnée (au moins 30 mois). Exemple 1 : (Données brutes) Considérons l’évolution du cours de deux actions françaises, AGF et Canal+. Le graphique correspond au cours des deux actions sur 12 mois, de décembre 1999 à novembre 2000. 15 Tableau 1 1 2 3 4 5 6 7 8 9 10 11 12 13 Date mardi 30/11/1999 jeudi 30/12/1999 lundi 31/01/2000 mardi 29/02/2000 vendredi 31/03/2000 vendredi 28/04/2000 mercredi 31/05/2000 vendredi 30/06/2000 lundi 31/07/2000 jeudi 31/08/2000 vendredi 29/09/2000 mardi 31/10/2000 jeudi 30/11/2000 Rendements Rendements Cours AGF simples Cours Canal+ simples 54.60 82.10 53.80 -0.0147 144.50 0.7600 50.15 -0.0678 166.50 0.1522 50.20 0.0010 293.00 0.7598 54.05 0.0767 230.00 -0.2150 54.65 0.0111 212.00 -0.0783 54.50 -0.0027 204.00 -0.0377 55.35 0.0156 176.00 -0.1373 55.70 0.0063 171.00 -0.0284 56.80 0.0197 183.90 0.0754 61.00 0.0739 169.70 -0.0772 64.50 0.0574 170.50 0.0047 71.50 0.1085 145.50 -0.1466 Les rendements simples ne sont pas additifs. Ils ne conviennent pas pour le calcul statistique utilisant moyenne et variance. 16 Exemple : vous placez un capital de départ de 1000. Le rendement simple de la première année est de ‒ 50% et celui de la seconde année de + 50%. Le rendement global sur les deux ans est de – 25%, et non pas de ‒ 50% + 50% = 0 → non additifs →utiliser rendements continus : c ln( 1 r ) Dans l’autre sens : r e c 1. Exemple : vous placez un capital de départ de 1000. Le rendement simple de la première année est de + 50% et celui de la seconde année de ‒ 1/3 (– 33.33%). Le rendement global sur les deux ans est de 0% : Rendement simple Rendement continu Période 1 + 0.5 Période 2 ‒ 1/3 ln (1 + 0.5) = + 0.405465 ln (1 – 1/3) = ‒ 0. 405465 Rendement continu global : 0.405465 ‒ 0.405465 = 0, ce qui, transformé en rendement simple, donne 0 également zéro : e 1 0 . → rendements simples pas cumulables pour le rendement global → rendements continus cumulables 17 Tableau2 rendements simples et continus pour les deux actions Mois 1 Mois 2 Mois 3 Mois 4 Mois 5 Mois 6 Mois 7 Mois 8 Mois 9 Mois 10 Mois 11 Mois 12 Moyenne des rendements ( x ) Ecart-type des rendements (s) Moyenne mensuelle annualisée ( x p ) Ecart-type mensuel annualisé (sp) AGF simples continus -0.0147 -0.0148 -0.0678 -0.0703 0.0010 0.0010 0.0767 0.0739 0.0111 0.0110 -0.0027 -0.0027 0.0156 0.0155 0.0063 0.0063 0.0197 0.0196 0.0739 0.0713 0.0574 0.0558 0.1085 0.1030 0.0225 0.0469 Canal+ simples continus 0.7600 0.5653 0.1522 0.1417 0.7598 0.5652 -0.2150 -0.2421 -0.0783 -0.0815 -0.0377 -0.0385 -0.1373 -0.1476 -0.0284 -0.0288 0.0754 0.0727 -0.0772 -0.0804 0.0047 0.0047 -0.1466 -0.1586 0.0477 0.2625 0.2697 0.1624 0.5722 0.9094 L’action Canal+ a été plus rentable mais aussi nettement plus volatile que l’action AGF 18 Exemple 2 : (Données groupées en classes) Deux fonds de placement A et B. Les cours ont été relevés en fin de mois, sur quatre ans (48 mois). Tableau 3 Rendements (continus) des deux fonds Fonds A Fonds B mi ni (exact) < -1.5% -0.0299 2 < -1.5% [ -1.5%, -1% [ -0.0121 3 [ -1.5%, -1% [ [ -1%, -0.5% [ -0.0081 4 [ -1%, -0.5% [ [ -0.5%, 0% [ -0.0029 5 [ -0.5%, 0% [ [ 0%, 0.5% [ 0.0021 7 [ 0%, 0.5% [ [ 0.5%, 1% [ 0.0073 8 [ 0.5%, 1% [ [ 1%, 1.5% [ 0.0129 8 [ 1%, 1.5% [ [ 1.5%, 2% [ 0.0176 7 [ 1.5%, 2% [ [ 2%, 2.5% [ 0.0222 3 [ 2%, 2.5% [ > 2.5% 0.0477 1 > 2.5% Moyenne des rendements ( x ) Ecart-type des rendements (s) Moyenne mensuelle annualisée ( x p ) Ecart-type mensuel annualisé (sp) mi (exact) -0.0289 -0.0128 -0.0071 -0.0022 0.0025 0.0079 0.0139 0.0166 0.0228 0.0472 k x f i mi 0.0056 i 1 s [ 0.0072 n k f i (mi x ) 2 ]1 / 2 n 1 i1 0.0136 0.0193 x p 12 x 0.0677 0.0472 0.0869 s p 12 s 0.0670 19 ni 5 4 3 3 4 6 8 6 5 4 Ratio de Sharpe Permet de comparer différents placements en fonction de leurs couples rendement / risque. Sh p xp Rf sp x p : rendement moyen mensuel annualisé Rf : rendement de l'avoir sans risque sp : écart-type mensuel annualisé (risque). Lorsqu’il est positif, un Shp plus élevé est "meilleur" qu'un Shp bas. Un Shp négatif indique un placement dont le rendement a été inférieur à celui de l'avoir sans risque (référentiel) ; la situation est mauvaise. Un Shp inférieur à 1 indique un placement dont l'excédent de rendement par rapport au taux sans risque est inférieur au risque pris. Autrement dit, le risque pris est trop élevé pour le rendement obtenu. Si Shp est plus grand que 1, le placement surperforme l’avoir sans risque. La surperformance de l’actif concerné ne se fait pas au prix d'un risque trop élevé. 20 Ratio Shp du fonds A pour un rendement annuel de l’avoir sans risque de 2 % : Shp xp Rf sp 0.0677 0.02 1.0106 0.0472 Ratio Shp du fonds B pour un rendement annuel de l’avoir sans risque de 2 % : Shp xp Rf sp 0.0869 0.02 0.9985 0.0670 → Shp légèrement meilleur pour le fonds A → proche de l’unité pour les deux fonds, quasi équivalents 21 Diagramme en boîte ou « box-plot » Nous renseigne sur les caractéristiques essentielles d’un jeu de données : le centre la dispersion la symétrie l’existence – ou non – de données atypiques Q1, Q2 et Q3 et Q Q1 et Q3 Diagramme en boîte boîte centrale Q2 : se trouve dans la boîte Donnée atypique : à droite : si elle est plus grande que Q3 + 3Q à gauche : si elle est plus petite que Q1 – 3Q, Moustaches à droite : s’arrête à la plus grande donnée non atypique à gauche : s’arrête à la plus petite donnée non atypique 22 Exemple 1: Consommation mensuelle d’une boisson gazeuse N° modalité 1 2 8 10 3 7 4 6 5 3 6 5 7 8 7 13 9 10 6 9 N° 11 12 13 14 15 16 17 18 19 20 modalité 0 4 14 9 3 7 8 6 8 5 N° 21 22 23 24 25 26 27 28 29 30 modalité 3 9 6 5 8 10 7 6 3 9 N° 31 32 33 34 35 36 37 38 39 40 modalité 4 7 8 6 8 5 8 5 3 9 Résumé Q1 5 Q2 7 Q3 8 Q 1.5 Diagramme en boîte Cons ommation -2 11 0 8 2 4 6 8 10 12 13 14 16 23 Diagramme en boîte 11 Cons ommation -2 8 0 2 4 6 8 10 12 13 14 16 Histogramme 14 12 10 8 6 4 Std. Dev = 2,77 2 Mean = 6,7 N = 40,00 0 0,0 2,5 5,0 7,5 10,0 12,5 15,0 Consommation 24 Exemple 2 : Le cas des vins de Bordeaux Individus : les millésimes Variables: qualité du vin : (1 = bonne ; 2 = moyenne ; 3 = inférieure) température : (somme des températures moyennes en degrés) soleil : (durée d’insolation en heures) chaleur : (nombre de jours de grande chaleur) pluie : (hauteur des pluies en millimètres) N.B. : La qualité du vin est une variable qualitative ordinale, alors que température, soleil, chaleur et pluie sont des variables quantitatives. 25 Les vins de Bordeaux : tableau individus/variables Année Qualité Température Soleil Chaleur Pluie 1924 2 3064 1201 10 361 1925 3 3000 1053 11 338 1926 2 3155 1133 19 393 1927 3 3085 970 4 467 1928 1 3245 1258 36 294 1929 1 3267 1386 35 225 1930 3 3080 966 13 417 1931 3 2974 1189 12 488 1932 3 3038 1103 14 677 1933 2 3318 1310 29 427 1934 1 3317 1362 25 326 1935 3 3182 1171 28 326 1936 3 2998 1102 9 349 1937 1 3221 1424 21 382 1938 2 3019 1230 16 275 1939 2 3022 1285 9 303 1940 2 3094 1329 11 339 1941 3 3009 1210 15 536 1942 2 3227 1331 21 414 1943 1 3308 1366 24 282 1944 2 3212 1289 17 302 1945 1 3361 1444 25 253 1946 2 3061 1175 12 261 1947 1 3478 1317 42 259 1948 2 3126 1248 11 315 1949 1 3458 1508 43 286 1950 2 3252 1361 26 346 1951 3 3052 1186 14 443 1952 1 3270 1399 24 306 1953 1 3198 1259 20 367 1954 3 2904 1164 6 311 1955 1 3247 1277 19 375 1956 3 3083 1195 5 441 1957 3 3043 1208 14 371 Moyennes et écart-types des variables en fonction de la qualité Qualité Effectif Température Soleil Chaleur Pluie 1 11 3306 (92) 1364 (80) 29 (9) 305 (52) 2 11 3141 (100) 1263 (72) 16 (7) 340 (55) 3 12 3037 (69) 1126 (88) 12 (6) 430 (104) Total Total 34 3158 (141) 1247 (127) 19 (10) 360 (91) 26 Distributions des variables météorologiques en fonction de la qualité du vin (1, 2 ou 3) : Température 3600 3500 3400 3300 3200 3100 Temp 3000 2900 2800 N= 11 11 12 1,00 2,00 3,00 Qualité Soleil 1600 1500 1400 1300 1200 Soleil 1100 1000 900 N= 11 11 12 1,00 2,00 3,00 Qualité 27 Chaleur 50 40 30 12 20 Chaleur 10 0 N= 11 11 12 1,00 2,00 3,00 Qualité Pluie 800 700 600 500 400 300 Pluie 200 100 N= 11 11 12 1,00 2,00 3,00 Qualité 28 Mesures de forme Qu’est-ce qui nous intéresse lorsqu’on a des données ou une distribution ? Le centre La dispersion La symétrie L’aplatissement et les données atypiques Le coefficient de dissymétrie Mesurer la symétrie ou la dissymétrie par rapport à un axe central. Le coefficient de dissymétrie de Pearson: CD 3( Q2 ) Généralement : (pop.) CD 3( x Q2 ) s (échant.) 1 CD 1. CD 0 si la distribution est étalée à gauche (biais négatif) CD 0 si la distribution est symétrique (non biaisée) CD 0 si la distribution est étalée à droite (biais positif) 29 Intuitivement : Un histogramme étalé à droite signifie qu’un nombre de plus en plus restreint de données sont situées à droite de la distribution et sont très éloignées du mode. La moyenne μ (non robuste) est aspirée vers la droite. Q2 (robuste) glisse à droite, mais moins que μ. (Ouellet pp.116, 117) La définition du CD se justifie ainsi : D’après la relation empirique de Pearson, on a Mo 3 Q2 CD 3( Q2 ) Mo (population) Mo . μ 30 Mo mesure un étalement absolu Il faut le rapporter à une grandeur adéquate pour avoir un étalement relatif. division par . Si la distribution est étalée à gauche, la moyenne est plus petite que le mode et CD est négatif. Si la distribution est étalée à droite, la moyenne est plus grande que le mode et CD est positif. Le coefficient d’aplatissement CA C75 C25 Q C90 C10 2(C90 C10 ) . Q C75 C 25 2 Loi normale centrée réduite (loi de Gauss,) : µ-σ µ µ+σ x 31 C10 1.2816 C25 0.6745 C75 0.6745 C90 1.2816 CA 0.263 . Comme c’est la loi normale qui sert d’étalon pour les distributions, on dira que : la distribution est plus relevée que la normale lorsque CA 0.263 la distribution est normalement aplatie lorsque CA 0.263 la distribution est plus aplatie que la normale lorsque CA 0.263 . Courbe relevée Courbe normalement étalée Courbe aplatie 32 La cote Z On s’intéresse à une variable X. Première utilisation : Comparer des individus lorsqu’ils proviennent de populations différentes. Deux individus A et B appartiennent à deux populations distinctes. Qui, de A ou de B, se distingue-t-il le plus par rapport à sa propre population ? transformation linéaire de la variable X : Z X 1 X . A : individu provenant d’une population où X a pour moyenne 1 et pour écart-type 1 . B : individu provenant d’une population où X a pour moyenne 2 et pour écart-type 2 . xA : valeur que prend X sur l’individu A. xB : valeur que prend X sur l’individu B. 33 Comparer directement xA et xB n’a pas beaucoup de sens, car ces valeurs appartiennent à des distributions différentes. On comparera plutôt les cotes Z : zA x A 1 1 et zB xB 2 2 . Populations doivent être assez nombreuses (> 30) Distributions de X sur les deux populations : doivent être de forme assez semblable. Exemple : Deux classes d’étudiants, C1 et C2 ; examen portant sur une même matière. Cas 1 : C1 : C2 : 4, 5, 1. 1. Anne est élève de C1, Benoît de C2, tous deux font la note 5.5. 34 Qui, d’Anne ou de Benoît, se distingue-t-il le plus au sein de sa classe respective ? Anne, car z Anne 5.5 4 1.5 1 et z Benoît 5.5 5 0.5 . 1 Il est naturellement d’autant plus « remarquable » d’avoir 5.5 que la moyenne de la classe est basse. Cas 2 : C1 : 4, 1 . C2 : 4, 2 . Anne est élève de C1, Benoît de C2, tous deux font la note 5.5. Qui, d’Anne ou de Benoît, se distingue-t-il le plus au sein de sa classe respective ? Anne, car z Anne 5.5 4 1.5 1 et z Benoît 5.5 4 0.75 . 2 Il est plus « remarquable » de faire 5.5 si la distribution des notes est peu dispersée autour de 4. 35 Deuxième utilisation : Dans une population donnée, comparaison de la situation d’un individu par rapport à la moyenne A : individu provenant d’une population sur laquelle est définie une variable X avec paramètres et . Remplacer par x et par s si échantillon. xA : valeur que prend X sur l’individu A. Interprétation : est l’unité mesurant l’éloignement de xA par rapport à . Comment déterminer le nombre d’écart-types séparant xA de ? Poser x A z A et donc zA xA . 36 10 et Exemple : Si xA = 15, alors zA 2 15 10 2.5 2 xA se trouve à 2.5 écart-types au-dessus de la moyenne. Si xA = 6, alors zA 6 10 2 2 xA se trouve à 2 écart-types au-dessous de la moyenne. Un individu (ou la modalité lui correspondant) dont la cote Z est inférieure à –2 ou supérieure à 2 est relativement éloigné de la moyenne de la distribution. En effet, si la distribution de la variable est normale seuls 5 % environ des individus ont une cote Z inférieure à –2 ou supérieure à 2. Un individu dont la cote Z égale 3, 4 ou 5 (ou –3, –4 ou –5) est considéré comme très éloigné du centre de la distribution. 37 Mesure du lien linéaire entre 2 variables quantitatives Le coefficient de corrélation (Bravais-Pearson) Utilisé dans les sciences physiques ou humaines. En économie, dans les méthodes quantitatives de la gestion ou de la finance. En finance, lorsqu’on veut mesurer l’exposition au risque pour un portefeuille. Un portefeuille diversifié est moins risqué qu’un portefeuille que ne l’est pas. → Outil adéquat pour mesurer le degré de diversification : le coefficient de corrélation entre les actions qui le composent. Mesure du lien linéaire entre deux variables quantitatives X et Y Il y a corrélation entre deux variables quantitatives X et Y si celles-ci varient ensemble de manière linéaire (cf. Ouellet page 419) X (x1, x2,…, xi,..., xn) Y (y1, y2,…, yi,..., yn) 38 Taille et poids mesurés sur les mêmes individus Tableau individus / variables : X Y Individu 1 x1 y1 Individu 2 x2 y2 Individu i xi yi Individu n xn yn Chaque couple de modalités ( xi , yi ) repère un point dans le plan. xi première coordonnée yi deuxième coordonnée n points ( xi , yi ) diagramme de dispersion ou nuage de points. Excel nous permet de réaliser très facilement de tels graphiques. 39 Y Y r ≈1 X X Y Y r = 0.9 r ≈-1 r = -0.9 X Y Y X r=0 r = -0.4 X X Coefficient de corrélation : indice de l’intensité du lien linéaire entre X et Y n r ( x x )( y i i 1 i n y) n (x x) ( y 2 i 1 i i 1 i y )2 40 –1 r Excel onglet 1, r fx : « Coller une fonction » Statistiques coefficient.correlation r > 0 : à de grandes valeurs de X correspondent de grandes valeurs de Y, et à de petites valeurs de X correspondent de petites valeurs de Y. r < 0 : à de grandes valeurs de X correspondent de petites valeurs de Y, et à de petites valeurs de X correspondent de grandes valeurs de Y. r(X,Y) = r(Y, X) r est invariant par rapport à l’échelle tant de X que de Y (francs, $ ; kg, tonnes) r(X,Y) = r(aX+d, cY+b) au signe près r = – 1 : les points ( xi , yi ) du nuage sont alignés sur une droite descendante. r = + 1 : les points ( xi , yi ) du nuage sont alignés sur une droite ascendante. 41 Exemple : Echantillon aléatoire de 12 villes américaines parmi les 75 où une très grande chaîne de magasins (Excelsior Department store) est implantée. Étude de la force du lien linéaire entre Y : les ventes annuelles (en millions de $) et X : l’emploi (en centaines d’employés). Tableau des données et résultats intermédiaires yi ( xi x ) ( y i y ) ( xi x )( yi y ) ( xi x ) 2 xi Abilene 22 250 Alexandria 31 200 Charleston 90 980 Evansville 82 850 Fort Smith 43 710 Jackson 65 280 Roanoke 59 630 Sante Fe 16 180 St Joseph 61 670 Springfield 46 420 Texarkana 35 190 Waco 50 460 Total 600 5820 n r (x i i 1 n (x i 1 i -28 -19 40 32 -7 15 9 -34 11 -4 -15 0 -235 -285 495 365 225 -205 145 -305 185 -65 -295 -25 x )( yi y ) n x ) ( yi y ) 2 2 6580 5415 19800 11680 -1575 -3075 1305 10370 2035 260 4425 0 57220 ( yi y ) 2 784 55225 361 81225 1600 245025 1024 133225 49 50625 225 42025 81 21025 1156 93025 121 34225 16 4225 225 87025 0 625 5642 847500 57'220 0.8275 5'642 847500 i 1 42 Remarque 1 : r peut également être défini à partir du coefficient de covariance : 1 n Cov( X , Y ) ( xi x )( yi y ) . n 1 i 1 On a alors : r Cov( X , Y ) s X sY 1 n ( xi x )( yi y ) n 1 i1 n n (x x) ( y 2 i 1 i n 1 i 1 i y)2 . n 1 Remarque 2 : Erreur courante : confondre corrélation et causalité entre deux variables ou deux phénomènes. L'existence d'une corrélation entre deux variables ne signifie pas nécessairement que l'une influe directement sur l'autre. Par exemple, la corrélation est positive entre le loyer payé par les ménages et la longueur de leurs vacances d’hiver. Cela ne signifie pas qu’une augmentation des 43 loyers entraînerait un allongement du temps consacré aux vacances hivernales ! ! ! La corrélation positive est due à une cause commune aux deux phénomènes étudiés : le niveau des ressources. Les gens de revenu élevé vivent dans des appartements de loyer élevé et ont les moyens de se rendre aux sports d’hiver. Pour qu’il existe une relation causale entre X et Y, il faut en plus de l’observation d’une corrélation entre elles un argument extérieur, non exclusivement statistique. La corrélation entre le nombre de cigarettes fumées (X) et la probabilité de développer un cancer du poumon (Y) ne suffisait pas à démontrer formellement le lien causal entre les deux variables. Le lien fut établi définitivement par la découverte du mécanisme par lequel la fumée fait muter la cellule. En bref ... lorsque deux variables sont corrélées, soit elles sont effectivement liées par une relation causale (lien fort), mais il faut encore démontrer le lien causal par des arguments autres que statistiques soit elles évoluent simplement de manière parallèle parce qu’une ou plusieurs variables extérieures influencent à la fois X et Y (lien faible). 44 La concentration Éléments techniques Milieu de classe ou centre calculé : Δi [ ai , bi [ mi = ai bi 2 . Supposons qu’une variable X prenne ni valeurs dans Δi : xi1 , xi 2 , xij , xini . Centre exact : 1 xi ni ni x j 1 ij moyenne des modalités tombant dans Δi . mi est une approximation de xi Si possible utiliser les centres exacts Dans les formules on notera mi aussi bien le centre exact que le centre calculé. 45 Exemple : Population = classe d’étudiants ; X = poids ; Δi = [60 , 65 [. Si X 60, 62, 63, 64, xi1 xi2 xi3 xi4 (ni = 4) répartition homogène mi xi = 60 65 62.5 2 60 62 63 64 62.25 4 bonne approximation Si X 60, 60, 60, 60, répartition non homogène mi = 62.5 : mauvaise approximation de xi 60 En pratique les résultats des calculs ne diffèrent guère. Le centre calculé d'une classe ouverte n'est pas défini. 46 Exemple : Δ8 [500 , [ « 500 et plus » m8 500 2 centre calculé n’existe pas. L’instance publiant la distribution donne le centre exact xi ou la masse absolue exacte xi ni pour cette classe. Grandeurs synthétiques (ou composées) Masse absolue et masse relative d’une classe : Δi [ ai , bi [ La masse absolue de Δi est définie par mini Si mi est le centre exact, mini est la somme des modalités tombant dans Δi . Si mi est le centre calculé, mini est une approximation de cette somme. Du point de vue de l’interprétation, mini représente le poids, l'importance de Δi . 47 Si X = « salaire », mini représente la masse salariale de Δi . k n ni i 1 fi (effectif global) ni n ( fréquence relative) mifi est appelée masse relative de Δi . Pas d’interprétation claire. Juste utilisée pour le calcul. Masse absolue totale k MAT mi ni i 1 somme de l’ensemble des modalités de la variable si les mi sont exacts approximation de cette somme si les mi sont calculés. Masse relative totale k MRT mi f i i 1 moyenne de l’ensemble des modalités de la variable si les mi sont exacts approximation de cette moyenne si les mi sont calculés. 48 Part de la classe i à la masse absolue totale Utilisée pour le calcul des indicateurs de concentration : qi mi ni mn ( k i i ) . MAT m n ii i 1 Peut aussi être calculée avec les fréquences relatives : qi mi f i m f ( k i i ) MRT . m f i i i 1 En effet, ni mn n mi f i qi k i i k k ni . 1 k mi n i mi n i mi mi f i n i 1 n i 1 i 1 i 1 1 mi n i n mi Interprétation : importance relative de la classe i dans l’ensemble des classes. Si X est le salaire, q i sera la proportion de la masse salariale totale représentée par la classe i. La somme des qi est l'unité : k k mi n i 1 k MAT q i m n 1. i i MAT i 1 MAT i 1 i 1 MAT 49 La notion de concentration La concentration : accumulation de beaucoup de biens (salaires, revenus, fortunes, surfaces agricoles, capital) entre les mains de peu d’individus (personnes, ménages, entreprises agricoles, entreprises). L’emploi est concentré si une grande proportion des travailleurs sont employés par peu d’entreprises. La distribution des points lors d’un examen est concentrée si une petite proportion des étudiants réussissent une forte proportion des points attribués. Tableau 1 Concentration du patrimoine (France, 2000) Part du patrimoine détenu par Les 3 % les plus riches : Les 5 % les plus riches : Les 10 % les plus riches : Les 25 % les plus riches : Les 50 % les plus riches*: 27 % 34 % 46 % 69 % 91 % * ces pourcentages être lus dans l’autre sens, e.g. les 50 % les moins riches possèdent 9 % du patrimoine. 10 % d'Américains (qui ont gagné le plus) en 2006 ont gagné 48.5 % de tous les revenus (New York Times) 50 Cas extrêmes : La concentration (ou inégalité) sera maximale si 99.99 % des individus d’une population ne possèdent presque rien d’un bien et donc 0.01% en possèdent presque l’entier. le coefficient de Gini est proche de 1. Absence totale de concentration s’il y a équirépartition. le coefficient de Gini est égal à 0. Outils pour étudier la concentration : la courbe de Lorenz (graphique) l’indice de Gini (mesure). Analyse de la concentration : la courbe de Lorenz La courbe de Lorenz (et l’indice de Gini) peuvent être appliqués à la distribution de toute variable quantitative X – continue ou discrète – pouvant être représentée sous la forme d’un histogramme. Distribution d'une variable statistique quantitative X . Les données sont réparties dans k classes : Δ1 , Δ 2 ,, Δi ,, Δ k . 51 Construction de la courbe Placer dans le plan les points ( Fi , Qi ), i 1,2,, k Fi f1 f 2 f i : fréquence relative cumulée de ∆i Qi q1 q2 qi : part à la masse totale cumulée de ∆i ( F0 , Q0 ) (0,0) ( Fk , Qk ) (1,1) relier les points par un segment de droite Graphique 1 La courbe de Lorenz (0.1) (1,1) C.L. (Fi, Qi) (0,0) (1,0) 52 Propriétés On peut démontrer que la courbe de Lorenz est non décroissante est au-dessous de la diagonale ( Q est convexe i Fi ) Interprétation Courbe se confond avec la diagonale : équi-répartition (absence totale de concentration). Si X = salaire : chaque employé dispose du même salaire : 10 % des salariés reçoivent 10 % de la masse salariale totale, 20 % reçoivent 20 %, etc. Qi Fi X = nombre d’employés dans divers établissements : absence de concentration veut dire que tous les établissements occupent le même nombre de personnes. Courbe proche du fond de la boîte : inégalité (ou concentration) totale : un seul individu dispose de tous les biens, salaires ou revenus. Une seule entreprise occuperait tous les travailleurs du pays. La réalité est toujours entre ces deux extrêmes. 53 Interpolation linéaire On a toujours z x (car courbe en dessous de la diagonale) d z c a x b a, b, c et d : connues Thalès : z c xa d c ba . Supposons X = salaire. La courbe de Lorenz permet de répondre aux questions suivantes : 1. Quelle est la part à la masse salariale totale gagnée par les x % des salariés gagnant le moins ? (x est connue, de même que a, b, c et d) : z ( x a) (d c) c. ba 54 2. A l'inverse, connaissant z, on peut calculer x : quelle est la proportion de personnes (ayant forcément un salaire inférieur) gagnant z % de masse salariale ? (z est connue, de même que a, b, c et d) : x ( z c) (b a ) a d c Remarque (courbe de Pareto) Deux différences avec celle de Lorenz : S'établit à partir d'une série de données au lieu d'une distribution. Construite selon un ordre décroissant au lieu d'un ordre croissant au-dessus de la diagonale. Utilisée notamment en gestion des stocks (de supermarchés, de pharmacies, etc.) où elle intervient dans la méthode dite ABC. Permet de répondre à des questions du type : 1. Quel pourcentage des articles permet-il de faire z = 80% du bénéfice ? Réponse : x %. 2. Quel pourcentage du bénéfice les x = 20% des articles les plus lucratifs représentent-ils ? Réponse : z %. 55 Assez souvent : règle empirique du 20/80 : avec 20% des articles, on fait 80% du bénéfice. Stratégie ABC : contrôle serré (et donc coûteux) sur un petit nombre d'articles de forte valeur. D'où un gain sur le coût du contrôle serré (lequel se limite à un petit nombre d'articles) et un gain sur le capital immobilisé (le nombre d'articles chers stockés est sous contrôle, donc maintenu à un niveau inférieur). Indice de concentration de Gini : Mesure du degré d'inégalité (ou concentration) Corrado Gini (1884 – 1965) : statisticien, démographe et sociologue. Etudie les inégalités de revenus. 0 Gini 1 concentration nulle concentration extrême égalité absolue inégalité absolue Gini surface de concentrat ion surface du Δ inférieur 56 Graphique 2 Surface de concentration (A) et surface du triangle inférieur (B) Fi 1 : fréquence relative cumulée de la classe i – 1 F0 0 m f (F F Gini mf i i ) i 1 i 1 i i mifiFi mifiFi 1 1 Gini mifi mifi , Utilité Comparaison d'inégalités dans le temps (revenus, salaires, capital, terre) d'inégalités dans l’espace (cantons, pays, entreprises) 57 Inconvénient : un peu réducteur. Différentes courbes de Lorenz peuvent aboutir à un même indice de Gini, alors qu’elle correspondent à des situations différentes. Exemples : l’indice de Gini comme outil d’analyse Graphique 3 Comparaison chronologique de l’inégalité avant impôts aux États-Unis et en France Source : INSEE 2007 Suisse : répartition régionale des revenus Les plus grandes inégalités sont observées dans certains cantons à revenus élevés – Schwyz (0.48), Genève (0.48) et Zoug (0.46) – et faibles – Valais (0.45) et Grisons (0.44). C'est dans le canton d'Uri, où les revenus sont également faibles, qu'ils sont répartis de la façon la plus égale (0.30). Gini vaut 0.40 à l'échelle de la Suisse. 58 Suisse : répartition régionale des fortunes Répartition de la fortune nettement plus inégale que celle des revenus (inégalités se cumulent avec le temps). Plus grandes inégalités dans les cantons de Vaud (Gini = 0.91) et de Bâle-Ville (0.90); c'est le canton d'Uri qui présente la moins forte concentration des fortunes (0.69). Monde : répartition internationale des revenus Les pays historiquement égalitaires en matière de revenu ont un coefficient de l'ordre de 0.2 (Bulgarie, Hongrie, Slovaquie, Tchèquie, Pologne,...). Les pays les plus inégalitaires au monde ont un coefficient de 0.6 (Brésil, Mexique, Guatémala, Honduras, Panama,...). En France, le coefficient de Gini était de 0.36 en 2004. Celui de la Chine est en train de monter et dépasse maintenant 0.5, alors que le coefficient suédois est de 0.25. On note avec intérêt qu’en Chine, le coefficient de Gini est passé de 0.28 à près de 0.5 entre 1982 et 2005, passant en vingt ans du niveau de la Suède à celui du Brésil. 59 Étude de cas : la fortune imposable dans le canton de Fribourg Calcul de l’indice de Gini Tableau 2 Fortune imposable en milliers de francs dans le cas des contribuables physiques acquittant un impôt cantonal (Fribourg : 2003). Calcul de l’indice de Gini. i mi [0, 20[ 1105 [20, 100[ 50022 [100, 200[ 145783 [200, 300[ 244658 [300, 400 [ 345782 [400, 500 [ 445449 [500, 600 [ 546214 [600, 700 [ 647727 [700, 800 [ 747153 [800, 900 [ 844845 [900,1000[ 945829 1000 3507587 Total ni fi 87'551 14'671 12'712 6'854 3'842 2'289 1'468 897 715 513 401 2'279 134'192 0.65 0.11 0.09 0.05 0.03 0.02 0.01 0.01 0.01 0.00 0.00 0.02 mifi Fi Fi-1 mifiFi mifiFi-1 721 0.65 0 470 5469 0.76 0.65 4166 13810 0.86 0.76 11828 12496 0.91 0.86 11341 9900 0.94 0.91 9268 7598 0.95 0.94 7243 5975 0.96 0.95 5761 4330 0.97 0.96 4204 3981 0.98 0.97 3886 3230 0.98 0.98 3165 2826 0.98 0.98 2778 59570 1.00 0.98 59570 129’906 123’682 0 3568 10520 10703 8985 7114 5696 4175 3865 3153 2770 58558 119’106 N.B. : les centres exacts ont été publiés par le SCC mifiFi mifiFi 1 1 123'682 119'106 1 0.869 Gini mifi 129'906 129'906 mifi 60 Tableau 3 X=Fortune imposable(francs) dans le cas des contribuables physiques acquittant un impôt cantonal. Valeurs du centre, de la dispersion (exprimées en francs constants de 2003) et indice de Gini (Fribourg : 1981 – 2003) 1981 1983 1985 1987 1989 1991 1993 1995 1997 1999 2001 2003 Mode 13'870 13'768 11'310 11'212 11'180 11'178 11'280 11'300 11'277 11'244 10'946 10'915 Q2 18'326 18'957 15'279 14'977 15'020 15'171 16'325 16'476 16'438 16'365 15'448 15'328 μ 60'886 74'581 73'416 77'032 82'908 88'903 107'754 115'042 119'618 124'491 124'557 129’906 σ 106'682 166'438 189'183 220'180 245'887 267'140 305'358 333'502 352'053 372'283 372'001 467'619 Gini 0.625 0.664 0.722 0.741 0.753 0.761 0.759 0.766 0.773 0.781 0.793 0.869 Moyenne, médiane, mode, écart-type sont évalués dans les mêmes unités que X doivent être corrigés de l’inflation, exprimés en francs constants (ici 2003). X = fortune nominale d’une des années précédant 2003 Y = fortune réelle (la même fortune, mais en francs constants de 2003) Y aX , I 2003 a It 61 Mode(Y) = a Mode(X) Md(Y) = a Md(X) Y a X Y a X . inutile d’établir la distribution de Y pour chacune des années 1981,1983,...,2001. Le coefficient de Gini est un ratio (grandeur sans unité) : il n’est pas mesuré en francs, donc ne doit pas être déflaté. La transformation linéaire Y aX le laisse inchangé : GiniY = GiniX. GiniY am f (F F am f i i i 1 i ) 1 i i m f (F F m f i i ) i 1 i i i a mi fi ( Fi Fi1 ) a mi f i 1 1 GiniX 62 Courbe de Lorenz de la fortune imposable Tableau 4 Fortune imposable dans le cas des contribuables physiques acquittant un impôt cantonal (Fribourg : 2003). Construction de la courbe de Lorenz. i mi ni fi Fi mifi [0, 20[ 1105 87'551 0.65 0.65 721 [20, 100[ 50022 14'671 0.11 0.76 5469 [100, 200[ 145783 12'712 0.09 0.86 13810 [200, 300[ 244658 6'854 0.05 0.91 12496 [300, 400 [ 345782 3'842 0.03 0.94 9900 [400, 500 [ 445449 2'289 0.02 0.95 7598 [500, 600 [ 546214 1'468 0.01 0.96 5975 [600, 700 [ 647727 897 0.01 0.97 4330 [700, 800 [ 747153 715 0.01 0.98 3981 [800, 900 [ 844845 513 0.00 0.98 3230 [900,1000[ 945829 401 0.00 0.98 2826 1000 3507587 2'279 0.02 1.00 59570 Total 134'192 1 129’906 qi mi f i mi f i 0.01 0.04 0.11 0.10 0.08 0.06 0.05 0.03 0.03 0.02 0.02 0.46 1 Qi 0.01 0.05 0.15 0.25 0.33 0.38 0.43 0.46 0.49 0.52 0.54 1.00 63 Graphique 4 Fortune imposable dans le cas des contribuables physiques acquittant un impôt cantonal (Fribourg ). La courbe de Lorenz correspondant à l’année 2003 et aux données du tableau 4 est la plus éloignée de l’égalité. La courbe de Lorenz la plus proche de l’égalité est celle de 1981. On observe un glissement des fortunes vers plus de concentration. Part cumulée fortune imposable Courbe de Lorenz : fortune imposable cantonale 100% 80% 60% 40% 20% 0% 0% 25% 50% 75% 100% Part cumulée des contribuables Egalité parfaite 1981 1991 2001 2003 64