Statistique Descriptive: mesures Contexte On considère que le contexte est donné: ● La population P est bien définie ● On a un échantillon E d’objets de la population ● On a un ensemble de v.a. { x1, x2, …, xn } qu’on peut évaluer sur les objets de l’échantillon et prenant des valeurs dans les ensembles K1, K2, …, Kn Nous allons introduire les éléments essentiels de la statistique descriptive afin d’étudier la distribution des valeurs des v.a. au sein de l’échantillon Cas d’étude: PIB et dette des pays Population: P = {les pays du monde} Échantillon: E = {les pays du G7 en 2014} = {Allemagne, Canada, E-U, France, Italie, Japon, UK} Les v.a. de base pour l’étude: ● x: le ratio dette sur PIB en % en 2014 ● c: le % de variation de x entre 2007 et 2014 Données: valeurs des v.a. sur l’échantillon: ● x: 188, 221, 233, 280, 259, 400, 252 ● c: 8, 39, 16, 66, 55, 64, 30 Mesure Dans un premier temps, on considère des mesures numériques caractérisant certains aspects clefs de la distribution des valeurs Dans un second temps, on va considérer des représentations plus complètes de la distribution avec des modèles Tendance centrale On veut représenter toutes les valeurs d’une v.a. sur E par une seule valeur Il y a plusieurs façons de le faire, mais elles provoquent toujours une perte d’information Tendance centrale - médiane On note med la valeur d’une v.a. qui sépare E en deux parties de même nombre d’éléments, lorsque les éléments de E sont préalablement mis en ordre croissant. S’il y a un nombre pair d’éléments, on prends la valeur mitoyenne des deux parties Exemple: med(x)=252 En effet, on a 188, 221, 233, 252, 259, 280, 400 Tendance centrale - moyenne On note moy le nombre réel obtenu en divisant la somme des valeurs de la v.a. par la taille de l’échantillon (souvent notée n) Exemple: moy(x)=261.857 En effet, on a (188+221+233+280+259+400+252)/7 = 261.857 Tendance centrale - mode On note mod la valeur de la v.a. la plus fréquente de l’ échantillon Attention: elle n’est pas toujours unique! Dans le cas de l’exemple PIB vs dette, il y a autant de modes que de valeurs. Ici, le mode n’a pas d’intérêt en tant que mesure de tendance centrale. Choix mesure de tendance centrale Qu’est-ce qui représente le mieux les valeurs de x sur E, med(x), moy(x) ou mod(x)? Bien qu’on utilise surtout la moyenne, chacune offre un point de vue. En outre, il y a des modèles de distribution qui utilisent plus d’une mesure de tendance centrale Notons qu’il existe d’autres mesures de tendance centrale, mais elles sont plus rarement utilisées Moyenne, médiane ou mode? moyenne : c’est le choix par défaut, il convient le plus pour obtenir un total, car total = (n*moy). Par contre, elle réagit beaucoup aux données extrêmes médiane : c’est une alternative à la moyenne lorsqu’on veut limiter l’impact des données extrêmes mode : sert à décrire le cas le plus typique. Cependant, il peut être trompeur en tant que mesure de tendance centrale. Exemple: 3.1, 1.2, 1.3, 1.0, 1.6, 1.2, 3.1, 3.1, 0.8, 1.1, 0.9, 0.7 Attention au type de v.a. La nature d’une v.a. peut limiter le choix des mesures de tendance centrale Nominale : les valeurs sont des noms, seul le mode est utilisable (pas possible de calculer une moyenne!) Ordinale : les valeurs peuvent être ordonnées et représente souvent un classement, dans ce cas la médiane est souvent la mesure de tendance centrale préférée Dispersion On veut représenter par une seule valeur la dispersion des valeurs d’une v.a. sur E Comme pour la tendance centrale, il y a plusieurs façons de le faire, mais elles provoquent une perte d’information Dispersion - étendue L’étendue est la différence entre la plus grande et la plus petite valeur de la v.a. sur E Exemple: etendue(x)=212 En effet, max(x)=400 et min(x)= 188 donc etendue(x) = 400 - 188 = 212 C’est très simple à calculer, mais ça donne beaucoup d’importance aux valeurs extrêmes Dispersion - écart-type L’écart-type s(x) est une mesure de dispersion calculée via le carré des écarts à la moyenne: s2(x) = ∑i=1,n( (xi-moy(x))2 )/(n-1) Le carré de l’écart-type est aussi appelé “variance”, var(x) Exemple: s(x)=67.67 En effet, on a moy(x)=261.857, et ∑i=1,n( (xi-261.857)2 )=27474.857, donc s(x) = sqrt( 27474.857/6 ) = 67.67 Étendue ou écart-type? Qu’est-ce qui représente le mieux la dispersion des valeurs de x sur E, etendue(x) ou s(x)? En fait, chacune offre un point de vue. En pratique, on utilise surtout s(x), mais l’étendue est souvent utilisée pour une estimation rapide car elle est plus facile à calculer Encore ici, il existe d’autres mesures, mais elles sont rarement utilisées Volatilité En économie on utilise l’écart-type comme mesure de dispersion. On la nomme plutôt volatilité ou volatilité historique On l’utilise principalement dans le contexte d’une v.a. dynamique (i.e. série temporelle) Attention au type de v.a. La nature d’une v.a. limite le choix de mesure Nominale : les valeurs sont des noms, on n’utilise pas de mesure de dispersion Ordinale : les valeurs peuvent être ordonnées et représente souvent un classement, dans ce cas l’étendue est souvent la mesure de dispersion préférée Distribution des valeurs Si on veut mieux décrire les valeurs prises par une v.a. sur un échantillon, on utilise un tableau de fréquences C’est un tableau qui donne l’occurence de chacune des valeurs prises par la v.a. Notons qu’un échantillon est toujours fini, on peut donc toujours représenter la distribution par un tableau de fréquences Exemple de tableau de fréquences Supposons qu’un échantillon contient 600 dés à six faces et que la v.a. est la valeur du dé La liste des 600 valeurs serait pénible à écrire, mais si on compte l’occurence de chacune des faces on obtient le tableau de fréquences de la forme: Face 1 2 3 4 5 6 Freq. 97 101 99 95 107 101 Représentation des fréquences On représente le tableau de fréquences de multiples façons. Par exemple, en histogramme et en pointes de tarte: Distribution et fréquences Un tableau de fréquences donne toute les informations sur la distribution des valeurs d’une v.a. pour un échantillon. Il n’y a pas de perte d’information On peut donc déduire toutes les autres informations utiles à partir des fréquences: moyenne, étendue, écart-type, etc. On peut aussi l’utilise pour le calcul des probabilités Cependant, il s’agit de distributions limités à un échantillon, pas de distributions pour toute la population Distribution et chance d’occurrence Un tableau de fréquences donne toute les informations sur la distribution des valeurs d’une v.a. pour un échantillon On peut l’utiliser pour calculer la chance d’occurrence des événements de l’échantillon via la fréquence Par exemple, avec le tableau de fréquence de 600 lancés d’un dé, la chance d’avoir 1 ou 2 est: p(1 ou 2) = (freq(1)+freq(2))/600 = (97+101)/600 = 0.3300 Note: c’est l’approche fréquentiste du calcul d’une probabilité Regroupement en classes S’il y a beaucoup de valeurs différentes, il peut être pratique d’approximer la distribution via un regroupement des valeurs en classes Exemple: sachant que l’âge des canadiens est entre 0 et 112 ans, on peut présenter la distribution de l’âge en un tableau de 113 valeurs. Pour simplifier, on pourrait plutôt présenter un tableau de 12 valeurs: le nombre de canadiens dans la classe 0 à 10 ans, le nombre dans la classe 10 à 20 ans, etc Classes “âge” de 1588 canadiens