Descriptive: mesures

publicité
Statistique
Descriptive: mesures
Contexte
On considère que le contexte est donné:
● La population P est bien définie
● On a un échantillon E d’objets de la population
● On a un ensemble de v.a. { x1, x2, …, xn } qu’on peut
évaluer sur les objets de l’échantillon et prenant des
valeurs dans les ensembles K1, K2, …, Kn
Nous allons introduire les éléments essentiels de la
statistique descriptive afin d’étudier la distribution des
valeurs des v.a. au sein de l’échantillon
Cas d’étude: PIB et dette des pays
Population: P = {les pays du monde}
Échantillon: E = {les pays du G7 en 2014}
= {Allemagne, Canada, E-U, France, Italie, Japon, UK}
Les v.a. de base pour l’étude:
● x: le ratio dette sur PIB en % en 2014
● c: le % de variation de x entre 2007 et 2014
Données: valeurs des v.a. sur l’échantillon:
● x: 188, 221, 233, 280, 259, 400, 252
● c: 8, 39, 16, 66, 55, 64, 30
Mesure
Dans un premier temps, on considère des mesures
numériques caractérisant certains aspects clefs de la
distribution des valeurs
Dans un second temps, on va considérer des
représentations plus complètes de la distribution avec des
modèles
Tendance centrale
On veut représenter toutes les valeurs d’une v.a. sur E par
une seule valeur
Il y a plusieurs façons de le faire, mais elles provoquent
toujours une perte d’information
Tendance centrale - médiane
On note med la valeur d’une v.a. qui sépare E en deux
parties de même nombre d’éléments, lorsque les éléments
de E sont préalablement mis en ordre croissant.
S’il y a un nombre pair d’éléments, on prends la valeur
mitoyenne des deux parties
Exemple: med(x)=252
En effet, on a
188, 221, 233, 252, 259, 280, 400
Tendance centrale - moyenne
On note moy le nombre réel obtenu en divisant la somme
des valeurs de la v.a. par la taille de l’échantillon (souvent
notée n)
Exemple: moy(x)=261.857
En effet, on a
(188+221+233+280+259+400+252)/7 = 261.857
Tendance centrale - mode
On note mod la valeur de la v.a. la plus fréquente de l’
échantillon
Attention: elle n’est pas toujours unique!
Dans le cas de l’exemple PIB vs dette, il y a autant de
modes que de valeurs. Ici, le mode n’a pas d’intérêt en tant
que mesure de tendance centrale.
Choix mesure de tendance centrale
Qu’est-ce qui représente le mieux les valeurs de x sur E,
med(x), moy(x) ou mod(x)?
Bien qu’on utilise surtout la moyenne, chacune offre un
point de vue. En outre, il y a des modèles de distribution
qui utilisent plus d’une mesure de tendance centrale
Notons qu’il existe d’autres mesures de tendance centrale,
mais elles sont plus rarement utilisées
Moyenne, médiane ou mode?
moyenne : c’est le choix par défaut, il convient le plus
pour obtenir un total, car total = (n*moy). Par contre, elle
réagit beaucoup aux données extrêmes
médiane : c’est une alternative à la moyenne lorsqu’on
veut limiter l’impact des données extrêmes
mode : sert à décrire le cas le plus typique. Cependant,
il peut être trompeur en tant que mesure de tendance
centrale. Exemple:
3.1, 1.2, 1.3, 1.0, 1.6, 1.2, 3.1, 3.1, 0.8, 1.1, 0.9, 0.7
Attention au type de v.a.
La nature d’une v.a. peut limiter le choix des mesures de
tendance centrale
Nominale : les valeurs sont des noms, seul le mode est
utilisable (pas possible de calculer une moyenne!)
Ordinale : les valeurs peuvent être ordonnées et
représente souvent un classement, dans ce cas la médiane
est souvent la mesure de tendance centrale préférée
Dispersion
On veut représenter par une seule valeur la dispersion des
valeurs d’une v.a. sur E
Comme pour la tendance centrale, il y a plusieurs façons
de le faire, mais elles provoquent une perte d’information
Dispersion - étendue
L’étendue est la différence entre la plus grande et la plus
petite valeur de la v.a. sur E
Exemple: etendue(x)=212
En effet, max(x)=400 et min(x)= 188
donc etendue(x) = 400 - 188 = 212
C’est très simple à calculer, mais ça donne beaucoup
d’importance aux valeurs extrêmes
Dispersion - écart-type
L’écart-type s(x) est une mesure de dispersion calculée via
le carré des écarts à la moyenne:
s2(x) = ∑i=1,n( (xi-moy(x))2 )/(n-1)
Le carré de l’écart-type est aussi appelé “variance”, var(x)
Exemple: s(x)=67.67
En effet, on a moy(x)=261.857,
et ∑i=1,n( (xi-261.857)2 )=27474.857,
donc s(x) = sqrt( 27474.857/6 ) = 67.67
Étendue ou écart-type?
Qu’est-ce qui représente le mieux la dispersion des valeurs
de x sur E, etendue(x) ou s(x)?
En fait, chacune offre un point de vue. En pratique, on
utilise surtout s(x), mais l’étendue est souvent utilisée pour
une estimation rapide car elle est plus facile à calculer
Encore ici, il existe d’autres mesures, mais elles sont
rarement utilisées
Volatilité
En économie on utilise l’écart-type comme mesure de
dispersion. On la nomme plutôt volatilité ou volatilité
historique
On l’utilise principalement dans le contexte d’une v.a.
dynamique (i.e. série temporelle)
Attention au type de v.a.
La nature d’une v.a. limite le choix de mesure
Nominale : les valeurs sont des noms, on n’utilise pas de
mesure de dispersion
Ordinale : les valeurs peuvent être ordonnées et
représente souvent un classement, dans ce cas l’étendue
est souvent la mesure de dispersion préférée
Distribution des valeurs
Si on veut mieux décrire les valeurs prises par une v.a. sur
un échantillon, on utilise un tableau de fréquences
C’est un tableau qui donne l’occurence de chacune des
valeurs prises par la v.a.
Notons qu’un échantillon est toujours fini, on peut donc
toujours représenter la distribution par un tableau de
fréquences
Exemple de tableau de fréquences
Supposons qu’un échantillon contient 600 dés à six faces
et que la v.a. est la valeur du dé
La liste des 600 valeurs serait pénible à écrire, mais si on
compte l’occurence de chacune des faces on obtient le
tableau de fréquences de la forme:
Face
1
2
3
4
5
6
Freq.
97
101
99
95
107
101
Représentation des fréquences
On représente le tableau de fréquences de multiples
façons. Par exemple, en histogramme et en pointes de
tarte:
Distribution et fréquences
Un tableau de fréquences donne toute les informations sur
la distribution des valeurs d’une v.a. pour un échantillon. Il
n’y a pas de perte d’information
On peut donc déduire toutes les autres informations utiles à
partir des fréquences: moyenne, étendue, écart-type, etc.
On peut aussi l’utilise pour le calcul des probabilités
Cependant, il s’agit de distributions limités à un échantillon,
pas de distributions pour toute la population
Distribution et chance d’occurrence
Un tableau de fréquences donne toute les informations sur
la distribution des valeurs d’une v.a. pour un échantillon
On peut l’utiliser pour calculer la chance d’occurrence des
événements de l’échantillon via la fréquence
Par exemple, avec le tableau de fréquence de 600 lancés
d’un dé, la chance d’avoir 1 ou 2 est:
p(1 ou 2) = (freq(1)+freq(2))/600 = (97+101)/600 = 0.3300
Note: c’est l’approche fréquentiste du calcul d’une probabilité
Regroupement en classes
S’il y a beaucoup de valeurs différentes, il peut être
pratique d’approximer la distribution via un regroupement
des valeurs en classes
Exemple: sachant que l’âge des canadiens est entre 0 et
112 ans, on peut présenter la distribution de l’âge en un
tableau de 113 valeurs. Pour simplifier, on pourrait plutôt
présenter un tableau de 12 valeurs: le nombre de
canadiens dans la classe 0 à 10 ans, le nombre dans la
classe 10 à 20 ans, etc
Classes “âge” de 1588 canadiens
Téléchargement