Statistiques descriptives.

publicité
S TATISTIQUES DESCRIPTIVES .
Alexandre Popier
Université du Maine, Le Mans
Octobre 2010
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
1 / 39
P LAN DU COURS
1
I NTRODUCTION
2
O UTILS CLASSIQUES
Graphiques
Statistiques les plus usuelles
Points extrêmes
3
AUTRES OUTILS D ’ ANALYSE
Symétrie
Quantiles
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
2 / 39
P LAN
1
I NTRODUCTION
2
O UTILS CLASSIQUES
Graphiques
Statistiques les plus usuelles
Points extrêmes
3
AUTRES OUTILS D ’ ANALYSE
Symétrie
Quantiles
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
3 / 39
P RATIQUE SPORTIVE DES JEUNES .
E NQUÊTE du ministère des Sports (source INSEE, 2003) :
Q UESTION : y a-t-il un lien entre la pratique d’un sport chez les jeunes
et le revenu et/ou le diplôme des parents ?
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
4 / 39
P RATIQUE SPORTIVE DES JEUNES .
E NQUÊTE du ministère des Sports (source INSEE, 2003) :
Q UESTION : y a-t-il un lien entre la pratique d’un sport chez les jeunes
et celle de ces parents ? Le sexe joue-t-il un rôle ?
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
4 / 39
P RATIQUE SPORTIVE DES JEUNES .
E NQUÊTE du ministère des Sports (source INSEE, 2003) :
Q UESTION : y a-t-il un lien entre l’âge, la classe et la pratique d’un
sport chez les jeunes ?
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
4 / 39
S ANTÉ DES FRANÇAIS (INSEE 2000).
C ONCLUSION ?
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
5 / 39
S TATISTIQUES ?
D ÉFINITION
Science qui s’intéresse à la production et au traitement de l’information
sous forme numérique.
Q UATRE PRINCIPALES ACTIVITÉS :
1
Produire de bonnes données : bien choisir ce qu’on mesure, bien
mesurer, etc.
2
Organiser ces données → statistiques descriptives (chapitre 2).
3
Comparer, relier, croiser les données → ACP, régressions,
indépendance (test du χ2 ).
4
Évaluer la confiance que l’on peut avoir dans les résultats obtenus
→ estimations, tests.
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
6 / 39
P RODUCTION DE DONNÉES
I
Erreurs de mesure : mesure individuelle = vraie valeur + biais +
variation aléatoire.
I
Sondages : comment sélectionner l’échantillon représentatif ?
Sondages de convenance,
Sondages par quotas,
Sondages par boule de neige,
Sondages aléatoires.
Que faire des non-réponses (problème de contact, de refus, de
mensonge) ?
I
Expérimentations.
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
7 / 39
P LAN
1
I NTRODUCTION
2
O UTILS CLASSIQUES
Graphiques
Statistiques les plus usuelles
Points extrêmes
3
AUTRES OUTILS D ’ ANALYSE
Symétrie
Quantiles
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
8 / 39
O RGANISER DES DONNÉES .
Temps (min) réalisé par 22 marathoniens :
216
195
230
175
211
220
235
229
227
153
176
203
185
196
I
Comment explorer ces données ?
I
Comment les résumer ?
I
Comment les présenter ?
A. Popier (Le Mans)
183
197
179
200
Statistiques (partie 1).
195
213
215
273
Octobre 2010
9 / 39
S TATISTIQUES D ’ ORDRE .
D ÉFINITION
On appelle statistiques d’ordre les données rangées de la plus petite à
la plus grande.
E XEMPLE :
153
185
200
216
235
175
195
203
220
273
176
195
211
227
179
196
213
229
183
197
215
230
P ROPOSITION
Les statistiques d’ordre permettent en particulier de calculer la valeur
minimum des données notée min, et la valeur maximum notée max.
E XEMPLE : min = 153 et max = 273.
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
10 / 39
P LAN
1
I NTRODUCTION
2
O UTILS CLASSIQUES
Graphiques
Statistiques les plus usuelles
Points extrêmes
3
AUTRES OUTILS D ’ ANALYSE
Symétrie
Quantiles
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
11 / 39
L IGNE DE POINTS .
D ÉFINITION
Dans la ligne de points, la position d’un point sur la ligne indique la
valeur de la donnée correspondante. Si certaines données sont
égales, les points correspondants sont empilés.
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
12 / 39
H ISTOGRAMME .
D ÉFINITION
L’histogramme représente la concentration des données dans une
série d’intervalles.
Pour construire un histogramme :
1
On divise l’étendue des données en intervalles de même
longueur.
2
On compte le nombre de données dans chaque intervalle.
3
Les rectangles constituant l’histogramme prennent pour base les
intervalles successifs et pour hauteur l’effectif correspondant.
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
13 / 39
H ISTOGRAMME .
E XEMPLE : histogramme débutant à 150 avec intervalles de longueur
20 :
Intervalles Effectif
]150; 170]
1
5
]170; 190]
]190; 210]
6
]210; 230]
8
]230; 250]
1
0
]250; 270]
]270; 290]
1
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
13 / 39
H ISTOGRAMME .
E XEMPLE : histogramme débutant à 150 avec intervalles de longueur
20 :
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
13 / 39
H ISTOGRAMME .
R EMARQUES
Préférable à la ligne de points quand le nombre de données est
grand (supérieur à trente).
Règle de Moore : nombre de classes proche de la racine carrée
du nombre d’observations.
Grande variabilité suivant le choix de l’origine et de la largeur des
classes.
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
13 / 39
VARIABILITÉ D ’ UN HISTOGRAMME .
Décalage de la première valeur de l’histogramme :
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
14 / 39
VARIABILITÉ D ’ UN HISTOGRAMME .
Largeur des classes :
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
14 / 39
Q UE RECHERCHER DANS CES GRAPHIQUES ?
I
Centre : valeur capable de situer le jeu de données, d’en donner
l’ordre de grandeur (exemple : moyenne).
I
Dispersion : comment les valeurs s’écartent du centre ? A un
impact sur la confiance à accorder au centre (exemple :
écart-type).
I
Symétrie : écartement à gauche par rapport à écartement à droite.
I
Points extrêmes : comprendre la singularité de ces points.
I
Regroupements : avec comme conséquence une hétérogénéité
dans la population.
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
15 / 39
E XEMPLE .
Sur différents jeux de données avec même moyenne et même
écart-type :
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
16 / 39
P LAN
1
I NTRODUCTION
2
O UTILS CLASSIQUES
Graphiques
Statistiques les plus usuelles
Points extrêmes
3
AUTRES OUTILS D ’ ANALYSE
Symétrie
Quantiles
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
17 / 39
S TATISTIQUES DE CENTRE .
M ÉDIANE :
D ÉFINITION
La moitié des données est plus grande que la médiane et l’autre moitié
plus petite. On la note Q2 .
R EMARQUE
La médiane n’est pas unique.
Convention :
si le nombre de données est impair, la médiane est la valeur
centrale des statistiques d’ordre ;
si le nombre de données est pair, la médiane est le milieu des deux
valeurs centrales des statistiques d’ordre.
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
18 / 39
S TATISTIQUES DE CENTRE .
M OYENNE :
D ÉFINITION
La moyenne est la somme des données divisée par leur nombre.
Si les n observations sont y1 , y2 , . . . , yn , leur moyenne est
y1 + y2 + . . . + yn
ȳ =
.
n
R EMARQUE
La moyenne n’est pas forcément égale à une donnée.
C’est un centre de gravité.
C OMPARAISON MÉDIANE - MOYENNE :
Ce sont deux valeurs distinctes !
La médiane est une statistique plus résistante à la présence de
points extrêmes que la moyenne.
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
18 / 39
S TATISTIQUES DE DISPERSION .
É TENDUE :
D ÉFINITION
L’étendue est la différence entre la valeur maximum et la valeur
minimum.
R EMARQUE
L’étendue dépend de la taille de l’échantillon.
Elle n’est absolument pas résistante à la présence de points
extrêmes.
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
19 / 39
S TATISTIQUES DE DISPERSION .
Q UARTILES ET ÉTENDUE INTER - QUARTILES :
D ÉFINITION
La médiane sépare la distribution en deux groupes d’effectifs égaux.
Elle est le deuxième quartile Q2 .
Le premier quartile Q1 se calcule en prenant la médiane des données
plus petites que la médiane. Le troisième quartile Q3 se calcule en
prenant la médiane des données plus grandes que la médiane.
D ÉFINITION
L’étendue inter-quartiles exprime la dispersion de la portion centrale
des données ; elle est l’écart entre le premier et le troisième quartile et
se note EIQ.
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
19 / 39
R ÉSUMÉ ET BOÎTE À MOUSTACHES .
D ÉFINITION
Le résumé comprend donc :
le minimum,
le premier quartile Q1 ,
la médiane Q2 ,
le troisième quartile Q3 ,
le maximum,
la moyenne.
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
20 / 39
R ÉSUMÉ ET BOÎTE À MOUSTACHES .
R EPRÉSENTATION
Le résumé se représente par une boîte à moustaches construite
comme suit :
1
une boîte dont la largeur est définie par Q1 et Q3 ;
2
un trait vertical est placé dans la boîte à la hauteur de Q2 ;
3
un trait vertical est placé à la hauteur de la moyenne ;
4
on tire à l’extérieur de la boîte deux traits horizontaux, dits
moustaches, l’un allant de Q1 jusqu’au minimum, l’autre de Q3
jusqu’au maximum.
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
20 / 39
R ÉSUMÉ ET BOÎTE À MOUSTACHES .
Sur l’exemple des marathoniens : min = 153, Q1 = 185, Q2 = 201, 5,
Q3 = 220, max = 273, moyenne ȳ = 204, 8.
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
20 / 39
VARIANCE ET ÉCART- TYPE .
D ÉFINITION
La différence y − ȳ entre une donnée et la moyenne de l’échantillon
est appelée déviation.
La variance est la moyenne des déviations mises au carré. On la note
Var (y ).
Si les n observations sont y1 , y2 , . . . , yn avec pour moyenne ȳ , alors
Var (y ) =
=
1
(y1 − ȳ )2 + (y2 − ȳ )2 + . . . + (yn − ȳ )2
n
i
1h 2
2
2
y + y2 + . . . + yn − (ȳ )2 .
n 1
D ÉFINITION
L’écart-type est la racine carrée de la variance : s =
A. Popier (Le Mans)
Statistiques (partie 1).
p
Var (y ).
Octobre 2010
21 / 39
P LAN
1
I NTRODUCTION
2
O UTILS CLASSIQUES
Graphiques
Statistiques les plus usuelles
Points extrêmes
3
AUTRES OUTILS D ’ ANALYSE
Symétrie
Quantiles
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
22 / 39
P OURQUOI S ’ Y INTÉRESSER ?
I
Erreurs de mesure ou de saisie à éliminer pour réaliser des
analyses de qualité.
I
Données intéressantes par leur marginalité : pour comprendre le
problème, pour diriger vers de nouvelles pistes de recherche.
I
Ne jamais les supprimer sans réflexion préalable. Sinon préciser
leur nombre et leur valeur dans la présentation des résultats.
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
23 / 39
N ORMALISATION .
D ÉFINITION
On appelle donnée normalisée la différence entre la donnée et la
moyenne, divisée par l’écart-type.
Pour p
n données y1 , y2 , . . . , yn avec moyenne ȳ et écart-type
sy = Var (y ),
yi − ȳ
zi =
.
sy
R EMARQUE
Pour les données normalisées, la moyenne est 0, la variance vaut 1.
D ÉFINITION
On considère une donnée comme point éloigné si la donnée
normalisée correspondante dépasse deux en valeur absolue, et
comme point très éloigné si elle dépasse trois.
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
24 / 39
P OINTS EXTRÊMES .
D ÉFINITION
On appelle point extrême toute valeur inférieure à Q1 − 1, 5EIQ ou
supérieure à Q3 + 1, 5EIQ.
E N CAS DE PRÉSENCE de points extrêmes : modification de la boîte à
moustaches : on tire la moustache jusqu’à la limite Q1 − 1, 5EIQ (resp.
Q3 + 1, 5EIQ) et on marque l’emplacement des points extrêmes par de
petits cercles.
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
25 / 39
P OINTS EXTRÊMES .
E XEMPLE : poids de 41 sumotoris
100
133
140
145
152
162
192
105
133
141
146
154
166
192
114
134
141
147
158
166
196
115
134
142
148
158
167
222
126
136
142
150
158
168
284
131
140
144
150
159
176
Avec min = 100, Q1 = 135, Q2 = 147, Q3 = 164, max = 284,
ȳ = 152, 8.
Comme Q1 − 1, 5EIQ = 91, 5 et Q3 + 1, 5EIQ = 207, 5, deux points
extrêmes : 222 et 284.
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
25 / 39
P OINTS EXTRÊMES .
E XEMPLE : poids de 41 sumotoris
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
25 / 39
P LAN
1
I NTRODUCTION
2
O UTILS CLASSIQUES
Graphiques
Statistiques les plus usuelles
Points extrêmes
3
AUTRES OUTILS D ’ ANALYSE
Symétrie
Quantiles
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
26 / 39
P LAN
1
I NTRODUCTION
2
O UTILS CLASSIQUES
Graphiques
Statistiques les plus usuelles
Points extrêmes
3
AUTRES OUTILS D ’ ANALYSE
Symétrie
Quantiles
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
27 / 39
D ISTRIBUTION SYMÉTRIQUE .
D ÉFINITION
Une distribution symétrique est dispersée de façon similaire à droite et
à gauche du centre.
R EMARQUE
La médiane et la moyenne ne se confondent pas dans les
distributions asymétriques.
L’écart-type est mal adapté à la description des distributions
asymétriques.
Dans les distributions symétriques, les deux quartiles sont
sensiblement à même distance de la médiane.
B OÎTE À MOUSTACHES : déséquilibre visuel de la boîte signale
distribution asymétrique.
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
28 / 39
J EUX DE DONNÉES AVEC MÊME MOYENNE ET MÊME
ÉCART- TYPE .
D ISTRBUTIONS SYMÉTRIQUES :
D ISTRBUTIONS ASYMÉTRIQUES :
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
29 / 39
G RAPHIQUE DE SYMÉTRIE .
D ÉFINITION
Le graphique de symétrie de Wilk et Gnanadesikan consiste à
représenter sur un graphe la moitié supérieure des valeurs ordonnées
contre la moitié inférieure, c’est-à-dire pour un échantillon ordonné
y1 , y2 , . . . , yn de taille n, les poins (y1 , yn ), (y2 , yn−1 ), . . .
Si la distribution est symétrique, les points sont proches d’une droite
de pente -1 passant par le point de coordonnées (Q2 , Q2 ), ligne que
l’on ajoute au graphe.
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
30 / 39
E XEMPLE : TRANSFERTS EN L IGUE 1 (2000-2001).
En million de francs :
3
3
0.9
1
35
9
7
25
8
70
51
2 1.5 10
8.5
7 4.5
1 25 22.5 20
10
8
8
5
8.5 8.5 3.5 3
15 10
40
20
15 15
28 19 12.5 12.5 2
10
8
5
3
25
9
6
5 15
10
25
25 13
25 140 60
50
35 18
50 35
13
5
200 90
40 18
16
40
23 66
38 20
14
8
6 1.5
Médiane Q2 = 13 et moyenne ȳ = 22, 45.
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
31 / 39
E XEMPLE : TRANSFERTS EN L IGUE 1 (2000-2001).
Histogramme très désaxé :
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
31 / 39
E XEMPLE : TRANSFERTS EN L IGUE 1 (2000-2001).
Graphique de symétrie :
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
31 / 39
P LAN
1
I NTRODUCTION
2
O UTILS CLASSIQUES
Graphiques
Statistiques les plus usuelles
Points extrêmes
3
AUTRES OUTILS D ’ ANALYSE
Symétrie
Quantiles
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
32 / 39
E XEMPLE : COURSE DE 10 KMS .
Temps réalisé en minutes pour les 45 premiers participants sur 100 :
43.83
48
50.60
53.07
55.58
45.15
48.20
50.83
53.90
55.58
46.17
48.68
50.88
53.98
55.85
46.35
48.33
51.05
54.20
56.05
46.48
49.60
51.40
54.22
56.08
46.73
49.97
51.72
54.35
56.18
47
50.03
52.08
54.95
56.83
47.72
50.08
52.22
54.97
56.85
47.72
50.50
52.97
55.33
56.97
R ÉSUMÉ : min = 43.83, Q1 = 52.15, Q2 = 58.72, Q3 = 64.955,
max = 75.17, moyenne ȳ = 59.14.
Q UESTIONS :
Quel temps réaliser pour arriver parmi les 10% de tête ?
Je fais 72.87 minutes. Suis-je ou non dans les derniers 20 % ?
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
33 / 39
I NTÉRÊT ET DÉFINITION .
Les quantiles vont généraliser la notion de quartiles.
P OURQUOI ? Ils permettent
de quantifier de nouveaux aspects d’une distribution (au-delà de
son centre et de sa dispersion) ;
de comparer la distribution de l’échantillon à une situation de
référence en statistiques, dite loi normale.
D ÉFINITION
Le quantile d’ordre f (avec 0 < f < 1) est une valeur telle qu’un
pourcentage f des données lui est inférieur ou égal. On le note q(f ).
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
34 / 39
G RAPHIQUE DES QUANTILES .
D ÉFINITION
Le graphique des quantiles représente la i-ème valeur ordonnée d’un
i − 1/2
échantillon de taille n sur l’axe vertical contre la fraction fi =
n
sur l’axe vertical.
Pour n = 100, f1 = 0.005, f2 = 0.015, ...
On place les points (0.005; 43.83), (0.015; 45.15), ...
I NTERPOLATION : on relie les points successifs par des droites.
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
35 / 39
R ETOUR SUR L’ EXEMPLE .
Graphique des quantiles brut :
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
36 / 39
R ETOUR SUR L’ EXEMPLE .
Graphique des quantiles interpolé :
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
36 / 39
R ETOUR SUR L’ EXEMPLE .
Du graphique interpolé on déduit par exemple :
q(0, 1) = 48.1 : il faut faire moins de 48 minutes pour être dans les
premiers 10%.
q(0, 8) = 69.11 : il faut arriver en moins de 1h09.
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
36 / 39
L OIS NORMALES .
D ÉFINITION
Ensemble de courbes de densité le plus répandu et le plus utile en
statistiques :
(x − µ)2
1
fµ,σ2 (x) = √ exp −
.
2σ 2
σ 2π
µ ∈ R est la moyenne, σ > 0 l’écart-type.
P ROPRIÉTÉ
Pour toutes les lois normales,
68% des valeurs sont situées à un écart-type de la moyenne ;
95% à deux écart-types ;
99,7% à trois écart-types.
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
37 / 39
L OIS NORMALES .
Représentation graphique :
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
37 / 39
L OIS NORMALES .
Représentation graphique :
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
37 / 39
L OIS NORMALES .
N ORMALISATION
Si une distribution y a une loi normale de paramètres µ et σ, alors
z=
y −µ
σ
a une loi normale dite standard, c’est-à-dire de moyenne 0 et de
variance 1.
D ÉFINITION
Les quantiles de la loi normale standard sont appelés quantiles
normaux et sont notés qn (f ).
Q UELQUES VALEURS :
qn (0.5) = 0,
qn (0.25) = −0.674, qn (0.75) = 0.674,
qn (0.1) = −1.281, qn (0.9) = 1.281.
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
37 / 39
Q UANTILES OBSERVÉS VS . QUANTILES NORMAUX .
D ÉFINITION
Le graphique quantiles observés contre quantiles normaux représente
les quantiles observés sur l’axe vertical contre les quantiles normaux
correspondants sur l’axe horizontal. On ajoute souvent la droite
passant par les deux paires de quartiles.
C OMMENTAIRES :
Lorsque la distribution est proche d’une loi normale, le graphique
prend la forme d’une droite (sauf aux extrémités).
Lorsque l’histogramme est asymétrique, le graphique a une forme
parabolique.
La médiane s’obtient comme l’ordonnée de l’abscisse nulle.
L’étendue inter-quartiles est l’écart entre les ordonnées
correspondant aux points −0.674 et 0.674.
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
38 / 39
E XEMPLES .
Montant des transferts de Ligue 1 :
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
39 / 39
E XEMPLES .
Temps pour une course de 10 kms.
A. Popier (Le Mans)
Statistiques (partie 1).
Octobre 2010
39 / 39
Téléchargement