Statistique Numérique et Analyse des Données

publicité
Arnak Dalalyan
Statistique Numérique et Analyse des Données
Séance 1: Statistique Descriptive
Intro
Quelques infos
Motivations
Stat. : qu’est-ce que c’est ?
Statistique Descriptive
Série numérique
Histogramme
Fn de répartition
Statistiques d’une série
Tendance centrale
Dispersion
Stats d’ordre
Boxplots
Exercice
Deux séries
Covariance
Nuage des points
Droite de régression
QQ-plot
Exemple de Galton
Arnak DALALYAN
Ecole des Ponts ParisTech
1
1
Quelques Informations
Arnak Dalalyan
Qui suis je ?
Arnak Dalalyan, chercheur en Statistique
E-mail : [email protected]
Page web du module :
certis.enpc.fr/~dalalyan/StatNum.html
Organisation du cours
8 séances de 2h de cours/exercices.
4 séances de 2h sur machine (TP), en utilisant le logiciel R.
1 examen final (2h).
Evaluation : la note finale (NF) est calculée par la formule :
NF = (9 × CR + 9 × EF + 2 × NP)/20.
CR : note moyenne des comptes-rendus des TP.
EF : note de l’examen final.
NP : note de participation (devoir maison, participation aux TP,...).
Intro
Quelques infos
Motivations
Stat. : qu’est-ce que c’est ?
Statistique Descriptive
Série numérique
Histogramme
Fn de répartition
Statistiques d’une série
Tendance centrale
Dispersion
Stats d’ordre
Boxplots
Exercice
Deux séries
Covariance
Nuage des points
Droite de régression
QQ-plot
Exemple de Galton
1
2
Statistique : Motivations
Arnak Dalalyan
Les statistiques sont utilisées dans des domaines très
variés comme :
en géophysique, pour les prévisions météorologiques, la
climatologie, la pollution, etc ;
en démographie : le recensement permet de faire une photographie
à un instant donné d’une population et permettra par la suite des
sondages dans des échantillons représentatifs ;
en sciences économiques et sociales, et en économétrie : l’étude du
comportement d’un groupe de population ou d’un secteur
économique s’appuie sur des statistiques ;
en marketing : le sondage d’opinion devient un outil pour la décision
ou l’investissement ;
en métrologie, pour tout ce qui concerne les systèmes de mesure et
les mesures elles-mêmes ;
en écologie (étude des communautés végétales et des
écosystèmes)
Au jour d’aujourd’hui, les connaissances statistiques sont
indispensables pour un ingénieur, indépendamment de la
spécialisation choisie !
Intro
Quelques infos
Motivations
Stat. : qu’est-ce que c’est ?
Statistique Descriptive
Série numérique
Histogramme
Fn de répartition
Statistiques d’une série
Tendance centrale
Dispersion
Stats d’ordre
Boxplots
Exercice
Deux séries
Covariance
Nuage des points
Droite de régression
QQ-plot
Exemple de Galton
1
3
Statistique : qu’est-ce que c’est ?
Arnak Dalalyan
La Statistique est une science qui comprend la collecte,
l’analyse, l’interprétation de données ainsi que la présentation de
ces ressources afin de les rendre compréhensibles de tous.
collecte de données
plan d’expérience ;
interprétation et présentation des données
Descriptive ;
analyse des données et aide à la décision
Inférentielle ;
Intro
Quelques infos
Statistique
Motivations
Stat. : qu’est-ce que c’est ?
Statistique
L’objectif de la Statistique en tant que discipline mathématique est
d’explorer les «propriétés fréquentielles» d’un jeu de données.
«propriétés fréquentielles» : les propriétés qui restent invariantes
par toute transformation des données (par exemple, la permutation)
qui ne modifie pas la fréquence des résultats.
La Statistique est une science s’appuyant sur les probabilités !
Pour ceux qui ont des lacunes en probabilités, un cours de remise à
niveau a été proposé, dont les slides sont disponibles en ligne.
Vous pouvez également consulter les chapitres 1-6 du polycopié de
la 1ère année
cermics.enpc.fr/~jourdain/probastat/poly.pdf
Statistique Descriptive
Série numérique
Histogramme
Fn de répartition
Statistiques d’une série
Tendance centrale
Dispersion
Stats d’ordre
Boxplots
Exercice
Deux séries
Covariance
Nuage des points
Droite de régression
QQ-plot
Exemple de Galton
1
4
Arnak Dalalyan
Intro
Quelques infos
Motivations
Stat. : qu’est-ce que c’est ?
Statistique Descriptive
Série numérique
Statistique Descriptive
Histogramme
Fn de répartition
Statistiques d’une série
Tendance centrale
Dispersion
Stats d’ordre
Boxplots
Exercice
Deux séries
Covariance
Nuage des points
Droite de régression
QQ-plot
Exemple de Galton
1
5
Série Numérique
Arnak Dalalyan
On a à notre disposition n valeurs réelles - notées x1 , . . . , xn constituant les résultats d’une certaine expérience répétée n fois.
source : sondages, expérience scientifiques, enregistrements
historiques ;
problème : données volumineuses difficile à interpréter ;
objectif : résumer et trouver des outils de visualisation.
Intro
Quelques infos
Motivations
Stat. : qu’est-ce que c’est ?
On dit que x1 , . . . , xn sont les valeurs d’une variable (statistique)
observées sur n individus.
Une variable statistique est dite discrète si le nombre de valeurs
prises par cette variable est petit devant n.
Statistique Descriptive
Série numérique
Histogramme
Fn de répartition
Statistiques d’une série
Tendance centrale
Exemple : on lance 100 fois un dé à 6 faces.
nombre d’observations : 100 ; nombre de valeurs prises : 6. La
variable est donc discrète.
Dispersion
Stats d’ordre
Boxplots
Exercice
Deux séries
Une variable qui n’est pas discrète est dite continue.
Covariance
Exemple : Dans le but d’étudier les taux de contamination des sols
par la substance toxique PCB (biphenil polychlorinaté), 26
échantillons de sols ont été prélevés. Le taux de PCB contenus
dans ces échantillons (mesurés en 10−4 g par kg de sol) sont :
3,5
9
1
15
1,6
24
12
11
8,1
107
5,3
18
23
29
8,2
49
1,8
94
9,8
12
1,5
16
Nuage des points
Droite de régression
QQ-plot
Exemple de Galton
9,7
22
1
6
Histogramme d’une série numérique
Arnak Dalalyan
Variable discrète
La façon la plus répendue de représenter la répartition d’une série
statistique est basée sur la notion de l’histogramme.
Pour une variable discrète, on définit l’histogramme comme la
fonction h : R → N qui à chaque x ∈ R associe le nombre
d’éléments dans la série x1 , . . . , xn égaux à x.
Intro
Quelques infos
Motivations
Stat. : qu’est-ce que c’est ?
Statistique Descriptive
Exemple : on lance 100 fois un dé à
Série numérique
Histogram of x
Histogramme
Fn de répartition
Statistiques d’une série
20
6 faces.
On obtient l’histogramme :
Tendance centrale
Stats d’ordre
10
Boxplots
Exercice
5
Deux séries
Covariance
Nuage des points
0
Deux définitions
coexistent :
 n
X



1l(xi = x),
effectifs


i=1
h(x) =
n

1X


1l(xi = x), fréquences

n
Frequency
15
Dispersion
1
2
3
4
5
6
Droite de régression
QQ-plot
x
Exemple de Galton
i=1
Sur les appareils photo numériques, on voit souvent affiché
l’histogramme des couleurs.
1
7
Histogramme d’une série numérique
Arnak Dalalyan
Variable continue
Pour une variable continue, on on commence par choisir une
partition de R en un nombre fini d’intervalles : I0 , I1 , . . . , Ik .
On dénombre ensuite le nombre d’observations dans chacun des
n
X
intervalles : nj =
1l(xi ∈ Ij ).
Intro
Quelques infos
Motivations
Stat. : qu’est-ce que c’est ?
i=1
On définit l’histogramme h(x) comme une fonction constante par
morceaux donnée par :
Statistique Descriptive
Série numérique
Histogramme
Fn de répartition
nj
h(x) =
,
n|Ij |
Statistiques d’une série
∀x ∈ Ij .
Tendance centrale
Dispersion
Stats d’ordre
Boxplots
Histogram of a
0.05
0.05
Exercice
Deux séries
Nuage des points
0.03
0.03
Droite de régression
QQ-plot
0.02
0.02
Exemple de Galton
0.01
0.01
Density
Density
0.04
0.04
Covariance
0.00
0.00
Exemple : Dans le but d’étudier les
taux de contamination des sols par la
substance toxique PCB (biphenil polychlorinaté), 26 échantillons de sols
ont été prélevés. Le taux de PCB
contenus dans ces échantillons (mesurés en 10−4 g par kg de sol) sont :
3,5
1
. . . 1.5 9,7
9
15 . . . 16
22
0
20
20
4040
60 60
80 80
100 100 120
a
1
8
Fonction de répartition empirique
Arnak Dalalyan
Une représentation alternative des fréquences des valeurs
contenues dans une série numérique est la fonction de
répartition, appelée également histogramme cumulé.
Pour un x ∈ R, la valeur en x de la fonction de répartition d’une
série numérique x1 , . . . , xn est la proportion des éléments de la
n
1X
série inférieurs ou égaux à x : F̂n (x) =
1l(xi ≤ x)
n
Intro
Quelques infos
Motivations
Stat. : qu’est-ce que c’est ?
Statistique Descriptive
Série numérique
i=1
Histogramme
L’avantage de la fonction de répartition, comparé à
l’histogramme, est que sa définition est identique dans le cas
d’une variable discrète et dans le cas d’une variable continue.
Fn de répartition
Statistiques d’une série
Tendance centrale
Dispersion
Stats d’ordre
Dans les deux exemples précédents :
Exercice
fonction de réparition empirique
Deux séries
1.0
1.0
fonction de réparition empirique
Boxplots
●
Covariance
●
●
●
●
Nuage des points
●
0.8
0.8
●
●
●
●
Droite de régression
●
QQ-plot
Fn(x)
●
●
Exemple de Galton
●
0.4
Fn(x)
●
0.4
●
0.6
0.6
●
●
●
●
●
●
0.2
0.2
●
●
●
●
●
0.0
0.0
●
●
0
1
2
3
4
5
6
7
0
20
40
60
80
100
120
1
9
Meilleure vue des FdR
Arnak Dalalyan
fn de réparition empirique
1.0
1.0
fn de réparition empirique
●
●
●
●
●
0.8
0.8
●
●
●
●
●
1
2
3
4
5
6
Motivations
●
●
●
●
●
●
Stat. : qu’est-ce que c’est ?
●
●
●
●
●
●
0.0
0.0
●
Quelques infos
●
0.2
0.2
●
0
Intro
●
●
●
Fn(x)
0.4 0.6
Fn(x)
0.4 0.6
●
7
0
Statistique Descriptive
Série numérique
20
40
60
80
100
120
Histogramme
Fn de répartition
Statistiques d’une série
Histogram of x
Tendance centrale
Histogram of a
Dispersion
0.20
0.04
Density
0.10
Density
0.02
Stats d’ordre
Boxplots
Exercice
Deux séries
Covariance
Nuage des points
QQ-plot
0.00
0.00
Droite de régression
1
2
3
4
x
5
6
Exemple de Galton
0
20
40
60
80
100
a
1
10
Statistiques d’une série
Arnak Dalalyan
Statistiques de tendance centrale
On appelle une statistique toute fonction qui associe aux
données x1 , . . . , xn un vecteur S(x1 , . . . , xn ) ∈ Rp . On utilise les
statistiques pour résumer les données.
Statistiques de tendance centrale :
La moyenne, notée x̄, est définie par :
Intro
Quelques infos
Motivations
Stat. : qu’est-ce que c’est ?
x̄ =
1
n
n
X
Statistique Descriptive
xi .
Série numérique
Histogramme
i=1
Fn de répartition
Statistiques d’une série
La médiane, notée Medx , est un nombre réel tel qu’au moins la
moitié des données sont ≤ Medx et au moins la moitié des données
sont ≥ Medx .
Le mode, noté Modex , est la valeur la plus fréquente à l’intérieur de
l’ensemble des données.
Contrairement à la moyenne, la médiane et le mode ne sont pas
toujours uniques.
Exemple : on lance 20 fois un dé équilibré. On obtient les résultats :
face
effectif
1
3
x̄ = 3.7,
2
1
3
4
Medx = 4
4
5
5
5
Tendance centrale
Dispersion
Stats d’ordre
Boxplots
Exercice
Deux séries
Covariance
Nuage des points
Droite de régression
QQ-plot
Exemple de Galton
6
2
Modex = 4 (ou 5).
1
11
Statistiques d’une série
Arnak Dalalyan
Statistiques de dispersion
Les trois statistiques de dispersion les plus utilisées sont la variance,
l’écart-type et l’écart interquartile.
La variance, notée vx , est la valeur moyenne des carrés des
écarts entre les données et la moyenne :
Intro
Quelques infos
Motivations
Stat. : qu’est-ce que c’est ?
n
1X
vx =
(xi − x̄)2 .
n
Statistique Descriptive
Série numérique
Histogramme
i=1
Fn de répartition
√
L’écart-type, est la racine carré de la variance : sx = vx .
n
1X
La déviation absolue moyenne : dx =
|xi − Medx |.
n
i=1
L’écart interquartile est la différence entre le troisième et le
premier quartile : Q3 − Q1 , où le premier quartile Q1
(respectivement, le toisième quartile Q3 ) est la médiane des
données ≤ Medx (resp. ≥ Medx ).
Statistiques d’une série
Tendance centrale
Dispersion
Stats d’ordre
Boxplots
Exercice
Deux séries
Covariance
Nuage des points
Droite de régression
QQ-plot
Exemple de Galton
L’écart-type et l’écart interquartile sont mesurés dans les mêmes
unités que les données, mais pas la variance.
1
12
Exercice
Arnak Dalalyan
Soit x1 , . . . , xn une série numérique. Montrer que
1
La variance est la solution du problème des moidres carrés :
n
1X
vx = min
(xi − a)2
a∈R n
i=1
Intro
Quelques infos
Motivations
Stat. : qu’est-ce que c’est ?
Statistique Descriptive
et que le minimum est atteint au point a = x̄.
Série numérique
Histogramme
2
La déviation absolue moyenne est la solution du problème :
1
dx = min
a∈R n
n
X
Fn de répartition
Statistiques d’une série
Tendance centrale
Dispersion
|xi − a|
Stats d’ordre
Boxplots
i=1
Exercice
Deux séries
et que le minimum est atteint au point a = Medx .
Covariance
Nuage des points
3
On dit que la médiane est moins sensible aux données aberantes
que la moyenne. Justifier cette affirmation. (Indice : on pourra
considérer le cas où un des xi tend vers +∞ ou −∞, alors que
tous les autres xi restent inchangés.)
Droite de régression
QQ-plot
Exemple de Galton
1
13
Statistiques d’ordre
Arnak Dalalyan
Pour avoir une idée des valeurs présentes dans la série
numérique, on s’intéresse souvent à mini xi et à maxi xi prise par
les xi . En statistique, on on les appelle première et dernière
statistiques d’ordre et utlise les notations
Intro
Quelques infos
Motivations
Stat. : qu’est-ce que c’est ?
x(1) = min xi ,
1≤i≤n
x(n) = max xi .
1≤i≤n
Statistique Descriptive
Série numérique
Histogramme
Fn de répartition
Statistiques d’une série
Plus généralement, on définit la statistique d’ordre de rang k ,
notée x(k ) , comme la k ème plus petite valeur parmi x1 , . . . , xn .
En d’autres termes, soit (i1 , . . . , in ) une permutation (il peut y en
avoir plusieurs) des indices (1, . . . , n) qui classe les données
dans l’ordre croissant :
Tendance centrale
Dispersion
Stats d’ordre
Boxplots
Exercice
Deux séries
Covariance
Nuage des points
Droite de régression
xi1 ≤ xi2 ≤ . . . ≤ xin .
QQ-plot
Exemple de Galton
On appelle alors statistique d’ordre k la valeur x(k ) = xik .
1
14
Quantiles
Arnak Dalalyan
Exemple : on lance 20 fois un dé et obtient les résultats :
face
effectif
1
3
2
1
3
4
4
5
5
5
6
2
Intro
Quelques infos
Motivations
La 6ème statistique d’ordre x(6) est alors 3.
La 15ème statistique d’ordre x(15) = Q3 = 5.
Stat. : qu’est-ce que c’est ?
Statistique Descriptive
Série numérique
Pour toute valeur α ∈ (0, 1), on appelle quantile d’ordre α, noté
qαx , de la série x1 , . . . , xn , la statistique d’ordre x(m) avec
m = [αn].
On peut redéfinir les quartiles et la médiane comme suit :
Histogramme
Fn de répartition
Statistiques d’une série
Tendance centrale
Dispersion
Stats d’ordre
Boxplots
Exercice
Q1 =
x
q0.25
,
Medx =
x
q0.5
,
Q3 =
x
q0.75
.
Deux séries
Covariance
Nuage des points
Droite de régression
QQ-plot
En pratique, ces définitions de quartiles et médiane peuvent
conduire vers des résultats qui diffèrent légèrement de ceux
obtenus par la première définition, mais la différence décroit
lorsque la taille n de la série augmente.
Exemple de Galton
1
15
Boxplots (boîtes à moustaches)
Arnak Dalalyan
Construction
Un résumé simple et pratique de la répartition d’une série
x1 , . . . , xn est donné par le quintuplet (A, Q1 , Medx , Q3 , B), où
A et B représentent les limites de l’intervalle en dehors duquel les
données sont considérées comme aberrantes.
Medx , Q1 et Q3 sont respectivement la médiane, le premier et le
troisième quartile.
Ce quintuplet est utilisé pour construire le boxplot :
Intro
Quelques infos
Motivations
Stat. : qu’est-ce que c’est ?
Statistique Descriptive
Série numérique
Histogramme
Fn de répartition
Statistiques d’une série
Tendance centrale
Dispersion
Stats d’ordre
Les valeurs A et B sont déterminées par les formules
n
o
n
o
A = min xi : xi ≥ Q1 − 1.5∆ , B = max xi : xi ≤ Q3 + 1.5∆ .
Boxplots
Exercice
Deux séries
Covariance
Nuage des points
où ∆ = Q3 − Q1 .
Si la série numérique a une répartition normale (Gaussienne), la
probabilité qu’une valeur de la série se trouve en dehors de
l’intervalle [A, B] est de 0.7%.
Toutes les valeurs qui se trouvent en dehors de l’intervalle [A, B],
considérées comme valeurs aberrantes, sont désignées par un
symbole (?, ◦, ∗, . . .).
Droite de régression
QQ-plot
Exemple de Galton
1
16
Boxplots (boîtes à moustaches)
Arnak Dalalyan
Interprétation et exercice
Pour interpréter un boxplot, il faut noter que
la moitié des valeurs de la série se trouvent entre Q1 et Q3 ,
c’est-à-dire dans la boîte du boxplot,
la moitié des valeurs de la série se trouvent à gauche de la médiane,
s’il n’y a pas de valeurs aberrantes, toutes les valeurs de la série se
trouvent entre A et B,
si la répartition de la série est symétrique, alors la médiane se trouve
au milieu de la boîte et les moustaches sont de longueurs égales.
Intro
Quelques infos
Motivations
Stat. : qu’est-ce que c’est ?
Statistique Descriptive
Série numérique
Histogramme
Les boxplots sont pratiques pour comparer deux séries
statistiques.
Fn de répartition
Statistiques d’une série
Tendance centrale
Exercice : dans le but d’étudier les taux de contamination des sols par
Dispersion
la substance toxique PCB (biphenil polychlorinaté), 26 échantillons de
sols ont été prélevés. Le taux de PCB contenus dans ces échantillons
(mesurés en 10−4 g par kg de sol) sont :
3,5
1
1,6 12
8,1
5,3 23 8,2 1,8 9,8 1,5
9,7
9
15
24
11 107
18
29
49
94
12
16
22
Les quatorze premières observations sont en fait des taux de PCB de
régions rurales, alors que les 10 observations restantes proviennent de
régions urbaines. Tracer des boxplots pour les régions rurales et
urbaines. Commenter le résultat.
Boxplots
Stats d’ordre
Exercice
Deux séries
Covariance
Nuage des points
Droite de régression
QQ-plot
Exemple de Galton
1
17
Covariance and corrélation
Arnak Dalalyan
On appelle covariance des séries numériques x1 , . . . , xn et y1 , . . . , yn la
valeur
n
1X
sxy =
(xi − x̄)(yi − ȳ ).
n
i=1
Quelques infos
où x̄ et ȳ sont respectivement la moyenne des xi et celle des yi .
On appelle coefficient corrélation (linéaire) des séries numériques
x1 , . . . , xn et y1 , . . . , yn la valeur
ρxy =
Intro
sxy
,
sx sy
Motivations
Stat. : qu’est-ce que c’est ?
Statistique Descriptive
Série numérique
Histogramme
Fn de répartition
Statistiques d’une série
Tendance centrale
Dispersion
Stats d’ordre
où sx et sy sont respectivement l’écart-type des xi et celui des yi . Par
convention, on pose ρxy = 0 si au moins l’un des deux écart-types sx , sy
est nul.
Le coefficient de corrélation est toujours entre −1 est +1 :
−1 ≤ ρxy ≤ 1.
Boxplots
Exercice
Deux séries
Covariance
Nuage des points
Droite de régression
QQ-plot
Exemple de Galton
De plus, |ρxy | = 1 si et seulement si les séries x1 , . . . , xn et y1 , . . . , yn
sont liées par une relation affine, c’est-à-dire xi = ayi + b pour tout
i = 1, . . . , n.
1
18
Nuage des points
Arnak Dalalyan
Supposons que l’on dispose de deux séries numériques x1 , . . . , xn et
y1 , . . . , yn représentant les valeurs de deux variables prélevées sur n
individus.
Il est naturel et pratique de représenter ces données sous forme d’un
nuage de points.
Il s’agit de représenter par un symbole (losange, dans l’exemple de la Fig.
1) les n points de coordonnées (xi , yi ).
A titre d’exemple, considérons les données présentées dans la Table 1.1
(cf. poly).
Intro
Quelques infos
Motivations
Stat. : qu’est-ce que c’est ?
Statistique Descriptive
Série numérique
Histogramme
Fn de répartition
Les 38 individus sont des pays, alors que les deux variables X et Y
sont respectivement le PIB (produit intérieur brut) par habitant et la
consommation d’énergie par habitant.
Le nuage de point de ces données est affiché dans la Figure 1.
Statistiques d’une série
Tendance centrale
Dispersion
Stats d’ordre
Boxplots
Consommation d’énergie
Exercice
Deux séries
10
Covariance
8
Nuage des points
6
Droite de régression
4
QQ-plot
2
Exemple de Galton
0
F IGURE: Le nuage de points représentant les données de la Table 1.1 (cf.
poly).
1
19
Droite de régression
Arnak Dalalyan
Supposons que l’on dispose de deux séries numériques x1 , . . . , xn et
y1 , . . . , yn représentant les valeurs de deux variables prélevées sur n
individus.
Afin d’obtenir une droite approximant le nuage de points, on calcule la
droite de régression de Y sur X , donnée par l’équation y = ax + b où
Intro
Quelques infos
sxy
a= 2 ,
sx
Motivations
b = ȳ − ax̄.
Stat. : qu’est-ce que c’est ?
Statistique Descriptive
Série numérique
Pour les données de la Table 1.1, la droite de régression ainsi que son
équation sont données dans ci-dessous
Histogramme
Fn de répartition
Statistiques d’une série
Consommation d’énergie
Tendance centrale
Dispersion
10
y = 0.00011*x + 1.3
8
Stats d’ordre
6
Boxplots
di
Exercice
4
Mi
Deux séries
2
0
Covariance
0
1
2
3
PIB
4
5
6
7
4
F IGURE: La droite de régression pour les données de la Table 1.1.
x 10
Nuage des points
Droite de régression
QQ-plot
On voit dans la formule que la droite de régression de Y sur X ne
coïncide pas, en général, avec la droite de régression de X sur Y .
Exemple de Galton
Si l’on note Mi le point (xi , yi ) et par di la distance entre Mi et
Mi0 = (xi , axi + b), alors la droite de régression est la droite pour laquelle
P 2
i di est minimale (méthode des moindres carrés).
1
20
QQ-plot (graphiques quantiles-quantiles)
Arnak Dalalyan
Un QQ-plot permet de voir rapidement l’adéquation d’une série
numérique à une distribution, ou comparer les répartitions de deux séries
numériques.
Intro
1er cas : Lorsque l’on s’intéresse à l’adéquation à une distribution,
l’axe des ordonnées porte les quantiles qj de la distribution
observée, tandis que l’axe des abscisses porte les quantiles qj∗
correspondants de la loi théorique.
2ème cas : Lorsque l’on s’intéresse à la comparaison de deux
distributions, l’axe des ordonnées porte les quantiles qjx de la série
y
x1 , . . . , xn , tandis que l’axe des abscisses porte les quantiles qj de
la série y1 , . . . , yn .
y
Le nuage des points (qj∗ , qj ) (respectivement (qj , qjx )) s’aligne sur la
première bissectrice lorsque la distribution théorique proposée est une
bonne représentation des observations (resp., lorsque les répartitions
des xi et des yi sont égales).
(qj∗ , qj )
Si le nuage des points
s’aligne sur une droite, alors il existe une
transformation affine des observations telle que la distribution théorique
proposée est une bonne représentation des observations transformées.
Quelques infos
Motivations
Stat. : qu’est-ce que c’est ?
Statistique Descriptive
Série numérique
Histogramme
Fn de répartition
Statistiques d’une série
Tendance centrale
Dispersion
Stats d’ordre
Boxplots
Exercice
Deux séries
Covariance
Nuage des points
Droite de régression
QQ-plot
Exemple de Galton
1
21
QQ-plot : exemples
Arnak Dalalyan
On génère de façon aléatoire n copies indépendantes de variables
(xi , ui , yi , zi ) où xi ∼ N (0, 1), ui ∼ N (0, 1), yi ∼ N (2, 4) et zi ∼ E(1).
On trace, pour différentes valeurs de n, les QQplots de x sur u, de x sur y
et x sur z.
Intro
Quelques infos
Motivations
Stat. : qu’est-ce que c’est ?
Statistique Descriptive
Série numérique
Histogramme
Fn de répartition
Statistiques d’une série
Tendance centrale
Dispersion
Stats d’ordre
Boxplots
Exercice
On y voit que
le premier nuage se concentre sur la bissectrice (égalité des répartitions),
Deux séries
Covariance
Nuage des points
Droite de régression
le deuxième nuage se concentre autour d’une droite (égalité des
répartitions après une transformation affine des variables),
QQ-plot
Exemple de Galton
le troisième nuage n’indique aucune relation entre les deux répartitions.
1
22
Exemple de Galton
Arnak Dalalyan
Le terme regression a été introduit par Francis Galton, chercheur
britannique du 19e siècle,
Intro
Quelques infos
Motivations
Stat. : qu’est-ce que c’est ?
Statistique Descriptive
Série numérique
Histogramme
Fn de répartition
Statistiques d’une série
Tendance centrale
Sir Francis Galton 1822-1911
Dispersion
dans le célèbre article :
Regression towards mediocrity in hereditary stature
Journal of the Anthropological Institute 15 : 246-63 (1886)
pour décrire le phénomène biologique suivant : la taille des enfants nés
des parents inhabituellement grands (ou petits) se rapproche de la taille
moyenne de la population.
Stats d’ordre
Boxplots
Exercice
Deux séries
Covariance
Nuage des points
Droite de régression
QQ-plot
Exemple de Galton
Galton a analysé 928 données, chaque donnée étant la paire
(taille moyenne des deux parents, taille de l’enfant) mesurée en pouce (1
pouce = 2,54 cm). (Les tailles des femmes sont multipliées par 1.08.)
1
23
Exemple de Galton (suite)
Arnak Dalalyan
On voit ci-dessous le nuage des points, la droite de régression de taille de
l’enfant sur taille moyenne des parents ainsi que la droite de régression de
taille moyenne des parents sur taille de l’enfant :
Intro
Quelques infos
Motivations
74
●
●
●
●
● ●
● ●
●
●
●
●
●
●
72
Stat. : qu’est-ce que c’est ?
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
● ● ●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
● ● ●
●
● ●● ●
● ●
●
● ●
●
● ●
●
●
●
●
● ●
●
●
●
●
●
●
●● ●
●
●
● ●
●
● ● ● ●● ● ●●
●●
●
● ● ●
●
●● ● ● ●●
● ●
●●
●● ●
●● ●
●
●
● ●
●● ●
●
●
● ● ●●
●
● ●●
●
● ● ● ●● ●
●
●
●
●
●● ●
●
● ●● ● ●
●
●
●
●
●●
●
●●
●●
●
●
●
●
●
●
● ●●
●
● ●
●
●
● ●
●
●●
● ●●
●
●●
●
●
●
●● ● ● ●
● ●
●
●
●
●● ●
● ●
●
●
●
●●
●
●● ●● ●
● ●●● ●
●
●● ●
● ●
●● ●
●
●● ●●● ●●
●
●
●
●●●
●● ●●●
●
● ●●
●
●●
●
●●
● ●●
● ●●●
●
● ● ● ●● ●
●●
●
●
●
●
●
●
●●
●
●●
●● ●
●
●
●
● ● ● ● ● ●● ● ●
● ●
●
● ●● ●
●
●
●
●●
●● ● ● ●
● ● ● ● ●●
●●
●
●●
● ●● ●
●
●
●●
●
● ● ● ●● ● ●
●
●
● ●
●
● ●● ●
●
●
● ●●●● ● ●● ●●
●
●
● ●
● ●
●●
●
●
●● ● ● ● ●
● ●● ●
●●
●
●
●
●
●
● ●
●
●
●
●● ●●
● ● ●
● ●
●●● ● ●
●
● ●
●
●
●
●
●
●● ●
●
●
●
●● ●
● ● ●
●
●
●
●
●●
● ●
●
●
● ●●●
●
●●
●
● ●
●
●
●
●● ● ● ● ● ●
●●●●
●●●
●●
●
●●
● ●
●
●●
●●
●● ● ● ●●●
●
● ●
●● ●
●
●
● ●● ●●
●
●●
●
●● ●
●
●
●●
●●
●
●
●
●
●● ●
●
● ● ●●●● ● ●
●
● ● ●●● ●
●●
●
●
●
● ●●
●
● ●●●●●
●●
● ● ●● ● ●
●●
●
●
●●
●
●
●
●
●● ● ● ●● ●
●●
● ●
●
●● ●●
●
●●
●
●
●
●
●
● ●●● ● ● ●
● ●●
●● ●●
●
●
●● ●
● ●● ● ●
●
●
● ● ● ●●
●● ●
●
●● ● ●
●
●●
●●
●● ●
●●● ●
●
●●
●● ●
●
●●●
●●●
●
●
●● ●
● ● ●
●
●
●
● ● ●
●
● ●
●
●
●
●●
●
● ●●
●
●
●●●●
●●
●
● ●
●
● ●
● ●
●
● ●
●
●
●
●
●
● ● ●● ● ● ● ● ● ●●● ● ● ●
●
●
●
●
●●
●
●
●
●
●
● ●
●
●●
●
●
●●
●
●
●
●
●
●
● ●
● ●
●
●
●
● ● ●●
●
●●
●●
●
●
●
●
●
●
●
●
● ● ●
● ●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●●
●
● ●
●
●
●
●
●
● ● ●
●
●
●
●
● ●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●● ●
●
●●
●
●
●
●
●
●
●
● ●
●● ●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●●
●
70
68
child
66
64
62
●
Série numérique
●
●
●
●
●
Histogramme
●
●
Fn de répartition
Statistiques d’une série
Tendance centrale
Dispersion
Stats d’ordre
●
Boxplots
●
64
Statistique Descriptive
●
● ●
● ● ●●
66
68
70
72
parent
Exercice
Deux séries
On remarque que, comme attendu, les deux droites ont des pentes positives.
On constate également que les deux droites ne coïncident pas.
Exercice : quand est-ce que les deux droites de régression coïncident ?
Covariance
Nuage des points
Droite de régression
QQ-plot
Exemple de Galton
1
24
Exemple de Galton (suite et fin)
On peut s’intéresser à la relation entre les répartition des variables taille de
l’enfant et taille moyenne des parents :
Arnak Dalalyan
Intro
Quelques infos
Motivations
Stat. : qu’est-ce que c’est ?
Statistique Descriptive
Série numérique
Histogramme
Fn de répartition
Statistiques d’une série
Tendance centrale
Dispersion
Stats d’ordre
Boxplots
Exercice
Deux séries
On voit qu’après une transformation affine, les deux variables auront à peu
près la même répartition.
Covariance
Nuage des points
Droite de régression
QQ-plot
Exemple de Galton
1
25
Téléchargement