Notes de cours
Statistique de base
Anne-Catherine Favre
Ecole Nationale Supérieure de l’Energie, l’Eau et l’Environnement (ENSE3)
Institut polytechnique de Grenoble (GINP)
Laboratoire d’Etude des Transferts en Hydrologie et Environnement (LTHE)
anne-catherine.fa[email protected]
septembre 2016
Chapitre 1
Statistique exploratoire
Nous supposons que nous avons 20 observations x1, x2, . . . , x20 du pH de l’eau. Ces
données proviennent de mesures indépendantes qui ont été effectuées dans les mêmes
conditions. De telles observations sont appelées échantillon en statistique. La statis-
tique exploratoire sert à résumer quelques propriétés de l’échantillon à la fois par des
caractéristiques numériques et des représentations graphiques.
1.1 Valeurs caractéristiques
1.1.1 Caractéristiques de tendance centrale
Moyenne arithmétique
¯x=1
n
n
X
i=1
xi
Médiane
La médiane ˆq(50%) est la valeur qui partage en deux effectifs égaux (donc de 50 %) les
données rangées par ordre croissant : x[1] x[2] ≤ ··· ≤ x[n]
ˆq(50%) = x[n+1]/2pour nimpair
1
2(x[n/2] +x[n/2]+1)pour npair.
Une généralisation de la médiane est la notion de quantile empirique.
Définition 1.1 Soient x1, x2, . . . , xn,ndonnées réelles et soit pune proportion entre 0
%et 100 %. Le quantile empirique ˆq(p)est défini comme étant la valeur telle qu’une
proportion pdes observations soit plus petite que ˆq(p).
Le quantile ˆq(p)peut s’interpréter de la manière suivante : par exemple pour p=
10%,ˆq(10%) est la valeur telle que nous avons 10% de chances d’observer une valeur
inférieure à ˆq(10%) et, par conséquent, 90% des chances d’obtenir une valeur supérieure.
Le quantile empirique s’obtient comme ˆq(p) = x[(n+1)p].
1
Exemple 1.1 Soit le tableau de données suivant (où les deux jeux de données sont iden-
tiques si on excepte la dernière valeur qui augmente 12 120)
données x[1] x[2] x[3] x[4] x[5] x[6] x[7] ¯xˆq(50%)
no1 2 4 8 9 11 11 12 8.1 9
no2 2 4 8 9 11 11 120 23.6 9
La moyenne arithmétique augmente beaucoup (8.1 23.6) alors que la médiane ne
change pas. Les caractéristiques telles la médiane sont dites mesures robustes.
Mode
Le mode est la valeur la plus fréquente de la série des données.
1.1.2 Caractéristiques de dispersion
Etendue ou intervalle de variation
r=xmax xmin
Variance empirique
s2=1
n1
n
X
i=1
(xi¯x)2
Il est à noter que pour des raisons techniques, le dénominateur est (n1) au lieu de
n. En statistique, la racine carrée de la variance empirique, s, dénommée écart-type
empirique est souvent utilisée.
Coefficient de variation empirique
Le coefficient de variation empirique CV est une mesure de dispersion relative. Il corres-
pond à l’écart-type mesuré en pourcentage de la moyenne :
CV =s
¯x.
L’avantage de ce coefficient est d’être adimensionnel.
Intervalle inter-quartile
iqr = ˆq(75%) ˆq(25%)
Exemple 1.2 Considérons le même tableau de données que dans l’exemple 1.1.
données x[1] x[2] x[3] x[4] x[5] x[6] x[7] rs2iqr
no1 2 4 8 9 11 11 12 10 3.8211-4=7
no2 2 4 8 9 11 11 120 118 42.7211-4=7
2
La comparaison des caractéristiques de dispersion nous montre que l’étendue augmente
(10 118) ainsi que la variance (3.8242.72) alors que l’intervalle inter-quartile reste
le même. L’intervalle inter-quartile est appelé mesure robuste de la dispersion.
1.1.3 Caractéristiques de forme
Définition 1.2 Le j-ème moment centré empirique est défini par
mj=1
n1
n
X
i=1
(xi¯x)j
Nous remarquons que m2correspond exactement à la variance empirique.
Coefficient de symétrie
γ=m3
s3
si γ= 0, la distribution est symétrique,
si γ < 0, la distribution est étalée à gauche,
si γ > 0, la distribution est étalée à droite.
On peut dire qu’une distribution est symétrique si elle présente (à peu près) la même
forme de part et d’autre du centre de la distribution. Sinon, elle est dite asymétrique.
Une distribution a une asymétrie négative si elle présente une queue (extrémité de la
distribution) vers la gauche (vers les valeurs négatives) et elle possède une asymétrie
positive si elle présente une queue vers la droite (vers les valeurs positives). La figure 1.1.
montre des histogrammes illustrant plusieurs valeurs du coefficient de symétrie. L’histo-
gramme de gauche présente une asymétrie positive, l’histogramme central une asymétrie
nulle alors que l’histogramme de droite illustre une asymétrie négative.
Coefficient quartile de symétrie
qs=[ˆq(75%) ˆq(50%)] [ˆq(50%) ˆq(25%)]
ˆq(75%) ˆq(25%)
Le coefficient quartile de symétrie s’interprète comme le coefficient de symétrie.
Coefficient d’aplatissement
κ=m4
s43
si κ= 0, la courbe est mésokurtique,
si κ > 0, la courbe est leptokurtique,
si κ < 0, la courbe est platykurtique.
3
Figure 1.1 – Histogrammes présentant diverses valeurs du coefficient de symétrie γ.
Une distribution est dite mésokurtique si les observations sont aussi concentrées que sous
l’hypothèse de normalité. Elle est dite leptokurtique si les observations sont plus concen-
trées et platykurtique si les observations sont moins concentrées que sous l’hypothèse de
normalité. La figure 1.2 présente des histogrammes illustrant plusieurs valeurs du coeffi-
cient d’aplatissement.
Figure 1.2 – Histogrammes présentant diverses valeurs du coefficient d’aplatissement κ.
1.2 Représentation graphique des données
Pour illustrer l’apport de la représentation graphique dans l’analyse des données nous
allons utiliser les précipitations annuelles (totales) à Québec (mesurées à la station Québec
A, no 7016294, altitude 74 m) de 1966 à 1994 ainsi que les précipitations annuelles à la
forêt Montmorency de 1966 à 1994 (à la station forêt Montmorency, no 7042388, altitude
4
1 / 45 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!