Document

publicité
1
Les statistiques descriptives: mesures de
tendance centrale et de dispersion (1ière partie)
&
Les statistiques descriptives en R (2ième partie)
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 5: 29 octobre 2012
2 Ressources supplémentaires
Compléments de mathématiques.
•  http://math.cmaisonneuve.qc.ca/alevesque/m101.html
Il est de votre responsabilité de vous
assurer que vous comprenez les
concepts de base en mathématiques!
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 5: 29 octobre 2012
3
Lettres greques couramment utilsées en statistique
Notes des cours Borcard (2006)
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 5: 29 octobre 2012
4 Statistiques descriptives
•  Données sont essentielles pour la science! Mais devons-nous
communiquer toutes les données que nous recueillons?
Ex: des tableux
des représentations graphiques
•  Paramètres de position: valeurs centrales autour desquelles se
groupent les valeurs observées ! moyenne arithmétique,
moyenne géométrique, moyenne harmonique, médiane, mode
•  Paramètres de dispersion: ils renseignent quant à l’étalement de
la distribution des valeurs autour des valeurs centrales ! variance,
écart type, erreur standard de la moyenne
Après notes des cours Proulx (2006) et Borcard (2006).
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 5: 29 octobre 2012
5
Moyenne arithmétique
n
_
Y=
∑Y
i
n
≠ µ = E(Y ) = ∑Yi pi
i=1
n
Espérance d'une variable
aléatoire discrète (séance 4)
i=1
•  avec Yi = valeur de chaque observation individuelle
•  avec n = nombre d'observations Yi tirée de l'ensemble de la
population avec N éléments:
n
_
y=
∑Y
i
i=1
N
_
•  Important: il y a une différence entre les statistiques
(échantillon:Y
_
d’un échantillon) et les paramètres (population: y de la population)
Après notes des cours Borcard (2006).
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 5: 29 octobre 2012
6 Loi des grandes nombres
•  Lorsque n d’un échantillon devient grand,
! les fréquences relatives estimées tendent vers les probabilités et
! les distributions de fréquence relatives observées tendent vers
les distributions de probabilités
$ n
'
& ∑Yi _ )
lim & i=1 = Yn ) = E(Y ) = µ
n→∞ & n
)
&
)
%
(
Espérance d'une variable
aléatoire normal (séance 4)
_
•  On dit: «Y n is an unbiased estimator of µ »: Yi sont aléatoires et
indépendants, et la population est décrit par une variable aléatoire
normale.
Après notes des cours Borcard (2006).
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 5: 29 octobre 2012
7 Moyenne géométrique
•  Variable aléatoire log-normale: Y
•  Variable aléatoire Z = ln(Y) ! variable aléatoire normale
!  Y = eZ
avec e = base du logarithme naturel (~2,71828 ….)
GY: « back-transformed » moyenne
" n
%
1
$
ln(Yi )'
$# n i=1
'&
GY = e
∑
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 5: 29 octobre 2012
8 Moyenne harmonique
•  Variable aléatoire non-normale: Y
•  Variable aléatoire Z = 1/Y ! variable aléatoire normale
! HY: « subcontrary » moyenne
1
HY =
n
• 
n
∑
i=1
1
Yi
_
_
Y n > GY > HY mais pour Y1 = Y2 = Y3 ….. Yi ! Y n = GY = HY
€
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 5: 29 octobre 2012
9 Médiane
•  MeY: la valeur de la variable qui se suite au centre de la série
statistique, classée en ordre croissant
•  MeY sépare la série en deux groupes d’égale importance
•  S’il y un nombre impair d’observation, MeY est une observation de la
série. Exemple: pour la série [1, 32, 128, 129, 1000235], MeY = ?
•  S’il y a un nombre pair d’observations, MeY est située entre les deux
observations centrale de la série. Par convention, on utilise la
moyenne de ces deux valeurs. Exemple: pour la série [1, 32, 128,
129, 532, 1000235], MeY = ?
Notes des cours Borcard (2006).
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 5: 29 octobre 2012
10 Mode
•  MoY: la valeur d’une variable ayant la plus forte fréquence.
•  Pour une variable discrète comportant peu de classes, on trouve la
classe la plus fréquence. Sa valeur est le mode. Pour une variable
continue on divise celle-ci en classes
•  Une distribution de fréquences a plusieurs modes si on veut mettre
en évidence le fait qu’elle a plusieurs classes non contiguës dont la
fréquence est nettement plus élevée que celle des autres classes.
Notes des cours Borcard (2006).
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 5: 29 octobre 2012
11 Comparaison entre moyenne a., médiane, mode
_
Y
)
)
_
Y
_
_
Y
Y
Après notes des cours Proulx (2006) et Borcard (2006).
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 5: 29 octobre 2012
12 En utilisant différentes paramètres de position
_
_
•  Y : commodité; Théorème Central Limite: Y de de grands échantillons
sont conformes à la distribution normale ! il est facile de tester des
hypothèses sur la base de cette propriété (séance 6)
•  GY: processus multiplicatifs ! e.g., taux de croissance démographique
•  HY: bonne question .... Je ne sais pas beaucoup sur moi-même!
•  MeY:
•  MoY:
}
particulièrement utile lorsque les distributions des
observations ne suivent pas une distribution de probabilité
standard
Important: ne pas faire confiance à aucun de
ces paramètres de position sans paramètres
de dispersion!
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 5: 29 octobre 2012
13 Variance et écart type d’une population
•  Avec la loi de grande nombres, la variance d’une population:
_
1
s = ∑ (Yi − Y )2 = σ 2 (Y ) = E [Y − E(Y )]2
n
2
Variance d'une
variable aléatoire
discrète (séance 4)
•  et l’écart type d’une population:
s = s2
•  et la somme des carrés:
_
SSY = ∑ (Yi − Y )2
•  SSY est d'une importance fondamentale pour l'analyse de
régression (séance 9) et l'analyse de la variance (séance 10)
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 5: 29 octobre 2012
14 Degré de liberté
•  Degré de liberté: nombre de « pièces d'information indépendantes »
que nous avons dans un ensemble de données pour l'estimation des
statistiques.
•  Exemple: échantillon avec n = 1 ! s2 = σ2 = 0
!  Toutes les « pièces d'information indépendantes » sont
utilisées pour calculer la moyenne arithmétique, donc il n'y a
pas de « pièces d'information indépendantes » pour calculer s2
and/or σ2!
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 5: 29 octobre 2012
15 Variance et écart type d’une échantillon
•  « Unbiased estimator » s2 pour σ2:
_
1
2
s =
(Y
−
Y
)
∑
i
n −1
2
•  « unbiased estimator » s pour σ:
_
1
2
s=
(Y
−
Y
)
∑
i
n −1
Important: n – 1 règle pour les degrés de
liberté: au moins deux observations sont
nécessaires pour calculer s2 et/ou s!
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 5: 29 octobre 2012
16 Coefficients de variation et de dispersion
•  En lui-même les paramètres de dispersion ne dit pas grand chose!
•  Coefficient de variation: mesure indépendante de la variabilité
CV =
100 * s
_
Unité: pourcentage!
Y
•  Liée à CV: coefficient de dispersion:
CD =
s2
_
Y
Souvent utilisé pour les
variables discrètes!
Après notes des cours Borcard (2006).
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 5: 29 octobre 2012
17 Erreur standard de la moyenne
•  sY_ est un autre paramètre de la dispersion très important,
notamment en biologie, géographie et sciences de l'environnement:
s
s_ =
Y
n
_
• 
s _ est une mesure de la variabilité de l'estimation de Y
Y
•  s _est une mesure de la variabilité des observations individuelles
sur Y
Toujours:
s_ < s
Y
•  important: standard erreur de la moyenne, standard erreur de la
variance, etc. ! standard erreurs doivent être spécifiées!!!!!!!!!!!
•  échantillon représentatif de la population:
_
Y
•  représentativité de la population n'est pas connue: s
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 5: 29 octobre 2012
18 Moments central (1
ière
&2
ième
)
•  Moment central: en général, la moyenne des écarts de toutes les
observations dans un groupe de données à partir de la moyenne
des observations, élevé à une puissance de r:
_
1 n
CM = ∑ (Yi − Y )r
n i=1
•  avec n = number of observations
•  avec Yi = valeur de chaque observation individuelle
_
•  Y = moyenne arithmétique des n observations
•  r = entier positif
•  r = 1 ! ?
•  r = 2 ! ?
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 5: 29 octobre 2012
19 Coefficient d’asymétrie
•  r = 3 ! coefficient d’asymmétrie:
_
1 n
g1 = 3 ∑ (Yi − Y )3
ns i=1
•  g1 décrit comment l'échantillon diffère en forme d'une distribution
symétrique:
g1 < 0: left-skewed
g1 = 0 g1 > 0: right-skewed
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 5: 29 octobre 2012
20 Coefficient d’aplatissement
•  r = 4 ! coefficient d’aplatissement:
_
# 1 n
&
4
g2 = % 4 ∑ (Yi − Y ) ( − 3
$ ns i=1
'
•  g2 décrit comment l'échantillon est distribué dans les queues
rapport au centre de la distribution:
g2 < 0: platykurtic
gs = 0: mesokurtic
g2 > 0: leptokurtic
http://mvpprograms.com/help/mvpstats/distributions/SkewnessKurtosis
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 5: 29 octobre 2012
21 Fractiles
_
•  Fractiles
Y p : la valeur qui sépare la distribution en deux parties
! np et n(1-p)
•  Dans les données,
il y a donc np élements dont la valeur est
_
inférieure à Y p et n(1-p) élements quit ont une valuer supérieure.
•  p = 0.5 ! ?
•  p = 0.25 ! premier quartile
•  p = 0.75 ! troisième quartile
_
_
•  one peut aussi fractionner
la distribution en déciles ( Y 0,10 ,Y 0,20 , etc. )
_
_
ou en pourcentiles ( Y 0,01,Y 0,02 , etc. )
_
_
_
•  L’écart interfractile: d 2 p = Y 1− p − Y p
Après notes des cours Borcard (2006).
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 5: 29 octobre 2012
22 Le diagramme à moustaches
La plus grande et plus
petite valeurs observées
à moins de 1.5 écart
interquartile du 1er et du
3ème quartile
(moustaches)
Écart interquartile (haut
et bas de la boîte)
MeY (trait dans la boîte)
Valeurs encore plus extrêmes
(cercles)
_
•  Quantiles ne dépend pas de la Y ! distributions asymétriques ou
des distributions avec des valeurs extrêmes dépeindre la
distribution beaucoup mieux!
Après notes des cours Borcard (2006).
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 5: 29 octobre 2012
23 Séance 2 & 3
Documents complémentaires et mises à jours:
http://www.math.univ-toulouse.fr/~sdejean/PDF/un-peu-d-R.pdf
Tout le matériel présenté est basé sur les notes de cours par
Sébastien Déjean (2012): http://perso.math.univ-toulouse.fr/dejean/
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 5: 29 octobre 2012
Notions de base
Fonctions graphiques
Programmation
24 Un peu de statistique: descriptive (uni)
Un peu de statistique
Statistique descriptive unidimensionnelle
Les fonctions boxplot() et hist()
peuvent ne pas produire de
graphique (option plot=FALSE).
La fonction stem() produit une
diagramme stem-and-leaf (tige et
feuille) qui donne un aperçu de la
répartition des données de façon
plus « rustique » qu’un histogramme
La fonction summary() est une
fonction générique (comme plot()
par exemple) qui s’adapte à la classe
(fonction class()) de l’objet passé
en paramètre (vecteur, matrice, data
frame, résultat d’une fonction...) V
R > x=runif(100)
R > y=runif(100)
R > mean(x) ;var(x) ;sd(x)
R > min(x) ;max(x)
R > quantile(x) ;median(x)
R > quantile(x,0.9)
R > boxplot(x,plot=FALSE)
R > cov(x,y)
R > summary(x)
R > stem(x) ;stem(y)
R > hist(x,plot=F)
S.
DéjeanSonnentag, PhD: GÉO1512 – Géographie Quantitative I
Oliver
Présentation du logiciel R
V
Séance 5: 29 octobre 2012
Sémin’R
25 Moyennes avec R
•  PROBLÈME: Trouver la moyenne (arithmétique,
géométrique, harmonique) des durées de l’éruption dans
l'ensemble de données «faithful» de données intégré
ensemble R utilisé pour le TP2, aussi..
•  SOLUTION: Les moyennes arithmétique, géométrique et
harmonique des durées de l’éruption sont 3,4878, 3,2713 et
3,0893 minutes, respectivement.
Voir aussi http://www.r-tutor.com/
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 5: 29 octobre 2012
26 Median avec R
•  PROBLÈME: Trouvez la médiane des durées de l’éruption
dans l'ensemble de données «faithful». Le résultat est une
valeur réelle des données?
•  SOLUTION: La médiane des durées de l’éruption est de 4
minutes. Non, le résultat n'est pas une valeur réelle.
Voir aussi http://www.r-tutor.com/
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 5: 29 octobre 2012
27 Fractiles avec R
•  PROBLÈME: Trouvez les fractiles des durées de l'éruption
dans l'ensemble de données “faithful”.
•  SOLUTION: Les fractiles première, seconde et troisième
parties de la durée de l’éruption sont 2,1627, 4,0000 et
4,4543 minutes respectivement.
Voir aussi http://www.r-tutor.com/
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 5: 29 octobre 2012
28 Écart interfractile avec R
•  PROBLÈME: Trouvez l’écart interfractile des durées de
l’éruption de l'ensemble de données «faithful».
•  SOLUTION: L'écart interfractile de la durée de l’éruption
est 2,2915 minutes..
Voir aussi http://www.r-tutor.com/
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 5: 29 octobre 2012
29 Diagramme à moustaches avec R
•  PROBLÈME: Trouvez le diagramme à moustaches des
durées de l’éruption dans l'ensemble de données «faithful».
•  SOLUTION: Le diagramme à moustache des durées de
l’éruption est …
Voir aussi http://www.r-tutor.com/
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 5: 29 octobre 2012
30 Variance avec R
•  PROBLÈME: Trouver la variance des durée de l’éruption
dans l'ensemble de données «faithful».
•  SOLUTION: La variance des durées de l’éruption est
1,3027.
Voir aussi http://www.r-tutor.com/
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 5: 29 octobre 2012
31 Écart type avec R
•  PROBLÈME: Trouvez l'écart type des durées de l’éruption
de l'ensemble de données «faithful».
•  SOLUTION: L'écart-type des durée de l’éruption est 1.1414.
Voir aussi http://www.r-tutor.com/
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 5: 29 octobre 2012
32 Coefficient d’asymétrie avec R
•  PROBLÈME: Trouvez l'asymétrie des durées de l'éruption
de l'ensemble de données «faithful».
•  SOLUTION: L'asymétrie de la durée de l'éruption est
-0.41355. Il indique que la distribution des durées de
l’éruption est biaisé vers la gauche.
Voir aussi http://www.r-tutor.com/
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 5: 29 octobre 2012
33 Coefficient d’aplatissement avec R
•  PROBLÈME: Trouvez l'aplatissement de la durée de
l’éruption dans l'ensemble de données «faithful».
•  SOLUTION: L'aplatissement de la durée de l'éruption est
-1.5116, ce qui indique que la distribution de la durée de
l’éruption est platikurtic. Ceci est cohérent avec le fait que son
histogramme n'est pas en forme de cloche.
Voir aussi http://www.r-tutor.com/
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 5: 29 octobre 2012
34 Lectures
Lectures obligatoires
•  Gotelli, N.J. and Ellison, A.M. (2004): A Primer of Ecological Statistics. Sinauer
Associates Inc., Sunderland, MA, USA.
! chapitre 3
•  http://www.r-tutor.com/elementary-statistics/numerical-measures
Lectures complémentaires
•  Lafaye de Micheaux, P., Drouilhet, R. Liquet, B. (2011): Le logiciel R –
Maîtriser le langange, effectuer des analyses statistiques. Springer Verlag,
France.
! chapitre 9
•  Quinn, G.P, Keough, M.J. (2002) Experimental design and data analysis for
biologists. Cambridge University Press.
! chapitres 2.1-2.2
Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I
Séance 5: 29 octobre 2012
Téléchargement