1 Les statistiques descriptives: mesures de tendance centrale et de dispersion (1ière partie) & Les statistiques descriptives en R (2ième partie) Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012 2 Ressources supplémentaires Compléments de mathématiques. • http://math.cmaisonneuve.qc.ca/alevesque/m101.html Il est de votre responsabilité de vous assurer que vous comprenez les concepts de base en mathématiques! Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012 3 Lettres greques couramment utilsées en statistique Notes des cours Borcard (2006) Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012 4 Statistiques descriptives • Données sont essentielles pour la science! Mais devons-nous communiquer toutes les données que nous recueillons? Ex: des tableux des représentations graphiques • Paramètres de position: valeurs centrales autour desquelles se groupent les valeurs observées ! moyenne arithmétique, moyenne géométrique, moyenne harmonique, médiane, mode • Paramètres de dispersion: ils renseignent quant à l’étalement de la distribution des valeurs autour des valeurs centrales ! variance, écart type, erreur standard de la moyenne Après notes des cours Proulx (2006) et Borcard (2006). Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012 5 Moyenne arithmétique n _ Y= ∑Y i n ≠ µ = E(Y ) = ∑Yi pi i=1 n Espérance d'une variable aléatoire discrète (séance 4) i=1 • avec Yi = valeur de chaque observation individuelle • avec n = nombre d'observations Yi tirée de l'ensemble de la population avec N éléments: n _ y= ∑Y i i=1 N _ • Important: il y a une différence entre les statistiques (échantillon:Y _ d’un échantillon) et les paramètres (population: y de la population) Après notes des cours Borcard (2006). Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012 6 Loi des grandes nombres • Lorsque n d’un échantillon devient grand, ! les fréquences relatives estimées tendent vers les probabilités et ! les distributions de fréquence relatives observées tendent vers les distributions de probabilités $ n ' & ∑Yi _ ) lim & i=1 = Yn ) = E(Y ) = µ n→∞ & n ) & ) % ( Espérance d'une variable aléatoire normal (séance 4) _ • On dit: «Y n is an unbiased estimator of µ »: Yi sont aléatoires et indépendants, et la population est décrit par une variable aléatoire normale. Après notes des cours Borcard (2006). Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012 7 Moyenne géométrique • Variable aléatoire log-normale: Y • Variable aléatoire Z = ln(Y) ! variable aléatoire normale ! Y = eZ avec e = base du logarithme naturel (~2,71828 ….) GY: « back-transformed » moyenne " n % 1 $ ln(Yi )' $# n i=1 '& GY = e ∑ Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012 8 Moyenne harmonique • Variable aléatoire non-normale: Y • Variable aléatoire Z = 1/Y ! variable aléatoire normale ! HY: « subcontrary » moyenne 1 HY = n • n ∑ i=1 1 Yi _ _ Y n > GY > HY mais pour Y1 = Y2 = Y3 ….. Yi ! Y n = GY = HY € Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012 9 Médiane • MeY: la valeur de la variable qui se suite au centre de la série statistique, classée en ordre croissant • MeY sépare la série en deux groupes d’égale importance • S’il y un nombre impair d’observation, MeY est une observation de la série. Exemple: pour la série [1, 32, 128, 129, 1000235], MeY = ? • S’il y a un nombre pair d’observations, MeY est située entre les deux observations centrale de la série. Par convention, on utilise la moyenne de ces deux valeurs. Exemple: pour la série [1, 32, 128, 129, 532, 1000235], MeY = ? Notes des cours Borcard (2006). Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012 10 Mode • MoY: la valeur d’une variable ayant la plus forte fréquence. • Pour une variable discrète comportant peu de classes, on trouve la classe la plus fréquence. Sa valeur est le mode. Pour une variable continue on divise celle-ci en classes • Une distribution de fréquences a plusieurs modes si on veut mettre en évidence le fait qu’elle a plusieurs classes non contiguës dont la fréquence est nettement plus élevée que celle des autres classes. Notes des cours Borcard (2006). Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012 11 Comparaison entre moyenne a., médiane, mode _ Y ) ) _ Y _ _ Y Y Après notes des cours Proulx (2006) et Borcard (2006). Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012 12 En utilisant différentes paramètres de position _ _ • Y : commodité; Théorème Central Limite: Y de de grands échantillons sont conformes à la distribution normale ! il est facile de tester des hypothèses sur la base de cette propriété (séance 6) • GY: processus multiplicatifs ! e.g., taux de croissance démographique • HY: bonne question .... Je ne sais pas beaucoup sur moi-même! • MeY: • MoY: } particulièrement utile lorsque les distributions des observations ne suivent pas une distribution de probabilité standard Important: ne pas faire confiance à aucun de ces paramètres de position sans paramètres de dispersion! Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012 13 Variance et écart type d’une population • Avec la loi de grande nombres, la variance d’une population: _ 1 s = ∑ (Yi − Y )2 = σ 2 (Y ) = E [Y − E(Y )]2 n 2 Variance d'une variable aléatoire discrète (séance 4) • et l’écart type d’une population: s = s2 • et la somme des carrés: _ SSY = ∑ (Yi − Y )2 • SSY est d'une importance fondamentale pour l'analyse de régression (séance 9) et l'analyse de la variance (séance 10) Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012 14 Degré de liberté • Degré de liberté: nombre de « pièces d'information indépendantes » que nous avons dans un ensemble de données pour l'estimation des statistiques. • Exemple: échantillon avec n = 1 ! s2 = σ2 = 0 ! Toutes les « pièces d'information indépendantes » sont utilisées pour calculer la moyenne arithmétique, donc il n'y a pas de « pièces d'information indépendantes » pour calculer s2 and/or σ2! Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012 15 Variance et écart type d’une échantillon • « Unbiased estimator » s2 pour σ2: _ 1 2 s = (Y − Y ) ∑ i n −1 2 • « unbiased estimator » s pour σ: _ 1 2 s= (Y − Y ) ∑ i n −1 Important: n – 1 règle pour les degrés de liberté: au moins deux observations sont nécessaires pour calculer s2 et/ou s! Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012 16 Coefficients de variation et de dispersion • En lui-même les paramètres de dispersion ne dit pas grand chose! • Coefficient de variation: mesure indépendante de la variabilité CV = 100 * s _ Unité: pourcentage! Y • Liée à CV: coefficient de dispersion: CD = s2 _ Y Souvent utilisé pour les variables discrètes! Après notes des cours Borcard (2006). Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012 17 Erreur standard de la moyenne • sY_ est un autre paramètre de la dispersion très important, notamment en biologie, géographie et sciences de l'environnement: s s_ = Y n _ • s _ est une mesure de la variabilité de l'estimation de Y Y • s _est une mesure de la variabilité des observations individuelles sur Y Toujours: s_ < s Y • important: standard erreur de la moyenne, standard erreur de la variance, etc. ! standard erreurs doivent être spécifiées!!!!!!!!!!! • échantillon représentatif de la population: _ Y • représentativité de la population n'est pas connue: s Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012 18 Moments central (1 ière &2 ième ) • Moment central: en général, la moyenne des écarts de toutes les observations dans un groupe de données à partir de la moyenne des observations, élevé à une puissance de r: _ 1 n CM = ∑ (Yi − Y )r n i=1 • avec n = number of observations • avec Yi = valeur de chaque observation individuelle _ • Y = moyenne arithmétique des n observations • r = entier positif • r = 1 ! ? • r = 2 ! ? Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012 19 Coefficient d’asymétrie • r = 3 ! coefficient d’asymmétrie: _ 1 n g1 = 3 ∑ (Yi − Y )3 ns i=1 • g1 décrit comment l'échantillon diffère en forme d'une distribution symétrique: g1 < 0: left-skewed g1 = 0 g1 > 0: right-skewed Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012 20 Coefficient d’aplatissement • r = 4 ! coefficient d’aplatissement: _ # 1 n & 4 g2 = % 4 ∑ (Yi − Y ) ( − 3 $ ns i=1 ' • g2 décrit comment l'échantillon est distribué dans les queues rapport au centre de la distribution: g2 < 0: platykurtic gs = 0: mesokurtic g2 > 0: leptokurtic http://mvpprograms.com/help/mvpstats/distributions/SkewnessKurtosis Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012 21 Fractiles _ • Fractiles Y p : la valeur qui sépare la distribution en deux parties ! np et n(1-p) • Dans les données, il y a donc np élements dont la valeur est _ inférieure à Y p et n(1-p) élements quit ont une valuer supérieure. • p = 0.5 ! ? • p = 0.25 ! premier quartile • p = 0.75 ! troisième quartile _ _ • one peut aussi fractionner la distribution en déciles ( Y 0,10 ,Y 0,20 , etc. ) _ _ ou en pourcentiles ( Y 0,01,Y 0,02 , etc. ) _ _ _ • L’écart interfractile: d 2 p = Y 1− p − Y p Après notes des cours Borcard (2006). Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012 22 Le diagramme à moustaches La plus grande et plus petite valeurs observées à moins de 1.5 écart interquartile du 1er et du 3ème quartile (moustaches) Écart interquartile (haut et bas de la boîte) MeY (trait dans la boîte) Valeurs encore plus extrêmes (cercles) _ • Quantiles ne dépend pas de la Y ! distributions asymétriques ou des distributions avec des valeurs extrêmes dépeindre la distribution beaucoup mieux! Après notes des cours Borcard (2006). Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012 23 Séance 2 & 3 Documents complémentaires et mises à jours: http://www.math.univ-toulouse.fr/~sdejean/PDF/un-peu-d-R.pdf Tout le matériel présenté est basé sur les notes de cours par Sébastien Déjean (2012): http://perso.math.univ-toulouse.fr/dejean/ Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012 Notions de base Fonctions graphiques Programmation 24 Un peu de statistique: descriptive (uni) Un peu de statistique Statistique descriptive unidimensionnelle Les fonctions boxplot() et hist() peuvent ne pas produire de graphique (option plot=FALSE). La fonction stem() produit une diagramme stem-and-leaf (tige et feuille) qui donne un aperçu de la répartition des données de façon plus « rustique » qu’un histogramme La fonction summary() est une fonction générique (comme plot() par exemple) qui s’adapte à la classe (fonction class()) de l’objet passé en paramètre (vecteur, matrice, data frame, résultat d’une fonction...) V R > x=runif(100) R > y=runif(100) R > mean(x) ;var(x) ;sd(x) R > min(x) ;max(x) R > quantile(x) ;median(x) R > quantile(x,0.9) R > boxplot(x,plot=FALSE) R > cov(x,y) R > summary(x) R > stem(x) ;stem(y) R > hist(x,plot=F) S. DéjeanSonnentag, PhD: GÉO1512 – Géographie Quantitative I Oliver Présentation du logiciel R V Séance 5: 29 octobre 2012 Sémin’R 25 Moyennes avec R • PROBLÈME: Trouver la moyenne (arithmétique, géométrique, harmonique) des durées de l’éruption dans l'ensemble de données «faithful» de données intégré ensemble R utilisé pour le TP2, aussi.. • SOLUTION: Les moyennes arithmétique, géométrique et harmonique des durées de l’éruption sont 3,4878, 3,2713 et 3,0893 minutes, respectivement. Voir aussi http://www.r-tutor.com/ Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012 26 Median avec R • PROBLÈME: Trouvez la médiane des durées de l’éruption dans l'ensemble de données «faithful». Le résultat est une valeur réelle des données? • SOLUTION: La médiane des durées de l’éruption est de 4 minutes. Non, le résultat n'est pas une valeur réelle. Voir aussi http://www.r-tutor.com/ Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012 27 Fractiles avec R • PROBLÈME: Trouvez les fractiles des durées de l'éruption dans l'ensemble de données “faithful”. • SOLUTION: Les fractiles première, seconde et troisième parties de la durée de l’éruption sont 2,1627, 4,0000 et 4,4543 minutes respectivement. Voir aussi http://www.r-tutor.com/ Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012 28 Écart interfractile avec R • PROBLÈME: Trouvez l’écart interfractile des durées de l’éruption de l'ensemble de données «faithful». • SOLUTION: L'écart interfractile de la durée de l’éruption est 2,2915 minutes.. Voir aussi http://www.r-tutor.com/ Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012 29 Diagramme à moustaches avec R • PROBLÈME: Trouvez le diagramme à moustaches des durées de l’éruption dans l'ensemble de données «faithful». • SOLUTION: Le diagramme à moustache des durées de l’éruption est … Voir aussi http://www.r-tutor.com/ Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012 30 Variance avec R • PROBLÈME: Trouver la variance des durée de l’éruption dans l'ensemble de données «faithful». • SOLUTION: La variance des durées de l’éruption est 1,3027. Voir aussi http://www.r-tutor.com/ Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012 31 Écart type avec R • PROBLÈME: Trouvez l'écart type des durées de l’éruption de l'ensemble de données «faithful». • SOLUTION: L'écart-type des durée de l’éruption est 1.1414. Voir aussi http://www.r-tutor.com/ Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012 32 Coefficient d’asymétrie avec R • PROBLÈME: Trouvez l'asymétrie des durées de l'éruption de l'ensemble de données «faithful». • SOLUTION: L'asymétrie de la durée de l'éruption est -0.41355. Il indique que la distribution des durées de l’éruption est biaisé vers la gauche. Voir aussi http://www.r-tutor.com/ Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012 33 Coefficient d’aplatissement avec R • PROBLÈME: Trouvez l'aplatissement de la durée de l’éruption dans l'ensemble de données «faithful». • SOLUTION: L'aplatissement de la durée de l'éruption est -1.5116, ce qui indique que la distribution de la durée de l’éruption est platikurtic. Ceci est cohérent avec le fait que son histogramme n'est pas en forme de cloche. Voir aussi http://www.r-tutor.com/ Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012 34 Lectures Lectures obligatoires • Gotelli, N.J. and Ellison, A.M. (2004): A Primer of Ecological Statistics. Sinauer Associates Inc., Sunderland, MA, USA. ! chapitre 3 • http://www.r-tutor.com/elementary-statistics/numerical-measures Lectures complémentaires • Lafaye de Micheaux, P., Drouilhet, R. Liquet, B. (2011): Le logiciel R – Maîtriser le langange, effectuer des analyses statistiques. Springer Verlag, France. ! chapitre 9 • Quinn, G.P, Keough, M.J. (2002) Experimental design and data analysis for biologists. Cambridge University Press. ! chapitres 2.1-2.2 Oliver Sonnentag, PhD: GÉO1512 – Géographie Quantitative I Séance 5: 29 octobre 2012