Statistique : Statistiques Statistique : Statistiques descriptives descriptives Introduction générale Joseph Salmon Notion de statistique Résumés basiques d'un jeu de données Corrélation Septembre 2014 Joseph Salmon Fondamentaux pour le Big Data c Télécom ParisTech 1/19 Plan du cours Statistique : Statistiques descriptives Introduction générale Notion de statistique Introduction générale Notion de statistique Résumés basiques d'un jeu de données Corrélation Résumés basiques d'un jeu de données Corrélation Joseph Salmon Fondamentaux pour le Big Data c Télécom ParisTech 2/19 Statistique I I On observe des réalisations (y1 , . . . , yn ) de variables aléatoires inconnues (éventuellement vectorielles) On suppose ici que les variables sont indépendantes et identiquement distribuées (i.i.d.) selon une loi PY Statistique : Statistiques descriptives But de l'estimation Introduction générale Notion de statistique Résumés basiques d'un jeu de données Comment apprendre certaines caractéristiques de PY à partir de (y1 , . . . , yn ) ? Corrélation Souvent : on se prépare à observer yn+1 . Cas de la prédiction Que peut-on attendre de yn+1 ? (en moyenne, ou avec une certaine probabilité ?) Joseph Salmon Fondamentaux pour le Big Data c Télécom ParisTech 3/19 Vocabulaire I Statistique : Statistiques I descriptives Introduction générale I Notion de statistique Résumés basiques d'un jeu de données Corrélation I Observations y = y1:n = (y1 , . . . , yn ) : échantillon de taille n. Grandeurs théoriques : dépendant de la loi PY inconnue l'espérance de la variable y sous la loi PY . Exemple: Grandeurs empiriques Pn : calculées à partir des observations yi . i =1 yi est la moyenne empirique Exemple: ȳn = n1 Objectif général : apprendre les caractéristiques théoriques de PY à partir de résumés empiriques. Joseph Salmon Fondamentaux pour le Big Data c Télécom ParisTech 4/19 Statistique exploratoire et descriptive I Statistique : Statistiques descriptives I Première analyse sans hypothèse sur la loi PY . Analyse qualitative du jeu de données /échantillon Introduction générale Notion de statistique Résumés basiques d'un jeu de données Corrélation Dénition : Statistique Une statistique est une fonction des observations (y1 , . . . , yn ). Joseph Salmon Fondamentaux pour le Big Data c Télécom ParisTech 5/19 Moyenne Statistique : Statistiques descriptives Introduction générale Déntion : Moyenne Notion de statistique Résumés basiques d'un jeu de données Corrélation y n= n 1X n i =1 Notons 1n le vecteur (1, . . . , 1) ∈ Rn . 1/n près) un produit scalaire dans Rn y cf. i y La moyenne est (à facteur : n = hy , 1 n /n i McKinney (2012) pour les statistiques avec python Joseph Salmon Fondamentaux pour le Big Data c Télécom ParisTech 6/19 Médiane empirique Statistique : Statistiques descriptives Introduction générale Notion de statistique Résumés basiques d'un jeu de données Corrélation On ordonne les yi : y(1) ≤ y(2) ≤ . . . ≤ y(n) Déntion : Médiane (NON-UNIQUE !) Medn (y) = ( y(b n 2 y c) + (b n c+1) 2 2 y 1 ) ( n+ 2 Si n est pair Si n est impair Joseph Salmon Fondamentaux pour le Big Data c Télécom ParisTech 7/19 Moyenne vs médiane Statistique : Statistiques descriptives Introduction générale Notion de statistique Résumés basiques d'un jeu de données Corrélation I I Les deux statistiques ne coïncident pas Une médiane est plus robuste aux points atypiques (en anglais : outliers ) Joseph Salmon Fondamentaux pour le Big Data c Télécom ParisTech 8/19 Dispersion Statistique : Statistiques descriptives Introduction générale Variance empirique Notion de statistique Résumés basiques d'un jeu de données Corrélation varn (y) = n 1X n i =1 Écart-type empirique n (y ) = s √ 1 (yi − y n )2 = n ky − y n 1 n k2 1 varn (y) ( = √ ky − y n 1 n k ) n Joseph Salmon Fondamentaux pour le Big Data c Télécom ParisTech 9/19 Dispersion Statistique : Statistiques descriptives Introduction générale Notion de statistique Résumés basiques d'un jeu de données Corrélation Mean Absolute deviation Déviation médiane absolue : MADn (y) = Med (|Med(y) − y|) , Joseph Salmon Fondamentaux pour le Big Data c Télécom ParisTech 10/19 Histogramme Statistique : Statistiques descriptives Introduction générale Notion de statistique Résumés basiques d'un jeu de données Corrélation Répartition des données dans des cases L'aire de chaque case est proportionnelle à la fraction des données qui tombent dans la case. L'histogramme est une approximation de la densité de y Joseph Salmon Fondamentaux pour le Big Data c Télécom ParisTech 11/19 Fonction de répartition empirique Statistique : Statistiques descriptives Introduction générale Notion de statistique Résumés basiques d'un jeu de données Corrélation I I Fonction de répartition : F (u ) = PY (−∞, u ] Version empirique : proportion des données en-dessous de u Rappel : n (u ) = F n 1X n i =1 1{y ≤u} i Joseph Salmon Fondamentaux pour le Big Data c Télécom ParisTech 12/19 Quantiles empiriques Statistique : Statistiques descriptives Introduction générale Notion de statistique Résumés basiques d'un jeu de données Corrélation I I Inverse de la fonction de répartition empirique. Soit du e le nombre entier tel que du e − 1 < u ≤ du e. Quantiles empiriques quantile d'ordre p = y(dnpe) = Fn← (p) (p ∈ [0, 1]) Joseph Salmon Fondamentaux pour le Big Data c Télécom ParisTech 13/19 Covariance et corrélation empirique Covariance empirique Pour deux échantillons x1:n et y1:n de moyennes et variances empiriques x = x n , y = y n et varn (x), varn (y) : covn (x , y ) = Statistique : Statistiques descriptives n 1X n i =1 covn (x , y ) = Introduction générale Notion de statistique (xi − x n )(yi − y n ) 1 n c'est-à-dire hx1:n − x n 1n , y1:n − y n 1n i Résumés basiques d'un jeu de données Corrélation Corrélation empirique covn (p x, y) , c'est-à-dire varn (x) varn (y) ρ = corrn (x , y ) = p ρ= hx1:n − x n 1n , y1:n − y n 1n i = cos(x1:n − x̄n 1n , y1:n − ȳn 1n ) kx − x n k ky − y n k Joseph Salmon Fondamentaux pour le Big Data c Télécom ParisTech 14/19 Interprétation pour n = 3 et kxk = kyk = 1 Statistique : Statistiques descriptives Introduction générale Notion de statistique Résumés basiques d'un jeu de données Corrélation Joseph Salmon Fondamentaux pour le Big Data c Télécom ParisTech 15/19 Exemples de corrélations Statistique : Statistiques descriptives Introduction générale Notion de statistique Résumés basiques d'un jeu de données Corrélation Joseph Salmon Fondamentaux pour le Big Data c Télécom ParisTech 16/19 Exemples de corrélations proches de zéros Statistique : Statistiques descriptives Introduction générale Notion de statistique Résumés basiques d'un jeu de données Corrélation Joseph Salmon Fondamentaux pour le Big Data c Télécom ParisTech 17/19 Exemples de corrélations proches de zéros Statistique : Statistiques descriptives Introduction générale Notion de statistique Résumés basiques d'un jeu de données Corrélation Joseph Salmon Fondamentaux pour le Big Data c Télécom ParisTech 17/19 Exemples de corrélations proches de zéros Statistique : Statistiques descriptives Introduction générale Notion de statistique Résumés basiques d'un jeu de données Corrélation Joseph Salmon Fondamentaux pour le Big Data c Télécom ParisTech 17/19 Exemples de visualisation Statistique : Statistiques descriptives Introduction générale Notion de statistique Résumés basiques d'un jeu de données Corrélation Joseph Salmon Fondamentaux pour le Big Data c Télécom ParisTech 18/19 Références I Statistique : Statistiques descriptives W. McKinney. Python for Data Analysis : Data Wrangling with Pandas, NumPy, and Introduction générale Notion de statistique IPython. O'Reilly Media, 2012. Résumés basiques d'un jeu de données Corrélation Joseph Salmon Fondamentaux pour le Big Data c Télécom ParisTech 19/19