Statistique : Statistiques descriptives - Fun-Mooc

publicité
Statistique : Statistiques
Statistique : Statistiques descriptives
descriptives
Introduction générale
Joseph Salmon
Notion de statistique
Résumés basiques d'un jeu de données
Corrélation
Septembre 2014
Joseph Salmon
Fondamentaux pour le Big Data
c
Télécom ParisTech
1/19
Plan du cours
Statistique : Statistiques
descriptives
Introduction générale
Notion de statistique
Introduction générale
Notion de statistique
Résumés basiques d'un jeu de données
Corrélation
Résumés basiques d'un jeu de données
Corrélation
Joseph Salmon
Fondamentaux pour le Big Data
c
Télécom ParisTech
2/19
Statistique
I
I
On observe des réalisations (y1 , . . . , yn ) de variables
aléatoires inconnues (éventuellement vectorielles)
On suppose ici que les variables sont indépendantes et
identiquement distribuées (i.i.d.) selon une loi PY
Statistique : Statistiques
descriptives
But de l'estimation
Introduction générale
Notion de statistique
Résumés basiques d'un jeu de données
Comment apprendre certaines caractéristiques de PY à partir de
(y1 , . . . , yn ) ?
Corrélation
Souvent : on se prépare à observer yn+1 .
Cas de la prédiction
Que peut-on attendre de yn+1 ? (en moyenne, ou avec une
certaine probabilité ?)
Joseph Salmon
Fondamentaux pour le Big Data
c
Télécom ParisTech
3/19
Vocabulaire
I
Statistique : Statistiques
I
descriptives
Introduction générale
I
Notion de statistique
Résumés basiques d'un jeu de données
Corrélation
I
Observations y = y1:n = (y1 , . . . , yn ) : échantillon de taille n.
Grandeurs théoriques : dépendant de la loi PY inconnue
l'espérance de la variable y sous la loi PY .
Exemple:
Grandeurs empiriques
Pn : calculées à partir des observations yi .
i =1 yi est la moyenne empirique
Exemple: ȳn = n1
Objectif général : apprendre les caractéristiques théoriques de
PY à partir de résumés empiriques.
Joseph Salmon
Fondamentaux pour le Big Data
c
Télécom ParisTech
4/19
Statistique exploratoire et descriptive
I
Statistique : Statistiques
descriptives
I
Première analyse sans hypothèse sur la loi PY .
Analyse qualitative du jeu de données /échantillon
Introduction générale
Notion de statistique
Résumés basiques d'un jeu de données
Corrélation
Dénition : Statistique
Une statistique est une fonction des observations (y1 , . . . , yn ).
Joseph Salmon
Fondamentaux pour le Big Data
c
Télécom ParisTech
5/19
Moyenne
Statistique : Statistiques
descriptives
Introduction générale
Déntion : Moyenne
Notion de statistique
Résumés basiques d'un jeu de données
Corrélation
y
n=
n
1X
n
i =1
Notons 1n le vecteur (1, . . . , 1) ∈ Rn .
1/n près) un produit scalaire dans Rn
y
cf.
i
y
La moyenne est (à facteur
:
n = hy , 1 n /n i
McKinney (2012) pour les statistiques avec python
Joseph Salmon
Fondamentaux pour le Big Data
c
Télécom ParisTech
6/19
Médiane empirique
Statistique : Statistiques
descriptives
Introduction générale
Notion de statistique
Résumés basiques d'un jeu de données
Corrélation
On ordonne les yi : y(1) ≤ y(2) ≤ . . . ≤ y(n)
Déntion : Médiane (NON-UNIQUE !)
Medn (y) =
( y(b
n
2
y
c) + (b n
c+1)
2
2
y
1
)
( n+
2
Si n est pair
Si n est impair
Joseph Salmon
Fondamentaux pour le Big Data
c
Télécom ParisTech
7/19
Moyenne vs médiane
Statistique : Statistiques
descriptives
Introduction générale
Notion de statistique
Résumés basiques d'un jeu de données
Corrélation
I
I
Les deux statistiques ne coïncident pas
Une médiane est plus robuste aux points atypiques (en
anglais : outliers )
Joseph Salmon
Fondamentaux pour le Big Data
c
Télécom ParisTech
8/19
Dispersion
Statistique : Statistiques
descriptives
Introduction générale
Variance empirique
Notion de statistique
Résumés basiques d'un jeu de données
Corrélation
varn (y) =
n
1X
n
i =1
Écart-type empirique
n (y ) =
s
√
1
(yi − y n )2 =
n
ky − y n 1 n k2
1
varn (y)
( = √ ky − y n 1 n k )
n
Joseph Salmon
Fondamentaux pour le Big Data
c
Télécom ParisTech
9/19
Dispersion
Statistique : Statistiques
descriptives
Introduction générale
Notion de statistique
Résumés basiques d'un jeu de données
Corrélation
Mean Absolute deviation
Déviation médiane absolue :
MADn (y) = Med (|Med(y) − y|) ,
Joseph Salmon
Fondamentaux pour le Big Data
c
Télécom ParisTech
10/19
Histogramme
Statistique : Statistiques
descriptives
Introduction générale
Notion de statistique
Résumés basiques d'un jeu de données
Corrélation
Répartition des données dans des cases L'aire de chaque case est proportionnelle à la fraction des
données qui tombent dans la case.
L'histogramme est une approximation de la densité de y
Joseph Salmon
Fondamentaux pour le Big Data
c
Télécom ParisTech
11/19
Fonction de répartition empirique
Statistique : Statistiques
descriptives
Introduction générale
Notion de statistique
Résumés basiques d'un jeu de données
Corrélation
I
I
Fonction de répartition : F (u ) = PY (−∞, u ]
Version empirique : proportion des données en-dessous de u
Rappel :
n (u ) =
F
n
1X
n
i =1
1{y ≤u}
i
Joseph Salmon
Fondamentaux pour le Big Data
c
Télécom ParisTech
12/19
Quantiles empiriques
Statistique : Statistiques
descriptives
Introduction générale
Notion de statistique
Résumés basiques d'un jeu de données
Corrélation
I
I
Inverse de la fonction de répartition empirique.
Soit du e le nombre entier tel que du e − 1 < u ≤ du e.
Quantiles empiriques
quantile d'ordre p = y(dnpe) = Fn← (p)
(p ∈ [0, 1])
Joseph Salmon
Fondamentaux pour le Big Data
c
Télécom ParisTech
13/19
Covariance et corrélation empirique
Covariance empirique
Pour deux échantillons x1:n et y1:n de moyennes et variances
empiriques x = x n , y = y n et varn (x), varn (y) :
covn (x , y ) =
Statistique : Statistiques
descriptives
n
1X
n
i =1
covn (x , y ) =
Introduction générale
Notion de statistique
(xi − x n )(yi − y n )
1
n
c'est-à-dire
hx1:n − x n 1n , y1:n − y n 1n i
Résumés basiques d'un jeu de données
Corrélation
Corrélation empirique
covn (p
x, y)
, c'est-à-dire
varn (x) varn (y)
ρ = corrn (x , y ) = p
ρ=
hx1:n − x n 1n , y1:n − y n 1n i
= cos(x1:n − x̄n 1n , y1:n − ȳn 1n )
kx − x n k ky − y n k
Joseph Salmon
Fondamentaux pour le Big Data
c
Télécom ParisTech
14/19
Interprétation pour n = 3 et kxk = kyk = 1
Statistique : Statistiques
descriptives
Introduction générale
Notion de statistique
Résumés basiques d'un jeu de données
Corrélation
Joseph Salmon
Fondamentaux pour le Big Data
c
Télécom ParisTech
15/19
Exemples de corrélations
Statistique : Statistiques
descriptives
Introduction générale
Notion de statistique
Résumés basiques d'un jeu de données
Corrélation
Joseph Salmon
Fondamentaux pour le Big Data
c
Télécom ParisTech
16/19
Exemples de corrélations proches de zéros
Statistique : Statistiques
descriptives
Introduction générale
Notion de statistique
Résumés basiques d'un jeu de données
Corrélation
Joseph Salmon
Fondamentaux pour le Big Data
c
Télécom ParisTech
17/19
Exemples de corrélations proches de zéros
Statistique : Statistiques
descriptives
Introduction générale
Notion de statistique
Résumés basiques d'un jeu de données
Corrélation
Joseph Salmon
Fondamentaux pour le Big Data
c
Télécom ParisTech
17/19
Exemples de corrélations proches de zéros
Statistique : Statistiques
descriptives
Introduction générale
Notion de statistique
Résumés basiques d'un jeu de données
Corrélation
Joseph Salmon
Fondamentaux pour le Big Data
c
Télécom ParisTech
17/19
Exemples de visualisation
Statistique : Statistiques
descriptives
Introduction générale
Notion de statistique
Résumés basiques d'un jeu de données
Corrélation
Joseph Salmon
Fondamentaux pour le Big Data
c
Télécom ParisTech
18/19
Références I
Statistique : Statistiques
descriptives
W. McKinney.
Python for Data Analysis : Data Wrangling with Pandas, NumPy, and
Introduction générale
Notion de statistique
IPython.
O'Reilly Media, 2012.
Résumés basiques d'un jeu de données
Corrélation
Joseph Salmon
Fondamentaux pour le Big Data
c
Télécom ParisTech
19/19
Téléchargement