ue 4 analyse descriptive univariee d un echantillon statistique

publicité
Analyse descriptive univariée d'un échantillon statistique
I. Introduction
•
Plan classique d'une étude :
◦ Recueil des données (libre observation ou expérience).
◦ Analyse descriptive des données.
◦ Inférence statistique (recherche d'associations, prédiction...).
•
Plusieurs type de variables (cf plan) :
◦ Qualitatives.
▪ Non ordonnées.
▪ Ordonnées.
◦ Quantitatives.
▪ Discrètes.
▪ Continues.
◦ Cas particuliers.
▪ Binaires.
▪ Rangs.
•
Pour chacun de ces types nous verrons.
◦ Définition.
◦ Présentation des données.
◦ Représentation graphique.
◦ Calculs des paramètres.
II. Variables qualitatives non ordonnées
A. Définition
•
•
•
•
Variable non quantifiable décrivant une qualité d'un individu à l'aide de k modalités.
Les modalités forment donc un S.C.E. (système complet d’événements).
Variable « nominale » si k > 2.
Exemple : couleur des cheveux.
blond
brun
blanc
Ensemble S
B. Présentation des données
•
•
Tableau de contingence.
Une ligne pour chacune des k modalités (i de 1 à k).
Modalité
Effectif
xi
Fréquence
ni
fi=ni/N
Σ=N
Σ=N
C. Représentation graphique
•
•
Diagramme en secteur = camembert.
Proportionnalité entre :
◦ La fréquence fi.
◦ L'effectif ni.
◦ L'angle au centre (en degrés : α = 360°*fi).
◦ La surface du secteur.
Blanc
0,2
Brun
0,5
Blond
0,3
D. Calcul de paramètres
•
•
Un seul paramètre : le mode.
Mode = modalité ayant le plus grand effectif.
Exercice 1.
◦ Couleur des cheveux chez cents individus.
Couleur xi
ni
fi
Bruns
50
0,5
Blonds
30
0,3
Blancs
20
0,2
Σ=N=100
Σ=1
Mode = ''bruns''.
III. Variables qualitatives ordonnées = variables ordinales
•
Les modalités ont un ordre.
Brevet
Variable = niveau d'étude
Bac
Licence
Master
•
•
Comportement identique aux variables nominales.
Tableau : on peut trier les lignes par x croissants, ajouter l'effectif cumulé et calculer la
médiane (cf. post).
IV. Variables quantitatives discrètes
A. Définition
•
•
Variable numérique ne pouvant prendre qu'un nombre fini de valeurs.
Souvent issues d'un décompte.
•
Exemple.
◦ Nombre d'enfants dans une famille.
◦ Nombre de rechutes d'une maladie.
B. Présentation des données
•
•
•
Tableau de contingence.
Une ligne pour chacune des k valeurs différentes triées de X (i de 1 à k).
Modalité
Effectif
Effectif cumulé
Fréquence
i
ni
Ni = Σ nj
fi=ni/N
F i = Σ fj
xk
nk
Σ=N
N
Ø
fk
Σ=1
1
Ø
j=1
cf Exercice 2A.
1. Représentation graphique
Rappels préalables, cas discret.
◦ f(x) est la densité de probabilité de X.
▪ f(x0) = P(X=x0)
▪ ∀ x, 0 ≤ f(x)≤ 1
k
▪ ∑ f(xi) =1
i=1
◦ F(x) est la fonction de répartition de X.
▪ F(x0) = P(X=x0)
◦ F(x) est la primitive de f(x) qui vérifie 3 propriétés.
▪ F(x) croissante sur ]-∞;+∞[
▪ Lim x→-∞ F(X) = 0
▪ Lim x → +∞ F(X) = 1
2. Diagramme en bâtons
•
•
•
i
xi
C. Représentation graphique
•
Fréquence
cumulée
Diagramme en bâtons.
Polygone des effectifs.
Attention :
◦ Interdiction d'élargir les barres.
◦ Échelle réellement quantitative en X.
◦ Polygone en pointillés.
j=
1
Fi
Polygone des
effectifs
=> Estimation graphique de F(x).
fj
X
Xj
Xi
3.Diagramme cumulatif
•
•
•
Diagramme cumulatif (en fréquences).
Fournit la médiane graphiquement (cf. exercice).
Schéma.
◦ Y : fréquence cumulée.
1
Fj
Fi
0
Xi
•
Xj
X
cf Exercice 2B.
D. Calcul des paramètres
•
Paramètres calculables.
◦ Minimum, maximum.
◦ Mode (idem qualitatif).
◦ Médiane.
◦ Quantiles.
◦ Moyenne, variance et écart type.
cf. ci-après
1. Médiane
•
Médiane x~ :
◦ Valeur seuil qui partage l'échantillon en 2 sous-groupes d'effectif identique.
▪ Si N impair : soit N=2p+1, médiane = xp+1
▪ Si N pair : soit N=2p, médiane = (xp+xp+1)/2
◦ Robuste aux valeurs extrêmes.
2. Quantiles
•
Quartiles.
◦ Les 3 valeurs qui partagent l'échantillon en 4 sous-groupes d'effectif identique.
◦ Distance inter-quartile = Q3-Q1
◦ Médiane = Q2 (2e quartile).
Percentiles.
◦ Les 99 valeurs qui partagent l'échantillon en 100 sous-groupes d'effectif identique
◦ Médiane = 50ème percentile.
Quantiles.
◦ Terme générique.
•
•
1
0,75
0,5
0,25
0
Q1
Q2
Q3
x
Distance inter-quartile
3. Moyenne
•
•
•
La moyenne arithmétique.
k
▪ x =E(x)= ∑ xifi
i=1
Contrairement à la médiane.
◦ Sensible aux valeurs extrêmes.
◦ Nombreux tests et calculs réalisables.
En moyenne, les écarts à la moyenne sont nuls
k
◦ E (x-x) = ∑ (xi-x) . fi = 0
i=1
4. Variance et écart type
•
Variance et écart type en théorie...
◦ Variance σ2 = E [(x-x)2]
k
=Σ
(x-x)2 .fi
i=1
k
k
σ2 = E(X2) – [E(X)]2= ( ∑ xi2. fi) - (∑ xi fi)2
i=1
i=1
•
Écart type σ= √(σ²)
•
Variance et écart type en pratique sur un échantillon (cf. cours suivant).
◦ Estimateur biaisé de l'écart type.
Sech se calcule comme σ mais sur l'échantillon.
◦ s =Estimateur non biaisé de l'écart type.
=ds (déviation standard).
=sd (standard deviation).
S = Sech √ N / (N – 1)
•
Exercice 2C et 2D.
V. Variables quantitatives continues
A. Définition
•
•
•
Ce sont des variables numériques pouvant prendre un nombre infini de valeurs.
À chaque nombre exact est associée une probabilité nulle :
∀x0 , P(X=x0) = 0
Exemples :
◦ Taille d'un individu.
◦ Poids d'un individu.
B. Présentation des données
•
•
Discrétisation = mise en classes jointives et mutuellement exclusives.
Une ligne pour chacune des k classes triées de X (i de 1 à k)
Classe
Centre de
classe
Effectif
...
...
(Xi;Xi+1)
Ci
...
...
Ci = (Xi+Xi+1)/2
Effectif cumulé
Fréquence
Fréquence
cumulée
C. Représentation graphique
1. Rappels théoriques
•
Rappels préalables, cas continu :
◦ f(X) est la densité de probabilité de X
Attention, définition différente car :
∀x0 , P (X = x0) = 0
b
donc f(X) définie telle que : ∫ f(x) *dx = P(a<X<b)
x=0
◦ F(x) est la fonction de répartition de X : définition similaire au cas discret.
x
F(x0) = P(X<x0) = ∫ f(t) * dt
O
t = -∞
•
Rappels sur la densité de probabilité f(x) :
Probabilités données par l'aire sous la courbe et non par la hauteur de la courbe. Aire totale
sous la courbe = 1
dx
f(X0)
f(X0)
X0
a
P(X=x0) = f(x0).dx = 0
b
P(a<X<b) = ∫ f(x).dx = F(b)-F(a)
2. Histogramme
•
•
•
•
•
Histogramme en fréquence (et non en effectif !!!).
Probabilité proportionnelle à la surface du rectangle.
Surface totale = 1.
Polygone des fréquences.
Possibilité de classes d’inégales largeurs, tant que la surface est conservée.
=> Estimation graphique de f(X).
40
30
20
10
0
2
•
•
•
•
•
•
3
4
5
6
7
Histogramme en effectif.
Toléré en analogie avec les diagrammes en barres.
Effectif de la classe est proportionnelle à la hauteur de la barre.
Somme des hauteurs = N (effectif).
Polygone des effectifs.
Exige des classe égales.
=> Ne représente rien du tout.
Polygone des effectifs.
3. Diagramme cumulatif
•
Diagramme cumulatif (en fréquence) :
◦ Idem cas discret.
◦ Fournit graphiquement la médiane et les quantiles.
=> Estimation graphique de F(X).
Exercice 3.
D. Calcul de paramètres
1. Rappels théoriques
•
Rappel théorique :
(formule générale, pas sur l’échantillon).
◦ Moyenne ( somme des valeur * probabilité ):
▪ E(X) = ∫ x.f(x).dx
◦ Moyenne sur un intervalle ]a ;b[ :
soit G(X) une primitive de X.f(X)
▪ E]a;b[(X) = [G(X)]ba = G(b) - G(a)
◦ Variance (moyenne des écarts carrés à la moyenne) :
▪ Var (X) = ∫ (x – µ)2 .f(x) .dx
= E(X2) – µ2 = (∫x2 .f(x) .dx) - µ2)
2. En pratique
•
En pratique sur un échantillon :
◦ Les même paramètres calculables que précédemment, sauf le mode.
◦ Si données détaillées disponibles, utiliser les même formules (avec fi=1/N).
◦ Si données agrégées par classes, on utilise les centres de classes Ci.
•
•
Le mode n'est pas calculable.
Description d'une courbe f(X) :
unimodale
bimodale
multimodale
VI. Cas particuliers
A. Variable binaires
•
Cas des variable qualitatives à deux modalités.
◦ Exemple : « sexe » {F;H}.
→ est identique à « est masculin ? » {0;1}.
= expérience de Bernoulli.
◦ Selon les besoins, utilisables comme des quantitatives.
B. Les variable de rang
•
•
•
Cas particuliers de variables quantitatives discrètes : 1°, 2°, … , N°.
Avec ou sans ex-æquo.
Non traités dans ce cours, les graphiques et paramètres précédents ne s'appliquent pas.
Téléchargement