Chapitre 1 : Statistique descriptive univariée

publicité
Biostatistiques 1 – Licence
Chapitre 1 : Statistique descriptive univariée
Introduction
Statistique : ensemble de méthodes scientifiques destinées à la collecte, la présentation et
l’analyse de données.
1
Jeux de données
Application 1
Résultats d’un questionnaire soumis à des étudiants de l’UM2 :
Tailles − de 150 cm
Effectifs
7
150 − 160 160 − 170 170 − 180 180 − 190 + de 190 cm
25
54
69
41
4
Application 2
Oiseaux observés le 15/02/2011 entre 8h et 9h sur un poste d’observation de l’étang de Thau :
Espèces Aigrette Héron Goéland Cigogne Flamant
Effectifs
17
23
253
9
46
Application 3
Quantité de principe actif en mg recueillie dans 20 pilules à la sortie d’une usine pharmaceutique :
102, 104, 97, 98, 98, 101, 103, 104, 99, 96, 100, 102, 100, 98, 100, 101, 100, 97, 101, 100.
Application 4
Données extraites des déclarations d’impôts 2010 pour l’arrondissement de Béziers :
0
1
2
3
4
5
6
Nombre d’enfants
Effectifs
6268 4233 5287 3019 1146 509 224
Application 5
Mentions des bacheliers 2011 au lycée de la Borde-Basse :
Mention Passable Assez bien Bien Très bien
Effectifs
61
42
33
18
2
2.1
Un peu de vocabulaire
Population, échantillon, individus
population
individus
échantillon
Figure 1 – Population, échantillon, individus
1
– individus : objets de l’étude
– population : ensemble des individus
– échantillon : sous-ensemble des individus observés
2.2
Les variables statistiques
– variable : caractère d’intérêt sur lequel porte l’étude
– modalités de la variable : valeurs prises par la variable
– domaine de la variable : ensemble de ses modalités
Les variables peuvent être de différentes natures ou types :
variables
qualitatives
nominales
quantitatives
ordinales
continues
– langues parlées – degré de satis- – températures
– poids
– couleurs
faction
– notes alphabétiques (A,B. . . )
discrètes
– nombre
d’enfants
– Âge
Exercice
Pour les 5 applications, identifier la population, la variable et ses caractéristiques.
3
Organisation des données
3.1
Série statistique
Quelques notations :
– nom de la variable : X
– taille de l’échantillon : n
– observations de X dans l’échantillon (série statistique) : x = (x1 , · · · , xn ).
– observations classées par ordre croissant : x(1) ≤ · · · ≤ x(n) .
– modalités observées : m1 < m2 < . . . < mK .
Exemple :
Si x = (5, 3, 2, 5), alors n = 4, K = 3, x(1) = m1 = x3 = 2, x(2) = m2 = x2 = 3 et x(3) = x(4) =
m3 = x1 = x4 = 5.
Attention ! Ne pas confondre données brutes (série statistique) et distribution de la variable (liste
des modalités accompagnées des effectifs ou fréquences correspondants).
3.2
Données groupées en classes
Pour les variables quantitatives continues, les K modalités sont généralement des intervalles (ouverts,
fermés, semi-ouverts) appelés classes. On les note C1 , · · · , CK .
3.3
Tableaux
Objectif : synthétiser les données brutes.
3.3.1
Variables quantitatives
A chaque modalité mk (avec k = 1, . . . , K) correspond :
– effectif : nk , nombre d’individus pour lesquels X = mk
– fréquence : fk = nnk , proportion d’individus pour lesquels X = mk
– effectif cumulé (croissant) : Nk = n1 + · · · + nk , nombre d’individus pour lesquels X ≤ mk
– fréquence cumulée (croissante) : Fk = f1 + · · · + fk = Nnk , proportion d’individus pour lesquels
X ≤ mk
2
3.3.2
Variables quantitatives regroupées en classes
A chaque classe Ck = [bk , Bk ] (ou ]bk , Bk [ ou ]bk , Bk ] ou [bk , Bk [) correspond :
– effectif : nk , nombre d’individus pour lesquels X ∈ Ck
– fréquence : fk = nnk , proportion d’individus pour lesquels X ∈ Ck
– effectif cumulé (croissant) : Nk = n1 + · · · + nk , nombre d’individus pour lesquels X ≤ Bk
– fréquence cumulée (croissante) : Fk = f1 + · · · + fk = Nnk , proportion d’individus pour lesquels
X ≤ Bk
– amplitude : ak = Bk − bk , c’est la longueur de Ck .
– densité d’effectif : dk = nakk .
– densité de fréquence : φk =
– centre : ck =
bk +Bk
2 ,
fk
ak
=
dk
n.
c’est le milieu de Ck .
Exercice
Regrouper les données de l’application 3 en classes. On privilégiera les classes de même largeur.
Identifier les frontières et les centres des classes. Idem pour l’application 1.
3.4
Graphiques
Objectif : résumer l’information d’un tableau de données.
3.4.1
Variables nominales
Modalités non classées ⇒ Ordre aléatoire
Deux graphes possibles :
– diagramme en bâtons : chaque modalité est représentée par un segment dont la hauteur est proportionnelle à l’effectif ou la fréquence de la modalité.
– diagramme circulaire : chaque modalité est représentée par un secteur dont l’aire est proportionnelle à l’effectif ou la fréquence de la modalité.
Exercice
Illustrer l’application 2 par un diagramme circulaire.
3.4.2
Variables ordinales ou discrètes
Diagramme en bâtons avec modalités classées par ordre croissant.
Exercice
Illustrer les applications 4 et 5 par des diagrammes en bâtons.
3.4.3
Variables continues
Données groupées en classes ⇒ histogramme : chaque classe est représentée par un rectangle dont
l’aire est égale à la fréquence de la classe (la hauteur de chaque rectangle est la densité de fréquence).
Exercice
Illustrer les applications 1 et 3 par un histogramme.
3.5
Courbe des fréquences cumulées
Uniquement pour variables quantitatives, généralement continues.
Graphe de la fonction
Card{xi ≤ t}
,
pour tout t ∈ R.
n
C’est une ligne brisée reliant les points de coordonnées (b1 , 0), (B1 , F1 ), (B2 , F2 ), · · · , (BK , 1). On la
prolonge aux extrémités par des demi-droites horizontales (cf figure 2).
F (t) =
Exercice
Dessiner la courbe des fréquences cumulées pour les applications 1 et 3.
3
Figure 2 – Exemple d’histogramme et de courbe des fréquences cumulées pour une variable continue
4
4.1
Mesures de tendance centrale
Moyenne (arithmétique)
Pour des données brutes
n
1X
. x1 + · · · + xn
x̄ =
=
xi .
n
n
i=1
Exercice
Calculer la moyenne pour l’application 3.
Pour des données groupées, on calcule une approximation x̄c de la moyenne :
K
1X
. n1 c1 + · · · + nK cK
x̄c =
=
nk ck .
n
n
k=1
Exercice
Calculer la moyenne pour l’application 1 puis la moyenne par classes pour l’application 3.
Pour des données discrètes, x̄ et x̄c coïncident.
Exercice
Calculer la moyenne pour l’application 4.
4.2
Médiane
La médiane m "coupe" les observations en deux ⇔
Card{xi ≤ m} = Card{xi ≥ m}
Pour des données brutes


. x( n+1 ) , si n est impair,
m = x( n )2+x( n +1)
 2
2
, si n est pair.
2
Exercice
Calculer la médiane pour l’application 3.
Si la variable est discrète, on peut utiliser les fréquences cumulées pour trouver m.
Exercice
Calculer la médiane pour l’application 4.
4
Pour des données groupées, on peut utiliser la courbe des fréquences cumulées pour trouver m.
Exercice
Calculer la médiane pour l’application 1.
4.3
Mode
C’est la valeur la plus souvent observée. Pour des données groupées en classes, on prend le centre
de la classe la plus observée.
Exercice
Calculer le mode pour chacune des applications.
4.4
Comparaison
4.4.1
Moyenne et médiane
– Médiane : peu sensible aux valeurs extrêmes.
– Moyenne : sensible aux valeurs extrêmes mais plus facilement calculable.
Exercice
Moyenne et médiane (TD1).
4.4.2
Exemples de distributions
Les différentes valeurs centrales (moyennes, médiane, mode) peuvent être confondues ou différentes
suivant les répartitions comme le montre l’exemple de la figure 3.
(a)
(b)
Figure 3 – La moyenne (rouge), médiane (bleu) et mode (vert) de deux séries statistiques. La
distribution (b) est dite symétrique.
5
5.1
Mesure de dispersion
Variance et écart type empiriques
La variance empirique d’un échantillon s2 est la moyenne du carré des écarts à la moyenne.
Pour des données brutes
n
1X
. (x1 − x̄)2 + · · · + (xn − x̄)2
s2 =
=
(xi − x̄)2 .
n
n
i=1
On a aussi
!2
n
1X
xi
= x2 − x̄2 .
n
i=1
i=1
√
L’écart-type est la racine carrée de la variance : s = s2 .
n
1X 2
s =
xi −
n
2
Exercice
Calculer la variance et l’écart type empiriques pour l’application 3.
5
Pour des données groupées, on calcule une approximation s2c de la variance :
K
s2c
1X
=
nk c2k −
n
k=1
K
1X
nk ck
n
!2
= x2c − xc 2 .
k=1
Exercice
Calculer la variance et l’écart type empiriques pour l’application 1 puis pour l’application 3 en classes.
Pour des données discrètes, s2 et s2c coïncident.
Exercice
Calculer l’écart type empirique pour l’application 4. Ecart-type (TD1).
5.2
5.2.1
Ecart interquartile
Les quantiles
Soit α ∈]0, 1[. Le quantile d’ordre α est noté qα et on a
Card{xi ≤ qα }
= α.
n
On appelle quartiles les quantiles d’ordre 14 , 12 et 34 et déciles les quantiles d’ordre
Pour des données brutes
1
10 ,
...,
9
10 .
.
qα = x(bhc) + (h − bhc) x(bhc+1) − x(bhc) .
où h = (n + 1)α et t 7→ bhc est la partie entière de h.
Exercice
Calculer le premier et dernier quartiles de l’application 3.
Si la variable est discrète, on peut utiliser les fréquences cumulées pour trouver qα .
Exercice
Calculer le premier et dernier quartiles de l’application 4.
Pour des données groupées, on peut utiliser la courbe des fréquences cumulées pour trouver qα .
Exercice
Calculer le premier et dernier quartiles de l’application 1.
5.2.2
Ecart interquartile
Il mesure la dispersion des données :
.
eiq = q0.75 − q0.25 .
5.2.3
Boîtes à moustaches (boxplot)
C’est un moyen rapide de représenter le profil d’une série statistique quantitative (cf fig. 4).
q0.05
q0.25 m
q0.75 q0.95
Figure 4 – Un exemple de boîte à moustaches
Exercice
Tracer les box-plot des applications 3 et 4.
6
Téléchargement