Biostatistiques 1 – Licence
Chapitre 1 : Statistique descriptive univariée
Introduction
Statistique : ensemble de méthodes scientifiques destinées à la collecte, la présentation et
l’analyse de données.
1 Jeux de données
Application 1
Résultats d’un questionnaire soumis à des étudiants de l’UM2 :
Tailles de 150 cm 150 160 160 170 170 180 180 190 + de 190 cm
Effectifs 7 25 54 69 41 4
Application 2
Oiseaux observés le 15/02/2011 entre 8h et 9h sur un poste d’observation de l’étang de Thau :
Espèces Aigrette Héron Goéland Cigogne Flamant
Effectifs 17 23 253 9 46
Application 3
Quantité de principe actif en mg recueillie dans 20 pilules à la sortie d’une usine pharmaceutique :
102, 104, 97, 98, 98, 101, 103, 104, 99, 96, 100, 102, 100, 98, 100, 101, 100, 97, 101, 100.
Application 4
Données extraites des déclarations d’impôts 2010 pour l’arrondissement de Béziers :
Nombre d’enfants 0 1 2 3 4 5 6
Effectifs 6268 4233 5287 3019 1146 509 224
Application 5
Mentions des bacheliers 2011 au lycée de la Borde-Basse :
Mention Passable Assez bien Bien Très bien
Effectifs 61 42 33 18
2 Un peu de vocabulaire
2.1 Population, échantillon, individus
population
échantillon individus
Figure 1 – Population, échantillon, individus
1
individus : objets de l’étude
population : ensemble des individus
échantillon : sous-ensemble des individus observés
2.2 Les variables statistiques
variable : caractère d’intérêt sur lequel porte l’étude
modalités de la variable : valeurs prises par la variable
domaine de la variable : ensemble de ses modalités
Les variables peuvent être de différentes natures ou types :
variables
qualitatives quantitatives
nominales ordinales continues discrètes
langues parlées
– couleurs
degré de satis-
faction
notes alphabé-
tiques (A,B. . . )
– nombre
d’enfants
– Âge
– températures
– poids
Exercice
Pour les 5 applications, identifier la population, la variable et ses caractéristiques.
3 Organisation des données
3.1 Série statistique
Quelques notations :
nom de la variable : X
taille de l’échantillon : n
observations de Xdans l’échantillon (série statistique) : x= (x1,··· , xn).
observations classées par ordre croissant : x(1) ≤ ··· ≤ x(n).
modalités observées : m1< m2< . . . < mK.
Exemple :
Si x= (5,3,2,5), alors n= 4,K= 3,x(1) =m1=x3= 2,x(2) =m2=x2= 3 et x(3) =x(4) =
m3=x1=x4= 5.
Attention ! Ne pas confondre données brutes (série statistique) et distribution de la variable (liste
des modalités accompagnées des effectifs ou fréquences correspondants).
3.2 Données groupées en classes
Pour les variables quantitatives continues, les Kmodalités sont généralement des intervalles (ouverts,
fermés, semi-ouverts) appelés classes. On les note C1,··· , CK.
3.3 Tableaux
Objectif : synthétiser les données brutes.
3.3.1 Variables quantitatives
A chaque modalité mk(avec k= 1, . . . , K) correspond :
effectif :nk, nombre d’individus pour lesquels X=mk
fréquence :fk=nk
n, proportion d’individus pour lesquels X=mk
effectif cumulé (croissant) : Nk=n1+··· +nk, nombre d’individus pour lesquels Xmk
fréquence cumulée (croissante) : Fk=f1+··· +fk=Nk
n, proportion d’individus pour lesquels
Xmk
2
3.3.2 Variables quantitatives regroupées en classes
A chaque classe Ck= [bk, Bk](ou ]bk, Bk[ou ]bk, Bk]ou [bk, Bk[) correspond :
effectif :nk, nombre d’individus pour lesquels XCk
fréquence :fk=nk
n, proportion d’individus pour lesquels XCk
effectif cumulé (croissant) : Nk=n1+··· +nk, nombre d’individus pour lesquels XBk
fréquence cumulée (croissante) : Fk=f1+··· +fk=Nk
n, proportion d’individus pour lesquels
XBk
amplitude :ak=Bkbk, c’est la longueur de Ck.
densité d’effectif :dk=nk
ak.
densité de fréquence :φk=fk
ak=dk
n.
centre :ck=bk+Bk
2, c’est le milieu de Ck.
Exercice
Regrouper les données de l’application 3 en classes. On privilégiera les classes de même largeur.
Identifier les frontières et les centres des classes. Idem pour l’application 1.
3.4 Graphiques
Objectif : résumer l’information d’un tableau de données.
3.4.1 Variables nominales
Modalités non classées Ordre aléatoire
Deux graphes possibles :
diagramme en bâtons : chaque modalité est représentée par un segment dont la hauteur est pro-
portionnelle à l’effectif ou la fréquence de la modalité.
diagramme circulaire : chaque modalité est représentée par un secteur dont l’aire est proportion-
nelle à l’effectif ou la fréquence de la modalité.
Exercice
Illustrer l’application 2 par un diagramme circulaire.
3.4.2 Variables ordinales ou discrètes
Diagramme en bâtons avec modalités classées par ordre croissant.
Exercice
Illustrer les applications 4 et 5 par des diagrammes en bâtons.
3.4.3 Variables continues
Données groupées en classes histogramme : chaque classe est représentée par un rectangle dont
l’aire est égale à la fréquence de la classe (la hauteur de chaque rectangle est la densité de fréquence).
Exercice
Illustrer les applications 1 et 3 par un histogramme.
3.5 Courbe des fréquences cumulées
Uniquement pour variables quantitatives, généralement continues.
Graphe de la fonction
F(t) = Card{xit}
n,pour tout tR.
C’est une ligne brisée reliant les points de coordonnées (b1,0),(B1, F1),(B2, F2),··· ,(BK,1). On la
prolonge aux extrémités par des demi-droites horizontales (cf figure 2).
Exercice
Dessiner la courbe des fréquences cumulées pour les applications 1 et 3.
3
Figure 2 – Exemple d’histogramme et de courbe des fréquences cumulées pour une variable continue
4 Mesures de tendance centrale
4.1 Moyenne (arithmétique)
Pour des données brutes
¯x.
=x1+··· +xn
n=1
n
n
X
i=1
xi.
Exercice
Calculer la moyenne pour l’application 3.
Pour des données groupées, on calcule une approximation ¯xcde la moyenne :
¯xc.
=n1c1+··· +nKcK
n=1
n
K
X
k=1
nkck.
Exercice
Calculer la moyenne pour l’application 1 puis la moyenne par classes pour l’application 3.
Pour des données discrètes, ¯xet ¯xccoïncident.
Exercice
Calculer la moyenne pour l’application 4.
4.2 Médiane
La médiane m"coupe" les observations en deux
Card{xim}= Card{xim}
Pour des données brutes
m.
=
x(n+1
2),si nest impair,
x(n
2)+x(n
2+1)
2,si nest pair.
Exercice
Calculer la médiane pour l’application 3.
Si la variable est discrète, on peut utiliser les fréquences cumulées pour trouver m.
Exercice
Calculer la médiane pour l’application 4.
4
Pour des données groupées, on peut utiliser la courbe des fréquences cumulées pour trouver m.
Exercice
Calculer la médiane pour l’application 1.
4.3 Mode
C’est la valeur la plus souvent observée. Pour des données groupées en classes, on prend le centre
de la classe la plus observée.
Exercice
Calculer le mode pour chacune des applications.
4.4 Comparaison
4.4.1 Moyenne et médiane
Médiane : peu sensible aux valeurs extrêmes.
Moyenne : sensible aux valeurs extrêmes mais plus facilement calculable.
Exercice
Moyenne et médiane (TD1).
4.4.2 Exemples de distributions
Les différentes valeurs centrales (moyennes, médiane, mode) peuvent être confondues ou différentes
suivant les répartitions comme le montre l’exemple de la figure 3.
(a) (b)
Figure 3 – La moyenne (rouge), médiane (bleu) et mode (vert) de deux séries statistiques. La
distribution (b) est dite symétrique.
5 Mesure de dispersion
5.1 Variance et écart type empiriques
La variance empirique d’un échantillon s2est la moyenne du carré des écarts à la moyenne.
Pour des données brutes
s2.
=(x1¯x)2+··· + (xn¯x)2
n=1
n
n
X
i=1
(xi¯x)2.
On a aussi
s2=1
n
n
X
i=1
x2
i 1
n
n
X
i=1
xi!2
=x2¯x2.
L’écart-type est la racine carrée de la variance : s=s2.
Exercice
Calculer la variance et l’écart type empiriques pour l’application 3.
5
1 / 6 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !