Chapitre 1 : Statistique descriptive univariée

Téléchargement

Biostatistiques 1 – Licence

Introduction

Statistique : ensemble de méthodes scientiﬁques destinées à la collecte, la présentation et

l’analyse de données.

1 Jeux de données

Application 1

Résultats d’un questionnaire soumis à des étudiants de l’UM2 :

Tailles −de 150 cm 150 −160 160 −170 170 −180 180 −190 + de 190 cm

Eﬀectifs 7 25 54 69 41 4

Application 2

Oiseaux observés le 15/02/2011 entre 8h et 9h sur un poste d’observation de l’étang de Thau :

Espèces Aigrette Héron Goéland Cigogne Flamant

Eﬀectifs 17 23 253 9 46

Application 3

Quantité de principe actif en mg recueillie dans 20 pilules à la sortie d’une usine pharmaceutique :

102, 104, 97, 98, 98, 101, 103, 104, 99, 96, 100, 102, 100, 98, 100, 101, 100, 97, 101, 100.

Application 4

Données extraites des déclarations d’impôts 2010 pour l’arrondissement de Béziers :

Nombre d’enfants 0 1 2 3 4 5 6

Eﬀectifs 6268 4233 5287 3019 1146 509 224

Application 5

Mentions des bacheliers 2011 au lycée de la Borde-Basse :

Mention Passable Assez bien Bien Très bien

Eﬀectifs 61 42 33 18

2 Un peu de vocabulaire

2.1 Population, échantillon, individus

population

échantillon individus

Figure 1 – Population, échantillon, individus

–individus : objets de l’étude

–population : ensemble des individus

–échantillon : sous-ensemble des individus observés

2.2 Les variables statistiques

–variable : caractère d’intérêt sur lequel porte l’étude

–modalités de la variable : valeurs prises par la variable

–domaine de la variable : ensemble de ses modalités

Les variables peuvent être de diﬀérentes natures ou types :

variables

qualitatives quantitatives

nominales ordinales continues discrètes

– langues parlées

– couleurs

– degré de satis-

faction

– notes alphabé-

tiques (A,B. . . )

– nombre

d’enfants

– Âge

– températures

– poids

Exercice

Pour les 5 applications, identiﬁer la population, la variable et ses caractéristiques.

3 Organisation des données

3.1 Série statistique

Quelques notations :

– nom de la variable : X

– taille de l’échantillon : n

– observations de Xdans l’échantillon (série statistique) : x= (x1,··· , xn).

– observations classées par ordre croissant : x(1) ≤ ··· ≤ x(n).

– modalités observées : m1< m2< . . . < mK.

Exemple :

Si x= (5,3,2,5), alors n= 4,K= 3,x(1) =m1=x3= 2,x(2) =m2=x2= 3 et x(3) =x(4) =

m3=x1=x4= 5.

Attention ! Ne pas confondre données brutes (série statistique) et distribution de la variable (liste

des modalités accompagnées des eﬀectifs ou fréquences correspondants).

3.2 Données groupées en classes

Pour les variables quantitatives continues, les Kmodalités sont généralement des intervalles (ouverts,

fermés, semi-ouverts) appelés classes. On les note C1,··· , CK.

3.3 Tableaux

Objectif : synthétiser les données brutes.

3.3.1 Variables quantitatives

A chaque modalité mk(avec k= 1, . . . , K) correspond :

–eﬀectif :nk, nombre d’individus pour lesquels X=mk

–fréquence :fk=nk

n, proportion d’individus pour lesquels X=mk

–eﬀectif cumulé (croissant) : Nk=n1+··· +nk, nombre d’individus pour lesquels X≤mk

–fréquence cumulée (croissante) : Fk=f1+··· +fk=Nk

n, proportion d’individus pour lesquels

X≤mk

3.3.2 Variables quantitatives regroupées en classes

A chaque classe Ck= [bk, Bk](ou ]bk, Bk[ou ]bk, Bk]ou [bk, Bk[) correspond :

–eﬀectif :nk, nombre d’individus pour lesquels X∈Ck

–fréquence :fk=nk

n, proportion d’individus pour lesquels X∈Ck

–eﬀectif cumulé (croissant) : Nk=n1+··· +nk, nombre d’individus pour lesquels X≤Bk

–fréquence cumulée (croissante) : Fk=f1+··· +fk=Nk

n, proportion d’individus pour lesquels

X≤Bk

–amplitude :ak=Bk−bk, c’est la longueur de Ck.

–densité d’eﬀectif :dk=nk

ak.

–densité de fréquence :φk=fk

ak=dk

–centre :ck=bk+Bk

2, c’est le milieu de Ck.

Exercice

Regrouper les données de l’application 3 en classes. On privilégiera les classes de même largeur.

Identiﬁer les frontières et les centres des classes. Idem pour l’application 1.

3.4 Graphiques

Objectif : résumer l’information d’un tableau de données.

3.4.1 Variables nominales

Modalités non classées ⇒Ordre aléatoire

Deux graphes possibles :

–diagramme en bâtons : chaque modalité est représentée par un segment dont la hauteur est pro-

portionnelle à l’eﬀectif ou la fréquence de la modalité.

–diagramme circulaire : chaque modalité est représentée par un secteur dont l’aire est proportion-

nelle à l’eﬀectif ou la fréquence de la modalité.

Exercice

Illustrer l’application 2 par un diagramme circulaire.

3.4.2 Variables ordinales ou discrètes

Diagramme en bâtons avec modalités classées par ordre croissant.

Exercice

Illustrer les applications 4 et 5 par des diagrammes en bâtons.

3.4.3 Variables continues

Données groupées en classes ⇒histogramme : chaque classe est représentée par un rectangle dont

l’aire est égale à la fréquence de la classe (la hauteur de chaque rectangle est la densité de fréquence).

Exercice

Illustrer les applications 1 et 3 par un histogramme.

3.5 Courbe des fréquences cumulées

Uniquement pour variables quantitatives, généralement continues.

Graphe de la fonction

F(t) = Card{xi≤t}

n,pour tout t∈R.

C’est une ligne brisée reliant les points de coordonnées (b1,0),(B1, F1),(B2, F2),··· ,(BK,1). On la

prolonge aux extrémités par des demi-droites horizontales (cf ﬁgure 2).

Exercice

Dessiner la courbe des fréquences cumulées pour les applications 1 et 3.

Figure 2 – Exemple d’histogramme et de courbe des fréquences cumulées pour une variable continue

4 Mesures de tendance centrale

4.1 Moyenne (arithmétique)

Pour des données brutes

¯x.

=x1+··· +xn

n=1

i=1

xi.

Exercice

Calculer la moyenne pour l’application 3.

Pour des données groupées, on calcule une approximation ¯xcde la moyenne :

¯xc.

=n1c1+··· +nKcK

n=1

k=1

nkck.

Exercice

Calculer la moyenne pour l’application 1 puis la moyenne par classes pour l’application 3.

Pour des données discrètes, ¯xet ¯xccoïncident.

Exercice

Calculer la moyenne pour l’application 4.

4.2 Médiane

La médiane m"coupe" les observations en deux ⇔

Card{xi≤m}= Card{xi≥m}

Pour des données brutes

=





x(n+1

2),si nest impair,

x(n

2)+x(n

2+1)

2,si nest pair.

Exercice

Calculer la médiane pour l’application 3.

Si la variable est discrète, on peut utiliser les fréquences cumulées pour trouver m.

Exercice

Calculer la médiane pour l’application 4.

Pour des données groupées, on peut utiliser la courbe des fréquences cumulées pour trouver m.

Exercice

Calculer la médiane pour l’application 1.

4.3 Mode

C’est la valeur la plus souvent observée. Pour des données groupées en classes, on prend le centre

de la classe la plus observée.

Exercice

Calculer le mode pour chacune des applications.

4.4 Comparaison

4.4.1 Moyenne et médiane

– Médiane : peu sensible aux valeurs extrêmes.

– Moyenne : sensible aux valeurs extrêmes mais plus facilement calculable.

Exercice

Moyenne et médiane (TD1).

4.4.2 Exemples de distributions

Les diﬀérentes valeurs centrales (moyennes, médiane, mode) peuvent être confondues ou diﬀérentes

suivant les répartitions comme le montre l’exemple de la ﬁgure 3.

(a) (b)

Figure 3 – La moyenne (rouge), médiane (bleu) et mode (vert) de deux séries statistiques. La

distribution (b) est dite symétrique.

5 Mesure de dispersion

5.1 Variance et écart type empiriques

La variance empirique d’un échantillon s2est la moyenne du carré des écarts à la moyenne.

Pour des données brutes

s2.

=(x1−¯x)2+··· + (xn−¯x)2

n=1

i=1

(xi−¯x)2.

On a aussi

s2=1

i=1

i− 1

i=1

xi!2

=x2−¯x2.

L’écart-type est la racine carrée de la variance : s=√s2.

Exercice

Calculer la variance et l’écart type empiriques pour l’application 3.

1 / 6 100%

Documents connexes

Statistiques. - Thierry Sageaux

EX 1 :( 3 points ) Le tableau suivant donne la distance entre le

Exercices de Statistique Descriptive

..TRAITEMENT DE DONNÉES STATISTIQUES.. Effectuer une étude

Analyse statistique de base

Statistiques

Statistiques - Lycée d`Adultes

Ctr Stat Sec 16.doc

Activité - Calcul des paramètres statistiques

Correction du DM n°7

serie statistique a une variable

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Chapitre 1 : Statistique descriptive univariée

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Chapitre 1 : Statistique descriptive univariée

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib