Statistique descriptive

59

Cahier de Mathématiques Appliquées no2

B. Ycart

Le point de vue adopté ici est orienté vers les applications en médecine, et

s’appuie largement sur l’utilisation des logiciels de calcul, qui permettent

l’expérimentation indispensable à la compréhension de la statistique. L’étude

de la statistique descriptive prépare aux techniques plus probabilistes utili-

sées pour l’estimation paramétrique et les tests. C’est la raison pour laquelle

l’accent est mis ici sur la notion de distribution empirique plutôt que sur les

diﬀérentes techniques graphiques de représentation des données. Les livres de

statistique sont nombreux. Plus ou moins théoriques, plus ou moins spécia-

lisés dans tel ou tel domaine d’application, il est diﬃcile d’en recommander

un en particulier. Ce qui suit a été préparé à partir des références suivantes.

J.L. Devore : Probability and statistics for engineering and the sciences.

Brooks/Cole, Paciﬁc Grove 1991.

G. Saporta : Probabilités, Analyse des données et Statistique.

Technip, Paris, 1990.

Les “cahiers de mathématiques appliquées” doivent beaucoup aux relec-

tures scrupuleuses de Rachid Boumaza, au dynamisme de Sylvie Sevestre-

Ghalila, au soutien de l’Ecole Supérieure de la Statistique et de l’Analyse de

l’Information de Tunisie, par son directeur Makki Ksouri et son directeur des

études Nacef Elloumi, ainsi qu’à la compétence de Habib Bouchriha, directeur

du Centre des Publications Universitaires de la Tunisie.

60 Cahier de Mathématiques Appliquées no2

Table des matières

1 Données unidimensionnelles 61

1.1 Echantillons............................ 61

1.2 Moyenneempirique........................ 64

1.3 Variance empirique . . . . . . . . . . . . . . . . . . . . . . . . 66

2 Distribution empirique 71

2.1 Statistique et probabilités . . . . . . . . . . . . . . . . . . . . 71

2.2 Représentations graphiques . . . . . . . . . . . . . . . . . . . 72

2.3 Quantiles ............................. 73

2.4 Modèles probabilistes . . . . . . . . . . . . . . . . . . . . . . . 75

2.5 Ajustement ............................ 79

3 Données bidimensionnelles 82

3.1 Représentations bidimensionnelles . . . . . . . . . . . . . . . 82

3.2 Covariance ............................ 83

3.3 Régression linéaire simple . . . . . . . . . . . . . . . . . . . . 86

3.4 Régressions multiples . . . . . . . . . . . . . . . . . . . . . . . 90

3.5 Rapportdecotes......................... 92

3.6 Tableau de contingence . . . . . . . . . . . . . . . . . . . . . 94

4 Exercices 97

Statistique descriptive 61

1 Données unidimensionnelles

1.1 Echantillons

A la base de toute étude statistique, il y a une population, formée d’indivi-

dus sur lesquels on observe des caractères. Pour ﬁxer les idées, il est plus facile

de penser en termes de population humaine. Les individus sont des personnes,

et les caractères observés peuvent être morphologiques (taille, poids, couleur

des yeux), physiologiques (groupe sanguin, numération globulaire, taux de

cholestérol) ou psychologiques (réactions à des tests ou réponses à une enquête

d’opinion). Même si nous choisirons prioritairement nos exemples dans les

caractères humains, il faut garder à l’esprit des notions de population et de

caractère plus générales. Voici quelques exemples.

Population Caractère

Eléments chimiques Nombre d’isotopes

Galaxies Nombre d’étoiles

Etoiles Magnitude

Chromosomes Nombre de gènes

Gènes Nombre de bases protéiques

Villes Taux d’imposition

Pays Produit intérieur brut

Films Recettes

Mois de l’année Montant des exportations

Un caractère est dit :

–qualitatif, si les valeurs ne peuvent pas être ordonnées (groupe sanguin,

couleur des yeux, vote pour un candidat).

–ordinal, si les valeurs peuvent seulement être ordonnées : leurs diﬀé-

rences ne sont pas interprétables (opinions exprimées sur une échelle de

valeurs)

–quantitatif, quand les valeurs sont numériques (mesures physiques, phy-

siologiques, économiques).

Les valeurs que peut prendre un caractère s’appellent les modalités.

Pour des raisons de facilité de traitement informatique ou mathématique,

on cherche à se ramener à des caractères quantitatifs par un codage. Si le

caractère initial est qualitatif, le codage sera souvent binaire. Le cas le plus

simple est celui d’un référendum, où il n’y a que deux modalités codées 0et

1. Pour un nombre quelconque mde modalités, on pourra les coder par un

vecteur de mbooléens : si la valeur observée sur un individu est l, le vecteur

associé à cet individu a toutes ses coordonnées nulles sauf la l-ième qui vaut

1. Dans le cas des caractères ordinaux, on eﬀectue souvent le codage sur

les premiers entiers. Il faut se souvenir que le codage est arbitraire et que les

résultats numériques que l’on obtient après codage peuvent dépendre de celui-

ci. Des techniques spéciﬁques permettent de traiter plus particulièrement les

62 Cahier de Mathématiques Appliquées no2

caractères qualitatifs et ordinaux. Nous nous limiterons ici pour l’essentiel

aux caractères quantitatifs.

La statistique intervient quand il est impossible ou inutile d’observer un

caractère sur l’ensemble de la population. On l’observe alors sur une sous-

population de taille réduite, en espérant tirer de l’observation des conclusions

généralisables à toute la population. Si les données d’un caractère quanti-

tatif sont recueillies sur nindividus, le résultat est un n-uplet de nombres,

entiers ou décimaux, (x1, . . . , xn), que l’on appelle échantillon ou série sta-

tistique, de taille n. On réserve plutôt le terme d’échantillon au résultat de n

expériences menées indépendamment les unes des autres, et dans des condi-

tions identiques (lancers de dés, mesure du poids de nnouveaux-nés,. . . ). On

appellera série statistique le résultat de nexpériences qui ne sont pas inter-

changeables. Le cas le plus fréquent est celui où la population est constituée

d’instants successifs (relevés quotidiens de températures, chiﬀres mensuels du

chômage,. . . ). On parle alors de série chronologique (ﬁgure 1).

0 52 104 156 208 260

0

100

200

300

400

500

600

700

800

900

.

Milliers de cas

Semaines

+

++

+

++

+

+++

+

++

+

+++

+

+++

++

+

+++

++

+

++++

+

++++

+

++

+

++++

+

++

+++

+

++

+

++

+

++

+

++

+

++

+

++

+

++

+

+++

+

+++

+

++

+

Figure 1 – Série chronologique : cas de grippe en France par semaine sur 5

ans.

On distingue souvent les caractères discrets (ceux qui ne prennent que

peu de modalités distinctes) des caractères continus (pour lesquels toutes

les valeurs observées sont a priori diﬀérentes). La frontière entre continu et

discret est beaucoup moins claire en pratique qu’en théorie. Tout recueil de

données se fait avec une certaine précision, et dans une certaine unité. Si une

taille est mesurée avec une précision de l’ordre du centimètre, tout chiﬀre

correspondant à une quantité inférieure au centimètre ne contient aucune

information et doit être éliminé. Cela signiﬁe que la taille en centimètres est

Statistique descriptive 63

une valeur entière, donc un caractère discret, même si on le modélise par

une loi normale qui est une loi continue. D’autre part, diﬀérentes techniques

statistiques (histogrammes, distance du chi-deux) imposent de regrouper les

données en classes, ce qui revient à les rendre discrètes, les nouvelles modalités

étant les diﬀérentes classes.

0 10 20 30 40 50 60 70 80 90 100

100

102

104

106

108

110

112

114

116

118

120

122

124

126

128

130

Tailles

Individus

+

++

+

++

+

++

+

++

+

++

+

Figure 2 – Echantillon de 100 tailles d’enfants de 6 ans, en centimètres.

Une fois recueilli, l’échantillon (x1, . . . , xn)se présente comme une liste

de nombres peu lisible, dont la principale caractéristique est une plus ou

moins grande variabilité. Le traitement statistique va maintenant consister

à étudier cette variabilité, pour en extraire l’information qu’elle contient, à

savoir ce qui est généralisable à l’ensemble de la population. Les techniques

de statistique descriptive auront pour but de compresser l’échantillon, de le

résumer par des quantités calculées et des représentations graphiques, aﬁn

d’extraire l’information qu’il contient.

On ne traite pas un échantillon sans avoir une question précise à lui po-

ser. Etant donné un échantillon de tailles de ﬁlles de 18 ans, le traitement

ne sera pas le même selon que l’on sera un nutritionniste qui cherche à étu-

dier l’inﬂuence du régime alimentaire sur la croissance, ou un fabriquant de

vêtements qui cherche à dimensionner ses patrons.

Le mot “statistique” a deux sens diﬀérents :

•C’est un ensemble de données chiﬀrées sur un phénomène variable (les

statistiques du commerce extérieur, les statistiques du chômage).

•C’est une discipline scientiﬁque dont le but est d’extraire de l’informa-

tion d’un échantillon en vue d’une prédiction ou d’une décision.

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

Statistique descriptive

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Statistique descriptive

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib