59
Cahier de Mathématiques Appliquées no2
Statistique descriptive
B. Ycart
Le point de vue adopté ici est orienté vers les applications en médecine, et
s’appuie largement sur l’utilisation des logiciels de calcul, qui permettent
l’expérimentation indispensable à la compréhension de la statistique. L’étude
de la statistique descriptive prépare aux techniques plus probabilistes utili-
sées pour l’estimation paramétrique et les tests. C’est la raison pour laquelle
l’accent est mis ici sur la notion de distribution empirique plutôt que sur les
différentes techniques graphiques de représentation des données. Les livres de
statistique sont nombreux. Plus ou moins théoriques, plus ou moins spécia-
lisés dans tel ou tel domaine d’application, il est difficile d’en recommander
un en particulier. Ce qui suit a été préparé à partir des références suivantes.
J.L. Devore : Probability and statistics for engineering and the sciences.
Brooks/Cole, Pacific Grove 1991.
G. Saporta : Probabilités, Analyse des données et Statistique.
Technip, Paris, 1990.
Les “cahiers de mathématiques appliquées” doivent beaucoup aux relec-
tures scrupuleuses de Rachid Boumaza, au dynamisme de Sylvie Sevestre-
Ghalila, au soutien de l’Ecole Supérieure de la Statistique et de l’Analyse de
l’Information de Tunisie, par son directeur Makki Ksouri et son directeur des
études Nacef Elloumi, ainsi qu’à la compétence de Habib Bouchriha, directeur
du Centre des Publications Universitaires de la Tunisie.
60 Cahier de Mathématiques Appliquées no2
Table des matières
1 Données unidimensionnelles 61
1.1 Echantillons............................ 61
1.2 Moyenneempirique........................ 64
1.3 Variance empirique . . . . . . . . . . . . . . . . . . . . . . . . 66
2 Distribution empirique 71
2.1 Statistique et probabilités . . . . . . . . . . . . . . . . . . . . 71
2.2 Représentations graphiques . . . . . . . . . . . . . . . . . . . 72
2.3 Quantiles ............................. 73
2.4 Modèles probabilistes . . . . . . . . . . . . . . . . . . . . . . . 75
2.5 Ajustement ............................ 79
3 Données bidimensionnelles 82
3.1 Représentations bidimensionnelles . . . . . . . . . . . . . . . 82
3.2 Covariance ............................ 83
3.3 Régression linéaire simple . . . . . . . . . . . . . . . . . . . . 86
3.4 Régressions multiples . . . . . . . . . . . . . . . . . . . . . . . 90
3.5 Rapportdecotes......................... 92
3.6 Tableau de contingence . . . . . . . . . . . . . . . . . . . . . 94
4 Exercices 97
Statistique descriptive 61
1 Données unidimensionnelles
1.1 Echantillons
A la base de toute étude statistique, il y a une population, formée d’indivi-
dus sur lesquels on observe des caractères. Pour fixer les idées, il est plus facile
de penser en termes de population humaine. Les individus sont des personnes,
et les caractères observés peuvent être morphologiques (taille, poids, couleur
des yeux), physiologiques (groupe sanguin, numération globulaire, taux de
cholestérol) ou psychologiques (réactions à des tests ou réponses à une enquête
d’opinion). Même si nous choisirons prioritairement nos exemples dans les
caractères humains, il faut garder à l’esprit des notions de population et de
caractère plus générales. Voici quelques exemples.
Population Caractère
Eléments chimiques Nombre d’isotopes
Galaxies Nombre d’étoiles
Etoiles Magnitude
Chromosomes Nombre de gènes
Gènes Nombre de bases protéiques
Villes Taux d’imposition
Pays Produit intérieur brut
Films Recettes
Mois de l’année Montant des exportations
Un caractère est dit :
qualitatif, si les valeurs ne peuvent pas être ordonnées (groupe sanguin,
couleur des yeux, vote pour un candidat).
ordinal, si les valeurs peuvent seulement être ordonnées : leurs diffé-
rences ne sont pas interprétables (opinions exprimées sur une échelle de
valeurs)
quantitatif, quand les valeurs sont numériques (mesures physiques, phy-
siologiques, économiques).
Les valeurs que peut prendre un caractère s’appellent les modalités.
Pour des raisons de facilité de traitement informatique ou mathématique,
on cherche à se ramener à des caractères quantitatifs par un codage. Si le
caractère initial est qualitatif, le codage sera souvent binaire. Le cas le plus
simple est celui d’un référendum, où il n’y a que deux modalités codées 0et
1. Pour un nombre quelconque mde modalités, on pourra les coder par un
vecteur de mbooléens : si la valeur observée sur un individu est l, le vecteur
associé à cet individu a toutes ses coordonnées nulles sauf la l-ième qui vaut
1. Dans le cas des caractères ordinaux, on effectue souvent le codage sur
les premiers entiers. Il faut se souvenir que le codage est arbitraire et que les
résultats numériques que l’on obtient après codage peuvent dépendre de celui-
ci. Des techniques spécifiques permettent de traiter plus particulièrement les
62 Cahier de Mathématiques Appliquées no2
caractères qualitatifs et ordinaux. Nous nous limiterons ici pour l’essentiel
aux caractères quantitatifs.
La statistique intervient quand il est impossible ou inutile d’observer un
caractère sur l’ensemble de la population. On l’observe alors sur une sous-
population de taille réduite, en espérant tirer de l’observation des conclusions
généralisables à toute la population. Si les données d’un caractère quanti-
tatif sont recueillies sur nindividus, le résultat est un n-uplet de nombres,
entiers ou décimaux, (x1, . . . , xn), que l’on appelle échantillon ou série sta-
tistique, de taille n. On réserve plutôt le terme d’échantillon au résultat de n
expériences menées indépendamment les unes des autres, et dans des condi-
tions identiques (lancers de dés, mesure du poids de nnouveaux-nés,. . . ). On
appellera série statistique le résultat de nexpériences qui ne sont pas inter-
changeables. Le cas le plus fréquent est celui où la population est constituée
d’instants successifs (relevés quotidiens de températures, chiffres mensuels du
chômage,. . . ). On parle alors de série chronologique (figure 1).
0 52 104 156 208 260
0
100
200
300
400
500
600
700
800
900
.
Milliers de cas
Semaines
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
++
+
+++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+++
+
+
+
+++
++
+
+++
++
+
+
++++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++++
+
+
++
+
+
+
+
+
++++
+
++
+++
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
++
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
++
+
++
++
+
+++
+
+
+
+
+++
+
+
++
+
+
+
+
+
+
+
Figure 1 – Série chronologique : cas de grippe en France par semaine sur 5
ans.
On distingue souvent les caractères discrets (ceux qui ne prennent que
peu de modalités distinctes) des caractères continus (pour lesquels toutes
les valeurs observées sont a priori différentes). La frontière entre continu et
discret est beaucoup moins claire en pratique qu’en théorie. Tout recueil de
données se fait avec une certaine précision, et dans une certaine unité. Si une
taille est mesurée avec une précision de l’ordre du centimètre, tout chiffre
correspondant à une quantité inférieure au centimètre ne contient aucune
information et doit être éliminé. Cela signifie que la taille en centimètres est
Statistique descriptive 63
une valeur entière, donc un caractère discret, même si on le modélise par
une loi normale qui est une loi continue. D’autre part, différentes techniques
statistiques (histogrammes, distance du chi-deux) imposent de regrouper les
données en classes, ce qui revient à les rendre discrètes, les nouvelles modalités
étant les différentes classes.
0 10 20 30 40 50 60 70 80 90 100
100
102
104
106
108
110
112
114
116
118
120
122
124
126
128
130
Tailles
Individus
+
+
+
++
+
++
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
Figure 2 – Echantillon de 100 tailles d’enfants de 6 ans, en centimètres.
Une fois recueilli, l’échantillon (x1, . . . , xn)se présente comme une liste
de nombres peu lisible, dont la principale caractéristique est une plus ou
moins grande variabilité. Le traitement statistique va maintenant consister
à étudier cette variabilité, pour en extraire l’information qu’elle contient, à
savoir ce qui est généralisable à l’ensemble de la population. Les techniques
de statistique descriptive auront pour but de compresser l’échantillon, de le
résumer par des quantités calculées et des représentations graphiques, afin
d’extraire l’information qu’il contient.
On ne traite pas un échantillon sans avoir une question précise à lui po-
ser. Etant donné un échantillon de tailles de filles de 18 ans, le traitement
ne sera pas le même selon que l’on sera un nutritionniste qui cherche à étu-
dier l’influence du régime alimentaire sur la croissance, ou un fabriquant de
vêtements qui cherche à dimensionner ses patrons.
Le mot “statistique” a deux sens différents :
C’est un ensemble de données chiffrées sur un phénomène variable (les
statistiques du commerce extérieur, les statistiques du chômage).
C’est une discipline scientifique dont le but est d’extraire de l’informa-
tion d’un échantillon en vue d’une prédiction ou d’une décision.
1 / 50 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !