Statistique descriptive 61
1 Données unidimensionnelles
1.1 Echantillons
A la base de toute étude statistique, il y a une population, formée d’indivi-
dus sur lesquels on observe des caractères. Pour fixer les idées, il est plus facile
de penser en termes de population humaine. Les individus sont des personnes,
et les caractères observés peuvent être morphologiques (taille, poids, couleur
des yeux), physiologiques (groupe sanguin, numération globulaire, taux de
cholestérol) ou psychologiques (réactions à des tests ou réponses à une enquête
d’opinion). Même si nous choisirons prioritairement nos exemples dans les
caractères humains, il faut garder à l’esprit des notions de population et de
caractère plus générales. Voici quelques exemples.
Population Caractère
Eléments chimiques Nombre d’isotopes
Galaxies Nombre d’étoiles
Etoiles Magnitude
Chromosomes Nombre de gènes
Gènes Nombre de bases protéiques
Villes Taux d’imposition
Pays Produit intérieur brut
Films Recettes
Mois de l’année Montant des exportations
Un caractère est dit :
–qualitatif, si les valeurs ne peuvent pas être ordonnées (groupe sanguin,
couleur des yeux, vote pour un candidat).
–ordinal, si les valeurs peuvent seulement être ordonnées : leurs diffé-
rences ne sont pas interprétables (opinions exprimées sur une échelle de
valeurs)
–quantitatif, quand les valeurs sont numériques (mesures physiques, phy-
siologiques, économiques).
Les valeurs que peut prendre un caractère s’appellent les modalités.
Pour des raisons de facilité de traitement informatique ou mathématique,
on cherche à se ramener à des caractères quantitatifs par un codage. Si le
caractère initial est qualitatif, le codage sera souvent binaire. Le cas le plus
simple est celui d’un référendum, où il n’y a que deux modalités codées 0et
1. Pour un nombre quelconque mde modalités, on pourra les coder par un
vecteur de mbooléens : si la valeur observée sur un individu est l, le vecteur
associé à cet individu a toutes ses coordonnées nulles sauf la l-ième qui vaut
1. Dans le cas des caractères ordinaux, on effectue souvent le codage sur
les premiers entiers. Il faut se souvenir que le codage est arbitraire et que les
résultats numériques que l’on obtient après codage peuvent dépendre de celui-
ci. Des techniques spécifiques permettent de traiter plus particulièrement les