Eléments de statistique mathématique
mieux de travailler en cabinet ou à l’hôpital ?). Pour ces trois variables, le lien entre la
valeur de la variable et la valeur de la variable (lieu d’exercice, âge, temps d’expérience)
est réalisé par ce que l’on a appelé ci-dessus une table de correspondance.
La minute SPPS 2.2.On peut afficher ces tables de correspondance en se rendant
sur l’onglet Variable View.
D’autres exemples de variables qualitatives ordinales seraient la position dans une fra-
trie ou le rang d’entrée dans une école de commerce, de même que toute variable catégo-
risant une variable quantitative sous-jacente. Quant aux variables qualitatives nominales,
on peut penser à des variables décrivant la marque du véhicule que l’on conduit, le lycée
dans lequel on a fait sa prépa, etc.
2. Modélisation stochastique
2.1. Sur l’exemple des infirmières. Traçons un histogramme des salaires horaires,
l’histogramme des valeurs observées h1, . . . , h2911, de même que la densité de la loi nor-
male ayant pour moyenne et variance les moyenne et variance empiriques des valeurs
observées.
La minute SPPS 2.3.Il suffit de cliquer sur Graphs / Legacy Dialogs / Histogram
(et de cliquer la case demandant si l’on veut que la courbe de la densité gaussienne soit
tracée).
L’ajustement de la répartition des valeurs observées à une loi normale semble tout
à fait raisonnable ! (On verra plus tard comment quantifier la qualité de cet ajustement,
dans le chapitre sur les tests.) Alors, le salaire serait-il aléatoire ? D’où vient l’aléa observé
(et pourquoi est-il gaussien) ? Cela revient à expliquer pourquoi on peut modéliser les
valeurs observées h1, . . . , h2911 comme les réalisations d’un échantillon H1, . . . , H2911 de
variables aléatoires indépendantes et identiquement distribuées selon une loi normale, de
paramètres (moyenne et variance) cependant inconnus – et à propos desquels les méthodes
statistiques pourront dire des choses, bien entendu, c’est l’objet de ce cours !
Remarque 2.2.On rappelle que lorsque l’on passe des valeurs observées aux obser-
vations (variables aléatoires), on passe des symboles en minuscules h1, . . . , h2911 à ceux
en majuscules, H1, . . . , H2911.
Le caractère d’observations indépendantes et identiquement distribuées provient de la
méthode employée pour récolter les données. Si l’on a interrogé des infirmières dans de
nombreux lieux et services différents, toutes choisies au hasard dans des lieux eux-mêmes
choisis au hasard, tout ira bien. Si l’on ne s’est contenté que d’un ou deux hôpitaux, alors
l’échantillon risque de n’être représentatif que de ces hôpitaux, et pas de l’ensemble de ceux
du pays. Il faut donc prendre suffisamment d’infirmières, suffisamment bien réparties dans
le pays, pour avoir des données identiquement distribuées selon la loi d’intérêt (le salaire
horaire moyen des infirmières américaines en l’occurrence). L’indépendance provient, d’une
part, du fait qu’on les interroge chacune à son tour (sinon, en grand groupe, les dires des
uns influencent ceux des autres) et d’autre part, du fait qu’on n’en prend pas trop dans le
même endroit (en un même lieu, il y a des échelles de salaire locales ; ou alors la promotion
de l’une, donc le meilleur salaire de l’une, empêche la progression des autres, etc.).
Enfin, que la loi des salaires soit normale procède du théorème de la limite centrale. Le
salaire, à profession donnée, dépend de l’histoire personnelle de chacun, de sa formation
Gilles Stoltz 15