CHAPITRE 2
Modélisation de données
Objectif : Ce chapitre explique comment, à partir de données recueillies par exemple
lors d’enquêtes (ou à partir d’un énoncé d’exercice...), définir un modèle statistique per-
mettant une analyse mathématique ultérieure. On verra notamment que cela revient à
postuler la forme de la loi sous-jacente aux observations et à la connaître à un ou deux
paramètres inconnus près. L’étude statistique ultérieure portera justement sur l’inférence
de ces paramètres.
1. Les différents types de données, leurs étendues
On explique tout d’abord comment lire un tableau de données, et comment commencer
la formalisation mathématique. On part pour cela d’un exemple.
Dans le fichier de données hourlywagedata.sav (fourni par défaut avec SPSS, voir le
dossier Samples), on a regroupé les salaires horaires d’infirmières (d’un pays à déterminer).
Les données se présentent comme suit :
position agerange yrsscale hourwage
1 1 2 13.74
0 1 2 16.44
0 1 3 21.39
1 1 1 11.38
0 1 3 21.56
0 1 1 18.12
1 1 3 13.14
0 1 1 24.73
0 1 2 15.70
1 1 1 18.94
0 1 1 25.45
0 1 1 19.71
. . . . . . . . . . . .
Chaque ligne correspond à une infirmière différente. C’est la convention dans les fichiers
de données : on utilise une ligne par groupe de valeurs observées. La première colonne in-
dique si l’infirmière travaille à l’hôpital (0) ou en cabinet (1) ; la deuxième donne sa tranche
d’âge (1 si elle a entre 18 et 30 ans, 2 entre 31 et 45 ans, 3 entre 46 et 65 ans) ; la troisième
nous renseigne sur son ancienneté dans le métier (on lit un nombre entre 1 et 6, selon qu’elle
Eléments de statistique mathématique
exerce depuis moins de 5 ans, entre 6 et 10 ans, etc.) ; enfin, la quatrième colonne donne
son salaire horaire. Au final, ce que l’on appelle la table de correspondance est la suivante :
Nom de la variable Description Significations Valeurs
position Type d’institution Hôpital 0
Cabinet 1
agerange Age Entre 18 et 30 ans 1
Entre 31 et 45 ans 2
Entre 46 et 65 ans 3
yrsscale Ancienneté dans le métier Inférieure à 5 ans 1
Entre 6 et 10 ans 2
Entre 11 et 15 ans 3
Entre 16 et 20 ans 4
Entre 21 et 35 ans 5
Plus de 36 ans 6
hourwage Salaire horaire
Remarque 2.1.Il n’y a pas de variable pour décrire le sexe ! On semble donc n’avoir
interrogé que des femmes. Et les infirmiers, alors ?
On peut noter les données de la ligne ipar (pi, ai, yi, hi). Par exemple, p5=0,a5=1,
y5=3,h5=21.56. Le fichier comporte 3 000 lignes, mais on voit que 89 cases de salaires
ne sont pas renseignées. (Cela peut être causé par la difficulté à lire des renseignements
récoltés sur papier ou par des refus de réponse à l’enquête.) Il reste donc 2 911 quadruplets
(pi, ai, yi, hi)totalement exploitables.
La minute SPPS 2.1.Pour compter les valeurs manquantes, on utilise Analyze /
Missing Value Analysis.
On appelle variable chacun des éléments de ce quadruplets et on va commencer par
indiquer le type et l’étendue de chacune des variables. Le salaire est une variable dite
quantitative, parce qu’elle mesure quelque chose (en l’occurence, le salaire horaire). Ici, il
est difficile de dire si cette variable est ici discrète ou continue : on saut de centime en
centime, la mesure est donc de facto discrète, mais au vu du grand nombre de valeurs
possibles et de la finesse de la grille, c’est presque une mesure continue ! Son étendue
(i.e., l’ensemble des valeurs possibles) est, disons l’intervalle [4, +[(où 4 serait le sa-
laire horaire minimum garanti, par exemple, s’il existe). D’autres exemples de variables
quantitatives seraient l’âge (quand il n’est pas codé en catégories comme ici), le nombre
d’enfants au foyer, etc.
Les trois autres variables sont, elles, qualitatives : elles indiquent une catégorie. Les
deuxième et troisième variables sont qualitatives ordinales : elles font référence à des
catégories que l’on peut classer entre elles. Leurs étendues respectives sont {1, 2, 3}et
{1, 2, 3, 4, 5, 6}. La première variable, celle qui indique le type du lieu de travail, est
nominale : on a deux catégories, mais sur lesquelles on n’a pas d’ordre évident (est-il
14 Gilles Stoltz
Eléments de statistique mathématique
mieux de travailler en cabinet ou à l’hôpital ?). Pour ces trois variables, le lien entre la
valeur de la variable et la valeur de la variable (lieu d’exercice, âge, temps d’expérience)
est réalisé par ce que l’on a appelé ci-dessus une table de correspondance.
La minute SPPS 2.2.On peut afficher ces tables de correspondance en se rendant
sur l’onglet Variable View.
D’autres exemples de variables qualitatives ordinales seraient la position dans une fra-
trie ou le rang d’entrée dans une école de commerce, de même que toute variable catégo-
risant une variable quantitative sous-jacente. Quant aux variables qualitatives nominales,
on peut penser à des variables décrivant la marque du véhicule que l’on conduit, le lycée
dans lequel on a fait sa prépa, etc.
2. Modélisation stochastique
2.1. Sur l’exemple des infirmières. Traçons un histogramme des salaires horaires,
l’histogramme des valeurs observées h1, . . . , h2911, de même que la densité de la loi nor-
male ayant pour moyenne et variance les moyenne et variance empiriques des valeurs
observées.
La minute SPPS 2.3.Il suffit de cliquer sur Graphs / Legacy Dialogs / Histogram
(et de cliquer la case demandant si l’on veut que la courbe de la densité gaussienne soit
tracée).
L’ajustement de la répartition des valeurs observées à une loi normale semble tout
à fait raisonnable ! (On verra plus tard comment quantifier la qualité de cet ajustement,
dans le chapitre sur les tests.) Alors, le salaire serait-il aléatoire ? D’où vient l’aléa observé
(et pourquoi est-il gaussien) ? Cela revient à expliquer pourquoi on peut modéliser les
valeurs observées h1, . . . , h2911 comme les réalisations d’un échantillon H1, . . . , H2911 de
variables aléatoires indépendantes et identiquement distribuées selon une loi normale, de
paramètres (moyenne et variance) cependant inconnus – et à propos desquels les méthodes
statistiques pourront dire des choses, bien entendu, c’est l’objet de ce cours !
Remarque 2.2.On rappelle que lorsque l’on passe des valeurs observées aux obser-
vations (variables aléatoires), on passe des symboles en minuscules h1, . . . , h2911 à ceux
en majuscules, H1, . . . , H2911.
Le caractère d’observations indépendantes et identiquement distribuées provient de la
méthode employée pour récolter les données. Si l’on a interrogé des infirmières dans de
nombreux lieux et services différents, toutes choisies au hasard dans des lieux eux-mêmes
choisis au hasard, tout ira bien. Si l’on ne s’est contenté que d’un ou deux hôpitaux, alors
l’échantillon risque de n’être représentatif que de ces hôpitaux, et pas de l’ensemble de ceux
du pays. Il faut donc prendre suffisamment d’infirmières, suffisamment bien réparties dans
le pays, pour avoir des données identiquement distribuées selon la loi d’intérêt (le salaire
horaire moyen des infirmières américaines en l’occurrence). L’indépendance provient, d’une
part, du fait qu’on les interroge chacune à son tour (sinon, en grand groupe, les dires des
uns influencent ceux des autres) et d’autre part, du fait qu’on n’en prend pas trop dans le
même endroit (en un même lieu, il y a des échelles de salaire locales ; ou alors la promotion
de l’une, donc le meilleur salaire de l’une, empêche la progression des autres, etc.).
Enfin, que la loi des salaires soit normale procède du théorème de la limite centrale. Le
salaire, à profession donnée, dépend de l’histoire personnelle de chacun, de sa formation
Gilles Stoltz 15
Eléments de statistique mathématique
initiale, des relations qu’il a ou n’a pas, de ses talents de négociateur lors de son embauche,
etc. Or une telle somme de petits phénomènes aléatoires conduit à une loi normale, c’est
ce que dit le théorème de la limite centrale.
2.2. Justifier le caractère i.i.d. selon la loi d’intérêt. Avant même de parler de
la loi sous-jacente, il faut montrer que cette loi est commune à toutes les observations
et donc, justifier le caractère identiquement distribué des observations. Par ailleurs, les
méthodes que nous verrons dans ce cours requièrent généralement l’indépendance entre
les observations. La première étape de toute modélisation est donc de prouver ce caractère
i.i.d. des données (idendépendantes et identiquement distribuées). Il n’y a évidemment
pas de recette générale, tout est dans la collecte des données. Un peu de bon sens suffit
à justifier le caractère i.i.d., on ne fait pas encore appel à votre sens mathématique pour
l’instant.
Exemple 2.1 (Les sondages téléphoniques).On interroge 1 000 personnes au hasard au
téléphone quant à la notoriété d’un produit, en tirant des numéros à 10 chiffres au hasard
dans l’annuaire et en les composant automatiquement. Alors, les observations pourront
bien être modélisées par des variables aléatoires indépendantes et identiquement distri-
buées : c’est comme tirer des boules dans une grande urne. La probabilité de tirer telle
couleur dépend de la proportion des boules de cette couleur dans l’urne. Si on tire peu
de boules, c’est comme les tirer avec remise, ce qui fait qu’on part chaque fois du même
problème. Le seul point d’attention serait ici la commune distribution : c’est plutôt la
notoriété moyenne de ceux qui ont une ligne de téléphone fixe que l’on essaie d’évaluer
ainsi. Pour mémoire, une bonne partie des jeunes de 18 à 30 ans ne dispose que de té-
léphones portables, et pas de lignes fixes ! On ne peut donc les interroger par sondage...
et cela commence à devenir un véritable souci pour nos amis sondeurs, qui n’ont plus de
moyens naturels (et aléatoires) de contacter cette population. Un annuaire des téléphones
portables leur serait d’un grand secours !
Exemple 2.2 (Les enquêtes de rue).Si l’on interroge des gens dans un supermarché,
alors d’une part, les observations risquent d’être moins indépendantes (les clients qui
se connaissent peuvent se passer le mot), et surtout, risquent d’être distribuées selon une
distribution qui dépend fortement du jour et de l’heure. Le jeudi soir, surtout aux Galeries
Lafayette, c’est le soir des célibataires ; le lundi soir, celui des gens aisés partis en week-end
à la campagne et qui font les courses à leur retour, ou des jeunes qui ont fait la fête tout
samedi et tout dimanche ; le samedi, surtout avec la nouvelle semaine de quatre jours, c’est
le moment des familles... Pour harmoniser tout cela, il faut venir souvent et n’interroger
qu’un nombre de clients raisonnables (pendant quinze minutes toutes les quatre heures
par exemple ?).
C’est, d’ailleurs, la même chose pour les sondages téléphoniques : si l’on appelait les
gens la journée, on ne tomberait que sur les retraités et les chômeurs. C’est bien pour ça
que les sondeurs visent les alentours de 20h...
Remarque 2.3.Tous les détails sur le bon recueil des données (qui interroger, com-
ment rédiger le questionnaire, etc.) vous seront donnés en cours de marketing. Nous nous
efforcerons de justifier le caractère i.i.d. des observations en expliquant dans chaque cas
comment ce recueil a été bien fait, et que tel ou tel écueil a été évité.
16 Gilles Stoltz
Eléments de statistique mathématique
3. Les lois classiques et le cas général
On décrit ici les distributions possibles pour la loi commune d’observations i.i.d., dans
certains cas particuliers où il est facile d’en préciser la forme. On verra également que faire
et que dire dans les cas qui ne ressemblent pas à ceux dont on commence par dresser la
liste dans cette section.
Les modèles établis ci-dessous sont de la forme X1, . . . , Xnsont i.i.d. selon une loi
de paramètre θ Θ. Le vrai paramètre θ0est inconnu, on sait simplement que c’est
un élément de Θ. Les techniques des chapitres suivants permettront d’estimer θ0; mais
dans la description du modèle, on se doit de dire l’ensemble des valeurs que le paramètre
pourrait prendre.
Définition 2.1 (Modèle statistique).Un modèle statistique consiste à dresser la
liste des observations, à justifier, le cas échéant, leur caractère i.i.d., et à indiquer
alors la famille des lois possibles pour la loi commune, généralement en précisant la
forme de la loi commune et en indiquant l’ensemble des paramètres possibles Θ.
3.1. La loi de Bernoulli. Elle modélise le comportement d’un quantité qui ne peut
prendre que deux valeurs : homme ou femme, oui ou non, etc.
Loi de Bernoulli (p)
Etendue {0, 1}
Paramètre p Θ = [0, 1]
Nom Fréquence p
Densité {X=1}=pet {X=0}=1p
Exemple 2.3 (Une histoire vraie, celle du Chevalier de Méré !).Il était un grand
joueur. Il lui avait semblé remarquer qu’« il était avantageux de parier que sur 24 lancers
de 2 dés, on aura au moins un double 6. » On note le résultat d’une instance de l’expérience
par xj{0, 1}selon que l’affirmation s’est réalisée ou non. Et on répète ces 24 lancers pour
j=1, . . . , N, où Nest grand.
Le modèle statistique est le suivant. On modélise les valeurs observées par un N-
échantillon (i.e., des variables aléatoires i.i.d.) X1, . . . , XN, de loi commune une loi de
Bernoulli, et L’ensemble des paramètres est donné par Θ= [0, 1]. Dit autrement, l’ensemble
des lois possibles est l’ensemble des lois (p), avec p[0, 1].
On note p0le vrai paramètre. L’affirmation du chevalier est vraie si p0> 1/2. Si le
chevalier avait été un bon statisticien, il aurait répété l’expérience pour avoir des infor-
mations sur p0, en prenant Nde l’ordre de 10 000 ; il aurait ainsi vu que p0< 1/2. Si le
chevalier avait été un bon probabiliste, il aurait effectué un calcul direct et trouvé
p0=135
36
24
0.49 < 1/2 .
3.2. La loi normale. Elle est la loi d’observations quantitatives qui résultent de la
combinaison de nombreux effets ; c’est le théorème de la limite centrale qui explique pour-
quoi elle est si fréquente.
Gilles Stoltz 17
1 / 13 100%