Modélisation de données

publicité
CHAPITRE 2
Modélisation de données
Objectif : Ce chapitre explique comment, à partir de données recueillies par exemple
lors d’enquêtes (ou à partir d’un énoncé d’exercice...), définir un modèle statistique permettant une analyse mathématique ultérieure. On verra notamment que cela revient à
postuler la forme de la loi sous-jacente aux observations et à la connaître à un ou deux
paramètres inconnus près. L’étude statistique ultérieure portera justement sur l’inférence
de ces paramètres.
1. Les différents types de données, leurs étendues
On explique tout d’abord comment lire un tableau de données, et comment commencer
la formalisation mathématique. On part pour cela d’un exemple.
Dans le fichier de données hourlywagedata.sav (fourni par défaut avec SPSS, voir le
dossier Samples), on a regroupé les salaires horaires d’infirmières (d’un pays à déterminer).
Les données se présentent comme suit :
position
agerange
yrsscale
hourwage
1
1
2
13.74
0
1
2
16.44
0
1
3
21.39
1
1
1
11.38
0
1
3
21.56
0
1
1
18.12
1
1
3
13.14
0
1
1
24.73
0
1
2
15.70
1
1
1
18.94
0
1
1
25.45
0
1
1
19.71
...
...
...
...
Chaque ligne correspond à une infirmière différente. C’est la convention dans les fichiers
de données : on utilise une ligne par groupe de valeurs observées. La première colonne indique si l’infirmière travaille à l’hôpital (0) ou en cabinet (1) ; la deuxième donne sa tranche
d’âge (1 si elle a entre 18 et 30 ans, 2 entre 31 et 45 ans, 3 entre 46 et 65 ans) ; la troisième
nous renseigne sur son ancienneté dans le métier (on lit un nombre entre 1 et 6, selon qu’elle
Eléments de statistique mathématique
exerce depuis moins de 5 ans, entre 6 et 10 ans, etc.) ; enfin, la quatrième colonne donne
son salaire horaire. Au final, ce que l’on appelle la table de correspondance est la suivante :
Nom de la variable
Description
Significations
Valeurs
position
Type d’institution
Hôpital
0
Cabinet
1
Entre 18 et 30 ans
1
Entre 31 et 45 ans
2
Entre 46 et 65 ans
3
Inférieure à 5 ans
1
Entre 6 et 10 ans
2
Entre 11 et 15 ans
3
Entre 16 et 20 ans
4
Entre 21 et 35 ans
5
Plus de 36 ans
6
agerange
yrsscale
hourwage
Age
Ancienneté dans le métier
Salaire horaire
Remarque 2.1. Il n’y a pas de variable pour décrire le sexe ! On semble donc n’avoir
interrogé que des femmes. Et les infirmiers, alors ?
On peut noter les données de la ligne i par (pi , ai , yi , hi ). Par exemple, p5 = 0, a5 = 1,
y5 = 3, h5 = 21.56. Le fichier comporte 3 000 lignes, mais on voit que 89 cases de salaires
ne sont pas renseignées. (Cela peut être causé par la difficulté à lire des renseignements
récoltés sur papier ou par des refus de réponse à l’enquête.) Il reste donc 2 911 quadruplets
(pi , ai , yi , hi ) totalement exploitables.
La minute SPPS 2.1. Pour compter les valeurs manquantes, on utilise Analyze /
Missing Value Analysis.
On appelle variable chacun des éléments de ce quadruplets et on va commencer par
indiquer le type et l’étendue de chacune des variables. Le salaire est une variable dite
quantitative, parce qu’elle mesure quelque chose (en l’occurence, le salaire horaire). Ici, il
est difficile de dire si cette variable est ici discrète ou continue : on saut de centime en
centime, la mesure est donc de facto discrète, mais au vu du grand nombre de valeurs
possibles et de la finesse de la grille, c’est presque une mesure continue ! Son étendue
(i.e., l’ensemble des valeurs possibles) est, disons l’intervalle [4, +∞[ (où 4 serait le salaire horaire minimum garanti, par exemple, s’il existe). D’autres exemples de variables
quantitatives seraient l’âge (quand il n’est pas codé en catégories comme ici), le nombre
d’enfants au foyer, etc.
Les trois autres variables sont, elles, qualitatives : elles indiquent une catégorie. Les
deuxième et troisième variables sont qualitatives ordinales : elles font référence à des
catégories que l’on peut classer entre elles. Leurs étendues respectives sont {1, 2, 3} et
{1, 2, 3, 4, 5, 6}. La première variable, celle qui indique le type du lieu de travail, est
nominale : on a deux catégories, mais sur lesquelles on n’a pas d’ordre évident (est-il
14
Gilles Stoltz
Eléments de statistique mathématique
mieux de travailler en cabinet ou à l’hôpital ?). Pour ces trois variables, le lien entre la
valeur de la variable et la valeur de la variable (lieu d’exercice, âge, temps d’expérience)
est réalisé par ce que l’on a appelé ci-dessus une table de correspondance.
La minute SPPS 2.2. On peut afficher ces tables de correspondance en se rendant
sur l’onglet Variable View.
D’autres exemples de variables qualitatives ordinales seraient la position dans une fratrie ou le rang d’entrée dans une école de commerce, de même que toute variable catégorisant une variable quantitative sous-jacente. Quant aux variables qualitatives nominales,
on peut penser à des variables décrivant la marque du véhicule que l’on conduit, le lycée
dans lequel on a fait sa prépa, etc.
2. Modélisation stochastique
2.1. Sur l’exemple des infirmières. Traçons un histogramme des salaires horaires,
l’histogramme des valeurs observées h1 , . . . , h2911 , de même que la densité de la loi normale ayant pour moyenne et variance les moyenne et variance empiriques des valeurs
observées.
La minute SPPS 2.3. Il suffit de cliquer sur Graphs / Legacy Dialogs / Histogram
(et de cliquer la case demandant si l’on veut que la courbe de la densité gaussienne soit
tracée).
L’ajustement de la répartition des valeurs observées à une loi normale semble tout
à fait raisonnable ! (On verra plus tard comment quantifier la qualité de cet ajustement,
dans le chapitre sur les tests.) Alors, le salaire serait-il aléatoire ? D’où vient l’aléa observé
(et pourquoi est-il gaussien) ? Cela revient à expliquer pourquoi on peut modéliser les
valeurs observées h1 , . . . , h2911 comme les réalisations d’un échantillon H1 , . . . , H2911 de
variables aléatoires indépendantes et identiquement distribuées selon une loi normale, de
paramètres (moyenne et variance) cependant inconnus – et à propos desquels les méthodes
statistiques pourront dire des choses, bien entendu, c’est l’objet de ce cours !
Remarque 2.2. On rappelle que lorsque l’on passe des valeurs observées aux observations (variables aléatoires), on passe des symboles en minuscules h1 , . . . , h2911 à ceux
en majuscules, H1 , . . . , H2911 .
Le caractère d’observations indépendantes et identiquement distribuées provient de la
méthode employée pour récolter les données. Si l’on a interrogé des infirmières dans de
nombreux lieux et services différents, toutes choisies au hasard dans des lieux eux-mêmes
choisis au hasard, tout ira bien. Si l’on ne s’est contenté que d’un ou deux hôpitaux, alors
l’échantillon risque de n’être représentatif que de ces hôpitaux, et pas de l’ensemble de ceux
du pays. Il faut donc prendre suffisamment d’infirmières, suffisamment bien réparties dans
le pays, pour avoir des données identiquement distribuées selon la loi d’intérêt (le salaire
horaire moyen des infirmières américaines en l’occurrence). L’indépendance provient, d’une
part, du fait qu’on les interroge chacune à son tour (sinon, en grand groupe, les dires des
uns influencent ceux des autres) et d’autre part, du fait qu’on n’en prend pas trop dans le
même endroit (en un même lieu, il y a des échelles de salaire locales ; ou alors la promotion
de l’une, donc le meilleur salaire de l’une, empêche la progression des autres, etc.).
Enfin, que la loi des salaires soit normale procède du théorème de la limite centrale. Le
salaire, à profession donnée, dépend de l’histoire personnelle de chacun, de sa formation
Gilles Stoltz
15
Eléments de statistique mathématique
initiale, des relations qu’il a ou n’a pas, de ses talents de négociateur lors de son embauche,
etc. Or une telle somme de petits phénomènes aléatoires conduit à une loi normale, c’est
ce que dit le théorème de la limite centrale.
2.2. Justifier le caractère i.i.d. selon la loi d’intérêt. Avant même de parler de
la loi sous-jacente, il faut montrer que cette loi est commune à toutes les observations
et donc, justifier le caractère identiquement distribué des observations. Par ailleurs, les
méthodes que nous verrons dans ce cours requièrent généralement l’indépendance entre
les observations. La première étape de toute modélisation est donc de prouver ce caractère
i.i.d. des données (idendépendantes et identiquement distribuées). Il n’y a évidemment
pas de recette générale, tout est dans la collecte des données. Un peu de bon sens suffit
à justifier le caractère i.i.d., on ne fait pas encore appel à votre sens mathématique pour
l’instant.
Exemple 2.1 (Les sondages téléphoniques). On interroge 1 000 personnes au hasard au
téléphone quant à la notoriété d’un produit, en tirant des numéros à 10 chiffres au hasard
dans l’annuaire et en les composant automatiquement. Alors, les observations pourront
bien être modélisées par des variables aléatoires indépendantes et identiquement distribuées : c’est comme tirer des boules dans une grande urne. La probabilité de tirer telle
couleur dépend de la proportion des boules de cette couleur dans l’urne. Si on tire peu
de boules, c’est comme les tirer avec remise, ce qui fait qu’on part chaque fois du même
problème. Le seul point d’attention serait ici la commune distribution : c’est plutôt la
notoriété moyenne de ceux qui ont une ligne de téléphone fixe que l’on essaie d’évaluer
ainsi. Pour mémoire, une bonne partie des jeunes de 18 à 30 ans ne dispose que de téléphones portables, et pas de lignes fixes ! On ne peut donc les interroger par sondage...
et cela commence à devenir un véritable souci pour nos amis sondeurs, qui n’ont plus de
moyens naturels (et aléatoires) de contacter cette population. Un annuaire des téléphones
portables leur serait d’un grand secours !
Exemple 2.2 (Les enquêtes de rue). Si l’on interroge des gens dans un supermarché,
alors d’une part, les observations risquent d’être moins indépendantes (les clients qui
se connaissent peuvent se passer le mot), et surtout, risquent d’être distribuées selon une
distribution qui dépend fortement du jour et de l’heure. Le jeudi soir, surtout aux Galeries
Lafayette, c’est le soir des célibataires ; le lundi soir, celui des gens aisés partis en week-end
à la campagne et qui font les courses à leur retour, ou des jeunes qui ont fait la fête tout
samedi et tout dimanche ; le samedi, surtout avec la nouvelle semaine de quatre jours, c’est
le moment des familles... Pour harmoniser tout cela, il faut venir souvent et n’interroger
qu’un nombre de clients raisonnables (pendant quinze minutes toutes les quatre heures
par exemple ?).
C’est, d’ailleurs, la même chose pour les sondages téléphoniques : si l’on appelait les
gens la journée, on ne tomberait que sur les retraités et les chômeurs. C’est bien pour ça
que les sondeurs visent les alentours de 20h...
Remarque 2.3. Tous les détails sur le bon recueil des données (qui interroger, comment rédiger le questionnaire, etc.) vous seront donnés en cours de marketing. Nous nous
efforcerons de justifier le caractère i.i.d. des observations en expliquant dans chaque cas
comment ce recueil a été bien fait, et que tel ou tel écueil a été évité.
16
Gilles Stoltz
Eléments de statistique mathématique
3. Les lois classiques et le cas général
On décrit ici les distributions possibles pour la loi commune d’observations i.i.d., dans
certains cas particuliers où il est facile d’en préciser la forme. On verra également que faire
et que dire dans les cas qui ne ressemblent pas à ceux dont on commence par dresser la
liste dans cette section.
Les modèles établis ci-dessous sont de la forme X1 , . . . , Xn sont i.i.d. selon une loi
de paramètre θ 2 Θ. Le vrai paramètre θ0 est inconnu, on sait simplement que c’est
un élément de Θ. Les techniques des chapitres suivants permettront d’estimer θ0 ; mais
dans la description du modèle, on se doit de dire l’ensemble des valeurs que le paramètre
pourrait prendre.
Définition 2.1 (Modèle statistique). Un modèle statistique consiste à dresser la
liste des observations, à justifier, le cas échéant, leur caractère i.i.d., et à indiquer
alors la famille des lois possibles pour la loi commune, généralement en précisant la
forme de la loi commune et en indiquant l’ensemble des paramètres possibles Θ.
3.1. La loi de Bernoulli. Elle modélise le comportement d’un quantité qui ne peut
prendre que deux valeurs : homme ou femme, oui ou non, etc.
Loi de Bernoulli
Etendue
B(p)
{0, 1}
Paramètre
p 2 Θ = [0, 1]
Nom
Fréquence p
Densité
P{X = 1} = p et P{X = 0} = 1 − p
Exemple 2.3 (Une histoire vraie, celle du Chevalier de Méré !). Il était un grand
joueur. Il lui avait semblé remarquer qu’« il était avantageux de parier que sur 24 lancers
de 2 dés, on aura au moins un double 6. » On note le résultat d’une instance de l’expérience
par xj 2 {0, 1} selon que l’affirmation s’est réalisée ou non. Et on répète ces 24 lancers pour
j = 1, . . . , N, où N est grand.
Le modèle statistique est le suivant. On modélise les valeurs observées par un Néchantillon (i.e., des variables aléatoires i.i.d.) X1 , . . . , XN , de loi commune une loi de
Bernoulli, et L’ensemble des paramètres est donné par Θ = [0, 1]. Dit autrement, l’ensemble
des lois possibles est l’ensemble des lois B (p), avec p 2 [0, 1].
On note p0 le vrai paramètre. L’affirmation du chevalier est vraie si p0 > 1/2. Si le
chevalier avait été un bon statisticien, il aurait répété l’expérience pour avoir des informations sur p0 , en prenant N de l’ordre de 10 000 ; il aurait ainsi vu que p0 < 1/2. Si le
chevalier avait été un bon probabiliste, il aurait effectué un calcul direct et trouvé
p0 = 1 −
35
36
24
0.49 < 1/2 .
3.2. La loi normale. Elle est la loi d’observations quantitatives qui résultent de la
combinaison de nombreux effets ; c’est le théorème de la limite centrale qui explique pourquoi elle est si fréquente.
Gilles Stoltz
17
Eléments de statistique mathématique
Loi normale
Etendue
Paramètres
Noms
Densité
N (µ, σ)
R
(µ, σ) 2 Θ = R R+
Moyenne µ et écart-type σ
1 x−µ 2
1
f(x) = p e− 2 ( σ ) pour x 2 R
σ 2π
On peut citer comme exemples d’occurrences :
– le salaire à l’intérieur d’une profession, comme on l’a vu plus haut ;
– les erreurs de mesures physico-chimiques ;
– la pluviométrie annuelle, qui est la somme de 365 pluviométries journalières, et qui
dépend des conditions climatiques générales, qui elles-mêmes sont aléatoires comme
combinaisons de nombreux facteurs ;
– la taille d’une population, puisque la taille dépend des gènes, mais aussi de l’environnement, et notamment, de l’alimentation ;
– le rendement d’un champ, qui dépend de l’exposition de la parcelle, de la pluviométrie, de la qualité de la terre.
Remarque 2.4 (Tests de normalité). Pour vous rassurer tout à fait, sachez qu’il existe
des tests statistiques pour déterminer si des observations i.i.d. peuvent effectivement être
modélisées par une loi normale. Nous verrons ainsi le test de Kolmogorov-Smirnov (à
adapter pour tenir compte d’une estimation préalable) et le test de Shapiro-Wilk.
3.3. La loi log-normale. Par définition, Y suit une loi log-normale si on peut l’écrire
comme eX , où X suit une loi normale. Le tableau de paramètres, etc., de la loi log-normale
se déduit donc de celui de la loi normale.
La loi log-normale apparaît dans les problèmes où il y a un facteur d’échelle, et notamment dans la distribution des salaires dans un échantillon inter-professionnel. (On prend
donc des salariés de toutes professions, cette fois !.) Les mieux payés sont vraiment (exponentiellement) mieux payés que les employés de base. Cela découle, là encore, du théorème
de la limite centrale : on négocie souvent les augmentations en facteurs multiplicatifs, de
la forme 1 + a ea , où a est de l’ordre de quelques pourcents (sauf changement de poste) ;
et à chaque année t correspond une telle augmentation at , aléatoire, et assez indépendante
des précédentes augmentations. Des versions généralisées du théorème de la limite centrale
peuvent alors être appliquées.
La minute SPPS 2.4. Chargez le fichier Salaires.sav (disponible sur le site web du
cours) et étudiez-le sous SPSS avec Analyse / Descriptive Statistics / Frequencies.
Calculez la moyenne et la médiane, le minimum et le maximum, ainsi que quelques quantiles (les déciles à 80 % et 90 % par exemple), faites afficher un histogramme des données.
Vous devez obtenir quelque chose de similaire à la figure 1. Que remarquez-vous ?
Ce fichier de données (simulées) est assez typique des salaires français : la moyenne des
salaires mensuels nets est à 1 900 euros, mais la médiane est à 1 500 euros. Cela est causé
par les quelques salaires élevés qui tirent la moyenne vers le haut, tandis que la médiane
est tirée vers le bas par les salaires minimum garantis légalement.
18
Gilles Stoltz
Eléments de statistique mathématique
Fig. 1. Statistiques descriptives des données simulées de salaires mensuels
nets (en milliers d’euros)
En revanche, les déciles (à 80 % et à 90 %) sont beaucoup trop élevés sur ces données
simulées. Ainsi, d’après l’INSEE, les 10 % de salariés les mieux payés gagnaient en 2003 plus
36 349 euros nets annuels, soit plus de 3 000 euros nets par mois environ. Le décile à 90 %
est donc autour de 3 350 euros nets actuels environ, si l’on tient compte de l’évolution
moyenne des salaires depuis ce moment (sans doute plus : les écarts ont tendance à se
creuser). Pour information, le décile à 80 % en 2003 (le seuil tel que seuls 20 % des salariés
gagnent plus) pourra vous surprendre : il est à 27 500 euros nets annuels, soit 2 300 euros
nets mensuels.
Remarque 2.5 (Médiane). On le reverra, mais la médiane est le nombre tel que la moitié des observations au moins lui soit supérieure, et une moitié au moins lui soit inférieure.
(C’est donc également le décile à 50 %.) En pratique, il suffit de classer les observations,
et lorsque l’on en a un nombre pair, de prendre la moyenne des deux observations les plus
centrales, et en cas de nombre impair, prendre simplement l’observation centrale.
L’avantage de la médiance par rapport à la moyenne, c’est qu’elle est moins sensible
aux observations extrêmes (celles beaucoup plus grandes ou beaucoup plus petites que les
autres observations). Elle reflète donc davantage le ressenti de la majorité des interrogés.
Lorsque l’on parle du pouvoir d’achat, il vaut donc mieux raisonner en termes de médiane
que de moyenne, messieurs les hommes politiques !
Remarque 2.6 (Test de log-normalité). Des tests de log-normalité se déduisent bien
sûr des tests de normalité. Partant d’observations x1 , x2 , . . ., il suffit de voir si les transformées ln x1 , ln x2 , . . . sont normales.
Gilles Stoltz
19
Eléments de statistique mathématique
3.4. La loi de Poisson. Elle modélise les succès issus d’un grand nombre d’essais
individuels, comme, par exemple, le nombre de contrats (fenêtres, opérations de défiscalisation) vendus par un télévendeur ou le nombre de réponses à un spam. Dans les deux cas,
les différentes réponses aux requêtes étant indépendantes les unes des autres, et supposant
un tirage au hasard des n personnes sollicitées, le nombre de succès est a priori donné
par une loi binômiale B in(n, p) de paramètres n et p, où p est le taux moyen de réponses
qu’obtient un vendeur. Or, on sait qu’on a la convergence en loi
Bin(n, pn) P (λ)
lorsque npn → λ ,
ce qui justifie que l’on puisse approximer la loi de ce nombre de succès par une loi de Poisson. Cela forme l’approximation dite binômiale-Poisson, ou « loi des petits nombres. »
(En pratique, on le fait quand n > 30 et 1 6 npn 6 10.)
Loi de Poisson
Etendue
P (λ)
N
Paramètres
λ 2 Θ = R+
Noms
Moyenne λ (et variance σ2 = λ)
Densité
P{X = k} = e−λ λk /k! pour k 2 N
Exemple 2.4 (Comparaison de performances de vendeurs). Un service d’évaluation
des ressources humaines veut comparer deux télévendeurs d’opérations de défiscalisation
(ceux qui vous demandent, juste après vous avoir salué, si vous payez plus ou moins de 3 000
euros d’impôts). Sur un mois, on note chaque jour leurs performances, et on suppose qu’on
sait que les performances sont indépendantes des jours (pas meilleures le vendredi que le
lundi par exemple). On a des valeurs observées x1 , . . . , x21 pour le premier et y1 , . . . , y19
pour le second (qui a pris deux jours de congés). On peut modéliser les premiers résultats
comme étant la réalisation d’un 21-échantillon X1 , . . . , X21 distribué selon une certaine
loi de Poisson, et faire de même pour la seconde série, Y1 , . . . , Y19 . Le but du traitement
statistique sera alors de voir si les paramètres inconnus sous-jacents λx et λy sont différents
ou non. Si c’est le cas, on parle de paramètres statistiquement différents.
Exercice 2.1. Expliquez pourquoi chacun de nous reçoit un nombre poissonien de
lettres ou d’appels téléphoniques chaque jour.
Remarque 2.7 (Test d’ajustement à une loi de Poisson). Ici encore, on peut tester
l’ajustement à une loi de Poisson, en recourant au test du χ2 , qui sera étudié dans un
chapitre à part. En pratique, on soupçonne avoir affaire à une loi de Poisson lorsque la
moyenne des valeurs observées est proche de leur variance.
3.5. La loi exponentielle. Elle est beaucoup utilisée dans les études médicales ou
dans les études de fiabilité, pour modéliser les durées de survie (à une affection grave,
comme un cancer) ou celles avant la prochaine panne (prochain pneu crevé sur une voiture,
prochaine défaillance d’une machine sur une chaîne industrielle). Son intérêt réside dans
le fait qu’elle est dite sans mémoire : si X suit une loi exponentielle, alors pour tous temps
t1 , t2 > 0,
P X > t1 + t2 X > t1 = P{X > t2 } .
20
Gilles Stoltz
Eléments de statistique mathématique
Fig. 2. Distribution des notes au concours d’entrée à l’Ecole normale
supérieure, voie B/L, à la session 2007
Le taux de panne est constant : la survenue ou non d’une panne (ou d’un décès) à l’instant
présent ne dépend pas du nombre de pannes passées. Cette modélisation n’est donc pas
valable durant les phases de rôdage (mise en place d’un nouveau protocole thérapeutique)
ou d’usure (une voiture tend, après un certain nombre d’années et de kilomètres, à voir
ses différents éléments mécaniques lâcher les uns après les autres).
Des observations suivant la loi exponentielle peuvent faire penser à la loi des séries,
à cause de ce phénomène d’absence de mémoire. On peut pendant un temps long n’avoir
aucune panne puis subitement, deux ou trois pannes coup sur coup.
Loi exponentielle E (λ)
Etendue
R
Paramètres
λ 2 Θ = R+
Noms
Moyenne 1/λ
Densité
f(x) = λe−λx pour x > 0 et f(x) = 0 pour x 6 0
Exemple 2.5 (Notes au concours B/L). Voici un exemple un peu original. Je suis
interrogateur depuis quelques années au concours B/L de l’Ecole normale supérieure. Les
sujets de mathématiques sont progressifs et comportent de larges parties indépendantes,
de sorte que tout est fait pour qu’aucun étudiant ne soit bloqué et ne s’ennuie. Cependant,
à lire leurs copies, et au vu de la distribution des notes (voir figure 2), on a l’impression
que les étudiants composent jusqu’à un certain moment, où ils sont psychologiquement
bloqués par le nombre de questions qu’ils ont sautées précédemment et/ou le temps déjà
Gilles Stoltz
21
Eléments de statistique mathématique
écoulé depuis le début de l’épreuve. La note est plus ou moins proportionnelle à ce temps
de survie concentrée face au sujet, et on voit qu’elle dépend donc en partie d’un impact
psychologique.
La minute SPPS 2.5. Pour obtenir la figure 2, une fois l’histogramme tracé (voir
plus haut comment tracer un histogramme !), il suffit de double-cliquer sur lui pour ouvrir
le Chart editor. Il s’agit ensuite de sélectionner tt Elements / Show Distribution Curve
pour faire tracer la densité des lois usuelles.
Remarque 2.8 (Test d’ajustement à une loi exponentielle). Ici encore, on peut tester
l’ajustement à une loi exponentielle, en recourant à une version du test de KolmogorovSmirnov avec estimation préalable.
3.6. Il existe d’autres lois usuelles... On pourrait, pour chacune des lois usuelles,
binômiale, uniforme, géométrique, etc., décrire le contexte dans lequel elle apparaît naturellement, en donner un exemple concret, et rappeler sa forme. Soyez patients, elles
apparaîtront en leur temps. Concentrons-nous plutôt sur le cas où aucune loi classique ne
saute aux yeux !
3.7. ... Mais que faire lorsque l’on ne reconnaît aucune loi usuelle ? Lorsque
l’on ne dispose pas de représentation graphique des données, ou que cette dernière n’inspire
rien à notre esprit, que faire, une fois que l’on a prouvé que les observations étaient bien
i.i.d. ? Que peut-on dire de leur loi commune, quel est l’ensemble des lois possibles ?
Les modélisations précédentes se ramenaient toujours à la connaissance de la forme
de la loi, qui n’était alors inconnue qu’à un ou deux paramètres près. Dans le cas général, que l’on appelle non-paramétrique, la loi est indéterinée à une infinité (parfois non
dénombrable) de paramètres près. Toutes les lois sont possibles.
Parfois on en sait un peu plus, selon le problème – l’étendue de telle variable peut
par exemple être bornée. En particulier, la loi commune des observations admet alors un
moment d’ordre deux. Dans ce cas non-paramétrique, on verra qu’on ne s’intéressera généralement qu’à l’espérance µ de la loi inconnue, et, lorsqu’elle est définie, à sa variance σ2 .
En résumé, le modèle non-paramétrique n’est vu qu’au travers des deux paramètres
dérivés que sont l’espérance et la variance des lois possibles.
22
Gilles Stoltz
Eléments de statistique mathématique
4. Exercices de modélisation
4.1. Piochés dans l’examen 2007.
Exercice 2.2. Traitez la question 1 de l’exercice 1 (l’exercice sur une entreprise de
vente par correspondance).
Exercice 2.3. Traitez les questions 2 et 3 de l’exercice 2 (l’exercice sur les somnifères).
4.2. La Française des Jeux triche-t-elle ? Ou le jour où j’ai failli devenir
célèbre... Les questions suivantes sont issues de discussions que j’ai eues, début février
2006, avec des journalistes de l’émission “Capital” de m6 ; un article paru dans 20 Minutes
(édition du 3 février 2006), que je reproduis à la fin du polycopié, vous donnera une
version plus romancée des faits. Traiter ce problème et comprendre ensemble ce que j’ai
répondu au journaliste sera le fil d’Ariane des sept ou huit premiers cours ; nous reviendrons
régulièrement dessus pour avancer notre réflexion, au fur et à mesure de la progression de
nos connaissances statistiques.
4.2.1. Le cadre. Il s’agissait du combat d’un ingénieur à la retraite contre la Française
des Jeux, à qui il reprochait de répartir les lots des jeux de grattage de telle sorte que le
principe d’égalité des chances entre les joueurs, inscrit au règlement des jeux, soit brisé.
Plus précisément, il dénonçait certains biais systématiques et facilement exploitables par
rapport à une répartition totalement au hasard des lots. D’après la presse, si ces biais
existent, c’est pour échapper au syndrome de Bergame. Les Italiens, assez portés sur la
loterie, avaient assisté, coup sur coup, à l’obtention à Bergame de deux gros lots pour
un jeu à gratter. Aussitôt, personne ne voulait plus acheter de tickets autre part qu’à la
ville de la chance. Pour éviter ceci et répartir uniformément les gains sur tout le territoire
français, la Française des Jeux exploite un décret publié discrètement en 2002 ; ce dernier
définit la notion de “hasard prépondérant”.
Objectif : On s’emploiera à déterminer si la Française des Jeux a modifié (légèrement
ou lourdement, à vous de le quantifier) le hasard dans les jeux de grattage.
4.2.2. Exposé des faits. Plus précisément, voici les chiffres qui m’ont été transmis
par les journalistes de m6. Une tranche d’émission du jeu Vegas consiste en la confection
de 500 000 tickets, répartis par carnets de 50. Par contrat publié au Journal Officiel, la
Française des Jeux annonce le nombre et la répartition des sommes gagnantes parmi la
tranche. (Le tableau 1 indique cette répartition en février 2006, lorsque l’affaire a éclaté.)
Il y a par exemple un unique gros lot de 40 000 , deux lots de 20 000 , etc. Au total,
7 697 sommes significatives, de plus de 20 , seront reversées, de même que 109 500 lots
de moindre importance, inférieurs à 10 .
Sur plusieurs années, mais souvent dans les mêmes lieux, un ingénieur à la retraite
a acheté des carnets entiers de tickets à gratter de Vegas (environ une centaine), et en a
étudié la répartition des gains. (Précisons que pour l’ensemble des jeux de grattage, deux
milliards de tickets sont produits chaque année en France. Une tranche d’émission pour
un jeu donné dure ainsi peu de temps.) Un ticket de Vegas coûtant 3 , le carnet revient
à 150 . L’observation est que 95 % du temps, le montant total des sommes de moindre
importance, appelées également misères ou bricoles, est 50 ; 5 % du temps, ce total est de
53 . Par ailleurs, et de manière indépendante, 2/3 du temps, le carnet comporte une seule
somme significative, tandis que 1/3 du temps il n’en comporte aucune ; en février 2006, il
prétendait n’avoir jamais trouvé de carnet contenant au moins deux sommes significatives.
Gilles Stoltz
23
Eléments de statistique mathématique
Valeur
40 000 €
20 000 €
10 000 €
1 000 €
500 €
200 €
100 €
50 €
20 €
10 €
6€
4€
3€
Nombre
Total
1
=
40 000 €
1
=
20 000 €
2
=
20 000 €
5
=
5 000 €
18
=
9 000 €
800
=
160 000 €
850
=
85 000 €
2 020
=
101 000 €
4 000
=
80 000 €
9 000
=
90 000 €
28 000
=
168 000 €
25 000
=
100 000 €
47 500
=
142 500 €
117 197
1 020 500 €
Tab. 1. Répartition des lots au moment où le scandale a éclaté (février 2006).
Sur ce dernier point, la Française des Jeux, qui admet poser quelques contraintes “techniques” sur la répartition des gains, affirme que l’échantillon étudié n’est pas significatif,
et que si elle se débrouille pour qu’il n’y ait pas trop de sommes significatives dans un
carnet, cela ne veut pas dire qu’il n’y en ait qu’un au maximum. Son directeur marketing
rappelle en particulier que, conformément aux textes qui régissent ses activités, le hasard
doit être prépondérant mais pas forcément exclusif.
4.2.3. L’espace d’opportunité. Mais certains joueurs se plaignent que ce hasard prépondérant est tellement loin d’une répartition aléatoire uniforme (qui correspondrait à
un “hasard pur”) qu’il peut exister des stratégies profitables pour joueurs informés. On
rappelle que l’observation des buralistes et de leurs proches, confirmée semble-t-il par les
expériences de l’ingénieur à la retraite, est la suivante : les tickets à gratter sont vendus par
carnets de 50, et dans un carnet de 50, il y a au plus un ticket gagnant une somme significative de 20 ou plus ; aucun des 49 autres tickets ne dépasse les 10 . L’effet pervers (ou
plus exactement, l’espace d’opportunité pour les joueurs informés que sont les buralistes
et les observateurs rigoureux), c’est qu’une fois que la somme significative est sortie dans
un carnet de 50, il vaut mieux passer à un nouveau carnet. Inversement, s’il reste x tickets
à vendre dans un carnet et que la somme significative n’est pas sortie, le buraliste a tout
intérêt à acheter lui-même ces x tickets (des buralistes prétendent dans la presse prendre
x = 3). Cette stratégie, pour être mise en œuvre efficacement, ne demande qu’à suivre les
résultats des grattages des clients – ce qui est facile pour les débitants tenant par ailleurs
un bar : leurs clients s’attablent au comptoir devant un verre et grattent sous leurs yeux.
En résumé, on semble contrevenir ainsi au principe même du hasard, qui est de placer
tous les joueurs sur un pied d’égalité. Cela dit, ... certains joueurs disent pouvoir gagner
24
Gilles Stoltz
Eléments de statistique mathématique
plus, mais n’est-ce pas seulement perdre moins ? Il existe sans doute des stratégies d’initiés,
mais sont-elles gagnantes ou simplement moins perdantes ?
4.2.4. Les questions ! Les journalistes, après cet exposé des faits, m’ont posé, en ces
termes, les questions suivantes :
– Cet échantillon de 100 carnets est-il suffisant pour infirmer avec une forte probabilité
la thèse de la répartition uniforme ? (Quelle probabilité cet événement avait-il de se
produire si la répartition était uniforme ?)
– Le fait que ces 100 carnets n’ont vraisemblablement pas tous été achetés dans une
même tranche d’émission (vu l’étalement dans le temps des achats) change-t-il de
manière significative le calcul ?
– Question légèrement différente : sur la base de ces 100 carnets contenant chacun au
plus un lot significatif, peut-on estimer la probabilité restante, que malgré tout, sur
d’autres carnets, au moins un deuxième gain significatif puisse être présent ?
4.2.5. Votre premier travail : la modélisation. Nous transcrirons ces questions en
langage statistique et y répondrons. Pour cela, il faut attendre un peu. Mais avant... il
faut modéliser le problème ! Et cela, vous pouvez le faire dès à présent.
Gilles Stoltz
25
Téléchargement