Estimation ponctuelle et par intervalles

publicité
Deuxième partie
Estimation ponctuelle et par intervalles
CHAPITRE 3
Estimation ponctuelle
Résumé : Des chapitres précédents, il faut essentiellement retenir que dans la plupart
des cas étudiés dans ce cours, on dispose de valeurs observées que l’on modélise par un
n-échantillon X1 , . . . , Xn , de loi commune une loi appartenant à un certain ensemble
Pθ , θ 2 Θ . La vraie loi Pθ0 est inconnue, mais dans les bons cas, on la connaît à un ou
deux paramètres près, que l’on note précisément θ0 .
Objectif : Dans ce chapitre, on explique comment estimer θ0 ou une fonction de Pθ0 ,
comme l’espérance µ = µ(θ0 ) ou la variance σ2 = σ(θ0 ) commune des observations de
l’échantillon. Attention, ce chapitre est plus théorique que tous les autres de ce cours,
mais il veut vous donner un bref aperçu du travail sur lequel se concentrent les chercheurs
en statistique (dont je fais partie).
1. Notions d’estimateur et d’estimée
1.1. De la théorie...
Définition 3.1 (Estimateur). Un estimateur est toute variable aléatoire construite
uniquement à partir des observations X1 , . . . , Xn . En particulier, il ne doit pas dépendre de quantités inconnues, telles que θ0 ou Pθ0 .
Remarque 3.1. Une convention utile est qu’on note les estimateurs par les quantités
qu’ils estiment, surmontées de petits chapeaux b. Ainsi, dans un modèle de Bernoulli,
b les estimateurs
lorsque le modèle est l’ensemble des B (p), avec p 2 [0, 1], on note par p
b n lorsque l’on énonce des assertions dépendant de la taille n de
de p, et parfois même, p
b (ou µ
b n ) les estimateurs de l’espérance
l’échantillon. Dans tous les modèles, on notera µ
b
b n ), ceux de l’écart-type σ.
commune µ des observations de l’échantillon, et σ (ou σ
Exemple 3.1. Dans le modèle de Bernoulli, on pourrait proposer les quantités suivantes comme estimateur du vrai paramètre de fréquence p0 :
1
b n = X1 ,
b n = 0.5 .
ou p
ou p
X1 + . . . + Xn ,
n
On sent évidemment que le premier est le meilleur estimateur et que les deux autres sont
très mauvais.
b n = Xn =
p
Remarque 3.2 (Estimateur vs. « bon » estimateur). S’il est facile de définir la notion
d’estimateur, il est en revanche beaucoup plus difficile de dire ce qu’est un bon estimateur !
Il n’y a pas de notion universelle de bon estimateur, mais je vous proposerai ci-dessous
la liste, non exhaustive, de quelques qualités qu’un estimateur peut posséder. L’objet de
la recherche en statistique est alors, entre autres, d’exhiber des estimateurs possédant ces
qualités, dans des modèles plus compliqués que ceux fondés sur des n-échantillons (avec
davantage de dépendance entre les observations ou en situations d’observations parcellaires, etc.).
Eléments de statistique mathématique
1.2. ... A la pratique !
Définition 3.2 (Estimée). Une estimée est le résultat du calcul d’un estimateur
sur les données x1 , . . . , xn . (On remplace les Xj par les xj dans la définition de
l’estimateur correspondant.)
1.3. Ce que l’on veut estimer. On peut vouloir estimer θ0 , comme on le décrit en
préambule du chapitre, ou une fonction de Pθ0 , comme l’espérance ou la variance. Nous
notons dans la suite g(θ0 ) cette quantité objet de l’étude. On parlera alors d’estimateurs
de g(θ0 ).
2. Première qualité éventuelle d’un estimateur : le caractère sans biais
bn de g(θ0 ) est dit sans
Définition 3.3 (Estimateur sans biais). Un estimateur g
biais lorsque
E gbn = g(θ0 ) .
Que l’espérance de l’estimateur soit égale à l’objectif de l’estimation g(θ0 ) nous fait
espérer que la plupart du temps, l’estimateur lui-même soit proche de g(θ0 ). Cela découle,
par exemple, de l’inégalité de Chebychev-Markov, qui, je vous le rappelle, contrôle les
bn autour de son espérance : autant que ce dernier ait pour espérance
déviations de g
l’objectif à estimer !
b n = Xn est un estimateur sans biais de l’espérance µ
Exercice 3.1. Prouver que µ
0 = X est-elle un estimateur sans
bn
(lorsque cette dernière existe). La variable aléatoire µ
1
biais ?
Exercice 3.2. On suppose la loi commune du n-échantillon admet un moment d’ordre
deux, que l’on note
h i
m2 (θ0 ) = E X21 .
c2,n de m2 (θ0 ).
Proposer un estimateur sans biais m
Exercice 3.3. On suppose ici encore que la loi commune du n-échantillon admet un
moment d’ordre deux et on définit de manière naturelle un estimateur de sa variance
σ2 = m2 (θ0 ) − µ2
par
c2,n − Xn
m
2
.
Montrer que c’est un estimateur biaisé de σ2 et en déduire un estimateur non biaisé.
Montrer que l’on peut écrire ce dernier sous la forme (que l’on retiendra pour la suite)
2
1 X
Xj − Xn .
n−1
n
b 2n =
σ
j=1
La minute SPPS 3.1. Lorsque l’on calcule une variance (par exemple, par Analyze /
Descriptive Statistics / Descriptives), c’est bien la formule de variance débiaisée
qui est utilisée. Dit autrement, la valeur que l’on lit dans le tableau produit par SPSS est
une estimée de la variance sur les valeurs observées, calculée à partir de l’estimateur sans
biais introduit plus haut.
Exercice 3.4. Comment estimeriez-vous l’écart-type ? L’estimateur que vous proposez est-il sans biais ?
Remarque 3.3. Le caractère sans biais est surtout important lorsque la taille d’échantillon n est petite. Pour des tailles d’échantillon n plus grandes, on préférera s’intéresser
à la consistance des estimateurs.
30
Gilles Stoltz
Eléments de statistique mathématique
3. Deuxième qualité éventuelle d’un estimateur : la consistance
Rigoureusement parlant, la consistance ne peut être la propriété que d’une suite d’estimateurs.
bn ) d’estimateurs de g(θ0 ) est
Définition 3.4 (Estimation consistante). Une suite (g
dite consistante lorsque
P
bn −→ g(θ0 ) .
g
La consistance est évidemment une vue de l’esprit, un outil d’évaluation théorique.
En pratique, la taille d’échantillon n est ce qu’elle est ! On peut tout au plus plannifier de
la prendre suffisamment grande si l’on n’a pas encore fini la phase de recueil des données
(en un sens qui sera quantifié par la troisième qualité éventuelle, voir ci-dessous, mais pas
par la propriété de consistance, qui ne met en jeu aucune vitesse de convergence).
Remarque 3.4. La loi des grands nombres est souvent l’outil fondamental pour prouver une consistance (quand on l’associe au résultat de la proposition 3.1).
b n = Xn estime l’espéExercice 3.5. Prouver que la suite des moyennes empiriques µ
rance µ de manière consistante (lorsque cette dernière existe).
Des propriétés utiles de la convergence en probabilité sont décrites ci-dessous, elles
permettront de traiter l’exercice 3.6.
Proposition 3.1 (Propriétés de la convergence en probabilité). La convergence en
probabilité passe aux fonctions continues d’un nombre fini de variables. Par exemple,
dans le cas d’une fonction continue de deux variables (y, z) 7→ g(y, z), si par ailleurs
on a deux suites de variables aléatoires (Yn ) et (Zn ) convergeant en probabilité respectivement vers des variables aléatoires Y et Z,
P
P
alors
P
ou
Yn −→ Y et Zn −→ Z ,
En particulier,
Yn + Zn −→ Y + Z
P
g Yn , Zn −→ g(Y, Z) .
P
Yn Zn −→ YZ .
Exercice 3.6. On suppose ici que la loi commune du n-échantillon admet un moment
d’ordre deux. Proposer différentes suites d’estimateurs consistants de la variance σ2 et de
l’écart-type σ.
3.1. La méthode des moments, présentation. Les techniques employées dans
l’exercice précédent, i.e., loi des grands nombres combinée à la proposition 3.1, forment ce
que l’on appelle la méthode des moments. On la formalise comme suit.
On note, pour k = 1, 2, . . . et sous réserve d’existence,
h
mk (θ0 ) = E Xk1
i
le k-ième moment de la loi commune des observations de l’échantillon. Par loi des grands
nombres, on l’estime par
1 k
ck,n =
X1 + . . . + Xkn .
m
n
Si g(θ0 ) peut s’écrire comme
g(θ0 ) = ψ (m1 (θ0 ), . . . , mk (θ0 ))
Gilles Stoltz
31
Eléments de statistique mathématique
pour une certaine fonction ψ continue et un entier k, alors on propose la suite d’estimateurs
définie par
b n = ψ (m
c1,n , . . . , m
ck,n ) .
g
Cette suite est consistante.
C’est exactement ainsi qu’ont été formés les estimateurs de l’exercice 3.6. On note
cependant que, comme on l’a vu à l’exercice 3.3, la méthode des moments conduits à une
suite d’estimateurs biaisés de la variance.
3.2. La méthode des moments, exemples simples. Dans les cas les plus simples,
le ou les paramètres du modèle sont donné(s) par la moyenne et/ou la variance, et les
techniques précédentes s’appliquent donc aisément.
Exemple 3.2 (Loi de Bernoulli). Lorsque la loi commune des observations est de
Bernoulli, on peut vouloir estimer son paramètre p0 . Comme µ = p0 = m1 (p0 ), le plus
b n = Xn .
naturel est de prendre p
Comment estimer la variance σ2 = p0 (1 − p0 ) = g(p0 ) ? On a envie de considérer
b 2n = g p
bn = p
bn 1 − p
b n = Xn 1 − Xn .
σ
En fait, puisque pour des variables de Bernoulli, Xj = X2j , l’expression à laquelle on vient
2
c2,n − m
c1,n .
de penser coïncide exactement avec l’expression générale m
Exemple 3.3 (Retour à notre fil d’Ariane). Revenons à l’exemple de la Française des
jeux. Vous vous souvenez que nous avions modélisé nos cent observations x1 , . . . , x100 indiquant le nombre de gagnants significatifs par carnet comme un n-échantillon X1 , . . . , X100
distribué selon une certaine loi ν0 sur {0, 1, . . . , 50}. Nous étions ensuite passé aux Yj =
I{Xj >2} , qui sont distribuées selon une loi de Bernoulli de paramètre p0 à définir. Vu que
sur les valeurs observées, yj = 0 pour tout j, on propose donc l’estimée 0 pour p0 . (Ce qui
ne veut pas dire que p0 vaille vraiment 0, c’est juste une valeur que l’on propose.)
Exemple 3.4 (Loi de Poisson). Pour la loi P (λ), i.e., la loi de Poisson de paramètre
λ, on a µ = σ2 = λ. La méthode des moments propose donc les estimateurs
b
λ
n
c1,n = Xn
=m
et
2
b
c2,n − Xn .
λn0 = m
Lequel est le meilleur ? Le paragraphe sur la normalité asymptotique des estimateurs va
nous permettre de trancher en faveur du premier. Ce sera là un exemple montrant combien
la réflexion théorique est importante en pratique.
Exercice 3.7 (Loi exponentielle). On considère le modèle formé par les lois exponentielles E (λ). Montrer, en intégrant par parties, que m1 (λ) = 1/λ et m2 (λ) = 2/λ2 . En
déduire deux estimateurs par moments du paramètre λ0 .
3.3. La méthode des moments, deux exemples plus complexes illustrant les
limites de la méthode. Nous donnons deux exemples où les estimateurs proposés par
la méthode des moments sont parfois déraisonnables. Cela illustre que la méthode des
moments n’est pas la panacée. Elle est facile à mettre en œuvre, certes, mais ne procure
pas toujours un résultat satisfaisant. D’ailleurs, aucune autre méthode d’estimation n’est
parfaite, chacune a ses qualités et défauts. (Voir plus bas le paragraphe présentant ou
faisant référence à d’autres méthodes.)
32
Gilles Stoltz
Eléments de statistique mathématique
Exemple 3.5 (Où l’on illustre le vice mathématique !). Les mathématiciens aiment
bien construire des contre-exemples tordus, ne correspondant pas forcément à une réalité, simplement pour le plaisir de montrer que telle ou telle intuition est fausse. Soit le
modèle suivant. X1 , . . . , Xn un n-échantillon distribué selon une loi uniforme sur [0, θ],
où l’on sait seulement que θ 2 R+ . (Un A dans la matière au premier qui me trouve un
exemple convaincant et mettant en jeu des situations étudiées dans les cours d’une école
de commerce !) Il s’agit d’estimer le vrai paramètre inconnu θ0 . Comme µ(θ0 ) = θ0 /2, on
est tenté de proposer
b = 2X .
θ
n
n
Cet estimateur est consistant. Mais il est clair qu’on a nécessairement θ0 > max{X1 , . . . , Xn }.
Or il se peut que 2 Xn soit strictement plus petit que cette valeur, auquel cas on sait pertinemment qu’on pourrait mieux estimer en prenant le maximum. En réalité, une autre
méthode, dite du maximum de vraisemblance, conduirait à ce meilleur estimateur,
b = max X , . . . , X
θ
n
1
n .
Exercice 3.8 (Estimation des paramètres d’une loi binômiale sur un pot de crème).
Voici une situation plus réaliste. Vous êtes chef de produit pour une crème de beauté, et il
se trouve qu’un accident est survenu sur une des trois chaînes de fabrication (dont on ne
s’est rendu compte que trois semaines après) : un certain nombre k de pots contiennent la
crème sous une forme un peu trop grumeleuse pour être appliquée avec plaisir sur la peau.
Ce n’est pas le cas de tous les pots, mais il semble que ce soit celui d’une proportion fixe γ
des N pots sortant de la chaîne chaque jour, de sorte que k = γN, où N est connu mais γ
inconnu. Votre direction vous demande des comptes et aimerait savoir combien de clients
ont bien pu acheter de tels pots, i.e., combien vaut k. Si k est trop grand, vous savez
qu’elle se défaussera sur vous devant les actionnaires et que vous devrez démissionner.
Pour estimer k, elle va utiliser la méthode suivante. Les clients mécontents écrivent pour
se plaindre. La direction groupe ces plaintes par lots de produits (chaque jour, on initie
un numéro de lot différent). On dispose donc d’une quinzaine de valeurs observées : le
nombre de plaintes correspondant à chacun des jours ouvrés des trois semaines où il y a
eu un problème. Montrez que ces nombres n1 , . . . , n15 peuvent être modélisés comme un
n-échantillon N1 , . . . , N15 , de loi commune B in(k, p), où p est le taux de plainte, à savoir,
la proportion (inconnue) de clients qui, achetant un tel pot, sont suffisamment mécontents
pour écrire une lettre de réclamation.
On veut employer la méthode des moments. Calculez m1 = m1 (k, p) et m2 = m2 (k, p)
et aboutissez, après quelques manipulations, au système d’équations suivant,
m1 = kp
m2 = m21 + m1 (1 − p) .
Résolvez-le pour trouver finalement, avec les notations ci-dessus,
b
k
n
=
c1,n
m
c1,n + m
c1,n
m
2
2
2
c2,n
−m
et
c1,n + m
c1,n − m
c2,n
m
bn =
p
.
c1,n
m
Expliquez pourquoi ces deux estimateurs sont consistants. Calculez également quelques
valeurs numériques sur des données que vous inventerez pour voir le comportement de ces
deux quantités.
Note : il se peut que ces deux estimateurs prennent des valeurs négatives, sur des
valeurs observées choisies avec suffisamment de vice par un mathématicien, alors que l’on
Gilles Stoltz
33
Eléments de statistique mathématique
sait que les vrais paramètres sont forcément positifs. Ici encore, cela montre les limites de
la méthode des moments dans les cas complexes !
4. Troisième qualité éventuelle d’un estimateur : la normalité asymptotique
Rigoureusement parlant, la normalité asymptotique ne peut, elle aussi, être la propriété
que d’une suite d’estimateurs.
bn ) d’estimateurs de g(θ0 )
Définition 3.5 (Normalité asymptotique). Une suite (g
p
est dite asymptotiquement normale, à vitesse n et de variance asymptotique σ2g ,
lorsque
p b
n gn − g(θ0 ) N 0, σ2g .
Remarque 3.5. On peut prouver que la normalité asymptotique entraîne la consistance. C’est une propriété plus précise qui indique que la fluctuation de l’estimateur autour
de l’objectif à estimer est approximativement normale. Les résultats de normalité asymptotique nous seront fort utiles lors de la construction d’intervalles de confiance asymptotiques, au chapitre suivant.
Exercice 3.9. Prouver que, sous réserve de l’existence d’un moment d’ordre deux, la
b n = Xn estime l’espérance µ de manière asymptotiquesuite des moyennes empiriques µ
ment normale. (Préciser également la variance asymptotique.)
De la même manière que la convergence en probabilité passe aux fonctions continues,
la convergence en loi passe aux fonctions continues, tandis que la normalité asymptotique
passe, d’une certaine manière, aux fonctions C1 . La second assertion de la proposition
suivante, associée au théorème de la limite centrale, sera l’ingrédient fondamental pour
prouver des propriétés de normalité asymptotique.
Proposition 3.2 (Propriétés de la convergence en loi). Si on a la convergence en
loi Yn Y et si ψ est une fonction continue, alors on a encore ψ(Yn ) ψ(Y).
Si la suite de variables aléatoires (Yn ) est asymptotiquement normale, telle qu’il
existe y et σ2y tels que
p
n Yn − y N 0, σ2y ,
et si ψ est une fonction C1 , alors ψ(Yn ) est également asymptotiquement normale,
p
n ψ(Yn ) − ψ(y)
N
0, ψ 0 (y)2 σ2y
.
Exemple 3.6. Nous pouvons maintenant comparer les deux estimateurs de l’exercice 3.4. Celui de la moyenne empirique vérifie, par théorème de la limite centrale, que
p
n bλn − λ0
N
0, λ0
tandis qu’on peut montrer, par des versions multi-dimensionnelles du théorème de la limite
centrale et du résultat de la proposition 3.2 (hors du programme de ce cours), que
p
n bλn0 − λ0
N
0, λ0 + 2λ20
.
Evidemment, l’estimateur le meilleur des deux est celui de variance asymptotique la plus
faible (c’est celui le plus ramassé autour de λ0 , celui dont le pic gaussien a la base la
plus étroite). Le traitement mathématique montre ainsi que dans le cadre d’un modèle
de Poisson, on préfère l’estimateur de la moyenne empirique bλn à celui de la variance
empirique bλn0 .
34
Gilles Stoltz
Eléments de statistique mathématique
Plus généralement, les versions multi-dimensionnelles du théorème de la limite centrale
et du résultat de la proposition 3.2 montrent que les estimateurs par moments étudiés
plus haut sont asymptotiquement normaux – sous réserve d’existence des moments : si
l’estimateur met en jeu des moments d’ordre inférieur ou égal à k, alors la loi commune
des observations doit admettre un moment d’ordre 2k.
Exercice 3.10 (Loi exponentielle, suite). On considère, comme à l’exercice 3.7, le
modèle formé par les lois exponentielles E (λ). Montrer qu’au moins un des estimateurs de
λ0 introduits là-bas est asymptotiquement normal et préciser sa variance asymptotique.
Remarque 3.6. Voici, pour conclure ce chapitre, une allusion rapide à un résultat
fondamental de statistique (à destination de ceux qui seraient curieux, là encore, de savoir ce en quoi consiste la recherche en statistique). Dans la définition de la normalité
asymptotique, un paramètre de variance asymptotique joue un rôle crucial et on a vu
dans l’exemple ci-dessus qu’il mesurait la qualité de l’estimation. On veut considérer des
estimateurs de variance asymptotique minimale. Se posent les problèmes de 1. calculer
cette valeur minimale et 2. d’exhiber des estimateurs l’atteignant (dits, par définition, efficaces). Le point 1. est réglé par la minoration dite de Cramer-Rao. Par exemple, dans le
modèle de Poisson, cette variance minimale est λ0 : l’estimateur de la moyenne empirique
b
λn est efficace. Quant au point 2., il est généralement résolu par une autre méthode de
construction d’estimateurs, dite du maximum de vraisemblance, et que nous verrons plus
tard dans ce cours.
5. Estimation d’une tendance centrale
Finissons ce cours très théorique par un panorama rapide des moyens d’estimer une
tendance centrale. Par tendance centrale, on entend comportement moyen, mais il peut
s’agir d’estimer la moyenne ou la médiane, selon le contexte et la loi considérés.
Les propriétés de l’estimateur de la moyenne empirique ont été vues plus haut : il est
sans biais, consistant, et, sous réserve de l’existence d’un moment d’ordre deux, asymptotiquement normal. C’est souvent le meilleur, en théorie. Le problème, c’est que sur des
données, il n’y a souvent qu’un ajustement imparfait à la modélisation théorique espérée
(par exemple, les données ne sont qu’approximativement distribuées selon une loi normale), et pire, il y a souvent quelques données atypiques (bien plus petites ou bien plus
grandes que les autres).
5.1. Estimateur de la médiane empirique. Une alternative est la médiane. Lorsque
la distribution est symétrique autour d’une valeur, comme c’est le cas par exemple pour
la loi normale, moyenne et médiane coïncident. Estimer l’une revient à estimer l’autre. A
l’inverse, lorsque la distribution est dissymétrique, la médiane peut refléter davantage le
comportement moyen ressenti, comme nous l’avions vu au paragraphe 3.3.
c (i.e., la médiane de
Or, il se trouve que l’estimateur de la médiane empirique M
n
X1 , . . . , Xn ) est un bon estimateur de la médiane de la loi commune. Il nous faut définir
cette dernière.
Définition 3.6 (Médiane d’une loi). On fixe une loi et on prend une variable
aléatoire X distribuée selon cette loi. Sa médiane est tout nombre m tel que
P{X 6 m} > 1/2
et
P{X > m} > 1/2 .
La médiane existe toujours mais n’est pas nécessairement unique.
Gilles Stoltz
35
Eléments de statistique mathématique
Fig. 1. Calcul d’estimées de la tendance centrale sur l’exemple des salaires
horaires moyens des infirmières américaines
On a le résultat théorique suivant. (On y suppose l’unicité de la médiane pour chaque
loi du modèle car on ne connaît pas θ0 ; il suffirait évidemment d’avoir cette unicité pour
la vraie loi sous-jacente.)
Théorème 3.1. Soit un n-échantillon X1 , . . . , Xn distribué selon une loi Pθ0 prise
dans le modèle Pθ , θ 2 Θ . Si la médiane mθ de chacun des Pθ est unique, alors
c est consistant,
l’estimateur de la médiane empirique M
n
P
c
M
n −→ mθ0 .
On a même une propriété de normalité asymptotique sous des hypothèses supplémenc est donc un bon estimateur, bien que souvent moins bon en théorie
taires. L’estimateur M
n
que la moyenne empirique Xn , lorsque moyenne et médiane coïncident. En pratique, il se
montre en revanche robuste : il est peu sensible aux données atypiques (“outliers”), ce qui
est une qualité assez essentielle.
5.2. Autres estimateurs de la tendance centrale.
La minute SPPS 3.2. La figure 1 reprend quelques lignes parmi celles obtenues en
lançant Analyze / Descriptive Statistics / Explore / Statistics et en sélectionnant les M-estimators. On voit tout d’abord la moyenne, puis la moyenne calculée sur 95 %
des observations, en enlevant les 2.5 % d’observations les plus petites et les plus grandes
(histoire de se débarrasser des valeurs atypiques). Si ces deux valeurs diffèrent beaucoup,
c’est le signe qu’il y a des valeurs atypiques tirant la moyenne vers le haut ou le bas. Vient
ensuite la médiane. Enfin, le tableau des estimateurs de la tendance centrale, présentant
des alternatives robustes aux estimateurs de la moyenne et de la médiane empiriques. Je
ne les présente pas en détails, mais essayez de trouver ce qu’en dit la documentation de
SPSS :
M-estimators. Robust alternatives to the sample mean and median for estimating the location. The estimators calculated differ in the weights they apply to
cases. Huber’s M-estimator, Andrews’ wave estimator, Hampel’s redescending Mestimator, and Tukey’s biweight estimator are displayed.
36
Gilles Stoltz
Téléchargement