Estimation - Nicolas Chenavier

publicité
Estimation
Chapitre 1
Table des matières
1 Echantillonage
1
2 Estimation ponctuelle
2.1 Estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Propriétés d’un estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
2
3
3
3 Estimation par intervalles de confiance
3.1 Intervalle de confiance de la moyenne . . . . . . . . . . . . . . . .
3.1.1 Cas où la variance est connue . . . . . . . . . . . . . . . .
3.1.2 Cas où la variance n’est pas connue . . . . . . . . . . . .
3.2 Intervalle de confiance d’une proportion . . . . . . . . . . . . . .
3.3 Méthode pour déterminer l’intervalle de confiance d’une moyenne
3
4
4
4
5
5
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
ou d’une proportion
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Au sein de l’aléatoire, on distingue deux domaines : la statistique et les probabilités. La statistique est la branche
qui consiste à étudier des données tandis que les probabilités fournissent le cadre théorique pour étudier ces données.
Au sein de la statistique, on distingue à nouveau deux branches. La première est la statistique descriptive dont le but
est de décrire les données (moyenne,variance, régression linéaire) : elle nécessite peu de mathématiques. La seconde,
appelée statistique inférentielle, ou statistique mathématique, est un procédé inductif, i.e. une démarche qui consiste
à partir d’une obeservation pour reconstituer le tout (par exemple, avoir une idée de la proportion d’individus qui
vont voter pour un candidat à partir d’un sondage, d’une observation, de seulement un petit nombre de personnes).
Pour l’histoire, remarquons que le mot statistique vient du mot "état" car celle-ci se limitait, jusqu’au 19me siècle
à présenter des données (statistique descriptive) concernant les effectifs militaires, effectifs de la population. . . . C’est
seulement à partir du 19ème siècle que s’est développée la statistique inférentielle, en particulier lorsqu’est apparu
le cadre théorique apporté par les probabilités (début du 20ème siecle).
1
Echantillonage
But : donner une valeur approchée d’une quantité associée à N données à partir d’une observation de seulement
n N données. Par exemple :
— une entreprise produit N = 1000000 pièces cylindriques d’un certain diamètre. On veut avoir une valeur
approchée de la moyenne de ces diamètres. Au lieu de contrôler toutes les pièces, on n’en prélève que n = 1000 ;
— parmi une population de N = 35 millions d’individus, une certaine proportion souhaite voter pour un certain
candidat. On souhaite avoir une estimation de cette proportion. Au lieu d’interroger tous les individus, on
effectue un sondage auprès de seulement n = 900 d’entre eux.
Plus formellement, on considère une population mère constituée de N valeurs (inconnues pour la plupart d’entre
elles) et notées x1 , . . . , xN . On suppose que ces valeurs ont toutes été générées par des variables aléatoires (en
1
pratique supposées indépendantes) de même loi. On désigne par X la variable aléatoire qui a généré ces valeurs et
par θ un paramètre inconnu de X dont on cherche à donner une valeur approchée. Par exemple :
— estimation d’une moyenne : θ = µ , pour le contrôle statistique d’un ensemble de pièces issues d’une fabrication ;
— estimation d’une variance : θ = σ 2 , pour mesurer la dispersion issue du contrôle ;
— estimation d’une proportion : θ = p, pour avoir une estimation, issue d’un sondage, d’une proportion d’individus votant pour un certain candidat.
On se contente d’observer seulement n données engendrées par X et notées x1 , . . . , xn .
Définition 1. On appelle :
1. échantillon de taille n tout n-uplet de variables aléatoires (X1 , . . . , Xn ) ayant la même loi que X ;
2. n-échantillon tout n-uplet de variables aléatoires (X1 , . . . , Xn ) indépendantes et de même loi que X ;
3. échantillon de valeurs de X de taille n toute réalisation (x1 , . . . , xn ) = (X1 (ω), . . . , Xn (ω)) où (X1 , . . . , Xn )
est un échantillon de taille n possédant la même loi que X.
Définition 2. Un prélévement d’échantillons s’appelle un échantillonnage. On dit que l’échantillonnage est exhaustif
(respectivement non-exhaustif) s’il s’agit d’un tirage sans remise (respectivement avec remise).
2
Estimation ponctuelle
2.1
Estimateurs
Définition 3. On appelle statistique toute variable aléatoire de la forme φ(X1 , . . . , Xn ) où (X1 , . . . , Xn ) est un
échantillon de taille n.
Définition 4. Désignons par θ un paramètre inconnu d’une variable aléatoire X. On appelle estimateur de θ toute
statistique Tn = φ(X1 , . . . , Xn ), indépendante de θ, et telle que θ ∈ Tn (Ω).
Exemple. Soit X une variable aléatoire de moyenne µ et de variance σ 2 inconnues. On cherche à estimer ces deux
quantités. Pour cela, on considère un n-échantillon issu de X et noté (X1 , . . . , Xn ).
1. La variable aléatoire
Xn =
X1 + . . . + Xn
n
est un estimateur de θ = µ.
2. Les variables aléatoires
Sn2 =
(X1 − Xn )2 + . . . + (Xn − Xn )2
n
2
et S 0 n =
S2
n
n−1 n
sont des estimateurs de θ = σ 2 .
Exemple. Soit X = B(p) une variable aléatoire de Bernoulli de paramètre p (i.e. P ( X = 1 ) = p et P ( X = 0 ) =
1 − p) inconnu. On cherche à estimer p. On désigne, à nouveau, par (X1 , . . . , Xn ) un n-échantillon issu de X. Posons
Kn = B(n, p) le nombre de succès dans (X1 , . . . , Xn ). Alors, la variable aléatoire
Pn =
Kn
n
est un estimateur de p.
2
2.2
Propriétés d’un estimateur
Définition 5. Un estimateur Tn = φ(X1 , . . . , Xn ) de θ est dit :
— sans biais si E [ Tn ] = θ ;
— consistant si P ( limn→∞ Tn = θ ) = 1, i.e. Tn ' θ.
Exemple.
1. L’estimateur Xn de µ est sans biais et consistant.
2. L’estimateur Sn2 de σ 2 est biaisé mais consistant.
2
3. L’estimateur Sn0 de σ 2 est sans biais et consistant.
4. L’estimateur Pn de p est sans biais et consistant.
2.3
Estimation
Définition 6. Toute donnée de la forme φ(x1 , . . . , xn ) = φ(X1 (ω), . . . , Xn (ω)) = Tn (ω) s’appelle une estimation de
θ. On note plus simplement cette estimation θ̂.
Il s’agit donc, à partir de diverses valeurs prises par X, d’associer une valeur θ̂ unique estimant θ. En général,
θ̂ 6= θ.
Paramètres
Moyenne µ
Variance σ 2
Proportion p
2
S0n
Estimateurs
Pn
Xn = n1 i=1 Xi
Pn
1
2
= n−1
i=1 (Xi − Xn )
Pn =
Estimations
Pn
µ̂ = n1 i=1 xi
Pn
1
2
σˆ2 = n−1
i=1 (xi − µ̂)
Kn
n
p̂ =
k̂
n
Figure 1 – Tableau synthétique
Exercice 1. Une usine fabrique de grandes quantités d’un certain type de pièces mécaniques. On mesure la longueur
de chacune des 50 pièces d’un échantillon choisi au hasard et avec remise dans une grosse commande. On constate
que les valeurs approchées arrondies à 10−3 près de la moyenne x et de l’écart-type σ des longueurs en millimètres, de
cet échantillon sont : x = 64.715 et σ = 0.095. Donner une estimation ponctuelle de la moyenne µ et de l’écart-type
σ de la longueur des pièces de l’ensemble de la commande.
Exercice 2. Un groupe d’étudiants en statistique réalise une enquête auprès d’une population d’étudiants en
sociologie en interrogeant un échantillon de n = 135 individus. Ils désirent connaître la proportion p d’étudiants
ayant suivi des études secondaires scientifiques. Pour accélérer le traitement, ils partagent le dépouillement en deux :
un demi-groupe constate que, sur 60 des étudiants interrogés, 24 ont suivi des études secondaires scientifiques, tandis
que l’autre demi-groupe constate que, sur les 75 étudiants interrogés restants, 33 ont suivi des études secondaires
scientifiques. Calculer trois estimations ponctuelles de p.
3
Estimation par intervalles de confiance
Motivation : l’estimation ponctuelle fournit une approximation d’un certain paramètre inconnu θ. Cependant,
cette estimation (parce que ponctuelle) fournit, en général, une valeur différente de la valeur réelle. Il est alors plus
raisonnable de compléter l’estimation ponctuelle par un intervalle contenant (avec grande probabilité) la valeur
réelle.
On désigne toujours par X une variable aléatoire possédant un paramètre θ inconnu et par (x1 , . . . , xn ) =
(X1 (ω), . . . , Xn (ω)) un échantillon de valeurs issues de X.
3
Définition 7. On appelle intervalle de confiance au seuil 1−α issu de l’échantillon de valeurs x1 , . . . , xn un intervalle
(en général non unique) noté Iα (x1 , . . . , xn ) tel que
P ( Iα (X1 , . . . , Xn ) 3 θ ) = 1 − α.
Remarque.
1. Dans la probabilité ci-dessus, l’aléa porte sur l’intervalle et non le paramètre (déterministe) θ.
2. Il ne faut pas confondre l’intervalle de confiance Iα (x1 , . . . , xn ), calculée à partir des valeurs données, et
l’intervalle Iα (X1 , . . . , Xn ) aléatoire qui permet de calculer l’intervalle de confiance.
3. Lorsque n ≥ 30 et lorsqu’on a seulement P ( Iα (X1 , . . . , Xn ) 3 θ ) ' 1 − α (i.e. un "à peu près égal" au lieu
d’une "égalité"), on parle d’intervalle de confiance asymptotique.
3.1
3.1.1
Intervalle de confiance de la moyenne
Cas où la variance est connue
Cas d’une loi normale
Proposition 8. Supposons que X = N (µ, σ 2 ) où σ 2 est connue. Alors, pour tout n-échantillon de valeurs x1 , . . . , xn
issues de X, l’intervalle de confiance au seuil α est :
σ
σ
(1)
Iα (x1 , . . . , xn ) = µ̂ − u1−α/2 √ , µ̂ + u1−α/2 √ ,
n
n
où u1−α/2 est le quantile d’ordre 1 − α/2 de la loi normale centrée réduite (i.e. P U ≤ u1−α/2 = 1 − α/2).
Exercice 3. Une machine produit en grande série des objets de masse théorique 180g. On admet que la variable
aléatoire X qui associe, à un échantillon de taille 100 (issu de la production de cette machine), sa masse moyenne
en grammes suit une loi normale de moyenne µ et d’écart-type σ = 0.092. La valeur exacte de la masse moyenne µ
des objets étant inconnue, on prélève au hasard un échantillon de 100 objets dont on constate que la masse moyenne
est 179.93g. Déterminer un intervalle de confiance, au seuil de 10%, de la valeur de µ.
Remarque. La longueur de l’intervalle de confiance est d’autant plus petite que la variance σ 2 est petite et que le
nombre de données n est grand (ce qui est intuitif).
Généralisation à une loi non normale
Remarque. Lorsque X ne suit pas la loi normale et lorsque n ≥ 30, on peut obtenir également un intervalle de
confiance en appliquant, cette fois-ci, le théorème central limite. Cet intervalle de confiance (asymptotique, car n
doit être suffisamment grand) est en fait exactement le même que dans (1).
3.1.2
Cas où la variance n’est pas connue
Cas d’une loi normale
Proposition 9. Supposons que X = N (µ, σ 2 ) où σ 2 n’est pas connue. Alors, pour tout n-échantillon de valeurs
x1 , . . . , xn issues de X, l’intervalle de confiance au seuil α est :
σ̂
σ̂
Iα (x1 , . . . , xn ) = µ̂ − t1−α/2;n−1 √ , µ̂ + t1−α/2;n−1 √ ,
(2)
n
n
où t1−α/2;n−1 est le quantile d’ordre 1−α/2 de la loi de Student à n−1 degrés de liberté (i.e. P Tn−1 ≤ t1−α/2;n−1 =
1 − α/2).
4
Généralisation à une loi non normale
Remarque.
1. Lorsque X ne suit pas la loi normale et lorsque n ≥ 30, on peut obtenir également un intervalle
de confiance en appliquant, comme dans la section précédente, le théorème central limite. Cet intervalle de
confiance (asymptotique) est donné par :
σ̂
σ̂
Iα (x1 , . . . , xn ) = µ̂ − u1−α/2 √ , µ̂ + u1−α/2 √ .
(3)
n
n
2. Lorsque X suit la loi normale, et lorsque n < 30, il faut utiliser l’intervalle de confiance (exact) donné dans
(2).
3. Lorsque X suit la loi normale, et lorsque n ≥ 30, il est préférable de considérer l’intervalle de confiance
(exact) donné dans (2) plutôt que celui (asymptotique) donné dans (3). En fait (toujours dans le cas où n est
suffisamment grand), ces deux intervalles sont presque identiques car t1−α/2;n−1 ' u1−α/2 .
Loi normale
Loi quelconque (n ≥ 30)
σ 2 connue
intervalle (1)
intervalle (1)
σ 2 non connue
intervalle (2)
intervalle (3)
Nature de l’intervalle
intervalle exact
intervalle asymptotique
Figure 2 – Tableau synthétique
3.2
Intervalle de confiance d’une proportion
Proposition 10. Supposons que X = B(p). Désignons par p̂ = nk̂ l’estimation ponctuelle de p. Alors l’intervalle de
confiance au seuil α est :
"
#
r
r
p̂(1 − p̂)
p̂(1 − p̂)
Iα (x1 , . . . , xn ) = p̂ − u1−α/2
, p̂ + u1−α/2
,
(4)
n
n
où u1−α/2 est le quantile d’ordre 1 − α/2 de la loi normale centrée réduite (i.e. P U ≤ u1−α/2 = 1 − α/2).
Remarque. En particulier, l’estimation par intervalle de confiance de p se situe dans le même contexte que l’estimation d’une moyenne pour une variable aléatoire de variance non connue (Section 3.1.2). Dans le cas où n ≥ 30,
l’intervalle de confiance (exact) donné dans (4) est presque identique à l’intervalle de confiance (asymptotique)
donné dans (3) (remarquer que σ 2 = p(1 − p) pour une variable de Bernoulli).
Exercice 4. Dans le contexte de l’exercice 2, donner trois intervalles de confiance pour p au seuil 1 − α = 95%.
Commenter les résultats.
3.3
Méthode pour déterminer l’intervalle de confiance d’une moyenne ou d’une proportion
Pour déterminer l’intervalle de confiance (exact ou asymptotique) d’une moyenne ou d’une proportion, procéder
comme suit :
5
1. Calculer l’estimation ponctuelle θ̂.
2. Déterminer l’intervalle de confiance à utiliser (parmi ceux qui sont donnés dans (1), (2), (3) et (4)).
3. Déterminer le quantile associé.
4. En déduire l’intervalle de confiance.
L’essentiel
— Donner une estimation ponctuelle d’une moyenne, variance ou proportion.
— Appliquer les formules (1), (2), (3) et (4) pour déterminer un intervalle de confiance pour le paramètre à
estimer.
— Savoir retrouver les intervalles de confiance donnés dans les formules (1), (2), (3) et (4).
6
Téléchargement