Estimation
Chapitre 1
Table des matières
1 Echantillonage 1
2 Estimation ponctuelle 2
2.1 Estimateurs.................................................. 2
2.2 Propriétésdunestimateur.......................................... 3
2.3 Estimation .................................................. 3
3 Estimation par intervalles de confiance 3
3.1 Intervalle de confiance de la moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.1.1 Cas la variance est connue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.1.2 Cas la variance n’est pas connue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.2 Intervalle de confiance d’une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.3 Méthode pour déterminer l’intervalle de confiance d’une moyenne ou d’une proportion . . . . . . . . 5
Au sein de l’aléatoire, on distingue deux domaines : la statistique et les probabilités. La statistique est la branche
qui consiste à étudier des données tandis que les probabilités fournissent le cadre théorique pour étudier ces données.
Au sein de la statistique, on distingue à nouveau deux branches. La première est la statistique descriptive dont le but
est de décrire les données (moyenne,variance, régression linéaire) : elle nécessite peu de mathématiques. La seconde,
appelée statistique inférentielle, ou statistique mathématique, est un procédé inductif, i.e. une démarche qui consiste
à partir d’une obeservation pour reconstituer le tout (par exemple, avoir une idée de la proportion d’individus qui
vont voter pour un candidat à partir d’un sondage, d’une observation, de seulement un petit nombre de personnes).
Pour l’histoire, remarquons que le mot statistique vient du mot "état" car celle-ci se limitait, jusqu’au 19me siècle
à présenter des données (statistique descriptive) concernant les effectifs militaires, effectifs de la population. . . . C’est
seulement à partir du 19ème siècle que s’est développée la statistique inférentielle, en particulier lorsqu’est apparu
le cadre théorique apporté par les probabilités (début du 20ème siecle).
1 Echantillonage
But : donner une valeur approchée d’une quantité associée à Ndonnées à partir d’une observation de seulement
nNdonnées. Par exemple :
une entreprise produit N= 1000000 pièces cylindriques d’un certain diamètre. On veut avoir une valeur
approchée de la moyenne de ces diamètres. Au lieu de contrôler toutes les pièces, on n’en prélève que n= 1000 ;
parmi une population de N= 35 millions d’individus, une certaine proportion souhaite voter pour un certain
candidat. On souhaite avoir une estimation de cette proportion. Au lieu d’interroger tous les individus, on
effectue un sondage auprès de seulement n= 900 d’entre eux.
Plus formellement, on considère une population mère constituée de Nvaleurs (inconnues pour la plupart d’entre
elles) et notées x1, . . . , xN. On suppose que ces valeurs ont toutes été générées par des variables aléatoires (en
1
pratique supposées indépendantes) de même loi. On désigne par Xla variable aléatoire qui a généré ces valeurs et
par θun paramètre inconnu de Xdont on cherche à donner une valeur approchée. Par exemple :
estimation d’une moyenne : θ=µ, pour le contrôle statistique d’un ensemble de pièces issues d’une fabrica-
tion ;
estimation d’une variance : θ=σ2, pour mesurer la dispersion issue du contrôle ;
estimation d’une proportion : θ=p, pour avoir une estimation, issue d’un sondage, d’une proportion d’indi-
vidus votant pour un certain candidat.
On se contente d’observer seulement ndonnées engendrées par Xet notées x1, . . . , xn.
Définition 1. On appelle :
1. échantillon de taille ntout n-uplet de variables aléatoires (X1, . . . , Xn)ayant la même loi que X;
2. n-échantillon tout n-uplet de variables aléatoires (X1, . . . , Xn)indépendantes et de même loi que X;
3. échantillon de valeurs de Xde taille ntoute réalisation (x1, . . . , xn) = (X1(ω), . . . , Xn(ω)) (X1, . . . , Xn)
est un échantillon de taille npossédant la même loi que X.
Définition 2. Un prélévement d’échantillons s’appelle un échantillonnage. On dit que l’échantillonnage est exhaustif
(respectivement non-exhaustif) s’il s’agit d’un tirage sans remise (respectivement avec remise).
2 Estimation ponctuelle
2.1 Estimateurs
Définition 3. On appelle statistique toute variable aléatoire de la forme φ(X1, . . . , Xn)(X1, . . . , Xn)est un
échantillon de taille n.
Définition 4. Désignons par θun paramètre inconnu d’une variable aléatoire X. On appelle estimateur de θtoute
statistique Tn=φ(X1, . . . , Xn), indépendante de θ, et telle que θTn(Ω).
Exemple. Soit Xune variable aléatoire de moyenne µet de variance σ2inconnues. On cherche à estimer ces deux
quantités. Pour cela, on considère un n-échantillon issu de Xet noté (X1, . . . , Xn).
1. La variable aléatoire
Xn=X1+. . . +Xn
n
est un estimateur de θ=µ.
2. Les variables aléatoires
S2
n=(X1Xn)2+. . . + (XnXn)2
net S02
n=n
n1S2
n
sont des estimateurs de θ=σ2.
Exemple. Soit X=B(p)une variable aléatoire de Bernoulli de paramètre p(i.e. P(X= 1 ) = pet P(X= 0 ) =
1p) inconnu. On cherche à estimer p. On désigne, à nouveau, par (X1, . . . , Xn)un n-échantillon issu de X. Posons
Kn=B(n, p)le nombre de succès dans (X1, . . . , Xn). Alors, la variable aléatoire
Pn=Kn
n
est un estimateur de p.
2
2.2 Propriétés d’un estimateur
Définition 5. Un estimateur Tn=φ(X1, . . . , Xn)de θest dit :
sans biais si E[Tn] = θ;
consistant si P( limn→∞ Tn=θ)=1, i.e. Tn'θ.
Exemple. 1. L’estimateur Xnde µest sans biais et consistant.
2. L’estimateur S2
nde σ2est biaisé mais consistant.
3. L’estimateur S0
n
2de σ2est sans biais et consistant.
4. L’estimateur Pnde pest sans biais et consistant.
2.3 Estimation
Définition 6. Toute donnée de la forme φ(x1, . . . , xn) = φ(X1(ω), . . . , Xn(ω)) = Tn(ω)s’appelle une estimation de
θ. On note plus simplement cette estimation ˆ
θ.
Il s’agit donc, à partir de diverses valeurs prises par X, d’associer une valeur ˆ
θunique estimant θ. En général,
ˆ
θ6=θ.
Paramètres Estimateurs Estimations
Moyenne µ Xn=1
nPn
i=1 Xiˆµ=1
nPn
i=1 xi
Variance σ2S02
n=1
n1Pn
i=1(XiXn)2ˆ
σ2=1
n1Pn
i=1(xiˆµ)2
Proportion p Pn=Kn
nˆp=ˆ
k
n
Figure 1 – Tableau synthétique
Exercice 1. Une usine fabrique de grandes quantités d’un certain type de pièces mécaniques. On mesure la longueur
de chacune des 50 pièces d’un échantillon choisi au hasard et avec remise dans une grosse commande. On constate
que les valeurs approchées arrondies à 103près de la moyenne xet de l’écart-type σdes longueurs en millimètres, de
cet échantillon sont : x= 64.715 et σ= 0.095. Donner une estimation ponctuelle de la moyenne µet de l’écart-type
σde la longueur des pièces de l’ensemble de la commande.
Exercice 2. Un groupe d’étudiants en statistique réalise une enquête auprès d’une population d’étudiants en
sociologie en interrogeant un échantillon de n= 135 individus. Ils désirent connaître la proportion pd’étudiants
ayant suivi des études secondaires scientifiques. Pour accélérer le traitement, ils partagent le dépouillement en deux :
un demi-groupe constate que, sur 60 des étudiants interrogés, 24 ont suivi des études secondaires scientifiques, tandis
que l’autre demi-groupe constate que, sur les 75 étudiants interrogés restants, 33 ont suivi des études secondaires
scientifiques. Calculer trois estimations ponctuelles de p.
3 Estimation par intervalles de confiance
Motivation : l’estimation ponctuelle fournit une approximation d’un certain paramètre inconnu θ. Cependant,
cette estimation (parce que ponctuelle) fournit, en général, une valeur différente de la valeur réelle. Il est alors plus
raisonnable de compléter l’estimation ponctuelle par un intervalle contenant (avec grande probabilité) la valeur
réelle.
On désigne toujours par Xune variable aléatoire possédant un paramètre θinconnu et par (x1, . . . , xn) =
(X1(ω), . . . , Xn(ω)) un échantillon de valeurs issues de X.
3
Définition 7. On appelle intervalle de confiance au seuil 1αissu de l’échantillon de valeurs x1, . . . , xnun intervalle
(en général non unique) noté Iα(x1, . . . , xn)tel que
P(Iα(X1, . . . , Xn)3θ)=1α.
Remarque. 1. Dans la probabilité ci-dessus, l’aléa porte sur l’intervalle et non le paramètre (déterministe) θ.
2. Il ne faut pas confondre l’intervalle de confiance Iα(x1, . . . , xn), calculée à partir des valeurs données, et
l’intervalle Iα(X1, . . . , Xn)aléatoire qui permet de calculer l’intervalle de confiance.
3. Lorsque n30 et lorsqu’on a seulement P(Iα(X1, . . . , Xn)3θ)'1α(i.e. un "à peu près égal" au lieu
d’une "égalité"), on parle d’intervalle de confiance asymptotique.
3.1 Intervalle de confiance de la moyenne
3.1.1 Cas où la variance est connue
Cas d’une loi normale
Proposition 8. Supposons que X=N(µ, σ2)σ2est connue. Alors, pour tout nchantillon de valeurs x1, . . . , xn
issues de X, l’intervalle de confiance au seuil αest :
Iα(x1, . . . , xn) = ˆµu1α/2
σ
n,ˆµ+u1α/2
σ
n,(1)
u1α/2est le quantile d’ordre 1α/2de la loi normale centrée réduite (i.e. PUu1α/2= 1 α/2).
Exercice 3. Une machine produit en grande série des objets de masse théorique 180g. On admet que la variable
aléatoire Xqui associe, à un échantillon de taille 100 (issu de la production de cette machine), sa masse moyenne
en grammes suit une loi normale de moyenne µet d’écart-type σ= 0.092. La valeur exacte de la masse moyenne µ
des objets étant inconnue, on prélève au hasard un échantillon de 100 objets dont on constate que la masse moyenne
est 179.93g. Déterminer un intervalle de confiance, au seuil de 10%, de la valeur de µ.
Remarque. La longueur de l’intervalle de confiance est d’autant plus petite que la variance σ2est petite et que le
nombre de données nest grand (ce qui est intuitif).
Généralisation à une loi non normale
Remarque. Lorsque Xne suit pas la loi normale et lorsque n30, on peut obtenir également un intervalle de
confiance en appliquant, cette fois-ci, le théorème central limite. Cet intervalle de confiance (asymptotique, car n
doit être suffisamment grand) est en fait exactement le même que dans (1).
3.1.2 Cas où la variance n’est pas connue
Cas d’une loi normale
Proposition 9. Supposons que X=N(µ, σ2)σ2n’est pas connue. Alors, pour tout nchantillon de valeurs
x1, . . . , xnissues de X, l’intervalle de confiance au seuil αest :
Iα(x1, . . . , xn) = ˆµt1α/2;n1
ˆσ
n,ˆµ+t1α/2;n1
ˆσ
n,(2)
t1α/2;n1est le quantile d’ordre 1α/2de la loi de Student à n1degrés de liberté (i.e. PTn1t1α/2;n1=
1α/2).
4
Généralisation à une loi non normale
Remarque. 1. Lorsque Xne suit pas la loi normale et lorsque n30, on peut obtenir également un intervalle
de confiance en appliquant, comme dans la section précédente, le théorème central limite. Cet intervalle de
confiance (asymptotique) est donné par :
Iα(x1, . . . , xn) = ˆµu1α/2
ˆσ
n,ˆµ+u1α/2
ˆσ
n.(3)
2. Lorsque Xsuit la loi normale, et lorsque n < 30, il faut utiliser l’intervalle de confiance (exact) donné dans
(2).
3. Lorsque Xsuit la loi normale, et lorsque n30, il est préférable de considérer l’intervalle de confiance
(exact) donné dans (2) plutôt que celui (asymptotique) donné dans (3). En fait (toujours dans le cas où nest
suffisamment grand), ces deux intervalles sont presque identiques car t1α/2;n1'u1α/2.
Loi normale Loi quelconque (n30)
σ2connue intervalle (1) intervalle (1)
σ2non connue intervalle (2) intervalle (3)
Nature de l’intervalle intervalle exact intervalle asymptotique
Figure 2 – Tableau synthétique
3.2 Intervalle de confiance d’une proportion
Proposition 10. Supposons que X=B(p). Désignons par ˆp=ˆ
k
nl’estimation ponctuelle de p. Alors l’intervalle de
confiance au seuil αest :
Iα(x1, . . . , xn) = "ˆpu1α/2rˆp(1 ˆp)
n,ˆp+u1α/2rˆp(1 ˆp)
n#,(4)
u1α/2est le quantile d’ordre 1α/2de la loi normale centrée réduite (i.e. PUu1α/2= 1 α/2).
Remarque. En particulier, l’estimation par intervalle de confiance de pse situe dans le même contexte que l’esti-
mation d’une moyenne pour une variable aléatoire de variance non connue (Section 3.1.2). Dans le cas où n30,
l’intervalle de confiance (exact) donné dans (4) est presque identique à l’intervalle de confiance (asymptotique)
donné dans (3) (remarquer que σ2=p(1 p)pour une variable de Bernoulli).
Exercice 4. Dans le contexte de l’exercice 2, donner trois intervalles de confiance pour pau seuil 1α= 95%.
Commenter les résultats.
3.3 Méthode pour déterminer l’intervalle de confiance d’une moyenne ou d’une pro-
portion
Pour déterminer l’intervalle de confiance (exact ou asymptotique) d’une moyenne ou d’une proportion, procéder
comme suit :
5
1 / 6 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !