Estimation - Nicolas Chenavier

Téléchargement

Estimation

Chapitre 1

Table des matières

1 Echantillonage 1

2 Estimation ponctuelle 2

2.1 Estimateurs.................................................. 2

2.2 Propriétésd’unestimateur.......................................... 3

2.3 Estimation .................................................. 3

3 Estimation par intervalles de conﬁance 3

3.1 Intervalle de conﬁance de la moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

3.1.1 Cas où la variance est connue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

3.1.2 Cas où la variance n’est pas connue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

3.2 Intervalle de conﬁance d’une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

3.3 Méthode pour déterminer l’intervalle de conﬁance d’une moyenne ou d’une proportion . . . . . . . . 5

Au sein de l’aléatoire, on distingue deux domaines : la statistique et les probabilités. La statistique est la branche

qui consiste à étudier des données tandis que les probabilités fournissent le cadre théorique pour étudier ces données.

Au sein de la statistique, on distingue à nouveau deux branches. La première est la statistique descriptive dont le but

est de décrire les données (moyenne,variance, régression linéaire) : elle nécessite peu de mathématiques. La seconde,

appelée statistique inférentielle, ou statistique mathématique, est un procédé inductif, i.e. une démarche qui consiste

à partir d’une obeservation pour reconstituer le tout (par exemple, avoir une idée de la proportion d’individus qui

vont voter pour un candidat à partir d’un sondage, d’une observation, de seulement un petit nombre de personnes).

Pour l’histoire, remarquons que le mot statistique vient du mot "état" car celle-ci se limitait, jusqu’au 19me siècle

à présenter des données (statistique descriptive) concernant les eﬀectifs militaires, eﬀectifs de la population. . . . C’est

seulement à partir du 19ème siècle que s’est développée la statistique inférentielle, en particulier lorsqu’est apparu

le cadre théorique apporté par les probabilités (début du 20ème siecle).

1 Echantillonage

But : donner une valeur approchée d’une quantité associée à Ndonnées à partir d’une observation de seulement

nNdonnées. Par exemple :

— une entreprise produit N= 1000000 pièces cylindriques d’un certain diamètre. On veut avoir une valeur

approchée de la moyenne de ces diamètres. Au lieu de contrôler toutes les pièces, on n’en prélève que n= 1000 ;

— parmi une population de N= 35 millions d’individus, une certaine proportion souhaite voter pour un certain

candidat. On souhaite avoir une estimation de cette proportion. Au lieu d’interroger tous les individus, on

eﬀectue un sondage auprès de seulement n= 900 d’entre eux.

Plus formellement, on considère une population mère constituée de Nvaleurs (inconnues pour la plupart d’entre

elles) et notées x1, . . . , xN. On suppose que ces valeurs ont toutes été générées par des variables aléatoires (en

pratique supposées indépendantes) de même loi. On désigne par Xla variable aléatoire qui a généré ces valeurs et

par θun paramètre inconnu de Xdont on cherche à donner une valeur approchée. Par exemple :

— estimation d’une moyenne : θ=µ, pour le contrôle statistique d’un ensemble de pièces issues d’une fabrica-

tion ;

— estimation d’une variance : θ=σ2, pour mesurer la dispersion issue du contrôle ;

— estimation d’une proportion : θ=p, pour avoir une estimation, issue d’un sondage, d’une proportion d’indi-

vidus votant pour un certain candidat.

On se contente d’observer seulement ndonnées engendrées par Xet notées x1, . . . , xn.

Déﬁnition 1. On appelle :

1. échantillon de taille ntout n-uplet de variables aléatoires (X1, . . . , Xn)ayant la même loi que X;

2. n-échantillon tout n-uplet de variables aléatoires (X1, . . . , Xn)indépendantes et de même loi que X;

3. échantillon de valeurs de Xde taille ntoute réalisation (x1, . . . , xn) = (X1(ω), . . . , Xn(ω)) où (X1, . . . , Xn)

est un échantillon de taille npossédant la même loi que X.

Déﬁnition 2. Un prélévement d’échantillons s’appelle un échantillonnage. On dit que l’échantillonnage est exhaustif

(respectivement non-exhaustif) s’il s’agit d’un tirage sans remise (respectivement avec remise).

2 Estimation ponctuelle

2.1 Estimateurs

Déﬁnition 3. On appelle statistique toute variable aléatoire de la forme φ(X1, . . . , Xn)où (X1, . . . , Xn)est un

échantillon de taille n.

Déﬁnition 4. Désignons par θun paramètre inconnu d’une variable aléatoire X. On appelle estimateur de θtoute

statistique Tn=φ(X1, . . . , Xn), indépendante de θ, et telle que θ∈Tn(Ω).

Exemple. Soit Xune variable aléatoire de moyenne µet de variance σ2inconnues. On cherche à estimer ces deux

quantités. Pour cela, on considère un n-échantillon issu de Xet noté (X1, . . . , Xn).

1. La variable aléatoire

Xn=X1+. . . +Xn

est un estimateur de θ=µ.

2. Les variables aléatoires

n=(X1−Xn)2+. . . + (Xn−Xn)2

net S02

n=n

n−1S2

sont des estimateurs de θ=σ2.

Exemple. Soit X=B(p)une variable aléatoire de Bernoulli de paramètre p(i.e. P(X= 1 ) = pet P(X= 0 ) =

1−p) inconnu. On cherche à estimer p. On désigne, à nouveau, par (X1, . . . , Xn)un n-échantillon issu de X. Posons

Kn=B(n, p)le nombre de succès dans (X1, . . . , Xn). Alors, la variable aléatoire

Pn=Kn

est un estimateur de p.

2.2 Propriétés d’un estimateur

Déﬁnition 5. Un estimateur Tn=φ(X1, . . . , Xn)de θest dit :

— sans biais si E[Tn] = θ;

— consistant si P( limn→∞ Tn=θ)=1, i.e. Tn'θ.

Exemple. 1. L’estimateur Xnde µest sans biais et consistant.

2. L’estimateur S2

nde σ2est biaisé mais consistant.

3. L’estimateur S0

2de σ2est sans biais et consistant.

4. L’estimateur Pnde pest sans biais et consistant.

2.3 Estimation

Déﬁnition 6. Toute donnée de la forme φ(x1, . . . , xn) = φ(X1(ω), . . . , Xn(ω)) = Tn(ω)s’appelle une estimation de

θ. On note plus simplement cette estimation ˆ

θ.

Il s’agit donc, à partir de diverses valeurs prises par X, d’associer une valeur ˆ

θunique estimant θ. En général,

θ6=θ.

Paramètres Estimateurs Estimations

Moyenne µ Xn=1

nPn

i=1 Xiˆµ=1

nPn

i=1 xi

Variance σ2S02

n=1

n−1Pn

i=1(Xi−Xn)2ˆ

σ2=1

n−1Pn

i=1(xi−ˆµ)2

Proportion p Pn=Kn

nˆp=ˆ

Figure 1 – Tableau synthétique

Exercice 1. Une usine fabrique de grandes quantités d’un certain type de pièces mécaniques. On mesure la longueur

de chacune des 50 pièces d’un échantillon choisi au hasard et avec remise dans une grosse commande. On constate

que les valeurs approchées arrondies à 10−3près de la moyenne xet de l’écart-type σdes longueurs en millimètres, de

cet échantillon sont : x= 64.715 et σ= 0.095. Donner une estimation ponctuelle de la moyenne µet de l’écart-type

σde la longueur des pièces de l’ensemble de la commande.

Exercice 2. Un groupe d’étudiants en statistique réalise une enquête auprès d’une population d’étudiants en

sociologie en interrogeant un échantillon de n= 135 individus. Ils désirent connaître la proportion pd’étudiants

ayant suivi des études secondaires scientiﬁques. Pour accélérer le traitement, ils partagent le dépouillement en deux :

un demi-groupe constate que, sur 60 des étudiants interrogés, 24 ont suivi des études secondaires scientiﬁques, tandis

que l’autre demi-groupe constate que, sur les 75 étudiants interrogés restants, 33 ont suivi des études secondaires

scientiﬁques. Calculer trois estimations ponctuelles de p.

3 Estimation par intervalles de conﬁance

Motivation : l’estimation ponctuelle fournit une approximation d’un certain paramètre inconnu θ. Cependant,

cette estimation (parce que ponctuelle) fournit, en général, une valeur diﬀérente de la valeur réelle. Il est alors plus

raisonnable de compléter l’estimation ponctuelle par un intervalle contenant (avec grande probabilité) la valeur

réelle.

On désigne toujours par Xune variable aléatoire possédant un paramètre θinconnu et par (x1, . . . , xn) =

(X1(ω), . . . , Xn(ω)) un échantillon de valeurs issues de X.

Déﬁnition 7. On appelle intervalle de conﬁance au seuil 1−αissu de l’échantillon de valeurs x1, . . . , xnun intervalle

(en général non unique) noté Iα(x1, . . . , xn)tel que

P(Iα(X1, . . . , Xn)3θ)=1−α.

Remarque. 1. Dans la probabilité ci-dessus, l’aléa porte sur l’intervalle et non le paramètre (déterministe) θ.

2. Il ne faut pas confondre l’intervalle de conﬁance Iα(x1, . . . , xn), calculée à partir des valeurs données, et

l’intervalle Iα(X1, . . . , Xn)aléatoire qui permet de calculer l’intervalle de conﬁance.

3. Lorsque n≥30 et lorsqu’on a seulement P(Iα(X1, . . . , Xn)3θ)'1−α(i.e. un "à peu près égal" au lieu

d’une "égalité"), on parle d’intervalle de conﬁance asymptotique.

3.1 Intervalle de conﬁance de la moyenne

3.1.1 Cas où la variance est connue

Cas d’une loi normale

Proposition 8. Supposons que X=N(µ, σ2)où σ2est connue. Alors, pour tout n-échantillon de valeurs x1, . . . , xn

issues de X, l’intervalle de conﬁance au seuil αest :

Iα(x1, . . . , xn) = ˆµ−u1−α/2

√n,ˆµ+u1−α/2

√n,(1)

où u1−α/2est le quantile d’ordre 1−α/2de la loi normale centrée réduite (i.e. PU≤u1−α/2= 1 −α/2).

Exercice 3. Une machine produit en grande série des objets de masse théorique 180g. On admet que la variable

aléatoire Xqui associe, à un échantillon de taille 100 (issu de la production de cette machine), sa masse moyenne

en grammes suit une loi normale de moyenne µet d’écart-type σ= 0.092. La valeur exacte de la masse moyenne µ

des objets étant inconnue, on prélève au hasard un échantillon de 100 objets dont on constate que la masse moyenne

est 179.93g. Déterminer un intervalle de conﬁance, au seuil de 10%, de la valeur de µ.

Remarque. La longueur de l’intervalle de conﬁance est d’autant plus petite que la variance σ2est petite et que le

nombre de données nest grand (ce qui est intuitif).

Généralisation à une loi non normale

Remarque. Lorsque Xne suit pas la loi normale et lorsque n≥30, on peut obtenir également un intervalle de

conﬁance en appliquant, cette fois-ci, le théorème central limite. Cet intervalle de conﬁance (asymptotique, car n

doit être suﬃsamment grand) est en fait exactement le même que dans (1).

3.1.2 Cas où la variance n’est pas connue

Cas d’une loi normale

Proposition 9. Supposons que X=N(µ, σ2)où σ2n’est pas connue. Alors, pour tout n-échantillon de valeurs

x1, . . . , xnissues de X, l’intervalle de conﬁance au seuil αest :

Iα(x1, . . . , xn) = ˆµ−t1−α/2;n−1

ˆσ

√n,ˆµ+t1−α/2;n−1

ˆσ

√n,(2)

où t1−α/2;n−1est le quantile d’ordre 1−α/2de la loi de Student à n−1degrés de liberté (i.e. PTn−1≤t1−α/2;n−1=

1−α/2).

Généralisation à une loi non normale

Remarque. 1. Lorsque Xne suit pas la loi normale et lorsque n≥30, on peut obtenir également un intervalle

de conﬁance en appliquant, comme dans la section précédente, le théorème central limite. Cet intervalle de

conﬁance (asymptotique) est donné par :

Iα(x1, . . . , xn) = ˆµ−u1−α/2

ˆσ

√n,ˆµ+u1−α/2

ˆσ

√n.(3)

2. Lorsque Xsuit la loi normale, et lorsque n < 30, il faut utiliser l’intervalle de conﬁance (exact) donné dans

(2).

3. Lorsque Xsuit la loi normale, et lorsque n≥30, il est préférable de considérer l’intervalle de conﬁance

(exact) donné dans (2) plutôt que celui (asymptotique) donné dans (3). En fait (toujours dans le cas où nest

suﬃsamment grand), ces deux intervalles sont presque identiques car t1−α/2;n−1'u1−α/2.

Loi normale Loi quelconque (n≥30)

σ2connue intervalle (1) intervalle (1)

σ2non connue intervalle (2) intervalle (3)

Nature de l’intervalle intervalle exact intervalle asymptotique

Figure 2 – Tableau synthétique

3.2 Intervalle de conﬁance d’une proportion

Proposition 10. Supposons que X=B(p). Désignons par ˆp=ˆ

nl’estimation ponctuelle de p. Alors l’intervalle de

conﬁance au seuil αest :

Iα(x1, . . . , xn) = "ˆp−u1−α/2rˆp(1 −ˆp)

n,ˆp+u1−α/2rˆp(1 −ˆp)

n#,(4)

où u1−α/2est le quantile d’ordre 1−α/2de la loi normale centrée réduite (i.e. PU≤u1−α/2= 1 −α/2).

Remarque. En particulier, l’estimation par intervalle de conﬁance de pse situe dans le même contexte que l’esti-

mation d’une moyenne pour une variable aléatoire de variance non connue (Section 3.1.2). Dans le cas où n≥30,

l’intervalle de conﬁance (exact) donné dans (4) est presque identique à l’intervalle de conﬁance (asymptotique)

donné dans (3) (remarquer que σ2=p(1 −p)pour une variable de Bernoulli).

Exercice 4. Dans le contexte de l’exercice 2, donner trois intervalles de conﬁance pour pau seuil 1−α= 95%.

Commenter les résultats.

3.3 Méthode pour déterminer l’intervalle de conﬁance d’une moyenne ou d’une pro-

portion

Pour déterminer l’intervalle de conﬁance (exact ou asymptotique) d’une moyenne ou d’une proportion, procéder

comme suit :

1 / 6 100%

Documents connexes

integrales

TERMINALE S Chapitre: PROBABILITÉ 3/3 Exemple

Examen de Mathématiques - Fonctions et Géométrie

Télécharger - Programme canadien de surveillance pédiatrique

Cours de maths - Terminale ES - Probabilités : lois à densité

Evaluation diagnostique: Vrai ou FAUX

Statistiques TP 4 Méthode de MonteCarlo, intervalles de confiance

Solutions du chapitre I

01749Q - 16ouplus

Terminale ES Intervalle de fluctuation -Estimation Intervalle de fluctuation

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Estimation - Nicolas Chenavier

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Estimation - Nicolas Chenavier

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib