estimation - Université Paris 8

Master 1 ESTIMATION Mars 2009

I INTRODUCTION

Dans son livre, ”Le jeu de la science et du hasard”, Daniel Schwartz, cite cette anecdote d'un anglais qui débarque à Calais et qui

apercevant une femme rousse, conclut :”Tiens, les françaises sont rousses”....Nous rions de son erreur, mais bien souvent nous avons

du mal à l'éviter ; il cite lui même le cas d'un ami mathématicien, qui le rencontre à Paris un samedi et lui dit :”..Tu ne vas plus à

la campagne le samedi ?” ; plus loin il imagine un chirurgien, auteur d'une nouvelle technique opératoire qui écrit aux 1000 premiers

patients qui en ont bénéciée ; il reçoit 100 réponses : 75 sont très satisfaits, 25 non ; il évalue donc la proportion de succès à 75%, à

partir de cet échantillon. Cependant le doute le saisit : que sont devenus les 900 autres patients, qui n'ont pas répondu ? Réponse : ils

sont morts des suites de l'opération....No comment.

On comprend donc le problème qui se pose : on est souvent amené à décrire une population à partir d'un échantillon, soit parce

que tester la population entière est impossible, on ne peut interroger chaque électeur sur ses intentions pour construire un sondage, soit

parce que le test peut détruire l'échantillon ; on voit mal un fabriquant d'ampoules tester leur durée de vie en les laissant toutes allumées

jusqu'à leur usure complète.

C'est l'objet de l'induction ; les statisticiens appellent inférence la démarche qui consite à passer du particulier, c'est-à dire

de l'échantillon, au général, c'est-à dire à la population-mère. Les tests statistiques permettent de saisir les éffets des uctuations

d'échantillonnage et de répondre à la question fondamentale : que valent les informations issues d'un échantillon ? permettent-elles de

décrire la population ?

Ainsi se pose de façon cruciale le choix de l'échantillon, et notamment la construction d'un échantillon représentatif de la population.

On ne peut pas tester la population française par les personnes dont le nom commence par un A;ou les étudiants d'un certain cours ni

en prenant ceux du premier rang ( quand il y en a..) ni ceux du dernier rang. Ces échantillons évoqués sont dits ”biaisés”, en ce sens

qu'ils diffèrent systématiquement de la population ; ils ne sont pas représentatifs. La seule façon satisfaisante du point de vue théorique,

pour éviter le biais, est que l'appartenance d'un élément à l'échantillon ne dépende en aucun cas d'une caractéristique de cet élément

(première lettre du nom, place dans l'amphithéâtre,..), mais provienne uniquement du hasard, d'un tirage aléatoire, où chaque individu

a la même probabilité d'être choisi. Si l'on veut tester si la soupe est correctement salée, et si elle a été bien mélangée, on aura la même

conclusion en goûtant dans la marmite, ou dans l'assiette de quelqu'un.

Dans de nombreux sondages, on utilise un échantillonnage plus sophistiqué que le tirage au sort : on procède par strates, en xant

à l'avance le nombre d'individus qui devront avoir tel âge, sexe, catégorie socio-professionnelle, etc. Mais à l'intérieur de chaque

sous-groupe, les individus retenus devront résulter d'un tirage au sort.

La statistique est basée sur le fait que les données observées sont des réalisations de variables aléatoires ; ainsi les nvaleurs ob-

servées dans une population constituent nréalisations indépendantes d'une variable aléatoire Xsuivant une loi de probabilité P; ou une

réalisation du n-uplet (X1;X2;:::; Xn)où les Xisont des variables aléatoires indépendantes et de même loi, P(i:i:d: indépendantes et

identiquement distribuées). On note (x1;x2;:::; xn)un échantillon de taille nou par extension (X1;X2;:::; Xn):

Par exemple, si l'on désire tester la durée de vie d'une ampoule dans une population de taille 10000;un échantillon de taille 10 sera

noté (X1;X2;:::; X10);où X1est la durée de vie de l'ampoule N1;etc. Si l'expérience nous donne pour la première ampoule une

durée de vie de 500 heures, alors x1= 500:A partir de notre échantillon, nous pourrons calculer diverses caractéristiques, comme la

moyenne de l'échantillon, et nous chercherons à estimer la moyenne inconnue de la population.

Pour estimer un paramètre inconnu d'une population, on peut se xer deux types d'objectifs : soit rechercher une estimation sous la

forme d'un nombre et on parle alors d'estimation ponctuelle, soit rechercher un intervalle qui contienne le paramètre inconnu, avec un

risque d'erreur consenti, et on parle alors d'intervalle de conance (fourchette).

II ECHANTILLONS

Nous supposerons dans la suite que l'on procède à un échantillonnage aléatoire, c'est-à dire que tous les individus d'une population

de taille Nont été numérotés et que l'on a tiré au sort n(n<N)nombres parmi les entiers de 1àN; pour constituer un échantillon

aléatoire de taille n: On peut effectuer le tirage de deux façons donnant lieu à deux types d'échantillons.

1. Un échantillon est dit exhaustif (du latin ”épuiser”, au sens épuiser toutes les possibilités), s'il est constitué sans remise et non

exhaustif s'il est constitué avec remise.

2. Dans le cas d'un tirage non exhaustif (avec remise), il y a indépendance entre les tirages.

3. Dans le cas d'échantillons exhaustifs constitués à partir d'une population nie de taille N; il n'y a pas indépendance. On dénit alors

le taux de sondage T=n

N:Si le taux de sondage est sufsamment petit ( T0:05), on peut assimiler (comme dans la situation

d'un schéma de Bernoulli) un échantillon exhaustif à un ensemble de valeurs résultant de tirages indépendants.

4. Convention : les résultats énoncés dans ce chapitre supposent par défaut que les échantillons considérés sont soit non

exhaustifs soit exhaustifs avec un taux de sondage : T=n

Ninférieur ou égal à 5%:

Dans le cas contraire, pour des populations nies, de taille N; si n0:05N; on devra utiliser un correctif qui sera précisé.

page 1 UFR14

2ESTIMATION

III ESTIMATION PONCTUELLE

1. ESTIMATEUR

Supposons que lors d'un concours comportant 1000 candidats, on ait corrigé 100 copies. Si notre échantillon de 100 copies a pour

moyenne 10:85;cette valeur numérique constitue une estimation "naturelle" de la moyenne inconnue de la population des copies.

Dénition : considérons une population et un paramètre inconnu de cette population (par exemple sa moyenne). Un estimateur

est une fonction fqui à chaque échantillon tiré au hasard, (X1;X2;:::; Xn)associe un nombre, f(x1;x2;:::; xn)qui constitue une

estimation du paramètre : L'estimateur est noté b

; c'est une variable aléatoire qui dépend de l'échantillon.

Dans notre exemple précédent un estimateur de la moyenne mdes notes est :c

M=X1+X2+::: +X100

100 et bm= 10:85 une

estimation de cette moyenne. On aurait pu prendre comme estimateur la médiane des Xi(ivariant de 1à100);ou encore tout

simplement la note de la première copie tirée au hasard. On comprend que ces différents estimateurs ne sont pas équivalents et l'on

va dénir diverses caractéristiques d'un estimateur de façon à choisir celui qui permettra d'obtenir une estimation la plus proche

possible du paramètre inconnu.

2. BIAIS

On appelle biais d'un estimateur b

, la différence Eb

; entre l'espérance de b

et : Le biais est positif si b

tend à surestimer 

et négatif dans la cas contraire.

On notera que la variable aléatoire b

qui représente l'erreur d'estimation s'écrit : b

=b

Eb



| {z }

+Eb



| {z }

;le premier

terme représentant les uctuations de b

autour de son espérance (erreur aléatoire) et le deuxième terme représentant le biais (erreur

systématique). On cherchera des estimateurs sans biais, en gardant à l'esprit l'importance d'autres critères comme la variance.

3. ESTIMATEUR SANS BIAIS

a. Un estimateur b

est sans biais si Eb

=:

En clair, la moyenne des valeurs de l'estimateur dans tous les échantillons de même taille est égale à la valeur du paramètre dans

la population.

Exemple important : l'estimateur X=X1+X2+::: +Xn

nqui à un échantillon de taille nassocie la moyenne de l'échantillon

est un estimateur sans biais de la moyenne mde la population.

b. Les grands échantillons : un estimateur b

est asymptotiquement sans biais si lim

n!+1Eb

=:

Exemple : on considère que le temps d'attente Xentre deux rames de métro est une variable aléatoire qui suit une loi uni-

forme sur un intervalle [a;b];les bornes aet bétant inconnues. Soient X1; X2::; Xnun échantillon de nvaleurs mutuellement

indépendantes et Z=Min(X1; X2::; Xn)un estimateur de a: On admet que E(Z) = na+b

n+1 : Z est-il biaisé ?

4. ESTIMATEUR EFFICACE

On notera qu'un estimateur sans biais n'est pas une garantie d'obtenir une estimation de satisfaisante ; si la variance de b

est grande,

on peut se trouver assez malchanceux avec l'échantillon prélevé et obtenir une estimation éloignée de : Il est donc important que la

variance de b

soit aussi faible que possible.

a. Dénition : b

est un estimateur efcace de s'il est sans biais et s'il possède la variance la plus faible des estimateurs sans biais.

On parle de meilleur estimateur sans biais (BUE : best unbiased estimator).

b. Si b

1et b

2sont deux estimateurs sans biais, on dira que b

1est plus efcace que b

2si Vb

1< V b

2:

c. Estimateur linéaire : on a vu que X=1

nX1+ 1

nX2+::: +1

nXnest un estimateur de la moyenne de la population ; cet estimateur

est linéaire car c'est une combinaison linéaire des observations de l'échantillon, du type : b

=a1X1+a2X2+::: +anXn:

d. Estimateur BLUE ( best linear unbiased estimator) : un estimateur BLU E est un estimateur linéaire sans biais de variance

minimale. On peut néanmoins trouver un estimateur non linéaire plus efcace qu'un estimateur BLUE.

5. ERREUR QUADRATIQUE MOYENNE

Un estimateur sans biais peut avoir une grande variance et pose alors un problème : si b

1est un estimateur sans biais de et si

2est un autre estimateur légèrement biaisé, mais avec Vb

2< V b

1;quel estimateur choisir ? On dénit la précision d'un

estimateur en mesurant sa dispersion autour de la vraie valeur inconnue de :

a. Dénition : l'erreur quadratique moyenne est dénie par : EQM =Eb

2:

b. Relation entre erreur quadratique et biais : 2 UFR14

Master 1 ESTIMATION

Eb

2=Eb

Eb

+Eb

2=

Eb

Eb

2+2Ehb

Eb

Eb

i+EEb

2

=Vb

+Eb

2

car Ehb

Eb

i= 0 et Eb

est une constante.

En conclusion : l'erreur quadratique moyenne est la somme de la variance de b

et du carré du biais :

Eb

2=Vb

+Eb

2

c. Remarque : pour un estimateur sans biais, l'erreur quadratique moyenne est la variance, car Eb

=:

6. ESTIMATEUR ET GRANDS ECHANTILLONS CONVERGENT

Un estimateur b

est dit convergent (vers )si b

converge vers quand ntend vers l'inni, c'est à dire si la probabilité que b

s'écarte

de tend vers 0quand ntend vers l'inni : quel que soit " > 0;lim

n!+1Pb

= 0:

L'ensemble des valeurs que peut prendre l'estimateur dans tous les échantillons de même taille doit se ressérer autour de la valeur du

paramètre de la population, quand la taille de l'échantillon augmente. On notera que si b

est un estimateur convergent, alors gb



constituera un estimateur convergent de g();pour toute fonction gde Rdans Rcontinue.

7. Echantillonnage de la moyenne (sur un exemple)

a. Exemple :

Soit une population de 5 étudiants dont les notes à un examen de statistique sont les suivantes : 1 ; 2 ; 5 ; 7 ; 10 (sur 10).

Considérons l'expérience aléatoire qui consiste à prélever un échantillon aléatoire (sans remise) de taille n(n= 2 ou 3ou 4

dans les calculs qui suivent) et notons Xnla variable aléatoire, appelée moyenne d'échantillon qui à chaque échantillon de taille

nassocie sa moyenne. Calculons ensuite l'espérance de Xn. Cela suppose d'exhiber tous les échantillons, de calculer leurs

moyennes respectives et d'effectuer la moyenne de ces moyennes. On a calculé par ailleurs, la moyenne = 5 et la variance

2= 10:8de la population.

i. Echantillons de taille 2, sans remise :

Il y a A2

5= 20 échantillons de taille 2ayant tous la même probabilité, 1

20;d'être choisis. Il y a 20 moyennes à calculer, en

fait 10;car les échantillons (1; 2) et (2; 1) ;par exemple, ont la même moyenne.

Echantillons et moyennes

(1; 2) (1; 5) (1; 7) (1; 10) (2; 5) (2; 7) (2; 10) (5; 7) (5; 10) (7; 10)

(2; 1) (5; 1) (7; 1) (10; 1) (5; 2) (7; 2) (10; 2) (7; 5) (10; 5) (10; 7)

1:5 3 4 5:5 3:5 4:5 6 6 7:5 8:5

On peut alors donner la distribution d'échantillonage de la moyenne (modalités xiet effectifs ni).

xi1:5 3 3:5 4 5:5 4:5 6 7:5 8:5

ni2 2 2 2 2 2 4 2 2

La moyenne des xiest : EX2=21:5+23+24+25:5+23:5+24:5+46+27:5+28:5

20 = 5:

On note que 5est la moyenne de la population.

ii. Echantillons de taille 3(sans remise) :

Il y a A3

5= 5 43 = 60 échantillons, on en exhibe 10, chacun en donnant 6 par permutation.

TAILLE 3

Ech. (1; 2; 5) (1; 2; 7) (1; 2; 10) (1; 5; 7) (1; 5; 10) (1; 7; 10) (2; 5; 7) (2; 5; 10) (2; 7; 10) (5; 7; 10)

xi2:7 3:3 4:3 4:3 5:3 6 4:7 5:7 6:3 7:3

On trouve pour la moyenne des échantillons de taille 3:EX3= 5

Bilan échantillons exhaustifs :

TAILLE 2

EX2VX2

5 4:05

TAILLE 3

EX3VX3

5 1:8

TAILLE 4

EX4VX4

5 0:675

iii. Echantillons non exhaustifs de taille 2:

Il y a 52= 25 échantillons de ce type.

TAILLE 2

(1; 2) (1; 5) (1; 7) (1; 10) (2; 5) (2; 7) (2; 10) (5; 7) (5; 10) (7; 10)

(2; 1) (5; 1) (7; 1) (10; 1) (5; 2) (7; 2) (10; 2) (7; 5) (10; 5) (10; 7)

(1; 1) (2; 2) (5; 5) (7; 7) (10; 10)

EXVX

5 5:4

| {z }

TAILLE 2AVEC REMISE

page 3 UFR14

4ESTIMATION

iv. Conclusion :

On a constaté sur tous nos exemples que la moyenne des moyennes est égale à celle de la population, mais que la variance des

moyennes est plus petite que celle de la population et qu'elle diminue avec la taille de l'échantillon.

IV DISTRIBUTION D'ECHANTILLONAGE DE LA MOYENNE

1. Notations

Soit une population de taille N(ou innie) sur laquelle est déni un caractère quantitatif noté Xayant dans cette population pour

moyenne et pour écart-type . En prélevant au hasard un échantillon de taille n, nous créons une suite de nvariables aléatoires

indépendantes, de même distribution que X; notées X1;X2;:::;Xnet prenant respectivement pour valeurs les valeurs prises par X

sur chacun des nindividus de l'échantillon.

2. Dénition

On dénit la variable aléatoire notée Xn, appelée moyenne d'échantillon et dénie par :

Xn=X1+X2+::: +Xn

Nous allons déterminer la moyenne, la variance et l'écart-type de la moyenne d'échantillon.

3. Espérance

Par linéarité de l'espérance, on a :

EXn=1

nPE(Xi);mais E(Xi) = et donc EXn=1

nn =:

La moyenne d'échantillon est un estimateur sans biais de la moyenne de la population.

La moyenne de la variable aléatoire Xest toujours égale à la moyenne de la population mère, celle d'où l'échantillon a été

prélevé.

4. Variance et écart-type

VXn=VX1+X2+::: +Xn

n=1

n2V(X1+X2+::: +Xn), de plus les variables Xiétant indépendantes la variance est

additive et on a : VXn=1

n2PV(Xi) = 1

n2car V(Xi) = V(X) = 2; on en déduit : Xn=1

pn: On note que

l'écart-type de la variable Xdiminue quand la taille nde l'échantillon augmente, en clair plus la taille de l'échantillon est grande,

plus Xn"se concentre" autour de la moyenne de la population.

5. A retenir :

Si l'on extrait d'une population d'espérance et d'écart-type un échantillon de taille n; la moyenne de cet échantillon est

une variable aléatoire de moyenne et d'écart-type 

pn:

EXn= V Xn=2

nXn=

6. Flash-Back : TCL

Le théorème central limite permet d'afrmer que la distribution de la moyenne d'échantillon tend vers une loi normale au

fur et à mesure que la taille nde l'échantillon augmente et ce sans aucune hypothèse sur la loi parente (loi de la population).

Si la loi parente a pour moyenne et pour écart-type, la moyenne d'échantillon de taille n; notée Xn;suit approximative-

ment la loi N;

pn:L'approximation est jugée satisfaisante lorsque la taille de l'échantillon est d'au moins 30:

Pratique : si l'on note Z=Xn



;la probabilité P(aZb)a pour valeur approchée F(b)F(a);quand nest assez grand,

Fdésignant la fonction de répartition de la loi normale centrée réduite.

7. Petits échantillons ( n < 30) :distribution de Student

Dans le cas de petits échantillons, nous devrons supposer que la loi de la population est normale, pour afrmer que la moyenne

d'échantillonage suit une loi normale. Mais il subsite un problème : l'estimation de par Sn'est pas able, car elle varie trop d'un

échantillon à l'autre ; le TCL ne s'applique pas et on doit utiliser la distribution de Student (W.S.Gosset, statisticien qui travaillait

dans la brasserie irlandaise Guiness).

Rappel :

Si l'échantillonnage s'effectue à partir d'une population normale

La variance 2est inconnue

La taille de l'échantillon est petite ( n < 30). alors :

T=X

suit une loi de Student à =n1ddl (degré de liberté). cf exemple intervalle de conance 3c.

4 UFR14

Master 1 ESTIMATION

8. Exercice

a. Une machine automatique produit des pièces dont le poids moyen est de 5g avec un écart-type de 0:25g. Le contrôle de qualité

fait prélever 100 pièces. Calculer la probabilité que la moyenne d'un échantillon de taille 100 soit inférieure ou égale à 5:01g:

(réponse : 65:54%)

b. Déterminons un intervalle centré sur la moyenne tel qu'on puisse afrmer qu'avec une probabilité de 95% cet intervalle contient

le poids moyen.

Solution : l'intervalle que nous cherchons est déni par : z0:025 Zz0:025;avec P(Zz0:025) = 97:5;ce qui donne

:z0:025 = 1:96,1:96 X



pn1:96 soit 1:96 X



pn1:96 soit X1:96 

pnX+ 1:96 

pnsoit ici :

51:96 0:25

p100 5 + 1:96 0:25

p100 soit l'intervalle : [4:951 ; 5:049] :On attribue à cet intervalle le niveau de conance de

95% de contenir la vraie valeur de ; ce qui signie que pour 95% des échantillons de taille 100 prélevés dans cette population

la moyenne de la population se trouve dans l'intervalle calculé (on dit aussi 19 fois sur 20):

9. On a établi précédemment que : EXn=et Xn=1

pn; on en déduit que Xnest un estimateur (ponctuel) sans biais de

(moyenne de la population).

10. Trois estimateurs à connaître : Moyenne, Variance et proportion.

a. Moyenne :

Le problème est réglé : Xnest un estimateur ponctuel sans biais de et l'estimation sera notée :b=Xn(moyenne de

l'échantillon).

b. Variance et Ecart-type :

i. Estimateur sans biais

Si on note S2un estimateur sans biais de la variance, on attend de lui : ES2=2. On est tenté de penser que la

variance d'échantillon, 1

nPXiXn2;pourrait tenir ce rôle, mais cet estimateur est "biaisé" ; si l'on extrait de nombreux

échantillons d'une population de variance 2, on constatera qu'en moyenne la variance d'échantillon sera inférieure à la

vraie valeur 2:On démontre que la moyenne des variances de tous les échantillons de taille nn'est pas la variance de la

population.

On a : 1

nPXiXn2=1

nP(Xi)Xn2=1

nP(Xi)2+Xn22

nP(Xi)Xn

soit en développant : 1

nP(Xi)2+Xn22

nXnP(Xi) = 1

nP(Xi)2Xn2; il reste

à prendre l'espérance des deux membres, et à utiliser la linéarité : E1

nPXiXn2=1

nPE(Xi)2

EXn2=1

nP22

n=22

n=n1

n2; on corrige ce biais en posant :

S2=n

n11

nPXiXn2=1

n1PXiXn2et on a alors : ES2=n

n1n1

n2=2:

On doit retenir :

Un estimateur sans biais de la variance de la population est la variance d'un échantillon aléatoire de taille ndénie par

S2=1

n1XXiXn2

qui donne comme estimation de la variance : S2=n

n12

noù 2

n=1

nPxiXn2désigne la variance calculée

sur l'échantillon ; on obtient comme estimation de l'écart-type :S=rn

n1n.

On note que S > n:

ii. Calculatrice

La calculatrice statistique fournit à partir de données d'un échantillon, l'écart-type de l'échantillon, noté X(avec nos nota-

tions n) et l'estimation de l'écart-type de la population, notée SX(avec nos notations s).

Rentrer dans une liste l'échantillon de taille 3;(10 ; 20 ; 50) ; dans le menu Calcul 1variable on obtient : X= 16:9967 et

SX'20:8167 ; on vérie que SX'r3

2X'16:9967 r3

2'20:816 6:

iii. Exercice corrigé

Par un sondage effectué auprès d'un échantillon de 178 cadres supérieurs, on a obtenu un revenu annuel moyen de 41854 e,

avec un écart-type de 7684 e, l'objectif étant d'estimer le revenu annuel de tous les cadres supérieurs.

Estimer ponctuellement le salaire moyen et l'écart-type du salaire moyen des cadres de la population.

page 5 UFR14

1 / 9 100%

Documents connexes

Solutions du chapitre I

Document

les notations

Une loi (8 points) 1 Variables Gaussiennes (12 points)

TP 4 - David Haziza Website

Solutions chapitre 3

ExamHLMA406bis Fichier

TD n 3 : Estimation par maximum de vraisemblance.

TD Estimation Maximum de Vraisemblance - Maths Supérieures

1 Estimateurs (inspirés de [1]) 2 Estimateurs du maximum de

Exercices : Statistiques Paramétriques & Non Paramétriques

Détermination d`une statistique exhaustive Estimateurs et

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

estimation - Université Paris 8

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

estimation - Université Paris 8

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib