k - Cedric/CNAM

publicité
Plans à probabilités inégales
Sommaire
1. Pourquoi échantillonner à probabilités inégales ?
a. Intérêts
b. Un petit exemple
c. Le choix des probabilités d’inclusion : cas des plans
proportionnels à la taille
2. Comment estimer un total ?
a. Définition de l’estimateur de Horvitz-Thompson
b. Espérance de l’estimateur de Horvitz-Thompson
c. Variance de l’estimateur de Horvitz-Thompson
d. Estimation de la variance de l’estimateur de HorvitzThompson
3. Comment estimer une moyenne ?
a. L’estimateur de Horvitz-Thompson
b. L’estimateur de Hájek
4. Comment construire des intervalles de confiance pour le total ou
la moyenne ?
_________________________________________________________________________
Plans à probabilités inégales - Module B8-CNAM
29/10/2004 - S.Rousseau
1
1. Pourquoi échantillonner à probabilités inégales ?
a. Intérêts
Lorsque les unités de la population étudiée contribuent inégalement à
un total, échantillonner à probabilités inégales est souhaitable parce que
cela permet de retenir de préférence les unités les plus porteuses de
l’information.
Il en résulte des estimations plus précises par rapport à la situation où
toutes les unités sont échantillonnées comme si elles possédaient la
même importance.
Exemple : pour estimer la production d’un secteur que l’on sait
assurée par 2 géants du secteur et des centaines de PME, il
est légitime de sélectionner d’office les 2 grandes
entreprises et d’échantillonner de manière aléatoire
quelques PME.
Le principe est d’aller chercher l’information là où elle se trouve.
Ce qui suppose de disposer avant l’échantillonnage d’information
auxiliaire connue sur toute la population et liée avec le caractère
d’intérêt.
_________________________________________________________________________
Plans à probabilités inégales - Module B8-CNAM
29/10/2004 - S.Rousseau
2
b. Un petit exemple
Soit une population de 4 entreprises A, B, C et D comptant respectivement 500,
100, 30 et 20 salariés. Admettons que l'on veuille estimer le nombre total de
salariés (certes connu : 650) à partir d'un échantillon de taille 2 et comparons les 2
tirages suivants :
q
q
un sondage aléatoire simple sans remise,
un échantillonnage à probabilités inégales avec les probabilités ci-dessous :
Entreprise k Effectif salarié Xk
A
B
C
D
500
100
30
20
Probabilité d'inclusion
pk
1
0,5
0,25
0,25
Avec le sondage aléatoire simple, il y a C42 = 6 échantillons possibles :
Probabilité
Echantillon s
de tirage p(s)
(1)
{A, B}
{A, C}
{A, D}
{B, C}
{B, D}
{C, D}
1/6
1 200 = 4 ¸ 2 ´ ( 500 + 100 )
Estimation du nombre
total de salariés des 4
entreprises
1 200 (1)
1 060
1 040
260
240
100
En moyenne, on estime parfaitement bien le vrai effectif total de 650 salariés.
Mais l'estimateur est très dispersé : sa variance vaut 207 567 (CV @ 70%).
Avec le plan à probabilités inégales, seuls 3 échantillons sont possibles :
Probabilité
Echantillon s
de tirage p(s)
{A, B}
{A, C}
{A, D}
(2)
0,5
0,25
0,25
Estimation du nombre
total de salariés des 4
entreprises
700 (2)
620
580
700 = 500 + ( 100 ¸ 0,5 )
En moyenne, l'estimateur est aussi sans biais.
Et sa variance est beaucoup plus faible, elle vaut 2 700 (CV @ 8%).
_________________________________________________________________________
Plans à probabilités inégales - Module B8-CNAM
29/10/2004 - S.Rousseau
3
Mais si les probabilités d’inclusion avaient été respectivement 0.25, 0.25, 0.5 et 1
pour les entreprises A à D, alors la qualité de l’estimation aurait été moindre
qu’avec le sondage aléatoire simple sans remise. En effet, on obtient dans ce cas
comme échantillons possibles et estimations associées:
Probabilité
Echantillon s
de tirage p(s)
{A, D}
{B, D}
{C, D}
(3)
0,25
0,25
0,5
Estimation du nombre
total de salariés des 4
entreprises
2 020 (3)
420
80
2 020 = ( 500 ¸ 0,25 ) + ( 20 ¸1)
Une nouvelle fois, en moyenne l'estimateur est sans biais.
Mais il s’avère extrêmement dispersé : sa variance vaut 644 900 (CV @ 124%).
Il peut donc s’avèrer très intéressant de sélectionner les unités avec des
probabilités d’inclusion proportionnelles aux valeurs prises pour un
caractère x, lié positivement avec le caractère d’intérêt et connu pour
tous les individus de la base de sondage.
_________________________________________________________________________
Plans à probabilités inégales - Module B8-CNAM
29/10/2004 - S.Rousseau
4
c. Le choix des probabilités d’inclusion : cas des plans
proportionnels à la taille (ppt)
Considérons par exemple une enquête qui s’intéresse au chiffre
d’affaires d’entreprises d’un secteur donné. Si l’on dispose du nombre
de salariés de toutes les entreprises de ce secteur et si on pressent que le
chiffre d’affaires est plus ou moins proportionnel au nombre de
salariés, il est légitime de calculer les probabilités d’inclusion de toutes
les entreprises de manière proportionnelle à leur effectif salarié : on
parle de plans proportionnels à la taille.
Pour un échantillon de taille fixe n, on calcule la probabilité de
sélectionner la kème entreprise selon :
"k Î U , π k = P(k Î S ) = n
Xk
å Xk
kÎU
où Xk désigne la variable de taille, ici le nombre de salariés de la kème
entreprise de la population U.
On vérifie que :
åπ
k
=n
kÎU
(plan de taille fixe).
On voit cependant que certaines probabilités d’inclusion pk peuvent
dépasser 1. Dans ce cas,
-
-
on sélectionne d’office les unités en question : on pose pk = 1
pour ces unités (elles constituent une strate dite exhaustive)
on recalcule les probabilités d’inclusion des autres individus
proportionnellement à la taille de l’échantillon restant à
sélectionner et à leur contribution dans le nouveau total (quitte à
réitèrer la démarche jusqu’à ce que pk £ 1, " kÎU) .
_________________________________________________________________________
Plans à probabilités inégales - Module B8-CNAM
29/10/2004 - S.Rousseau
5
Les notations :
Ÿ
Population : U = {1,..., k ,..., N }
N
tY = å Yk = å Yk
Ÿ
Total de la variable Y :
Ÿ
1
m
=
Moyenne de la variable Y : Y
N
Ÿ
Probabilité d’inclusion d’un individu k de U dans S :
k =1
kÎU
N
å Yk =
k =1
tY
N
π k = P(k Î S) = E (I k )
ì1 si k Î S
I
=
où k í
î0 sinon
ie I k ~ B(p k )
(variable indicatrice introduite par Cornfield en 1944)
Ÿ
Probabilité d’inclusion de 2 individus k et l de U dans S :
π kl = P(k Î S et l Î S) = E (I kl ) = (I k I l )
ì1 si k Î S et l Î S
î0 sinon
où I kl = I k ´ I l = í
Ÿ
Covariance entre
Ik
et
Il
pour k et l de U :
D kl = E (I kl ) - E (I k )E (I l ) = p kl - p k p l
_________________________________________________________________________
Plans à probabilités inégales - Module B8-CNAM
29/10/2004 - S.Rousseau
6
2. Comment estimer un total ?
a. L’estimateur de Horvitz et Thompson ou p-estimateur ou
estimateur par les valeurs dilatées
En 1952, Horvitz et Thompson ont proposé l’estimateur suivant du
total ty de la variable Y :
Y
tˆYp = å k
kÎs p k
Remarques :
· C’est un estimateur linéaire, les poids de sondage ne dépendent
pas de l’échantillon.
· Il permet d’estimer la taille N de la population, qu’elle soit
connue ou non :
1
Nˆ p = å
kÎs p k
· Il est valable quel que soit le plan de sondage.
· Il généralise les résultats du sondage aléatoire simple sans remise
de taille fixe n, où p k =
n
pour tout k de U.
N
_________________________________________________________________________
Plans à probabilités inégales - Module B8-CNAM
29/10/2004 - S.Rousseau
7
b. L’espérance de l’estimateur de Horvitz et Thompson
Propriété 1 :
Si pk > 0 pour tout individu k de la population U,
alors l’estimateur d’Horvitz et Thompson du total est sans biais.
Démonstration :
æ Y
E( tˆYp ) = E çç å k
è kÎs p k
æ
ö
Yk ö
Yk
÷= å
÷÷ = E ç å
I
Yk = t Y - å Yk
k
÷ kÎU / p >0 p E (I k ) = kÎUå
ç kÎU / p >0 p
/
p
kÎU / p k = 0
k
k
ø
k
k
k >0
ø
è
Si certaines probabilités d’inclusion sont nulles, alors l’estimateur est biaisé. Ce
biais ne dépend que des unités qui ont aucune chance d’être échantillonnées : on
parle de problème de couverture.
c. La variance de l’estimateur d’Horvitz et Thompson
i.
Dans le cas général
Propriété 2 :
Si pk > 0 pour tout k de U, alors la variance de
l’estimateur d’Horvitz et Thompson du total vaut :
Yk Yl
D kl
kÎU lÎU p k p l
Var ( tˆYp ) = åå
Démonstration :
æ Y
Var ( tˆYp ) = Var çç å k
è kÎs p k
æY
= å Var çç k
kÎU
èp k
ö
æ Y
ö
÷÷ = Var çç å k I k ÷÷
ø
è kÎU p k ø
ö
æY
Y ö
I k ÷÷ + åå Covçç k I k , l I l ÷÷
pl ø
ø kÎU llιUk
èp k
2
æY
= å çç k
kÎU è p k
ö
Y Y
÷÷ Var (I k ) + åå k l Cov(I k , I l )
kÎU lÎU p k p l
ø
l ¹k
æY
= å çç k
kÎU è p k
ö
Y Y
÷÷ p k (1 - p k ) + åå k l D kl
kÎU lÎU p k p l
ø
2
Yk Yl
D kl
kÎU lÎU p k p l
= åå
l ¹k
car D kk = p k (1 - p k )
_________________________________________________________________________
Plans à probabilités inégales - Module B8-CNAM
29/10/2004 - S.Rousseau
8
ii.
Dans le cas d’un plan de taille fixe
Propriété 3 :
Si pk > 0 pour tout k de U et si le plan est de taille
fixe, alors Sen, Yates et Grundy ont montré que la variance de
l’estimateur d’Horvitz et Thompson du total peut aussi s’écrire:
2
æY
Y ö
1
Var ( tˆYp ) = - åå çç k - l ÷÷ D kl
2 kÎU lÎU è p k p l ø
Démonstration :
2
éæ Y
æ Yk Yl ö
1
1
- åå çç
- ÷÷ D kl = - åå êçç k
2 kÎU lÎU è p k p l ø
2 kÎU lÎU êè p k
ë
æY
= - åå çç k
kÎU lÎU è p k
æY
= å çç k
kÎU è p k
ö
÷÷
ø
2
2
ö æ Yl ö
Y Y ù
÷÷ + çç ÷÷ - 2 k l úD kl
pk pl ú
ø èpl ø
û
2
ö
Y Y
÷÷ D kl + åå k l D kl
kÎU lÎU p k p l
ø
2
åD
lÎU
kl
Yk Yl
D kl
kÎU lÎU p k p l
+ åå
Yk Yl
D kl
kÎU lÎU p k p l
= Var (tˆYp )
= 0 + åå
car pour k fixé, å D kl = 0 avec un plan de taille fixe
lÎU
_________________________________________________________________________
Plans à probabilités inégales - Module B8-CNAM
29/10/2004 - S.Rousseau
9
d. Estimation de la variance de l’estimateur d’Horvitz et
Thompson
Propriété 4 :
Si pkl > 0 pour tous k et l de U, alors la variance de l’estimateur
d’Horvitz et Thompson du total peut être estimée sans biais par :
Y Y D
Vˆ ar1 ( tˆYp ) = å å k l kl
kÎs lÎs p k p l p kl
Si de plus, le plan est de taille fixe, la variance de l’estimateur
d’Horvitz et Thompson du total peut aussi être estimée sans biais
par :
2
æY
Y ö D kl
1
Vˆ ar2 ( tˆYp ) = - å å çç k - l ÷÷
2 kÎs lÎs è p k p l ø p kl
Comparaison de ces 2 estimateurs
i.Le 1er estimateur est valable dans le cas général.
ii.Le 2ème estimateur n’est valable que si le plan est de taille fixe.
iii.Dans le cas où est le plan est de taille fixe, on dispose
généralement de 2 estimateurs concurrents et différents.
iv.Ils sont tous les 2 sans biais dès que tous les pkl sont strictement
positifs quels que soient les individus k et l de la population.
v.Les 2 estimateurs peuvent prendre des valeurs négatives, mais il
existe une condition suffisante pour que le second estimateur soit
positif. Cette condition , dite condition de Sen-Yates-Grundy , est :
" k , l ÎU , D kl > 0 soit : " k , l Î U , p kl - p k p l > 0
_________________________________________________________________________
Plans à probabilités inégales - Module B8-CNAM
29/10/2004 - S.Rousseau
10
3. Comment estimer une moyenne ?
a. L’estimateur de Horvitz et Thompson d’une moyenne
i.
Définition
Lorsque la taille de la population est connue, on peut estimer la
moyenne de Y avec l’estimateur de Horvitz et Thompson :
mˆ Yp =
1
N
Yk tˆYp
=
å
p
N
kÎs
k
Dans le cas particulier où la variable d’intérêt Y est dichotomique et
vaut 1 dans p% des cas, le p-estimateur de la proportion p vaut :
pˆ p =
ii.
Yk
1
å
N kÎs p k
Propriétés
Les propriétés 1 à 4 vues pour l’estimateur de Horvitz et Thompson
d’un total s’appliquent à une moyenne, en adaptant les formules pour
tenir compte du coefficient N.
_________________________________________________________________________
Plans à probabilités inégales - Module B8-CNAM
29/10/2004 - S.Rousseau
11
b. L’estimateur de Hájek d’une moyenne
i.
Définition
L’estimateur de Hájek (1971) de la moyenne de Y est défini par :
Yk
å
Yk k Îs p k tˆyp
1
mˆ YH =
=
=
å
ˆ
ˆ
1
p
N p k Îs k
å p Np
k Îs k
ii.
Ÿ
Ÿ
Propriétés
L’estimateur de Hájek est un ratio de 2 p- estimateurs.
Il est biaisé : on montre que le biais est asymptotiquement nul et
on le considéra négligeable lorsque la taille de l’échantillon est
grande.
Ÿ
Sa précision peut s’avèrer supérieure à celle du p-estimateur.
Ÿ
Si " kÎU, Yk = a avec a constante réelle quelconque , alors
ìmˆ YH = a = m y
ï
í
Nˆ p
ïmˆ Yp = a
N
î
_________________________________________________________________________
Plans à probabilités inégales - Module B8-CNAM
29/10/2004 - S.Rousseau
12
4. Comment construire des intervalles de confiance pour le
total ou la moyenne ?
Pour construire un intervalle de confiance à partir du p-estimateur, il
faut connaître sa distribution de probabilité, du moins dans le cadre
asymptotique.
En général, on considère que le p-estimateur suit approximativement
une loi normale lorsque la taille de l’échantillon est grande.
L’intervalle de confiance au niveau de confiance 1-a pour le total ty est
donc donné par :
IC1-a (t y ) = étˆyp - u1- a Vˆar (tˆyp ) ; tˆyp + u1- a Vˆar (tˆyp ) ù
êë
úû
2
2
où u1- a2 désigne le fractile d’ordre
1-
a
2
de la loi N ( 0,1) .
De même, en supposant la taille de la population N connue, l’intervalle
de confiance pour la moyenne est donnée par :
IC1-a ( m y ) = é mˆ yp - u1- a Vˆar ( mˆ yp ) ; mˆ yp + u1- a Vˆar ( mˆ yp ) ù
êë
úû
2
2
_________________________________________________________________________
Plans à probabilités inégales - Module B8-CNAM
29/10/2004 - S.Rousseau
13
Exemple de Basu (1971)
Basu relate l’exemple suivant : le propriétaire d’un cirque souhaite
estimer le poids total de son troupeau de 50 éléphants. Il y a 3 années
de cela Sambo représentait le poids moyen du troupeau.
En présumant que c’est toujours le cas, il propose de peser à nouveau
Sambo et d’en déduire l’estimation suivante du poids du troupeau :
Yˆ = 50 ´ (Poids de Sambo )
Le statisticien du cirque propose quant à lui d’estimer sans biais le
poids total en échantillonnant un éléphant à probabilités inégales avec :
ìp Sambo = 99 100 = 0,99
í
1
1
1
îp Autres = 100 ´ 49 = 4900
et en calculant :
Yˆ = (Poids de Sambo ) / 0,99
Yˆ = 4900 ´ (Poids de l' éléphant tiré)
si Sambo est échantillonné
sinon
_________________________________________________________________________
Plans à probabilités inégales - Module B8-CNAM
29/10/2004 - S.Rousseau
14
Téléchargement