ET T - Cours

publicité
Chapitre 6
Partie 1 : ÉCHANTILONNAGE AVEC DES PROBABILITÉS INÉGALES
Dans un plan à plusieurs degrés, lorsque les tailles Mi des unités primaires sont très différentes, il
est utile de sélectionner ces dernières avec des probabilités de sélection variables. Le chapitre 6
étudie dans un premier temps les plans d’échantillonnage avec probabilités de sélection variables.
Il applique ensuite ce type d’échantillonnage dans des plans stratifiés à plusieurs degrés.
Lorsque les unités primaires d’une population sont de tailles très différentes, une sélection
aléatoire simple d’unités donne des estimateurs imprécis. Si on connaît la « taille » X de chaque
unité, une meilleure façon de procéder est de faire une sélection avec des probabilités
proportionnelles à la taille des unités. Ceci devrait améliorer la précision des résultats. Pour
illustrer ce point on va utiliser une petite population de taille N=4 où i est la taille de l’unité i. On
va considérer deux variables d’intérêt y, une (Y1) associée à la taille et l’autre (Y2) non. Dans les
deux le total de Y vaut Ty=20. Les données sont :
i
1
2
3
4
X
1
2
3
4
Y1
1
3
7
9
Y2
7
1
9
3
On veut tirer un échantillon de taille 1 pour estimer le total des deux variables Y. Si on utilise un
plan aléatoire simple l’estimateur 4ys (ys représente la valeur de y pour l’unité choisie) est sans
1


biais. Sa variance est égale à Var(4ys )  (4  20)2  (12  20)2  (28  20)2  (36  20)2 / 4  160
pour les deux variables Y.
Si on échantillonne avec probabilités proportionnelles à la variable X, la probabilité associée à
l’unité i est ψi= i/10. Le poids de sondage d’une unité est 1/ ψi =10/i et si S contient la ième unité
alors yi/ ψi est une estimation non biaisée du total de Y. Les distributions de cet estimateur pour les
deux variables Y sont données par
i
1
2
3
4
πi
1/10 2/10 3/10 4/10
Y1
10
15
70/3 90/4
Y2
70
5
30
30/4
L’espérance des deux estimateurs est 20, le total des deux variables Y. La variance de l’estimateur
pondéré pour Y1 est
1
Var(Tˆ1 )   (10  20) 2  2  (15  20) 2  3  (23  1 / 3  20) 2  4  (22.5  20) 2   20.83
10
alors que celle pour la deuxième variable Y2 est
1
Var(Tˆ2 )   (70  20) 2  2  (5  20) 2  3  (30  20) 2  4  (7.5  20) 2   400.5
10
Pour la variable Y1 associée à la mesure de taille X, le plan avec des probabilités de sélection
variables donne une variance beaucoup plus petite que le plan aléatoire simple; par contre pour la
2
variable non liée à la taille, les probabilités de sélection variables détériorent la qualité de
l’estimation.
Un plan avec des probabilités de sélection variables est une généralisation du plan stratifié où
chaque unité a sa propre probabilité d’être sélectionnée. Un tel plan est judicieux pour des
variables d’intérêt Y qui sont proportionnelles à la variable de taille utilisée pour construire les
probabilités de sélection.
La « taille » des unités utilisée pour construire les probabilités de sélection est une information
auxiliaire qui pourrait être incorporée a posteriori, comme au chapitre 3, pour rendre les
estimateurs obtenus avec un plan aléatoire simple plus précis. Cette information auxiliaire est
utilisée ici pour construire le plan d’échantillonnage. Cette approche est adéquate dans un plan à
plusieurs degrés lorsque les unités primaires sont des entités géographiques de tailles variables.
On échantillonne avec des probabilités variables lorsqu’on est en présence de grappes avec des
tailles différentes. Elles sont aussi utiles pour favoriser certaines unités qui sont plus importantes
que d’autres. Par exemple si on échantillonne des sites pour interviewer des pêcheurs on va
privilégier les sites les plus fréquentés.
3
PLAN DE SONDAGE AVEC PROBABILITÉS DE SÉLECTION VARIABLES
Il n’y a pas de difficulté à tirer des échantillons de taille 1 avec des probabilités variables.
Comment faire si n>1? On peut utiliser l’échantillonnage Poisson, une généralisation de
l’échantillonnage Bernoulli, où l’appartenance à l’échantillon est déterminée indépendamment
d’une unité à l’autre. La probabilité d’être retenue dans l’échantillon est de πi =nXi/Xk pour
l’unité i. Notons que la taille d’un échantillon Poisson est aléatoire; son espérance vaut n.
Pour illustrer les différents plans, on va s’intéresser à la population des N=30 villages. On dispose
pour chaque village d’une mesure de taille X calculée lors du dernier recensement (X=2816).
Les 30 valeurs de X et les probabilités de sélection associées sont au Tableau 1.
Tableau 1 : Variables auxiliaires et probabilités de sélection pour la population des 30 villages
vill
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
X
69 82 110 80 92 65 72 108 106 80 72 102 73 84 98 84 85 102 122 102 86 78 112 97 117 106 115 110 104 103
 .025 .029 .039 .028 .033 .023 .026 .038 .038 .028 .026 .036 .026 .03 .035 .03 .03 .036 .043 .036 .031 .028 .04 .034 .041 .038 .041 .039 .037 .037
Pour tirer un échantillon de Poisson avec une taille espérée de 4. Il suffit de générer 30 lois
uniformes sur (0,0.25), une par unité. On met dans l’échantillon toutes les unités pour lesquelles
 est supérieur à l’uniforme. Voici deux exemples de simulation qui donnent des échantillons de
taille 1 et 5. Le premier est {14}, le deuxième {7,12,17,19,27}.
.025 .029 .039 .028 .033 .023 .026 .038 .038 .028 .026 .036 .026 .03 .035 .03 .03 .036 .043 .036 .031 .028 .04 .034 .041 .038 .041 .039 .037 .037
.148 .164 .111 .167 .058 .085 .196 .061 .149 .219 .073 .190 .128 .245 .073 .027 .108 .161 .218 .214 .198 .157 .089 .169 .072 .091 .115 .098 .050 .119
.101 .176 .183 .110 .215 .092 .010 .048 .230 .117 .205 .023 .062 .119 .233 .212 .015 .119 .039 .092 .196 .227 .061 .095 .151 .148 .009 .160 .105 .072
4
1-Tirage avec remise
On effectue n tirages, un à la suite de l’autre; à chacun la probabilité de tirer l’unité i est ψi=Xi/ΣXk
peu importe qu’elle ait déjà été tirée ou non.
Une façon simple de procéder utilise les sommes cumulées. Considérons la construction d’un plan
de sondage avec des probabilités de sélection proportionnelles à la taille au recensement précédent
pour la population des 30 villages. Le tableau des sommes cumulées est donné par
i
X-cum
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15
69 151 261 341 433 498 570 678 784 864 936 1038 1111 1195 1293
16 17
18 19 20 21 22 23 24 25 26 27 28 29 30
1377 1462 1564 1686 1788 1874 1952 2064 2161 2278 2384 2499 2609 2713 2816
On associe à l’unité i l’intervalle (  j 1 X j ,  j 1 X j ] . Pour sélectionner une unité, on tire un
i 1
i
nombre aléatoire entre 1 et Xi=2816. On met dans l’échantillon l’unité correspondant à
l’intervalle contenant le nombre choisi. On répète cette procédure n fois pour obtenir un
échantillon de taille n. Les nombres aléatoires 490, 350, 921, et 1633 permettent, par exemple, de
tirer les villages 6,5, 11 et 18.
Note : i) dans R floor(1+N*runif(1)) donne un entier aléatoire uniformément distribué sur les
entiers allant de 1 à N.
ii) Il est parfois plus simple de travailler avec les sommes cumulées des probabilités ψi et de
faire la sélection à partir d’une variable aléatoire uniformément distribuée sur (0,1).
5
MÉTHODE DE LAHIRI.
A chaque tirage on procède de la façon suivante :
Étape 1 : on tire une unité au hasard sans tenir compte des X.
Étape 2 : on fait une sorte de validation; on tire un nombre au hasard U entre 1 et max Xi (c’est-àdire uniformément distribué dans l’ensemble {1,2,…,max Xi}) et on conserve l’unité i seulement si
X i  U . Note : la probabilité pour que i soit gardée est de X i / max( X ) .
On répète la procédure jusqu’à ce que les n unités requises soient sélectionnées.
Tirage selon la méthode de Lahiri d’un échantillon avec des probabilités proportionnelles à X et
avec remise de la population des 30 villages (U est un nombre aléatoire entre 1 et max X= 122).
Essai
1
2
3
4
5
# village
06
05
01
11
18
U
01→S
23→S
78→E
20→S
100→S
Xi
65
92
69
72
102
i
0.023082
0.03267
yi
77
112
yi/i
3335.877
3428.174
0.025568
0.036222
78
114
moy.
3050.667
3147.294
3240.503
Dans ce tableau, i = Xi/Xk est la probabilité de sélection de l’unité i à un des n tirages.
6
Proposition : Avec la méthode de Lahiri, la probabilité conditionnelle pour que l’unité i soit
sélectionnée à un tirage étant donné qu’une unité est tirée à ce tirage est i=Xi/jXj.
Démonstration : On veut évaluer la probabilité conditionnelle
Pr(i est tirée)
Pr(i est tirée | une unité est tirée)=
k Pr(k est tirée)

(1 / N )  ( X i / max( X ))

k (1 / N )  ( X k / max( X ))
Xi
i
k X k
CQFD
7
2-Tirage sans remise
Pour obtenir une taille d’échantillon fixe n, on peut utiliser une variante de l’échantillonnage
systématique qui utilise la procédure suivante
1. On fait une permutation aléatoire des N unités de la population (étape optionnelle)
i 1
i
2. On fait la somme cumulée des Xi et on associe à l’unité i l’intervalle ( k 1 X k , k 1 X k ]
3. On tire U, un nombre uniformément distribué sur l’intervalle (0, Xk/n) et on met dans
l’échantillon les unités correspondant aux intervalles contenant U, U+Xk/n, …,U+(n-1)
Xk/n)
Avec R, les commandes indi<-sample(1:30) et cumsum(Xp[indi]) permettent de faire
les sommes cumulées d’une permutation aléatoire du vecteur Xp. Pour tirer 2 unités on choisit
un entier au hasard entre 1 et 1408.
i 23 22 17 10
6
1 26
4 15
9 11
2 27 12 30
X-cum 112 190 275 333 420 489 595 675 773 879 951 1033 1148 1250 1353
29 18 20 25
5
3 16 28 21 13
8 19 24
7 14
X-cum 1457 1559 1661 1778 1870 1980 2064 2174 2260 2333 2441 2563 2660 2732 2816
Si 703 est choisi, on prend les unités correspondant aux intervalles contenant 703 et 2111 c’est-àdire 15 et 28. Les probabilités de sélection des deux unités choisies sont : π15=2×98/2816= 0.0696
et π28=2×110/2816=0. 0781. Cependant la probabilité de sélection conjointe π15,25 n’a pas une
écriture simple.
8
Une méthode de sélection sans remise relativement simple est présentée à la section 6.4 du livre;
elle est mise en œuvre par la fonction sample de R. Elle utilise l’algorithme suivant:
a) On tire une unité au hasard en donnant une probabilité ψi à l’unité i;
b) Si l’unité i est tirée en premier au deuxième tirage l’unité j reçoit la probabilité ψj/(1- ψi), ji,
d’être tirée.
On a
j
i
Pr(unités i et j dans l'échantillon)= ij   i 
 j 
1  i
1  j
Cette façon de faire ne permet pas d’obtenir des probabilités de sélection satisfaisant πi=2ψi. En
effet en général 2 i   j i  ij .
Pour montrer cela considérons une population de taille N=4 et les valeurs de ψi suivantes 2/16,
3/16, 4/16 et 7/16. La probabilité que l’échantillon contienne les unités 1 et 2 est donnée par
 1
1  2  3  16 16 
 12   1 2 

  162  14  13   0.056
1


1




1
2 

On peut calculer systématiquement toutes les probabilités conjointes πij de cette façon. Les
probabilités de sélection simples sont ensuite calculées selon la formule  i   ij . Les résultats
j i
apparaissent dans le tableau suivant :
9
Unité
1
2
3
4
πi
1
0.056
0.077
0.160
0.293
2
0.056
0.120
0.247
0.423
3
0.077
0.120
0.340
0.538
4
0.160
0.247
0.340
0.747
πi
0.293
0.423
0.538
0.747
2.000
On note ainsi que π1=0.293 ce qui est différent de 2ψ1=0.25. Pour obtenir des probabilités de
sélection satisfaisant πi=2ψi il faut modifier un peu les probabilités de sélection aux deux tirages.
C’est ce que fait la méthode que le statisticien Brewer a développé en 1963.
Méthode de Brewer (livre exercice 20 chap.6) pour n=2. On pose πi=2ψi, où Σ ψi =1, la probabilité
de sélection visée. Brewer a changé un peu les probabilités à chacun des 2 tirages de la méthode
simple suggérée plus haut pour obtenir le résultat souhaité. Sa procédure suppose que ψi<1/2 pour
tout i. Elle est la suivante :
 tirage 1, la probabilité de sélection de l’unité i est {ψi(1- ψi)/(1-2 ψi)}/A où A=Σ{ψj(1- ψj)/(12 ψj)}
 tirage 2, si k est tiré au tirage 1 la probabilité pour que i soit tiré au tirage 2 est ψi/(1- ψk)
Avec cette façon de faire,
10
 i  Pr(i est tirée en 1)+ Pr(k est tirée en 1 et i en 2)
k i
 j (1  j )  i
 i (1  i )


(1  2 i ) A j i (1  2 j ) A (1  j )
 (1  2 i   i )
 i 
j
j 
 i 

  1  

 (1  2 ) A
(1

2

)
A
A
(1

2

)
j i
j
i
j
j 



i 
  j
   i
2 (1  j )
 
 j     j
 2 i

A  j  (1  2 j )
A
(1

2

)
j
j
 
De plus les probabilités de sélection conjointes sont  ij 
2 i j (1  i  j )
A(1  2 i )(1  2 j )
Mise en œuvre sur la population des 30 villages.
On calcule d’abord les ψi , les probabilités de sélection p1i pour le 1er tirage et leur somme cumulée
avec les énoncés R suivants :
psi<-Xp/sum(Xp)
p1<-(psi*(1-psi)/(1-2*psi))/sum(psi*(1-psi)/(1-2*psi))
cbind(1:30,cumsum(p1))
A chaque unité est associé un sous intervalle de (0,1). Pour tirer une unité selon les probabilités
p1 il suffit de générer une variable aléatoire U uniformément distribuée sur (0,1) et de choisir
l’unité associée à l’intervalle contenant U. Si U=.738 c’est l’unité 24 qui est tiré.
11
Pour le deuxième tirage on fait la somme cumulée des ψi/(1-ψ24) pour les 29 unités restantes avec
la commande cbind((1:30)[-24],cumsum(psi[-24]/(1-psi[24]))). On génère ensuite V
selon une loi uniforme sur (0,1) et on prend l’unité associée à l’intervalle contenant V. Par
exemple V=0.268 donne l’unité 9.
Finalement S={9,29} et : π9=2×106/2816= 0.0753 et π29=2×104/2816=0. 0739 et
2 i j (1  i  j )
 9,29 
 0.0029 . En R : (2*psi[9]*psi[29]*(1-psi[9]A(1  2 i )(1  2 j )
psi[29]))/((1-2*psi[9])*(1-2*psi[29])*sum(psi*(1-psi)/(1-2*psi))).
Dans l’exemple précédent, avec ψ1=2/16, ψ2=3/16, ψ3=4/16 et ψ4=7/16, la méthode de Brewer
donne les probabilités de sélection conjointes ij suivantes :
Unité
1
2
3
4
πi
1
0.025
0.038
0.187
0.250
2
0.025
0.062
0.288
0.375
3
0.038
0.062
0.400
0.500
4
0.187
0.288
0.400
0.875
πi
0.250
0.375
0.500
0.875
2.000
On note que .025+.038+.187+.250=0.5=2 ψ1.
12
Il existe plusieurs façons astucieuses de sélectionner un échantillon de taille fixe n avec des
probabilités de sélection prédéterminées {πi}, voir l’aide en ligne de la procédure SURVEYSELECT
de SAS ou le package sampling de R. Ces procédures sont techniques et ne sont pas étudiées
en détail dans ce cours. La fonction sample de R ne permet pas de tirer sans remise un
échantillon avec des probabilités de sélection prédéterminées.
Exemple 1: PROC SURVEYSELECT de SAS (données sur les 30 villages, page 4)
data trente;
Output :
input vill poprec;
datalines;
Programme 1 (Brewer)
1 69
…
30 103
;
proc surveyselect data=trente
method=PPS_Brewer sampsize=2;
size poprec;
run;
proc surveyselect data=trente method=PPS
jtprobs sampsize=4;
size poprec;
run;
proc print;run;
Obs vill poprec SelectionProb SamplingWeight JtSelectionProb
1 20
102
0.072443
13.8039
0.002839689
2 26
106
0.075284
13.283
0.002839689
Programme 2 (n=4)
Obs vill poprec SelectionProb SamplingWeight Unit JtProb_1 JtProb_2 JtProb_3 JtProb_4
1 1
69
0.09801
10.2029
1
0 0.010514 0.01105 0.011587
2 15
98
0.1392
7.1837
2 0.010514
0 0.01593 0.016703
3 30
103
0.14631
6.835
3 0.01105 0.01593
0 0.017622
4 8
108
0.15341
6.5185
4 0.011587 0.016703 0.017622
0
Le programme 2 met en oeuvre une méthode de sélection proposée dans
Vijayan, K. (1968), “An Exact PS Sampling Scheme: Generalization of a Method of Hanurav,”
Journal of the Royal Statistical Society, Series B, 30, 556–566. La méthode de selection de
Hanurav & Vijayan est la méthode de selection par défaut dans SAS. La méthode de Sampford est
également disponible. Cette dernière est aussi implanté dans le package R sampling.
13
ESTIMATION DU TOTAL DANS UN PLAN AVEC PROBABILITÉS DE SÉLECTION
VARIABLES
Peu importe le mode de sélection de l’échantillon, avec ou sans remise, on appelle πi=nψi la
probabilité de sélection et wi=1/πi le poids d’échantillonnage. L’estimateur du total de la variable
y est Tˆy   yi /  i   wi yi , c’est l’estimateur de Horvitz Thompson. On va étudier les propriétés
iS
iS
échantillonnales de cet estimateur pour les deux types d’échantillonnage, avec et sans remise.
Propriétés de l’estimateur de Horvitz Thompson : cas sans remise
Cet estimateur s’écrit en fonction des variables indicatrices Zi qui indique si une unité est
N
échantillonnée ou non de la façon suivante Tˆy   Z i yi /  i . Puisque E(Zi)= πi, E (Tˆy )  Ty
i 1
l’estimateur de Horvitz-Thompson est un estimateur non biaisé du total de y. On va maintenant
calculer sa variance. Sachant que cov(Zi,Zj)= πij - πi πj où {πij} sont les probabilités de sélection
conjointe on a
N
Var(Tˆy )   yi2 Var(Z i ) /  i2   yi y j Cov(Z i , Z j ) / ( i j )
i 1
i j
N
  yi2 (1   i ) /  i   yi y j ( ij /  i j  1)
i 1
.
i j
À la page 206 du livre on donne une formule alternative pour cette variance qui s’applique lorsque
la taille d’échantillon n est fixe. C’est la variance de Sen-Yates-Grundy,
14
2
 i j   ij  yi y j 
ˆ
Var(Ty )  
  
2
i, j
 i  j 
Les deux formules sont mathématiquement égales si n est fixe. Des estimateurs non biaisés de la
variance sont déduits de ces deux formules
2






y
yi
ij
j
v(Tˆy )   yi2 (1   i ) /  i2   yi y j ( ij /  i j  1) /  ij et v(Tˆy )   i j
   .
2 ij   i  j 
iS
i  jS
i , jS
Le premier est l’estimateur de Horvitz-Thompson le deuxième celui de Sen-Yates Grundy. Les
deux estimateurs sont différents. Ces estimateurs sont non biaisés dans la mesure où toutes les
probabilités de sélection conjointes  ij sont positives.
Noter que sous l’échantillonnage Poisson les Zi sont des variables aléatoires indépendantes. Dans
ce cas la formule de Sen Yates et Grundy ne s’appliquent pas car la taille d’échantillon est
aléatoire. Pour ce plan de sondage on a  ij   i j si i≠j et
N
Var(Tˆy )   yi2 (1   i ) /  i et v(Tˆy )   yi2 (1   i ) /  i2 .
i 1
iS
Si n=1, πij=0 et πi=ψi et
y

Var(Tˆy )    Ty2   i  i  Ty 
i 1  i
i 1
 i

N
yi2
N
2
15
Exemple : Échantillon de taille 2 tiré selon la méthode de Brewer. On a π9=0.0753 et π29=0. 0739
et π9,29=0.0029; les données sont y9=111 et y29=109.
2
111
109
.0753

.0739

.0029
111
109


2
Tˆy 

 2949
vSYG (Tˆy ) 


  0.68  .82
.0753 .0739
.0029
 .0753 .0739 
1112  (1  .0753) 109 2  (1  .0739)
1
1 

ˆ
vHT (Ty ) 


2

111

109




.07532
.07392
 .0753  .0739 .0029 
 28478  1692
On note que les deux estimations sont très différentes. L’estimateur de variance pour des
échantillons de taille 2 est une statistique très variable!
Estimation de variance : cas avec remise
Si on tire un échantillon de taille n avec remise les variables aléatoires  yi /  i : i  S  sont
indépendantes et elles ont toutes la même distribution ; leur espérance vaut Ty et leur variance est
2
N
 yj

 yi  N
yi2
égale à Var     j 
 Ty     Ty2 . L’estimateur de Horvitz-Thompson est alors la


i 1  i
  i  j 1   j

moyenne échantillonnale de ces n variables aléatoires,
y
1
Tˆy   i .
n i  i
16
C’est une estimation non biaisée de Ty. Un estimateur de variance est la variance échantillonnale
2
 yi ˆ 
1
des yi/ ψi divisée par n, var (Tˆy ) 
   Ty  . On peut réécrire cette variance en terme
n(n  1) i   i

des poids d’échantillonnage de la façon suivante,
2
2
2
ˆ



w y 
yi Ty
n
n

kS k k
var (tˆy ) 


w
y




 i i
n(n  1) i  n i n  n  1 i 
n
 .
2
2
N
N


y


y
1
1
j
i
Notons que la variance théorique est Varar (Tˆy )   j 
 Ty      Ty2  .

n j 1   j
n  i 1  i


Exemple numérique avec n=4.
Essai
1
2
3
4
5
# village
06
05
01
11
18
U
01→S
23→S
78→E
20→S
100→S
Xi
65
92
69
72
102
i
0.023082
0.03267
wi=1/(4i) yi
10.83
77
7.65
112
0.025568
0.036222
9.78
6.90
yi/i
3335.877
3428.174
78
3050.667
114 3147.294
moy. 3240.503
17
Estimation du nombre total de résidents: (note: yi=3 042) et
2


y
1
y
1
i
ˆ
Tˆy   i = 3 240.5 et v( Tˆy ) =

  Ty  = 7420.2 = (86.14)2
3  4 i   i
4 i  i

Discussion : Pourquoi des probabilités variables?
140
120
100
y(i)
80
60
40
20
0
0
0,005
0,01
0,015
0,02
0,025
0,03
0,035
0,04
0,045
0,05
psi(i)
Graphique de yi versus i pour les 30 villages.
L’échantillonnage avec des probabilités de sélection variables est judicieux pour une variable y qui
est proportionnelle au probabilité de sélection ψCe graphique montre que c’est le cas pour ici
pour la variable y=taille du village aujourd’hui dans l’exemple de la population des 30 villages.
18
Discussion : Estimation de la variance
Il est rare que l’on tire un échantillon avec remise. Cependant on utilise souvent les formules de
variance avec remise même si l’échantillon est tiré sans remise. Les calculs sont plus simples car
ils ne nécessitent pas la connaissance des probabilités de sélection conjointes {πij}. On espère
obtenir ainsi des estimateurs de variance qui surestiment un peu la vraie variance. Notons que
2
2
2




y
y
 yi ˆ 
yi
yi
1
1
1
j
var (Tˆy ) 

T



 j






y

2




n(n  1) i 1   i
 i , jS 2n (n  1)   i  j  i , jS 2( n  1)   i  j 
2
 ij  yi y j 
Son espérance, pour un plan sans remise, est E var (Tˆy )  
   . var (Tˆy )
j 
i , j 2( n  1)   i
2


 ij




y
n 1
yi
i j
ij
j
ˆ

surestime la vraie variance, Var(Ty )  
.
   , si


n
2


i, j
i j
j 
 i
Cette condition est souvent vérifiée et l’estimateur de variance avec remise donne alors une
mesure de précision conservatrice. D’un point de vue pratique c’est acceptable; il est préférable de
sous-estimer la précision plutôt que de la surestimer.


Exemple numérique : Pour l’échantillon de taille 2 tiré selon la méthode de Brewer Tˆy  2949 ; on
a ψ9=0.0376 et ψ29=0. 0369, y9=111 et y29=109 ainsi l’estimation de variance avec remise s’écrit
19
1
 111

  109
 
ˆ
v (T y )   
 2949   
 2949    2.86  1.692
2
  .0369
 
 .0376

(en fait les erreurs d’arrondis sont importantes et la vraie estimation est 1.63=1.282 !).On note que
l’estimateur avec remise est supérieur à l’estimateur de variance de Sen-Yates Grundy.
2
2
 ij
n 1

Note : La méthode de sélection de Hanurav & Vijayan satisfait les conditions 1 
sous
 i j
n
certaines hypothèses de régularité concernant les i. Ces deux conditions font en sorte que (i)
l’estimateur de variance de Sen-Yates-Grundy est toujours positif et (ii) l’estimateur de variance
avec remise surestime la vraie variance.
Note : SAS ne fournit pas de procédures qui permettent de calculer l’estimateur de variance sans
remise de Sen-Yates-Grundy. SURVEYMEANS permet de calculer l’estimateur de variance avec
remise.
20
Téléchargement