1
Chapitre 6 Partie 1 : ÉCHANTILONNAGE AVEC DES PROBABILITÉS INÉGALES
Dans un plan à plusieurs degrés, lorsque les tailles Mi des unités primaires sont très différentes, il
est utile de sélectionner ces dernières avec des probabilités de sélection variables. Le chapitre 6
étudie dans un premier temps les plans d’échantillonnage avec probabilités de sélection variables.
Il applique ensuite ce type d’échantillonnage dans des plans stratifiés à plusieurs degrés.
Lorsque les unités primaires d’une population sont de tailles très différentes, une sélection
aléatoire simple d’unités donne des estimateurs imprécis. Si on connaît la « taille » X de chaque
unité, une meilleure façon de procéder est de faire une sélection avec des probabilités
proportionnelles à la taille des unités. Ceci devrait améliorer la précision des résultats. Pour
illustrer ce point on va utiliser une petite population de taille N=4 où i est la taille de l’unité i. On
va considérer deux variables d’intérêt y, une (Y1) associée à la taille et l’autre (Y2) non. Dans les
deux le total de Y vaut Ty=20. Les données sont :
i
1
2
3
4
X
1
2
3
4
Y1
1
3
7
9
Y2
7
1
9
3
On veut tirer un échantillon de taille 1 pour estimer le total des deux variables Y. Si on utilise un
plan aléatoire simple l’estimateur 4ys (ys représente la valeur de y pour l’unité choisie) est sans
2
biais. Sa variance est égale à
 
2 2 2 2
Var(4 ) (4 20) (12 20) (28 20) (36 20) /4 160
s
y      
pour les deux variables Y.
Si on échantillonne avec probabilités proportionnelles à la variable X, la probabilité associée à
l’unité i est ψi= i/10. Le poids de sondage d’une unité est 1/ ψi =10/i et si S contient la ième unité
alors yi/ ψi est une estimation non biaisée du total de Y. Les distributions de cet estimateur pour les
deux variables Y sont données par
i
1
2
3
4
πi
1/10
2/10
3/10
4/10
Y1
10
15
70/3
90/4
Y2
70
5
30
30/4
L’espérance des deux estimateurs est 20, le total des deux variables Y. La variance de l’estimateur
pondéré pour Y1 est
 
2 2 2 2
11
ˆ
Var( ) (10 20) 2 (15 20) 3 (23 1/3 20) 4 (22.5 20) 20.83
10
T      
alors que celle pour la deuxième variable Y2 est
Pour la variable Y1 associée à la mesure de taille X, le plan avec des probabilités de sélection
variables donne une variance beaucoup plus petite que le plan aléatoire simple; par contre pour la
3
variable non liée à la taille, les probabilités de sélection variables détériorent la qualité de
l’estimation.
Un plan avec des probabilités de sélection variables est une généralisation du plan stratifié où
chaque unité a sa propre probabilité d’être sélectionnée. Un tel plan est judicieux pour des
variables d’intérêt Y qui sont proportionnelles à la variable de taille utilisée pour construire les
probabilités de sélection.
La « taille » des unités utilisée pour construire les probabilités de sélection est une information
auxiliaire qui pourrait être incorporée a posteriori, comme au chapitre 3, pour rendre les
estimateurs obtenus avec un plan aléatoire simple plus précis. Cette information auxiliaire est
utilisée ici pour construire le plan d’échantillonnage. Cette approche est adéquate dans un plan à
plusieurs degrés lorsque les unités primaires sont des entités géographiques de tailles variables.
On échantillonne avec des probabilités variables lorsqu’on est en présence de grappes avec des
tailles différentes. Elles sont aussi utiles pour favoriser certaines unités qui sont plus importantes
que d’autres. Par exemple si on échantillonne des sites pour interviewer des pêcheurs on va
privilégier les sites les plus fréquentés.
4
PLAN DE SONDAGE AVEC PROBABILITÉS DE SÉLECTION VARIABLES
Il n’y a pas de difficulté à tirer des échantillons de taille 1 avec des probabilités variables.
Comment faire si n>1? On peut utiliser l’échantillonnage Poisson, une généralisation de
l’échantillonnage Bernoulli, où l’appartenance à l’échantillon est déterminée indépendamment
d’une unité à l’autre. La probabilité d’être retenue dans l’échantillon est de πi =nXi/
Xk pour
l’unité i. Notons que la taille d’un échantillon Poisson est aléatoire; son espérance vaut n.
Pour illustrer les différents plans, on va s’intéresser à la population des N=30 villages. On dispose
pour chaque village d’une mesure de taille X calculée lors du dernier recensement (X=2816).
Les 30 valeurs de X et les probabilités de sélection associées sont au Tableau 1.
Tableau 1 : Variables auxiliaires et probabilités de sélection pour la population des 30 villages
vill
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
X
69
82
110
80
92
65
72
108
106
80
72
102
73
84
98
84
85
102
122
102
86
78
112
97
117
106
115
110
104
103
.025
.029
.039
.028
.033
.023
.026
.038
.038
.028
.026
.036
.026
.03
.035
.03
.03
.036
.043
.036
.031
.028
.04
.034
.041
.038
.041
.039
.037
.037
Pour tirer un échantillon de Poisson avec une taille espérée de 4. Il suffit de générer 30 lois
uniformes sur (0,0.25), une par unité. On met dans léchantillon toutes les unités pour lesquelles
est supérieur à luniforme. Voici deux exemples de simulation qui donnent des échantillons de
taille 1 et 5. Le premier est {14}, le deuxième {7,12,17,19,27}.
.025
.029
.039
.028
.033
.023
.026
.038
.038
.028
.026
.036
.026
.03
.035
.03
.03
.036
.043
.036
.031
.028
.04
.034
.041
.038
.041
.039
.037
.037
.148
.164
.111
.167
.058
.085
.196
.061
.149
.219
.073
.190
.128
.245
.073
.027
.108
.161
.218
.214
.198
.157
.089
.169
.072
.091
.115
.098
.050
.119
.101
.176
.183
.110
.215
.092
.010
.048
.230
.117
.205
.023
.062
.119
.233
.212
.015
.119
.039
.092
.196
.227
.061
.095
.151
.148
.009
.160
.105
.072
5
1-Tirage avec remise
On effectue n tirages, un à la suite de l’autre; à chacun la probabilité de tirer l’unité i est ψi=Xi/ΣXk
peu importe qu’elle ait déjà été tirée ou non.
Une façon simple de procéder utilise les sommes cumulées. Considérons la construction d’un plan
de sondage avec des probabilités de sélection proportionnelles à la taille au recensement précédent
pour la population des 30 villages. Le tableau des sommes cumulées est donné par
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
X-cum
69
151
261
341
433
498
570
678
784
864
936
1038
1111
1195
1293
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
1377
1462
1564
1686
1788
1874
1952
2064
2161
2278
2384
2499
2609
2713
2816
On associe à l’unité i l’intervalle
1
11
( , ]
ii
jj
jj
XX


. Pour sélectionner une unité, on tire un
nombre aléatoire entre 1 et
Xi=2816. On met dans l’échantillon l’unité correspondant à
l’intervalle contenant le nombre choisi. On répète cette procédure n fois pour obtenir un
échantillon de taille n. Les nombres aléatoires 490, 350, 921, et 1633 permettent, par exemple, de
tirer les villages 6,5, 11 et 18.
Note : i) dans R floor(1+N*runif(1)) donne un entier aléatoire uniformément distribué sur les
entiers allant de 1 à N.
ii) Il est parfois plus simple de travailler avec les sommes cumulées des probabilités ψi et de
faire la sélection à partir d’une variable aléatoire uniformément distribuée sur (0,1).
1 / 20 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !