Taille échantillonnale minimale requise pour l`estimation de proportion

publicité
Taille échantillonnale minimale requise pour l’estimation de proportions.
Avril 2003
Didier Garriguet, DMES-SSMD
Ce document a pour but d’informer l’utilisateur sur les tailles échantillonnales
nécessaires à l’estimation de proportions pour l’ELNEJ pour différents domaines
d’intérêt.
À l’aide de simulations, nous avons calculé les variances, les coefficients de variation de
même que les intervalles de confiance au niveau de confiance de 95% pour différentes
proportions allant de 1% à 50% de la population transversale du cycle 4 en utilisant les
poids bootstrap. Notez que l’utilisation des poids bootstrap de la population longitudinale
pourrait entraîner de légères différences dans les projections des cycles 5 et 6. En
pratique, nous avons simulé une variable dichotomique dans des proportions de 1, 5, 10,
15, 20, 30, 40 et 50%. De ce fait, nous pouvons obtenir une bonne approximation pour
tout le spectre des proportions puisque sachant une proportion, nous connaissons
également la proportion correspondant à 100% moins la proportion calculée. La variance
et l’écart-type seront les mêmes, mais pas le c.v. Un c.v. approximatif sera obtenu en
divisant l’écart-type par la proportion désirée. Notez toutefois que pour une variable
dichotomique, pour des raisons de confidentialité, les 2 variables doivent être publiées en
même temps. Il vaut donc toujours mieux s’assurer de la qualité de la proportion la plus
petite. Pour une répétition donnée, la proportion observée dans l’échantillon tiré au
hasard peut-être différente de la proportion visée. Nous avons donc utilisé la moyenne de
100 répétitions afin de tenir compte de cette variabilité.
Nous avons extrapolé les populations des cycles 5 et 6 en supposant des taux de réponse
uniformes de 90% à chacune des années et refait le même exercice. La moyenne des 100
répétitions permet là aussi de tenir compte du caractère aléatoire des répondants et nonrépondants aux cycles 5 et 6.
Nous avons étudié plusieurs domaines d’estimation. Au niveau géographique, nous avons
établi des proportions par province, pour les régions des provinces de l’Atlantique (TerreNeuve et Labrador, Île-du-Prince-Édouard, Nouvelle-Écosse, Nouveau-Brunswick) et des
Prairies (Manitoba, Saskatchewan et Alberta) et pour l’ensemble du pays. Au niveau de
la variable âge, nous avons utilisé individuellement chacun des âges et les groupes d’âge
suivants au cycle 4.
Liste des groupes d’âge disponibles
0-1
0-3
0-5
0-6
2-3
2-5
2-7
2-8
4-11
4-5
4-6
4-7
5-6
6-13
6-7
6-8
7-8
7-9
9-11
10-11
10-15
10-17
12-13
12-17
14-15
16-17
Le fichier \\Lhs5\Method\nlscy_c4\variance\bootstrap\Tableau cv excel\tableau cv-taille fr.xls, contient
le résultat de ces simulations. En sélectionnant une ou plusieurs variables, nous obtenons
le coefficient de variation et l’intervalle de confiance pour un domaine donné. Les
variables sont :
Province :
La province ou ATLANTIQUE ou PRAIRIES ou CANADA pour
l’ensemble du pays.
C4 Âge :
L’âge au cycle 4. Peut prendre des valeurs de 0 à 18 et différents
domaines.
C5 Âge :
L’âge au cycle 5. Peut prendre des valeurs de 2 à 20 et différents
domaines.
C6 Âge :
L’âge au cycle 6. Peut prendre des valeurs de 4 à 22 et différents
domaines.
Prop. cible : La proportion théorique utilisée pour simuler une variable. Prend les
valeurs 1%, 5%, 10%, 15%, 20%, 30%, 40%, 50%.
Cycle :
C4 (observé), C5 (taux de réponse simulé), C6 (taux de réponse simulé)
pour chacun des cycles.
Yhat :
La moyenne des 100 proportions calculées. Devraient être près de Prop.
cible.
n:
La taille moyenne des 100 répétitions de l’échantillon pour le domaine
spécifié.
Bs_var :
La moyenne des 100 variances pour le domaine spécifié.
Bs_sd :
La moyenne des 100 écart-types pour le domaine spécifié.
Bs_cv :
La moyenne des 100 coefficients de variation pour le domaine spécifié.
Cil95 :
La moyenne des 100 bornes inférieures de l’intervalle de confiance au
niveau 95%.
Ciu95 :
La moyenne des 100 bornes supérieures de l’intervalle de confiance au
niveau 95%.
Notez que selon les plans pour l’échantillon du cycle 5, il ne devrait pas y avoir d’enfants
de 6-7 ans sélectionnés (4-5 ans au cycle 4). Les résultats sont à titre de projections
seulement.
À titre d’exemple, pour estimer le nombre de garçons ou de filles dans la population de
Terre-Neuve et Labrador âgée de 3 ans, nous sélectionnons la province « TERRENEUVE & LABRADOR », l’âge « 3 » et la prop. cible « 50% » puisque l’estimation de
la proportion dans la population de cette variable est environ 1 sur 2. Pour chacun des
cycles, la taille de l’échantillon passe de 472 à 425 puis à 382 enfants. Les coefficients de
variation sont assez stables variant de 5,64% à 6,26% des cycles 4 à 6. Les intervalles de
confiance ne font que confirmer la stabilité de l’estimation de la variance de cette
variable malgré une diminution de la taille de l’échantillon.
Une autre façon de regarder ce tableau est de sélectionner seulement une province et un
âge et de regarder la variation du coefficient de variation afin de déterminer la proportion
et la taille de l’échantillon pour avoir un estimé publiable par exemple. Si nous fixons la
borne du coefficient de variation à 16,5% nous voyons, par exemple, qu’en sélectionnant
la province de Québec pour l’ensemble des enfants de 0 à 5 ans, nous obtenons des
estimés publiables pour des proportions de 5% et plus pour n’importe quel cycle.
Finalement, on pourrait être intéressé à connaître tous les domaines où les estimés sont
publiables ou non. Une sélection sur la variable bs_cv permettrait avec ou sans province
et/ou âge sélectionnés d’obtenir ces domaines.
Deux exemples sont disponibles en format PowerPoint dans le fichier
\\Lhs5\Method\nlscy_c4\variance\bootstrap\Tableau cv excel\Exemples.ppt.
Pour terminer, à titre de référence, plusieurs enquêtes à Statistique Canada utilisent les
normes de qualité suivantes :
1) Un estimé est qualifié d’acceptable si la taille de l’échantillon est d’au moins 30 et
que le coefficient de variation est inférieur à 16,5%
2) Un estimé est qualifié de médiocre si la taille de l’échantillon est d’au moins 30 et
que le coefficient de variation est entre 16,5% et 33,33%. Cet estimé devrait être
accompagné d’un avertissement soulignant le taux d’erreur élevé.
3) Un estimé est qualifié d’inacceptable si la taille de l’échantillon est inférieure à 30 ou
que le coefficient de variation est supérieur à 33,33%. Cet estimé ne devrait pas être
diffusé.
Téléchargement