Taille échantillonnale minimale requise pour l’estimation de proportions. Avril 2003 Didier Garriguet, DMES-SSMD Ce document a pour but d’informer l’utilisateur sur les tailles échantillonnales nécessaires à l’estimation de proportions pour l’ELNEJ pour différents domaines d’intérêt. À l’aide de simulations, nous avons calculé les variances, les coefficients de variation de même que les intervalles de confiance au niveau de confiance de 95% pour différentes proportions allant de 1% à 50% de la population transversale du cycle 4 en utilisant les poids bootstrap. Notez que l’utilisation des poids bootstrap de la population longitudinale pourrait entraîner de légères différences dans les projections des cycles 5 et 6. En pratique, nous avons simulé une variable dichotomique dans des proportions de 1, 5, 10, 15, 20, 30, 40 et 50%. De ce fait, nous pouvons obtenir une bonne approximation pour tout le spectre des proportions puisque sachant une proportion, nous connaissons également la proportion correspondant à 100% moins la proportion calculée. La variance et l’écart-type seront les mêmes, mais pas le c.v. Un c.v. approximatif sera obtenu en divisant l’écart-type par la proportion désirée. Notez toutefois que pour une variable dichotomique, pour des raisons de confidentialité, les 2 variables doivent être publiées en même temps. Il vaut donc toujours mieux s’assurer de la qualité de la proportion la plus petite. Pour une répétition donnée, la proportion observée dans l’échantillon tiré au hasard peut-être différente de la proportion visée. Nous avons donc utilisé la moyenne de 100 répétitions afin de tenir compte de cette variabilité. Nous avons extrapolé les populations des cycles 5 et 6 en supposant des taux de réponse uniformes de 90% à chacune des années et refait le même exercice. La moyenne des 100 répétitions permet là aussi de tenir compte du caractère aléatoire des répondants et nonrépondants aux cycles 5 et 6. Nous avons étudié plusieurs domaines d’estimation. Au niveau géographique, nous avons établi des proportions par province, pour les régions des provinces de l’Atlantique (TerreNeuve et Labrador, Île-du-Prince-Édouard, Nouvelle-Écosse, Nouveau-Brunswick) et des Prairies (Manitoba, Saskatchewan et Alberta) et pour l’ensemble du pays. Au niveau de la variable âge, nous avons utilisé individuellement chacun des âges et les groupes d’âge suivants au cycle 4. Liste des groupes d’âge disponibles 0-1 0-3 0-5 0-6 2-3 2-5 2-7 2-8 4-11 4-5 4-6 4-7 5-6 6-13 6-7 6-8 7-8 7-9 9-11 10-11 10-15 10-17 12-13 12-17 14-15 16-17 Le fichier \\Lhs5\Method\nlscy_c4\variance\bootstrap\Tableau cv excel\tableau cv-taille fr.xls, contient le résultat de ces simulations. En sélectionnant une ou plusieurs variables, nous obtenons le coefficient de variation et l’intervalle de confiance pour un domaine donné. Les variables sont : Province : La province ou ATLANTIQUE ou PRAIRIES ou CANADA pour l’ensemble du pays. C4 Âge : L’âge au cycle 4. Peut prendre des valeurs de 0 à 18 et différents domaines. C5 Âge : L’âge au cycle 5. Peut prendre des valeurs de 2 à 20 et différents domaines. C6 Âge : L’âge au cycle 6. Peut prendre des valeurs de 4 à 22 et différents domaines. Prop. cible : La proportion théorique utilisée pour simuler une variable. Prend les valeurs 1%, 5%, 10%, 15%, 20%, 30%, 40%, 50%. Cycle : C4 (observé), C5 (taux de réponse simulé), C6 (taux de réponse simulé) pour chacun des cycles. Yhat : La moyenne des 100 proportions calculées. Devraient être près de Prop. cible. n: La taille moyenne des 100 répétitions de l’échantillon pour le domaine spécifié. Bs_var : La moyenne des 100 variances pour le domaine spécifié. Bs_sd : La moyenne des 100 écart-types pour le domaine spécifié. Bs_cv : La moyenne des 100 coefficients de variation pour le domaine spécifié. Cil95 : La moyenne des 100 bornes inférieures de l’intervalle de confiance au niveau 95%. Ciu95 : La moyenne des 100 bornes supérieures de l’intervalle de confiance au niveau 95%. Notez que selon les plans pour l’échantillon du cycle 5, il ne devrait pas y avoir d’enfants de 6-7 ans sélectionnés (4-5 ans au cycle 4). Les résultats sont à titre de projections seulement. À titre d’exemple, pour estimer le nombre de garçons ou de filles dans la population de Terre-Neuve et Labrador âgée de 3 ans, nous sélectionnons la province « TERRENEUVE & LABRADOR », l’âge « 3 » et la prop. cible « 50% » puisque l’estimation de la proportion dans la population de cette variable est environ 1 sur 2. Pour chacun des cycles, la taille de l’échantillon passe de 472 à 425 puis à 382 enfants. Les coefficients de variation sont assez stables variant de 5,64% à 6,26% des cycles 4 à 6. Les intervalles de confiance ne font que confirmer la stabilité de l’estimation de la variance de cette variable malgré une diminution de la taille de l’échantillon. Une autre façon de regarder ce tableau est de sélectionner seulement une province et un âge et de regarder la variation du coefficient de variation afin de déterminer la proportion et la taille de l’échantillon pour avoir un estimé publiable par exemple. Si nous fixons la borne du coefficient de variation à 16,5% nous voyons, par exemple, qu’en sélectionnant la province de Québec pour l’ensemble des enfants de 0 à 5 ans, nous obtenons des estimés publiables pour des proportions de 5% et plus pour n’importe quel cycle. Finalement, on pourrait être intéressé à connaître tous les domaines où les estimés sont publiables ou non. Une sélection sur la variable bs_cv permettrait avec ou sans province et/ou âge sélectionnés d’obtenir ces domaines. Deux exemples sont disponibles en format PowerPoint dans le fichier \\Lhs5\Method\nlscy_c4\variance\bootstrap\Tableau cv excel\Exemples.ppt. Pour terminer, à titre de référence, plusieurs enquêtes à Statistique Canada utilisent les normes de qualité suivantes : 1) Un estimé est qualifié d’acceptable si la taille de l’échantillon est d’au moins 30 et que le coefficient de variation est inférieur à 16,5% 2) Un estimé est qualifié de médiocre si la taille de l’échantillon est d’au moins 30 et que le coefficient de variation est entre 16,5% et 33,33%. Cet estimé devrait être accompagné d’un avertissement soulignant le taux d’erreur élevé. 3) Un estimé est qualifié d’inacceptable si la taille de l’échantillon est inférieure à 30 ou que le coefficient de variation est supérieur à 33,33%. Cet estimé ne devrait pas être diffusé.