Taille échantillonnale minimale requise pour l`estimation de proportion

Téléchargement

Taille échantillonnale minimale requise pour l’estimation de proportions.

Avril 2003

Didier Garriguet, DMES-SSMD

Ce document a pour but d’informer l’utilisateur sur les tailles échantillonnales

nécessaires à l’estimation de proportions pour l’ELNEJ pour différents domaines

d’intérêt.

À l’aide de simulations, nous avons calculé les variances, les coefficients de variation de

même que les intervalles de confiance au niveau de confiance de 95% pour différentes

proportions allant de 1% à 50% de la population transversale du cycle 4 en utilisant les

poids bootstrap. Notez que l’utilisation des poids bootstrap de la population longitudinale

pourrait entraîner de légères différences dans les projections des cycles 5 et 6. En

pratique, nous avons simulé une variable dichotomique dans des proportions de 1, 5, 10,

15, 20, 30, 40 et 50%. De ce fait, nous pouvons obtenir une bonne approximation pour

tout le spectre des proportions puisque sachant une proportion, nous connaissons

également la proportion correspondant à 100% moins la proportion calculée. La variance

et l’écart-type seront les mêmes, mais pas le c.v. Un c.v. approximatif sera obtenu en

divisant l’écart-type par la proportion désirée. Notez toutefois que pour une variable

dichotomique, pour des raisons de confidentialité, les 2 variables doivent être publiées en

même temps. Il vaut donc toujours mieux s’assurer de la qualité de la proportion la plus

petite. Pour une répétition donnée, la proportion observée dans l’échantillon tiré au

hasard peut-être différente de la proportion visée. Nous avons donc utilisé la moyenne de

100 répétitions afin de tenir compte de cette variabilité.

Nous avons extrapolé les populations des cycles 5 et 6 en supposant des taux de réponse

uniformes de 90% à chacune des années et refait le même exercice. La moyenne des 100

répétitions permet là aussi de tenir compte du caractère aléatoire des répondants et non-

répondants aux cycles 5 et 6.

Nous avons étudié plusieurs domaines d’estimation. Au niveau géographique, nous avons

établi des proportions par province, pour les régions des provinces de l’Atlantique (Terre-

Neuve et Labrador, Île-du-Prince-Édouard, Nouvelle-Écosse, Nouveau-Brunswick) et des

Prairies (Manitoba, Saskatchewan et Alberta) et pour l’ensemble du pays. Au niveau de

la variable âge, nous avons utilisé individuellement chacun des âges et les groupes d’âge

suivants au cycle 4.

Liste des groupes d’âge disponibles

0-1

2-7

5-6

9-11

14-15

0-3

2-8

6-13

10-11

16-17

0-5

4-11

6-7

10-15

0-6

4-5

6-8

10-17

2-3

4-6

7-8

12-13

2-5

4-7

7-9

12-17

Le fichier \\Lhs5\Method\nlscy_c4\variance\bootstrap\Tableau cv excel\tableau cv-taille fr.xls, contient

le résultat de ces simulations. En sélectionnant une ou plusieurs variables, nous obtenons

le coefficient de variation et l’intervalle de confiance pour un domaine donné. Les

variables sont :

Province : La province ou ATLANTIQUE ou PRAIRIES ou CANADA pour

l’ensemble du pays.

C4 Âge : L’âge au cycle 4. Peut prendre des valeurs de 0 à 18 et différents

domaines.

C5 Âge : L’âge au cycle 5. Peut prendre des valeurs de 2 à 20 et différents

domaines.

C6 Âge : L’âge au cycle 6. Peut prendre des valeurs de 4 à 22 et différents

domaines.

Prop. cible : La proportion théorique utilisée pour simuler une variable. Prend les

valeurs 1%, 5%, 10%, 15%, 20%, 30%, 40%, 50%.

Cycle : C4 (observé), C5 (taux de réponse simulé), C6 (taux de réponse simulé)

pour chacun des cycles.

Yhat : La moyenne des 100 proportions calculées. Devraient être près de Prop.

cible.

n : La taille moyenne des 100 répétitions de l’échantillon pour le domaine

spécifié.

Bs_var : La moyenne des 100 variances pour le domaine spécifié.

Bs_sd : La moyenne des 100 écart-types pour le domaine spécifié.

Bs_cv : La moyenne des 100 coefficients de variation pour le domaine spécifié.

Cil95 : La moyenne des 100 bornes inférieures de l’intervalle de confiance au

niveau 95%.

Ciu95 : La moyenne des 100 bornes supérieures de l’intervalle de confiance au

niveau 95%.

Notez que selon les plans pour l’échantillon du cycle 5, il ne devrait pas y avoir d’enfants

de 6-7 ans sélectionnés (4-5 ans au cycle 4). Les résultats sont à titre de projections

seulement.

À titre d’exemple, pour estimer le nombre de garçons ou de filles dans la population de

Terre-Neuve et Labrador âgée de 3 ans, nous sélectionnons la province « TERRE-

NEUVE & LABRADOR », l’âge « 3 » et la prop. cible « 50% » puisque l’estimation de

la proportion dans la population de cette variable est environ 1 sur 2. Pour chacun des

cycles, la taille de l’échantillon passe de 472 à 425 puis à 382 enfants. Les coefficients de

variation sont assez stables variant de 5,64% à 6,26% des cycles 4 à 6. Les intervalles de

confiance ne font que confirmer la stabilité de l’estimation de la variance de cette

variable malgré une diminution de la taille de l’échantillon.

Une autre façon de regarder ce tableau est de sélectionner seulement une province et un

âge et de regarder la variation du coefficient de variation afin de déterminer la proportion

et la taille de l’échantillon pour avoir un estimé publiable par exemple. Si nous fixons la

borne du coefficient de variation à 16,5% nous voyons, par exemple, qu’en sélectionnant

la province de Québec pour l’ensemble des enfants de 0 à 5 ans, nous obtenons des

estimés publiables pour des proportions de 5% et plus pour n’importe quel cycle.

Finalement, on pourrait être intéressé à connaître tous les domaines où les estimés sont

publiables ou non. Une sélection sur la variable bs_cv permettrait avec ou sans province

et/ou âge sélectionnés d’obtenir ces domaines.

Deux exemples sont disponibles en format PowerPoint dans le fichier

\\Lhs5\Method\nlscy_c4\variance\bootstrap\Tableau cv excel\Exemples.ppt.

Pour terminer, à titre de référence, plusieurs enquêtes à Statistique Canada utilisent les

normes de qualité suivantes :

1) Un estimé est qualifié d’acceptable si la taille de l’échantillon est d’au moins 30 et

que le coefficient de variation est inférieur à 16,5%

2) Un estimé est qualifié de médiocre si la taille de l’échantillon est d’au moins 30 et

que le coefficient de variation est entre 16,5% et 33,33%. Cet estimé devrait être

accompagné d’un avertissement soulignant le taux d’erreur élevé.

3) Un estimé est qualifié d’inacceptable si la taille de l’échantillon est inférieure à 30 ou

que le coefficient de variation est supérieur à 33,33%. Cet estimé ne devrait pas être

diffusé.

1 / 3 100%

Documents connexes

Solutions du chapitre I

deplacement des equilibres chimiques

Exercices

Chap 7 Le recueil et l`analyse des informations

Lieu du siège social de la société, date

Math 9 – Numerical Methods Assessment Record

Une loi (8 points) 1 Variables Gaussiennes (12 points)

RAPPORTS. PROPORTIONS ET EQUATIONS

Solutions chapitre 3

Méthodologie de l`enquête statistique

Math m5 2005

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Taille échantillonnale minimale requise pour l`estimation de proportion

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Taille échantillonnale minimale requise pour l`estimation de proportion

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib