STA108 Sondages Introduction Philippe Périé cours n°2 : 10OCT2014 STA108 - Sondages • Philippe Périé (IPSOS) [email protected] • Sylvie Rousseau (INSEE) [email protected] Le sondage aléatoire simple • • • Formalisme : notions, notations, … Le sondage aléatoire simple • Estimation d’une moyenne • Estimation d’une proportion et d’un total Intervalle de confiance Population, base de sondage, variable d’intérêt Population U composée de N individus ou éléments appelés unités statistiques. N est la taille de la population U, supposée finie. Exemples de population : L’ensemble des touristes d’un pays, l’ensemble des ménages d’un pays, la production de pièces mécaniques d’une usine... Nous pouvons dresser une liste exhaustive des éléments de la population U, appelée base de sondage où chaque élément est représenté par son numéro d’ordre 𝑈 = 1, … , 𝑘, … 𝑁 Soit une variable Y, appelée variable d’intérêt, dont les valeurs associées à chaque unité de sondage sont notées 𝑦1 , 𝑦2 ,…. 𝑦𝑁 . On notera le vecteur 𝑌𝑁 = 𝑦2 , 𝑦2 ,…. 𝑦𝑁 ′ On réalise un sondage pour estimer une moyenne, un total, une proportion, … un paramètre d’intérêt sur la population entière. L’objectif se résume donc à estimer 𝛉 , une fonction de 𝐘𝐍 : 𝜃 = 𝜃 𝑦𝑘 , 𝑘 ∈ 𝑈 Paramètres et fonction d’intérêt Cette fonction est appelée fonction d’intérêt. Elle est souvent linéaire, comme par exemple le total : 𝑡𝑦 = 𝑘∈𝑈 𝑦𝑘 1 Ou une moyenne : 𝑦 = 𝑁 𝑘∈𝑈 𝑦𝑘 Remarque : même si ce n’est pas immédiat ici, nous verrons que les deux problèmes d’estimation ne sont pas forcément équivalents : quelquefois la taille de la population n’est pas forcément connue, son estimation peut faire partie du problème D’autres fonctions plus complexes peuvent être fonction d’intérêt, comme la variance 1 1 (fonction quadratique) : 𝜎 2 = 𝑁 𝑘∈𝑈 𝑦𝑘 − 𝑦 ² = 2𝑁² 𝑘∈𝑈 𝑙∈𝑈 𝑦𝑘 − 𝑦𝑙 ² 𝑙≠𝑘 𝑡 ou des ratios : si x et y sont deux caractères connus, 𝑅 = 𝑡𝑥 𝑦 Echantillon Dans ce cours, nous allons nous intéresser aux tirages sans remises, même si on pourra parler des tirage avec remise lors de l’établissement de certaines formules : un échantillon non ordonné sans remise est un n-uple non ordonné (combinaison de n unités de U prises sans répétition). On note traditionnellement un échantillon avec la lettre s (sample). On utilisera une notation ensembliste, puisqu’un échantillon est un sous ensemble non vide de U. Un élément est présentée en général soit par un numéro compris entre 1 et N. L’ensemble des échantillons de U est l’ensemble des parties non vides de U, on a 𝑆 = 𝑠|𝑠 ⊂ 𝑈 \∅. Par exemple, pour une population U={1,2,3} on a S = {{1}, {2}, {2}, {1,2}, {1,3}, {2,3}, {1,2,3}}, le nombre d’échantillons non ordonnés sans remises possibles est 2𝑁 − 1 Si l’échantillon est de taille fixe, alors on notera n sa taille Taux de sondage : f =n/N, avec n : taille de l’échantillon et N : taille de la population Plan de sondage • Un plan de sondage non ordonné sans remise p(.) est une distribution de probabilités sur S telle que 𝑝 𝑠 ≥ 0, 𝑝𝑜𝑢𝑟 𝑡𝑜𝑢𝑡 𝑠 ∈ 𝑆 𝑒𝑡 𝑠∈𝑆 𝑝 𝑠 = 1 • Par exemple, une population U={1,2,3,4}, on sélectionne 2 unités avec remise et à probabilités égales dans U. Le plan de sondage est donné par : S= P({1})=1/16, P({2})=1/16, P({3})=1/16, P({4})=1/16, P({1,2})=1/8, P({1,3})=1/8, P({1,4})=1/8, P({2,3})=1/8, P({2,4})=1/8, P({3,4})=1/8 – Sans remise, on a le plan de sondage suivant : S = P({1,2})=1/6, P({1,3})=1/6, P({1,4})=1/6, P({2,3})=1/6, P({2,4})=1/6, P({3,4})=1/6 – Sans remise, pour n éléments parmi N, 𝑐𝑎𝑟𝑑 𝑆 = 𝐶𝑁𝑛 Estimation L’objectif d’un sondage est en général d’estimer 𝛉 , une fonction de 𝐘𝐍 : 𝜃 = 𝜃 𝑦𝑘 , 𝑘 ∈ 𝑈 à partir des valeurs prises par celle-ci dans l’échantillon Un statistique est une fonction g() des données observée. Soit g(s) la valeur prise par un statistique sur l’échantillon s. Si le plan est sans remise, on appelle espérance de la statistique la valeur : 𝐸 𝑔 = 𝑃𝑟 𝑆 = 𝑠 𝑔(𝑠) 𝑠∈𝑆 Sa variance est : V𝑎𝑟 𝑔 = 𝐸 𝑔 − 𝐸(𝑔) ² Un estimateur 𝜃 est une statistique utilisée afin d’estimer une fonction d’intérêt 𝜃de 𝑌𝑁 Estimateur Une fonction d’intérêt, la moyenne de Y sur la population U: 1 𝑦= 𝑦𝑘 𝑁 𝑘∈𝑈 Une statistique, valeur de la moyenne arithmétique sur l’échantillon : 1 𝑦= 𝑦𝑘 𝑛 𝑘∈𝑆 Dans la cas d’un sondage aléatoire simple, cette statistique peut être utilisée comme estimateur de la moyenne sur la population (l’expression générale est plus complexe et fait appel à des poids de sondage, spécifiques à chaque individu de l’échantillon, elle est ici simplifiée car tous ces poids sont égaux) Fluctuation ou erreur d’échantillonnage Fluctuations d’échantillonnage : avec les mêmes probabilités d’inclusion, répéter q fois un sondage donnera q résultats différents Attention, il est important de noter que dans cette approche, l’aléa se situe exclusivement au niveau du choix des individus dans l’échantillon. C’est une approche différente de celle adoptée en économétrie par exemple : les valeurs de Y sont des variables aléatoires dont on observe une réalisation. L’estimateur sera aléatoire, non pas par la nature des variables mesurées, mais par l’échantillon s des personnes interrogés. Fluctuations d’échantillonnage On crée une population de 1001 valeurs entre 50 et 150 par intervalles de 0.1 La moyenne est 100 On crée 1000 échantillons de taille 20 et 50 Les 5 premières estimations issues de sondages de taille 20 et 50 sont respectivement {94.06, 91.48, 89.975} et {96.904, 102.516, 99.404} Les variances mesurées sur les 1000 estimations dans les 1000 sondages de taille 20 et 50 sont de 41.75 et 15.61 Biais, variance, erreur quadratique Un estimateur d’une fonction d’intérêt est dit sans biais si : 𝐸 𝜃 = 𝜃, 𝑝𝑜𝑢𝑟 𝑡𝑜𝑢𝑡𝑌𝑁 ∈ ℝ𝑁 C’est-à-dire que son espérance mathématique est égale à la fonction d’intérêt à estimer quelle que soit la valeur de 𝑌𝑁 Le biais d’un estimateur 𝜃 est défini par : 𝐵 𝜃 = 𝐸 𝜃 − 𝜃 La variance : 𝑉𝑎𝑟 𝜃 = 𝐸 𝜃 − 𝐸 𝜃 ² L’erreur quadratique moyenne est : 𝐸𝑄𝑀 𝜃 = 𝐸 𝜃 − 𝜃 ² = var 𝜃 + 𝐵² 𝜃 Si un estimateur est sans biais, sa variance est égale à son erreur quadratique Fluctuations et biais - Exemple sur le sondage aléatoire simple sans remise Principe Tirer dans une population de taille N un échantillon de taille fixée n sans remise, tel que chaque individu ait la même probabilité d’inclusion, et ce sans manipulation préalable dans la population Un exemple : moyenne des montants des factures de vente d’une société en euros, N = 5 5 8 10 12 15 moyenne=(5+8+10+12+15)/5=10 Tirage d’échantillons de taille n = 2 et estimation de la moyenne par (y1+y2)/2 10 échantillons possibles : y1 y2 Y 5 8 6.5 5 10 7.5 5 12 8.5 5 15 10 8 10 9 8 12 10 8 15 11.5 10 12 11 10 15 12.5 12 15 13.5 Fluctuations et biais - Exemple sur le sondage aléatoire simple sans remise Biais On dit que l’estimateur de la moyenne est sans biais quand la moyenne des estimations sur l’ensemble des échantillons est la moyenne de la population. Dans l’exemple : Y 6.5 7.5 8.5 10 9 10 11.5 11 12.5 13.5 On a donc : (6.5+7.5+8.5+10+9+10+11.5+11+12.5+13.5)/10 = 10 Attention : ‘sans biais’ signifie que les résultats sont bons ‘en moyenne’ mais pas que le résultat obtenu à partir d’un échantillon le soit Fluctuations et biais - Exemple sur le sondage aléatoire simple sans remise Le script R suivant crée un vecteur avec les données, puis calcule toutes les combinaisons de taille 2, donne les moyennes et la moyenne générale Méthode de sondage En sondage on associe les deux éléments suivants la méthode de tirage et l’expression de l’estimateur. Remarque : Pour une méthode de tirage donnée, il existe de nombreux estimateurs concurrents. Réciproquement, un estimateur donné peut être appliqué à des échantillons sélectionnés selon des méthodes de tirage différentes. Le sondage aléatoire simple • • • Formalisme : notions, notations, … Le sondage aléatoire simple • Estimation d’une moyenne • Estimation d’une proportion et d’un total Intervalle de confiance Le sondage aléatoire simple (SAS) C’est le modèle de référence et le plus simple à utiliser: tous les individus ont la même probabilité d’appartenir à l’échantillon. C’est par rapport lui qu’on juge les autres modèles d’échantillonnage: il sert d’étalon. Il constitue en général « la brique » élémentaire des plans de sondage usuels; par exemple, les sondages stratifiés et les sondages à deux degrés sont des assemblages de sondages simples. 18 Le sondage aléatoire simple (SAS) Un sondage aléatoire est simple (SAS) si tous les échantillons de taille n fixée a priori, prélevés au 𝑛 sein d’une population U d’effectif N (𝐶 𝑘 ), sont réalisables avec la même probabilité. Remarque : dans ce cas, les individus de la population U ont tous la même probabilité d’être choisis pour faire partie de l’échantillon S : leur probabilité d’inclusion est une constante. On s’intéresse à la méthode consistant à ne pas remettre l’individu dans la population U à chaque tirage. Prélèvement sans remise. Ce type de sondage est dit sondage à probabilités égales sans remise (PESR) : tirage équiprobable sans remise de n unités Remarque : Un individu est choisi au plus une fois, chaque tirage fait décroître la population U d’une unité. Les observations ne sont plus des variables aléatoires indépendantes les unes des autres. Le sondage avec remise respecte cette indépendance, et est donc plus simple à manipuler analytiquement, mais est d’un intérêt limité en pratique 19 Sondage aléatoire simple sans remise Définition : tirage équiprobable sans remise de n unités 𝑛 Taux de sondage: 𝑁 = 𝜏 𝑛 𝐶𝑁 échantillons possibles; 𝜋𝑖 probabilité d’inclusion (plan de taille fixe) La somme des probabilités d’inclusion égale la taille de l’échantillon Équiprobabilité: 𝜋𝑖 = 𝑛 𝑁 𝑁 𝑖=1 𝜋𝑖 =𝑛 =𝜏 𝜋𝑖 probabilité d’inclusion de l’individu i est égale à la somme des probabilités de tous les échantillons contenant i : 𝜋𝑖 = 𝑠(𝑖∈𝑆) 𝑝(𝑠) Mise en oeuvre sur R R intègre plusieurs fonctions pour le tirage et l’estimation En plus des fonction de base, il y a plusieurs ‘packages’ . Ils sont listés ici : http://cran.rproject.org/web/views/OfficialStatistics.html les plus complets sont ‘sampling’ de Yves Tillé et Alina Matéi, et ‘survey’ de Thomas Lumley http://cran.r-project.org/web/packages/sampling/index.html http://cran.r-project.org/web/packages/survey/index.html La fonction la plus simple est ‘sample’ : sample(x, size, replace = FALSE, prob = NULL) 21 Mise en oeuvre avec SURVEYSELECT de SAS SAS intègre plusieurs procédures pour le tirage et l’estimation La sélection d’échantillons : surveyselect * 1 - Sondage aléatoire simple , on demande une taille d'échantillon de taille fixe = 15000 individus (N = 152004 n = 15000); proc surveyselect data = SampleIND15plus method = srs /* SRS = simple random sampling */ seed = 123 /* graine du générateur aléatoire */ out = sample /* table de sortie contenant l'échantillon */ sampsize = 15000; /* taille de l'échantillon */ run; surveyselect est suffisante pour les plans les plus courants, elle est mise en difficulté pour certains plans plus complexes dont le tirage équilibré. On a recours dans ce cas là à des macros spécialisées, par exemple %Cube et %Exe_cube L’estimation avec des plans de sondages complexes : surveymeans, surveyfreq, surveyreg, surveylogistic 22 Le sondage aléatoire simple • • Formalisme : notions, notations, … Le sondage aléatoire simple • • • Estimation d’une moyenne Estimation d’une proportion et d’un total Intervalle de confiance Moyenne dans la population Valeur de la moyenne arithmétique sur la population : 1 𝑦= N 𝑦𝑘 𝑘∈𝑈 Estimation de la moyenne Cette statistique, valeur de la moyenne arithmétique sur l’échantillon : 1 𝑦= 𝑦𝑘 𝑛 𝑘∈𝑆 peut être utilisée comme estimateur de la moyenne sur la population On montre que (Ardilly) 𝐸 𝑦 = 𝑦 : 𝑦 est un estimateur sans biais de 𝑦 Remarque : l’expression générale est plus complexe et fait appel à des poids de sondage, spécifiques à chaque individu de l’échantillon, elle est ici simplifiée car tous ces poids sont égaux. Ces notations seront introduites avec les probabilités inégales 25 Variance de l’estimateur de la moyenne La variance de l’estimateur de la moyenne est : 𝑉𝑎𝑟 𝑦 = 𝑁 − 𝑛 𝜎²𝑌 𝑁 𝜎²𝑌 = 1−𝑓 𝑁−1 𝑛 𝑁−1 𝑛 Si la taille de la population est grande alors on a : 𝑉𝑎𝑟 𝑦 ≈ 1 − 𝑓 𝜎²𝑌 𝑛 26 Estimation de la variance de l’estimateur de la moyenne On ne connaît pas 𝜎²𝑌 la variance corrigée de Y dans la population donc on utilise un estimateur sans biais : 1 𝑠²𝑌 = 𝑦𝑘 − 𝑦 ² 𝑛−1 𝑘∈𝑆 Un estimateur sans biais de la variance de l’estimateur est : 𝑠²𝑌 𝑉𝑎𝑟 𝑦 ≈ 1 − 𝑓 𝑛 Cette formule est centrale : elle nous dit que pour effectuer un sondage précis, il faut : 1. Un échantillon important 2. Une variance faible 3. Un taux de sondage fort 27 Retour sur la formule de précision Nous venons de voir que pour effectuer un sondage précis, il faut : 1. Un échantillon important 2. Une variance faible 3. Un taux de sondage fort Dans la plupart des applications, les conditions 1 et 3 pèsent fortement sur le budget de l’enquête (augmenter la taille de l’échantillon …) Nous verrons plus loin que la condition 2 peut se faire à taille constante (donc sans faire trop augmenter le budget !), en intégrant de l’information auxiliaire dans la méthode de sondage et/ou d’estimation Exemple : variance de l’estimateur de la moyenne On crée une population de 1001 valeurs entre 50 et 150 par intervalles de 0.1 La moyenne est 100 On crée 1000 échantillons de taille 20 et 50 Les 5 premières estimations issues de sondages de taille 20 et 50 sont respectivement {94.06, 91.48, 89.975} et {96.904, 102.516, 99.404} Les variances mesurées sur les 1000 estimations dans les 1000 sondages de taille 20 et 50 sont de 41.75 et 15.61 Le sondage aléatoire simple • • Formalisme : notions, notations, … Le sondage aléatoire simple • • • Estimation d’une moyenne Estimation d’une proportion et d’un total Intervalle de confiance Proportion dans la population Une proportion est simplement une moyenne de variable binaires (indiquant l’appartenance à un domaine D visé, soit ND la taille du domaine dans la population 𝑝= 1 N 𝑦𝑘 = 𝑘∈𝑈 𝑁𝐷 N Estimation de la proportion Cette statistique : p= 1 𝑛 𝑦𝑘 = 𝑘∈𝑆 𝑛𝐷 𝑛 peut être utilisée comme estimateur de la proportion sur la population On montre aussi que (Ardilly) 𝐸 p = p : p est un estimateur sans biais de p 32 Variance de l’estimateur de la proportion La variance d’une proportion s’exprime simplement : 𝑁 𝑉𝑎𝑟 p = 𝑁−1 p(1-p) La variance de l’estimateur d’une proportion s’écrit : 𝑁 − 𝑛 p(1−p) 𝑁 p(1−p) 𝑉𝑎𝑟 p = = 1−𝑓 𝑁−1 𝑛 𝑁−1 𝑛 Si la taille de la population est grande alors on a : 𝑉𝑎𝑟 p ≈ 1 − 𝑓 p(1−p) 𝑛 33 Estimation de la variance de l’estimateur On ne connaît pas la proportion p, on l’estime par p = 1 𝑛 𝑘∈𝑆 𝑦𝑘 = 𝑛𝐷 𝑛 Un estimateur sans biais de la variance de l’estimateur est : p(1−p) 𝑉𝑎𝑟 p ≈ 1 − 𝑓 𝑛 34 Résumé – moyenne - proportion pour une moyenne dans la population dans l’échantillon Variance de l’estimateur variance de Y 𝑦= 𝑦= 1 N 1 𝑛 pour une proportion 𝑦𝑘 𝑝= 𝑘∈𝑈 𝑦𝑘 p= 𝑘∈𝑆 𝑁 − 𝑛 𝜎²𝑌 𝑉𝑎𝑟 𝑦 = 𝑁−1 𝑛 𝑁 𝜎²𝑌 = 1−𝑓 𝑁−1 𝑛 1 𝑠²𝑌 = 𝑦𝑘 − 𝑦 ² 𝑛−1 1 N 1 𝑛 𝑦𝑘 = 𝑁𝐷 N 𝑦𝑘 = 𝑛𝐷 𝑛 𝑘∈𝑈 𝑘∈𝑆 𝑁 − 𝑛 p(1−p) 𝑉𝑎𝑟 p = 𝑁−1 𝑛 𝑁 p(1−p) = 1−𝑓 𝑁−1 𝑛 𝑘∈𝑆 estimateur de la variance de l’estimateur 𝑉𝑎𝑟 𝑦 ≈ 1 − 𝑓 𝑠²𝑌 𝑛 𝑉𝑎𝑟 p ≈ 1 − 𝑓 p(1−p) 𝑛 Pour un total : dans la population Valeur du total T d’une population U : 𝑇 = 𝑁𝑦 = 𝑦𝑘 𝑘∈𝑈 36 Estimation du total Un estimateur du total T d’une population U se définit par : 𝑁 𝑇𝑛 = 𝑁𝑦 = 𝑦𝑘 𝑛 𝑘∈𝑆 On montre que (Ardilly) 𝐸 𝑇𝑛 = 𝑇𝑌 donc 𝑇𝑛 est un estimateur sans biais de 𝑇𝑌 et : 𝜎²𝑌 𝑉𝑎𝑟 𝑇𝑛 = 𝑁² 1 − 𝑓 𝑛 Comme on ne connait pas 𝜎²𝑌 , un estimateur sans biais de la variance 𝑉𝑎𝑟 𝑇𝑛 est donné par : 𝑠²𝑌 𝑉𝑎𝑟 𝑇𝑛 ≈ 𝑁² 1 − 𝑓 𝑛 37 Le sondage aléatoire simple • • Formalisme : notions, notations, … Le sondage aléatoire simple • • • Estimation d’une moyenne Estimation d’une proportion et d’un total Intervalle de confiance Intervalle de confiance Fluctuations, erreur d’échantillonnage : les estimations fournies par une enquête par sondage sur un échantillon donnée ne coïncident en général pas avec les résultats qu'aurait donnée une interrogation exhaustive. Mais si l’échantillon est sélectionné aléatoirement et de taille ‘suffisante’, on peut s’attendre à ce que les estimations faites à partir d’un échantillon donné soient ‘proches’ de la vraie valeur, avec de fortes probabilités. Population, cible Individu Echantillon Intervalle de confiance Si le sondage est aléatoire, la notion d'intervalle de confiance permet de donner une idée de cet écart. Lorsqu'un intervalle de confiance à 95 % est fourni pour une grandeur, cela signifie que cet intervalle a 95 % de chances de contenir la valeur qu'aurait donnée une interrogation exhaustive. Remarque : l'intervalle de confiance ne prend en compte que le fait que les résultats proviennent d'une enquête par sondage aléatoire, et non les autres sources d'erreurs : réponses inexactes ou mal interprétées, biais des non-réponses... Intervalle de confiance au niveau Intervalles de confiance pour un paramètre d’intérêt (« fourchette ») Intervalle ayant une probabilité 1- (niveau de confiance) de contenir la vraie valeur du paramètre. risque d’erreur, généralement partagé de façon symétrique /2 et /2 Nécessite de connaitre au moins approximativement la distribution de probabilité de l’estimateur La longueur de l’intervalle diminue avec n et augmente avec le niveau de confiance et avec la variance de l’estimateur (elle-même fonction de la variance de la population) Intervalle de confiance : illustration Un intervalle de confiance à 95% par exemple est un intervalle autour d’une valeur estimée qui a 95 chances sur 100 d’intercepter la vraie valeur 55.0 Intervalles de confiance pour les moyennes 54.0 53.0 C ’est à dire que si l ’on faisait 100 estimations avec la même méthode de tirage et sur des échantillons de même taille, on en aurait 95/100 qui intercepteraient la vraie valeur. Mais en pratique on fait UNE estimation … 52.0 51.0 50.0 49.0 48.0 47.0 Dans l ’exemple ci-contre, on a simulé 100 tirages dans une population avec µ=50; 5 intervalles sont ‘tombés ’ à côté de la vraie valeur 46.0 45.0 42 Intervalle de confiance : théorème central limite La moyenne d’un échantillon de n observations indépendantes issues d’une population de moyenne et d’écart-type converge si n augmente vers une loi normale: 𝜎 𝑁(𝜇, ) 𝑛 Illustration animée : http://www.vias.org/simulations/simusoft_cenlimit.html n>30 est souvent suffisant 43 Intervalle de confiance à 95% pour une proportion Les intervalles de confiance ne peuvent être formés que si l’on connaît la loi de l’estimateur. En pratique, dès que l’on a un échantillon d’une trentaine d’observations (n > 30) on peut assimiler la loi de l’estimateur à une loi Normale et s’appuyer dessus pour calculer les probabilités Un intervalle de confiance à 95% pour une proportion et son estimation : ˆ (1 p ˆ) n p ˆ IC Y 2 1 N n Application : quel est l’intervalle de confiance à 95% pour un sondage de 1000 personnes, sur un deuxième tour de présidentielle (proportions autour de 50%) ? [remarque : les sondages électoraux ne sont pas aléatoires simple mais par quotas et appliquent de nombreux correctifs, mais pour l’exercice, faisons comme si …] 44 Intervalle de confiance à 95% pour une moyenne Un intervalle de confiance à 95% pour une proportion et son estimation est construite à partir des quantiles de la loi normale : n s² IˆC p̂ 2 1 N n Application : quel est l’intervalle de confiance à 95% pour une note de satisfaction sur 10, de moyenne 7.6, d’écart type 3 sur un échantillon de taille 500 ? 45 Résumé – moyenne - proportion pour une moyenne dans la population 𝑦= dans l’échantillon variance de Y estimateur de la variance de l’estimateur estimateur d’un IC à 95% 𝑦= 𝑠²𝑌 = 1 N 1 𝑛 1 𝑛−1 pour une proportion 𝑦𝑘 𝑝= 𝑘∈𝑈 𝑦𝑘 p= 𝑘∈𝑆 1 N 1 𝑛 𝑦𝑘 = 𝑁𝐷 N 𝑦𝑘 = 𝑛𝐷 𝑛 𝑘∈𝑈 𝑘∈𝑆 𝑦𝑘 − 𝑦 ² 𝑘∈𝑆 𝑉𝑎𝑟 𝑦 ≈ 1 − 𝑓 𝑠²𝑌 𝑛 𝐼𝐶 ≈ ∓2 𝑠²𝑌 𝑛 1−𝑓 𝑉𝑎𝑟 p ≈ 1 − 𝑓 𝐼𝐶 ≈ ∓2 p(1−p) 𝑛 p(1−p) 1−𝑓 𝑛 Établissement de la taille d’échantillon On pose souvent la question au statisticien d’enquête : « A partir de combien d’éléments un échantillon est-il valable ? » Si la question est ainsi posée, il n’y a pas de réponse directe. En effet, lorsqu’il existe une forte contrainte de budget, si C est le budget maximum alloué à l’enquête et c est le coût unitaire du sondage, la taille maximale possible est n=C/c. Mais cette taille peut être insuffisante pour assurer des résultats suffisamment fiables. La question qui se pose alors est : « Quel budget faudrait-il consacrer pour garantir une précision acceptable ? ». Faut-il encore savoir ce que l’on entend pour « précision acceptable » … 47 Établissement de la taille d’échantillon pour une précision donnée On peut convenir d’un écartement maximum toléré de l’intervalle de confiance, c’est-à-dire fixer une borne n Cas général : 2 s 1 N d' où : n N 1 s n 4 si est faible mais nécéssite de connaitre s! N 2 2 N 1 4s 2 pˆ 1 pˆ Pour une proportion : s n n pˆ 1 pˆ 2 1 N n n4 s 2 48 Précision pour une taille d’échantillon donnée, proportions Dans le cas de proportions, on peut se servir de tables pré-calculées qui fournissent la précision de l’estimation d’une proportion observée en fonction de la taille d’échantillon n. Plus simplement encore, on peut observer que la quantité P(1-P) est maximale pour P=0,5 et qu’elle vaut alors 0,25. La largeur maximale de l’intervalle de confiance est donc : 2 1 1/ n 4n Taille d’échantillon n Ceci permet de calculer les tailles d’échantillon dans le cas le plus incertain Écartement de la « fourchette » 100 ± 10,0% 400 ± 5,0% 1000 ± 3,0% 1600 ± 2,5% 10000 ± 1,0% 49 Précision absolue ou précision relative? Précision absolue ou précision relative? Pour une population rare, on aboutit à une taille d’échantillon souvent excessive Viser un /p change tout Compromis à faire quand il y a plusieurs variables d’intérêt Attention aux non-réponses : la précision dépend du nombre de répondants 50 Le sondage aléatoire simple • • • Formalisme : notions, notations, … Le sondage aléatoire simple • Estimation d’une moyenne • Estimation d’une proportion et d’un total Intervalle de confiance