Sondage aléatoire simple sans remise

publicité
STA108 Sondages
Introduction
Philippe Périé
cours n°2 : 10OCT2014
STA108 - Sondages
• Philippe Périé (IPSOS) [email protected]
• Sylvie Rousseau (INSEE) [email protected]
Le sondage
aléatoire simple
•
•
•
Formalisme : notions, notations,
…
Le sondage aléatoire simple
• Estimation d’une moyenne
• Estimation d’une proportion et
d’un total
Intervalle de confiance
Population, base de sondage, variable d’intérêt
Population U composée de N individus ou éléments appelés unités statistiques. N est la
taille de la population U, supposée finie. Exemples de population : L’ensemble des touristes
d’un pays, l’ensemble des ménages d’un pays, la production de pièces mécaniques d’une
usine...
Nous pouvons dresser une liste exhaustive des éléments de la population U, appelée base
de sondage où chaque élément est représenté par son numéro d’ordre 𝑈 = 1, … , 𝑘, … 𝑁
Soit une variable Y, appelée variable d’intérêt, dont les valeurs associées à chaque unité de
sondage sont notées 𝑦1 , 𝑦2 ,…. 𝑦𝑁 . On notera le vecteur 𝑌𝑁 = 𝑦2 , 𝑦2 ,…. 𝑦𝑁 ′
On réalise un sondage pour estimer une moyenne, un total, une proportion, … un
paramètre d’intérêt sur la population entière.
L’objectif se résume donc à estimer 𝛉 , une fonction de 𝐘𝐍 : 𝜃 = 𝜃 𝑦𝑘 , 𝑘 ∈ 𝑈
Paramètres et fonction d’intérêt
Cette fonction est appelée fonction d’intérêt. Elle est souvent linéaire, comme par exemple
le total : 𝑡𝑦 = 𝑘∈𝑈 𝑦𝑘
1
Ou une moyenne : 𝑦 = 𝑁
𝑘∈𝑈 𝑦𝑘
Remarque : même si ce n’est pas immédiat ici, nous verrons que les deux problèmes
d’estimation ne sont pas forcément équivalents : quelquefois la taille de la population n’est
pas forcément connue, son estimation peut faire partie du problème
D’autres fonctions plus complexes peuvent être fonction d’intérêt, comme la variance
1
1
(fonction quadratique) : 𝜎 2 = 𝑁 𝑘∈𝑈 𝑦𝑘 − 𝑦 ² = 2𝑁² 𝑘∈𝑈 𝑙∈𝑈 𝑦𝑘 − 𝑦𝑙 ²
𝑙≠𝑘
𝑡
ou des ratios : si x et y sont deux caractères connus, 𝑅 = 𝑡𝑥
𝑦
Echantillon
Dans ce cours, nous allons nous intéresser aux tirages sans remises, même si on pourra
parler des tirage avec remise lors de l’établissement de certaines formules : un échantillon
non ordonné sans remise est un n-uple non ordonné (combinaison de n unités de U prises
sans répétition). On note traditionnellement un échantillon avec la lettre s (sample).
On utilisera une notation ensembliste, puisqu’un échantillon est un sous ensemble non vide
de U. Un élément est présentée en général soit par un numéro compris entre 1 et N.
L’ensemble des échantillons de U est l’ensemble des parties non vides de U, on a 𝑆 =
𝑠|𝑠 ⊂ 𝑈 \∅. Par exemple, pour une population U={1,2,3} on a S = {{1}, {2}, {2}, {1,2}, {1,3},
{2,3}, {1,2,3}}, le nombre d’échantillons non ordonnés sans remises possibles est 2𝑁 − 1
Si l’échantillon est de taille fixe, alors on notera n sa taille
Taux de sondage : f =n/N, avec n : taille de l’échantillon et N : taille de la population
Plan de sondage
•
Un plan de sondage non ordonné sans remise p(.) est une distribution de probabilités
sur S telle que 𝑝 𝑠 ≥ 0, 𝑝𝑜𝑢𝑟 𝑡𝑜𝑢𝑡 𝑠 ∈ 𝑆 𝑒𝑡 𝑠∈𝑆 𝑝 𝑠 = 1
•
Par exemple, une population U={1,2,3,4}, on sélectionne 2 unités avec remise et à
probabilités égales dans U. Le plan de sondage est donné par : S= P({1})=1/16,
P({2})=1/16, P({3})=1/16, P({4})=1/16, P({1,2})=1/8, P({1,3})=1/8, P({1,4})=1/8,
P({2,3})=1/8, P({2,4})=1/8, P({3,4})=1/8
– Sans remise, on a le plan de sondage suivant : S = P({1,2})=1/6, P({1,3})=1/6,
P({1,4})=1/6, P({2,3})=1/6, P({2,4})=1/6, P({3,4})=1/6
– Sans remise, pour n éléments parmi N, 𝑐𝑎𝑟𝑑 𝑆 = 𝐶𝑁𝑛
Estimation
L’objectif d’un sondage est en général d’estimer 𝛉 , une fonction de 𝐘𝐍 : 𝜃 = 𝜃 𝑦𝑘 , 𝑘 ∈ 𝑈
à partir des valeurs prises par celle-ci dans l’échantillon
Un statistique est une fonction g() des données observée.
Soit g(s) la valeur prise par un statistique sur l’échantillon s.
Si le plan est sans remise, on appelle espérance de la statistique la valeur :
𝐸 𝑔 =
𝑃𝑟 𝑆 = 𝑠 𝑔(𝑠)
𝑠∈𝑆
Sa variance est : V𝑎𝑟 𝑔 = 𝐸 𝑔 − 𝐸(𝑔) ²
Un estimateur 𝜃 est une statistique utilisée afin d’estimer une fonction d’intérêt 𝜃de 𝑌𝑁
Estimateur
Une fonction d’intérêt, la moyenne de Y sur la population U:
1
𝑦=
𝑦𝑘
𝑁
𝑘∈𝑈
Une statistique, valeur de la moyenne arithmétique sur l’échantillon :
1
𝑦=
𝑦𝑘
𝑛
𝑘∈𝑆
Dans la cas d’un sondage aléatoire simple, cette statistique peut être utilisée comme
estimateur de la moyenne sur la population (l’expression générale est plus complexe et fait
appel à des poids de sondage, spécifiques à chaque individu de l’échantillon, elle est ici
simplifiée car tous ces poids sont égaux)
Fluctuation ou erreur d’échantillonnage
Fluctuations d’échantillonnage : avec les mêmes probabilités d’inclusion, répéter q fois un
sondage donnera q résultats différents
Attention, il est important de noter que dans cette approche, l’aléa se situe exclusivement
au niveau du choix des individus dans l’échantillon. C’est une approche différente de celle
adoptée en économétrie par exemple : les valeurs de Y sont des variables aléatoires dont
on observe une réalisation.
L’estimateur sera aléatoire, non pas par la nature des variables mesurées, mais par
l’échantillon s des personnes interrogés.
Fluctuations d’échantillonnage
On crée une population de 1001 valeurs
entre 50 et 150 par intervalles de 0.1
La moyenne est 100
On crée 1000 échantillons de taille 20 et
50
Les 5 premières estimations issues de
sondages de taille 20 et 50 sont
respectivement {94.06, 91.48, 89.975} et
{96.904, 102.516, 99.404}
Les variances mesurées sur les 1000
estimations dans les 1000 sondages de
taille 20 et 50 sont de 41.75 et 15.61
Biais, variance, erreur quadratique
Un estimateur d’une fonction d’intérêt est dit sans biais si :
𝐸 𝜃 = 𝜃, 𝑝𝑜𝑢𝑟 𝑡𝑜𝑢𝑡𝑌𝑁 ∈ ℝ𝑁
C’est-à-dire que son espérance mathématique est égale à la fonction d’intérêt à estimer
quelle que soit la valeur de 𝑌𝑁
Le biais d’un estimateur 𝜃 est défini par : 𝐵 𝜃 = 𝐸 𝜃 − 𝜃
La variance : 𝑉𝑎𝑟 𝜃 = 𝐸 𝜃 − 𝐸 𝜃
²
L’erreur quadratique moyenne est : 𝐸𝑄𝑀 𝜃 = 𝐸 𝜃 − 𝜃 ² = var 𝜃 + 𝐵² 𝜃
Si un estimateur est sans biais, sa variance est égale à son erreur quadratique
Fluctuations et biais - Exemple sur le sondage aléatoire simple sans remise
Principe
Tirer dans une population de taille N un échantillon de taille fixée n sans remise, tel
que chaque individu ait la même probabilité d’inclusion, et ce sans manipulation
préalable dans la population
Un exemple :
moyenne des montants des factures de vente d’une société en euros, N = 5
5
8
10
12
15
moyenne=(5+8+10+12+15)/5=10
Tirage d’échantillons de taille n = 2 et estimation de la moyenne par (y1+y2)/2
10 échantillons possibles :
y1
y2
Y
5
8
6.5
5
10
7.5
5
12
8.5
5
15
10
8
10
9
8
12
10
8
15
11.5
10
12
11
10
15
12.5
12
15
13.5
Fluctuations et biais - Exemple sur le sondage aléatoire simple sans remise
Biais
On dit que l’estimateur de la moyenne est sans biais quand la moyenne des
estimations sur l’ensemble des échantillons est la moyenne de la population. Dans
l’exemple :
Y
6.5
7.5
8.5
10
9
10
11.5
11
12.5
13.5
On a donc : (6.5+7.5+8.5+10+9+10+11.5+11+12.5+13.5)/10 = 10
Attention : ‘sans biais’ signifie que les résultats sont bons ‘en moyenne’ mais pas que le
résultat obtenu à partir d’un échantillon le soit
Fluctuations et biais - Exemple sur le sondage aléatoire simple sans remise
Le script R suivant crée un
vecteur avec les données, puis
calcule toutes les combinaisons
de taille 2, donne les moyennes
et la moyenne générale
Méthode de sondage
En sondage on associe les deux éléments suivants
la méthode de tirage
et l’expression de l’estimateur.
Remarque : Pour une méthode de tirage donnée, il existe de nombreux estimateurs
concurrents. Réciproquement, un estimateur donné peut être appliqué à des échantillons
sélectionnés selon des méthodes de tirage différentes.
Le sondage
aléatoire simple
•
•
•
Formalisme : notions, notations, …
Le sondage aléatoire simple
• Estimation d’une moyenne
• Estimation d’une proportion et
d’un total
Intervalle de confiance
Le sondage aléatoire simple (SAS)
C’est le modèle de référence et le plus simple à utiliser: tous les individus ont la même
probabilité d’appartenir à l’échantillon.
C’est par rapport lui qu’on juge les autres modèles d’échantillonnage: il sert d’étalon.
Il constitue en général « la brique » élémentaire des plans de sondage usuels; par
exemple, les sondages stratifiés et les sondages à deux degrés sont des assemblages de
sondages simples.
18
Le sondage aléatoire simple (SAS)
Un sondage aléatoire est simple (SAS) si tous les échantillons de taille n fixée a priori, prélevés au
𝑛
sein d’une population U d’effectif N (𝐶 𝑘 ), sont réalisables avec la même probabilité.
Remarque : dans ce cas, les individus de la population U ont tous la même probabilité d’être
choisis pour faire partie de l’échantillon S : leur probabilité d’inclusion est une constante.
On s’intéresse à la méthode consistant à ne pas remettre l’individu dans la population U à
chaque tirage. Prélèvement sans remise. Ce type de sondage est dit sondage à probabilités égales
sans remise (PESR) : tirage équiprobable sans remise de n unités
Remarque : Un individu est choisi au plus une fois, chaque tirage fait décroître la population U
d’une unité. Les observations ne sont plus des variables aléatoires indépendantes les unes des
autres. Le sondage avec remise respecte cette indépendance, et est donc plus simple à manipuler
analytiquement, mais est d’un intérêt limité en pratique
19
Sondage aléatoire simple sans remise
Définition : tirage équiprobable sans remise de n unités
𝑛
Taux de sondage: 𝑁 = 𝜏
𝑛
𝐶𝑁
échantillons possibles;
𝜋𝑖 probabilité d’inclusion (plan de taille fixe)
La somme des probabilités d’inclusion égale la taille de l’échantillon
Équiprobabilité: 𝜋𝑖 =
𝑛
𝑁
𝑁
𝑖=1 𝜋𝑖
=𝑛
=𝜏
𝜋𝑖 probabilité d’inclusion de l’individu i est égale à la somme des probabilités de tous les
échantillons contenant i : 𝜋𝑖 = 𝑠(𝑖∈𝑆) 𝑝(𝑠)
Mise en oeuvre sur R
R intègre plusieurs fonctions pour le tirage et l’estimation
En plus des fonction de base, il y a plusieurs ‘packages’ . Ils sont listés ici : http://cran.rproject.org/web/views/OfficialStatistics.html
les plus complets sont ‘sampling’ de Yves Tillé et Alina Matéi, et ‘survey’ de Thomas Lumley
http://cran.r-project.org/web/packages/sampling/index.html
http://cran.r-project.org/web/packages/survey/index.html
La fonction la plus simple est ‘sample’ :
sample(x, size, replace = FALSE, prob = NULL)
21
Mise en oeuvre avec SURVEYSELECT de SAS
SAS intègre plusieurs procédures pour le tirage et l’estimation
La sélection d’échantillons : surveyselect
* 1 - Sondage aléatoire simple , on demande une taille d'échantillon de taille fixe
= 15000 individus (N = 152004 n = 15000);
proc surveyselect data = SampleIND15plus
method = srs
/* SRS = simple random sampling */
seed = 123
/* graine du générateur aléatoire */
out = sample
/* table de sortie contenant l'échantillon */
sampsize = 15000; /* taille de l'échantillon */
run;
surveyselect est suffisante pour les plans les plus courants, elle est mise en difficulté pour certains
plans plus complexes dont le tirage équilibré. On a recours dans ce cas là à des macros spécialisées, par
exemple %Cube et %Exe_cube
L’estimation avec des plans de sondages complexes : surveymeans, surveyfreq, surveyreg,
surveylogistic
22
Le sondage
aléatoire simple
•
•
Formalisme : notions, notations, …
Le sondage aléatoire simple
•
•
•
Estimation d’une moyenne
Estimation d’une proportion et d’un total
Intervalle de confiance
Moyenne dans la population
Valeur de la moyenne arithmétique sur la population :
1
𝑦=
N
𝑦𝑘
𝑘∈𝑈
Estimation de la moyenne
Cette statistique, valeur de la moyenne arithmétique sur l’échantillon :
1
𝑦=
𝑦𝑘
𝑛
𝑘∈𝑆
peut être utilisée comme estimateur de la moyenne sur la population
On montre que (Ardilly) 𝐸 𝑦 = 𝑦 : 𝑦 est un estimateur sans biais de 𝑦
Remarque : l’expression générale est plus complexe et fait appel à des poids de sondage,
spécifiques à chaque individu de l’échantillon, elle est ici simplifiée car tous ces poids sont
égaux. Ces notations seront introduites avec les probabilités inégales
25
Variance de l’estimateur de la moyenne
La variance de l’estimateur de la moyenne est :
𝑉𝑎𝑟 𝑦 =
𝑁 − 𝑛 𝜎²𝑌
𝑁 𝜎²𝑌
= 1−𝑓
𝑁−1 𝑛
𝑁−1 𝑛
Si la taille de la population est grande alors on a : 𝑉𝑎𝑟 𝑦 ≈ 1 − 𝑓
𝜎²𝑌
𝑛
26
Estimation de la variance de l’estimateur de la moyenne
On ne connaît pas 𝜎²𝑌 la variance corrigée de Y dans la population donc on utilise un
estimateur sans biais :
1
𝑠²𝑌 =
𝑦𝑘 − 𝑦 ²
𝑛−1
𝑘∈𝑆
Un estimateur sans biais de la variance de l’estimateur est :
𝑠²𝑌
𝑉𝑎𝑟 𝑦 ≈ 1 − 𝑓
𝑛
Cette formule est centrale : elle nous dit que pour effectuer un sondage précis, il faut :
1. Un échantillon important
2. Une variance faible
3. Un taux de sondage fort
27
Retour sur la formule de précision
Nous venons de voir que pour effectuer un sondage précis, il faut :
1. Un échantillon important
2. Une variance faible
3. Un taux de sondage fort
Dans la plupart des applications, les conditions 1 et 3 pèsent fortement sur le budget de
l’enquête (augmenter la taille de l’échantillon …)
Nous verrons plus loin que la condition 2 peut se faire à taille constante (donc sans faire
trop augmenter le budget !), en intégrant de l’information auxiliaire dans la méthode de
sondage et/ou d’estimation
Exemple : variance de l’estimateur de la moyenne
On crée une population de 1001 valeurs
entre 50 et 150 par intervalles de 0.1
La moyenne est 100
On crée 1000 échantillons de taille 20 et
50
Les 5 premières estimations issues de
sondages de taille 20 et 50 sont
respectivement {94.06, 91.48, 89.975} et
{96.904, 102.516, 99.404}
Les variances mesurées sur les 1000
estimations dans les 1000 sondages de
taille 20 et 50 sont de 41.75 et 15.61
Le sondage
aléatoire simple
•
•
Formalisme : notions, notations, …
Le sondage aléatoire simple
•
•
•
Estimation d’une moyenne
Estimation d’une proportion et
d’un total
Intervalle de confiance
Proportion dans la population
Une proportion est simplement une moyenne de variable binaires (indiquant
l’appartenance à un domaine D visé, soit ND la taille du domaine dans la population
𝑝=
1
N
𝑦𝑘 =
𝑘∈𝑈
𝑁𝐷
N
Estimation de la proportion
Cette statistique :
p=
1
𝑛
𝑦𝑘 =
𝑘∈𝑆
𝑛𝐷
𝑛
peut être utilisée comme estimateur de la proportion sur la population
On montre aussi que (Ardilly) 𝐸 p = p : p est un estimateur sans biais de p
32
Variance de l’estimateur de la proportion
La variance d’une proportion s’exprime simplement :
𝑁
𝑉𝑎𝑟 p = 𝑁−1 p(1-p)
La variance de l’estimateur d’une proportion s’écrit :
𝑁 − 𝑛 p(1−p)
𝑁 p(1−p)
𝑉𝑎𝑟 p =
= 1−𝑓
𝑁−1
𝑛
𝑁−1 𝑛
Si la taille de la population est grande alors on a : 𝑉𝑎𝑟 p ≈ 1 − 𝑓
p(1−p)
𝑛
33
Estimation de la variance de l’estimateur
On ne connaît pas la proportion p, on l’estime par p =
1
𝑛
𝑘∈𝑆 𝑦𝑘 =
𝑛𝐷
𝑛
Un estimateur sans biais de la variance de l’estimateur est :
p(1−p)
𝑉𝑎𝑟 p ≈ 1 − 𝑓
𝑛
34
Résumé – moyenne - proportion
pour une moyenne
dans la population
dans l’échantillon
Variance de
l’estimateur
variance de Y
𝑦=
𝑦=
1
N
1
𝑛
pour une proportion
𝑦𝑘
𝑝=
𝑘∈𝑈
𝑦𝑘
p=
𝑘∈𝑆
𝑁 − 𝑛 𝜎²𝑌
𝑉𝑎𝑟 𝑦 =
𝑁−1 𝑛
𝑁 𝜎²𝑌
= 1−𝑓
𝑁−1 𝑛
1
𝑠²𝑌 =
𝑦𝑘 − 𝑦 ²
𝑛−1
1
N
1
𝑛
𝑦𝑘 =
𝑁𝐷
N
𝑦𝑘 =
𝑛𝐷
𝑛
𝑘∈𝑈
𝑘∈𝑆
𝑁 − 𝑛 p(1−p)
𝑉𝑎𝑟 p =
𝑁−1
𝑛
𝑁 p(1−p)
= 1−𝑓
𝑁−1 𝑛
𝑘∈𝑆
estimateur de la
variance de
l’estimateur
𝑉𝑎𝑟 𝑦 ≈ 1 − 𝑓
𝑠²𝑌
𝑛
𝑉𝑎𝑟 p ≈ 1 − 𝑓
p(1−p)
𝑛
Pour un total : dans la population
Valeur du total T d’une population U :
𝑇 = 𝑁𝑦 =
𝑦𝑘
𝑘∈𝑈
36
Estimation du total
Un estimateur du total T d’une population U se définit par :
𝑁
𝑇𝑛 = 𝑁𝑦 =
𝑦𝑘
𝑛
𝑘∈𝑆
On montre que (Ardilly) 𝐸 𝑇𝑛 = 𝑇𝑌 donc 𝑇𝑛 est un estimateur sans biais de 𝑇𝑌 et :
𝜎²𝑌
𝑉𝑎𝑟 𝑇𝑛 = 𝑁² 1 − 𝑓
𝑛
Comme on ne connait pas 𝜎²𝑌 , un estimateur sans biais de la variance 𝑉𝑎𝑟 𝑇𝑛 est donné
par :
𝑠²𝑌
𝑉𝑎𝑟 𝑇𝑛 ≈ 𝑁² 1 − 𝑓
𝑛
37
Le sondage
aléatoire simple
•
•
Formalisme : notions, notations, …
Le sondage aléatoire simple
•
•
•
Estimation d’une moyenne
Estimation d’une proportion et d’un total
Intervalle de confiance
Intervalle de confiance
Fluctuations, erreur d’échantillonnage : les estimations fournies par une enquête par
sondage sur un échantillon donnée ne coïncident en général pas avec les résultats
qu'aurait donnée une interrogation exhaustive.
Mais si l’échantillon est sélectionné aléatoirement et de taille ‘suffisante’, on peut
s’attendre à ce que les estimations faites à partir d’un échantillon donné soient ‘proches’
de la vraie valeur, avec de fortes probabilités.
Population, cible
Individu
Echantillon
Intervalle de confiance
Si le sondage est aléatoire, la notion d'intervalle de confiance permet de donner une idée
de cet écart.
Lorsqu'un intervalle de confiance à 95 % est fourni pour une grandeur, cela signifie que cet
intervalle a 95 % de chances de contenir la valeur qu'aurait donnée une interrogation
exhaustive.
Remarque : l'intervalle de confiance ne prend en compte que le fait que les résultats
proviennent d'une enquête par sondage aléatoire, et non les autres sources d'erreurs :
réponses inexactes ou mal interprétées, biais des non-réponses...
Intervalle de confiance au niveau 
Intervalles de confiance pour un paramètre
d’intérêt (« fourchette »)
Intervalle ayant une probabilité 1- (niveau
de confiance) de contenir la vraie valeur du
paramètre.  risque d’erreur, généralement
partagé de façon symétrique  /2 et  /2
Nécessite de connaitre au moins
approximativement la distribution de
probabilité de l’estimateur
La longueur de l’intervalle diminue avec n et
augmente avec le niveau de confiance et
avec la variance de l’estimateur (elle-même
fonction de la variance de la population)
Intervalle de confiance : illustration
Un intervalle de confiance à 95% par
exemple est un intervalle autour d’une
valeur estimée qui a 95 chances sur 100
d’intercepter la vraie valeur
55.0
Intervalles de confiance pour les moyennes
54.0
53.0
C ’est à dire que si l ’on faisait 100
estimations avec la même méthode de
tirage et sur des échantillons de même taille,
on en aurait 95/100 qui intercepteraient la
vraie valeur.
Mais en pratique on fait UNE estimation …
52.0
51.0
50.0
49.0
48.0
47.0
Dans l ’exemple ci-contre, on a simulé 100
tirages dans une population avec µ=50; 5
intervalles sont ‘tombés ’ à côté de la vraie
valeur
46.0
45.0
42
Intervalle de confiance : théorème central limite
La moyenne d’un échantillon de n observations indépendantes issues d’une population de
moyenne  et d’écart-type  converge si n augmente vers une loi normale:
𝜎
𝑁(𝜇, )
𝑛
Illustration animée : http://www.vias.org/simulations/simusoft_cenlimit.html
n>30 est souvent suffisant
43
Intervalle de confiance à 95% pour une proportion
Les intervalles de confiance ne peuvent être formés que si l’on connaît la loi de l’estimateur.
En pratique, dès que l’on a un échantillon d’une trentaine d’observations (n > 30) on peut
assimiler la loi de l’estimateur à une loi Normale et s’appuyer dessus pour calculer les
probabilités
Un intervalle de confiance à 95% pour une proportion et son estimation :
ˆ (1  p
ˆ)
n  p

ˆ
IC  Y  2  1 

N 
n

Application : quel est l’intervalle de confiance à 95% pour un sondage de 1000
personnes, sur un deuxième tour de présidentielle (proportions autour de 50%) ?
[remarque : les sondages électoraux ne sont pas aléatoires simple mais par quotas et
appliquent de nombreux correctifs, mais pour l’exercice, faisons comme si …]
44
Intervalle de confiance à 95% pour une moyenne
Un intervalle de confiance à 95% pour une proportion et son estimation est construite à
partir des quantiles de la loi normale :
n  s²

IˆC  p̂  2  1 

N  n

Application : quel est l’intervalle de confiance à 95% pour une note de satisfaction
sur 10, de moyenne 7.6, d’écart type 3 sur un échantillon de taille 500 ?
45
Résumé – moyenne - proportion
pour une moyenne
dans la population
𝑦=
dans l’échantillon
variance de Y
estimateur de la
variance de
l’estimateur
estimateur d’un IC à
95%
𝑦=
𝑠²𝑌 =
1
N
1
𝑛
1
𝑛−1
pour une proportion
𝑦𝑘
𝑝=
𝑘∈𝑈
𝑦𝑘
p=
𝑘∈𝑆
1
N
1
𝑛
𝑦𝑘 =
𝑁𝐷
N
𝑦𝑘 =
𝑛𝐷
𝑛
𝑘∈𝑈
𝑘∈𝑆
𝑦𝑘 − 𝑦 ²
𝑘∈𝑆
𝑉𝑎𝑟 𝑦 ≈ 1 − 𝑓
𝑠²𝑌
𝑛
𝐼𝐶 ≈ ∓2
𝑠²𝑌
𝑛
1−𝑓
𝑉𝑎𝑟 p ≈ 1 − 𝑓
𝐼𝐶 ≈ ∓2
p(1−p)
𝑛
p(1−p)
1−𝑓
𝑛
Établissement de la taille d’échantillon
On pose souvent la question au statisticien d’enquête : « A partir de combien d’éléments un
échantillon est-il valable ? »
Si la question est ainsi posée, il n’y a pas de réponse directe. En effet, lorsqu’il existe une
forte contrainte de budget, si C est le budget maximum alloué à l’enquête et c est le coût
unitaire du sondage, la taille maximale possible est n=C/c.
Mais cette taille peut être insuffisante pour assurer des résultats suffisamment fiables. La
question qui se pose alors est : « Quel budget faudrait-il consacrer pour garantir une
précision acceptable ? ».
Faut-il encore savoir ce que l’on entend pour « précision acceptable » …
47
Établissement de la taille d’échantillon pour une précision donnée
On peut convenir d’un écartement maximum toléré de l’intervalle de confiance, c’est-à-dire
fixer une borne
n

Cas général :   2 s 1  
N

d' où : n  N
1
s
n

4
si
est faible mais nécéssite de connaitre s!
N 2
2
N
1
4s 2


 pˆ 1  pˆ 

Pour une proportion : s  

n




n  pˆ 1  pˆ 


  2 1  

N 
n


n4
s
2
48
Précision pour une taille d’échantillon donnée, proportions
Dans le cas de proportions, on peut se servir de tables pré-calculées qui fournissent la précision de
l’estimation d’une proportion observée en fonction de la taille d’échantillon n. Plus simplement encore,
on peut observer que la quantité P(1-P) est maximale pour P=0,5 et qu’elle vaut alors 0,25.
La largeur maximale de l’intervalle de confiance est donc : 2
1
1/ n
4n
Taille d’échantillon n
Ceci permet de calculer les tailles
d’échantillon dans le cas le plus incertain
Écartement de la
« fourchette »
100
± 10,0%
400
± 5,0%
1000
± 3,0%
1600
± 2,5%
10000
± 1,0%
49
Précision absolue ou précision relative?
Précision absolue ou précision relative?
Pour une population rare, on aboutit à une taille d’échantillon souvent excessive
Viser un /p change tout
Compromis à faire quand il y a plusieurs variables d’intérêt
Attention aux non-réponses : la précision dépend du nombre de répondants
50
Le sondage
aléatoire simple
•
•
•
Formalisme : notions, notations, …
Le sondage aléatoire simple
• Estimation d’une moyenne
• Estimation d’une proportion et
d’un total
Intervalle de confiance
Téléchargement