Echantillonnage

publicité
CHAPITRE 20
Echantillonnage
I Introduction
On se situe ici dans deux domaines des statistiques, qui sont ceux de « l’échantillonnage » et de « l’estimation ». Ces deux domaines ont des contextes d’application différents, qu’il faut savoir reconnaître.
Dans une certaine population, on étudie la proportion p d’individu présentant le caractère C.
1er cas : La proportion p d’individu présentant le 2ème cas : On ignore la proportion p d’individu précaractère C est connue ou on la suppose connue.
sentant le caractère C dans la population.
On sélectionne un échantillon de taille n par tirage au sort dans la population et on observe la
fréquence f du caractère C dans cet échantillon.
Cette fréquence observée appartient « en général » à
un intervalle de fluctuation de centre p.
On peut, à partir de ces intervalles de fluctuation
déterminer si l’échantillon ainsi obtenu est « représentatif » de la population.
Pour des raisons à la fois financières et logistiques on
ne peut pas recueillir des données sur la population
toute entière. On sélectionne alors un échantillon de
taille n par tirage au sort dans la population et on observe la fréquence f du caractère C dans cet échantillon.
On estime la proportion p par un intervalle de
confiance déterminé à partir de f et de n selon un niveau de confiance.
On est ici dans le domaine de l’échantillonnage On est ici dans le domaine de l’estimation et des intervalles de confiance.
et de l’intervalle de fluctuation.
Exemple :
1. Le responsable de la maintenance des machines à sous d’un casino doit vérifier qu’un certain type de
machine est bien réglé sur une fréquence de succès de 0,06. Pour cela, il observe, dans l’historique des
jeux, la fréquence de succès de ces machines.
On est ici dans une situation . . . . . . . . . . . . . . . . . .
2. On souhaite estimer la proportion de personnes immunisées contre un certain virus dans la population
d’une ville. Pour cela 500 personnes ont été sélectionnées de manière aléatoire. La population est suffisamment importante pour assimiler ce prélèvement à un tirage au hasard avec remise.
On est ici dans une situation . . . . . . . . . . . . . . . . . .
II Échantillonnage
Dans une certaine population, la proportion d’individus présentant le caractère C est p.
Que peut-on dire de la fréquence f du caractère C sur
un échantillon aléatoire de taille n ?
1. Cadre général
C.Vexiau - année 2013-2014
Chapitre 20 - TS - Echantillonnage - Page 1/ 6
Définition : X est une variable aléatoire qui suit la loi binomiale de paramètres n et p.
Soit α ∈]0; 1[ et a et b deux réels.
Dire que [a ; b] est un intervalle de fluctuation de X au seuil 1 − α signifie que :
Exemple :
En classe de Première, on a vu que si X n est la variable aléatoire associant à chaque échantillon de taille
n le nombre d’individus présentant le caractère C alors :
Xn
• Fn =
est la variable aléatoire correspondant à . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
n
• X n suit la loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
¸
µ
·
¸¶
·
a b
a b
;
;
, avec a et b entiers tel que P F n ∈
≥ 0, 95. Cet
• On peut déterminer un intervalle
n n
n n
intervalle est appelé intervalle de fluctuation au seuil de 0,95 de F n .
En pratique, pour trouver les entiers a et b, il suffit de rechercher, à l’aide de la loi binomiale, les
plus petits entiers a et b tels que : P (X n ≤ a) > 0, 025 et P (X n ≤ b) ≥ 0, 975.
Exercice 1 : Intervalle de fluctuation avec la loi binomiale
Exercice 2 : Notion d’intervalle de fluctuation asymptotique
2. Intervalle de fluctuation asymptotique
Théorème :
Soit X n une variable aléatoire suivant la loi binomiale de paramètres n et p.
Soit α ∈]0; 1[ et u α l’unique réel tel que P (−u α ≤ Z ≤ u α ) = 1 − α, où Z suit la loi N (0 ; 1).
"
#
p
p
p(1 − p)
p(1 − p)
Soit I n l’intervalle I n = p − u α
; p + uα
.
p
p
n
n
Alors :
µ
¶
Xn
∈ In = 1 − α
• lim P
n→+∞
n
• Pour n grand*, la variable aléatoire fréquence F n =
avec une probabilité proche de 1 − α.
Xn
prend ses valeurs dans l’intervalle I n
n
L’intervalle I n est un intervalle de fluctuation asymptotique au seuil 1 − α de la variable
Xn
.
aléatoire fréquence F n =
n
* En pratique, on utilise cet intervalle de fluctuation dès que n ≥ 30, np ≥ 5 et n(1 − p) ≥ 5.
Exemple : On a vu au chapitre 16 que u 0,05 ≃ 1, 96 et u 0,01 ≃ 2, 58. On rappelle que p désigne la proportion du caractère étudié dans la population et n la taille de l’échantillon.
C.Vexiau - année 2013-2014
Chapitre 20 - TS - Echantillonnage - Page 2/ 6
Ainsi,
• Au seuil de 95 %, I n =
• Au seuil de 99 %, I n =
Démonstration exigible
X n − np
On pose Zn = p
.
np(1 − p)
D’après le théorème de Moivre-Laplace,
lim P (−u α ≤ Zn ≤ u α ) = . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
n→+∞
Or, −u α ≤ Zn ≤ u α ⇔ . . . . . . . . . . . . . . . . . . . . . . . .
Remarque : On peut agrandir l’intervalle de fluctuation asymptotique I n au seuil de 95 % obtenu dans le
p
théorème précédent en majorant 1, 96 p(1 − p) par 1 pour 0 < p < 1.
Ceci permet de justifier la formule de l’intervalle de fluctuation utilisée en Seconde :
Théorème : Soit X n est une variable aléatoire suivant la loi binomiale de paramètres n et p, 0 < p < 1 et
Xn
Fn =
.
n
¶
µ
1
1
Il existe n 0 ∈ N tel que si n ≥ n 0 , P p − p ≤ F n ≤ p + p ≥ 0, 95.
n
n
Exemple : Intervalles de fluctuation au seuil de 95 % avec les lois binomiales et normales
Dans une urne contenant 3 boules rouges et 7 boules bleues, on effectue 100 tirages avec remise. On désigne
X
par X la variable aléatoire correspondant au nombre de boules rouges obtenues. On pose F =
.
100
1. (a) Déterminer la loi de la variable aléatoire X .
C.Vexiau - année 2013-2014
Chapitre 20 - TS - Echantillonnage - Page 3/ 6
(b) Déterminer l’intervalle de fluctuation de la variable aléatoire F au seuil de 95 %. (On donne cidessous une partie de la tabulation de la loi binomiale B(100 ; 0, 3))
2. En utilisant la loi normale, déterminer l’intervalle de fluctuation asymptotique de la variable aléatoire F au seuil de 95 % (arrondir les bornes à 10−2 ).
Comparer avec l’intervalle obtenu à la question 1.(b).
Prise de décision au seuil de 5%
On cherche à savoir, au seuil de décision de 5 %, si la proportion du caractère C dans la population vaut
p = p 0 ou non, à partir d’un échantillon de taille n.
La procédure est la suivante :
• On vérifie que n ≥ 30, np 0 ≥ 5 et n(1 − p 0 ) ≥ 5
"
#
p
p
p 0 (1 − p 0 )
p 0 (1 − p 0 )
• Calcul de I n = p 0 − 1, 96
; p 0 + 1, 96
. Ne pas oublier d’arrondir la borne infép
p
n
n
rieure par défaut et la borne supérieure par excès.
• Calcul de la fréquence f du caractère C sur l’échantillon de taille n prélevé
• Application de la règle de décision, au seuil de 5 % :
⋆ Si f ∉ I n , on rejette l’hypothèse p = p 0 ;
⋆ Si f ∈ I n , on ne la rejette pas.
D’après le Théorème 1, la probabilité de rejeter à tort l’hypothèse p = p 0 est environ égale à 0,05. Le seuil
de décision correspond à ce risque.
Exemple : Dans un casino, il a été décidé que les machines à sous doivent être réglées sur une fréquence de
gain du joueur de 0,06. Un fréquence inférieure est supposée « faire fuir le client », et une fréquence supérieure
est susceptible de ruiner le casino. Un contrôleur vérifie trois machines en observant leur historique.
⋆ Première machine : sur 50 parties, 2 ont été gagnantes ;
⋆ Deuxième machine : sur 120 parties, 14 ont été gagnantes ;
⋆ Troisième machine : sur 400 parties, 30 ont été gagnantes.
C.Vexiau - année 2013-2014
Chapitre 20 - TS - Echantillonnage - Page 4/ 6
En utilisant des intervalles de fluctuation asymptotiques au seuil de 95 %, examiner dans chaque cas la
décision à prendre par le contrôleur, à savoir rejeter ou ne pas rejeter l’hypothèse p 0 = 0, 06.
III Intervalle de confiance - Estimation
Dans une certaine population, la fréquence d’individus présentant le caractère C sur un échantillon donné
de taille n est f .
Que peut-on dire de la proportion p du caractère C
dans la population ?
On suppose dans la suite que n ≥ 30, np ≥ 5 et n(1 − p) ≥ 5.
D’après le Théorème 2 (page
3), on sait que si X ¶n suivant la loi binomiale B(n ; p), 0 < p < 1 alors il existe
µ
1
1
Xn
n 0 ∈ N tel que si n ≥ n 0 , P p − p ≤ F n ≤ p + p ≥ 0, 95 avec F n =
. Or,
n
n
n
1
1
1
1
p − p ≤ F n ≤ p − p ⇔−p + p ≥ −F n ≥ −p − p
n
n
n
n
1
1
⇔F n + p ≥ p ≥ F n − p
n
n
1
1
⇔F n − p ≤ F n ≤ F n + p
n
n
On en déduit donc le théorème suivant :
Xn
.
Théorème : Soit X n une variable aléatoire suivant la loi binomiale B(n ; p), 0 < p < 1 et F n =
n
µ
·
¸¶
1
1
Il existe n 0 ∈ N tel que si n ≥ n 0 , alors P p ∈ F n − p ; F n + p
≥ 0, 95.
n
n
Définition : ·Soit f la fréquence
¸ du caractère C sur un échantillon de taille n.
1
1
L’intervalle f − p ; f + p
est un intervalle de confiance à 95 % de la proportion inconnue p du
n
n
caractère C dans la population.
On utilise cet intervalle dès que n ≥ 30, n f ≥ 5 et n(1 − f ) ≥ 5.
Remarque
·
¸
1
1
1. L’intervalle f − p ; f + p est aussi appelé intervalle de confiance de p au niveau de confiance 0,95.
n
n
2
2. La précision de l’intervalle de confiance, donnée par sa longueur, est p . Ainsi, plus la taille des échann
tillons est grande et plus les intervalles de confiance obtenus sont précis.
3. Dans certains domaines d’application (lors
notamment
de l’estimation
proportions), on
"
#
p
p de très petites
f (1 − f )
f (1 − f )
utilise l’intervalle de confiance à 95 % : f − 1, 96
; f + 1, 96
. On ne peut le justifier
p
p
n
n
dans le cadre de ce programme.
C.Vexiau - année 2013-2014
Chapitre 20 - TS - Echantillonnage - Page 5/ 6
Exemple : On souhaite estimer la proportion p de personnes immunisées contre un certain virus parmi la
population d’une ville. Pour cela 500 personnes ont été sélectionnées de manière aléatoire. La population est
suffisamment importante pour assimiler ce prélèvement à un tirage au hasard avec remise.
1. Après analyses, on dénombre 241 personnes immunisées contre ce virus, parmi les 500 de l’échantillon.
Donner un intervalle de confiance de la proportion de personnes immunisées contre ce virus parmi la
population de la ville, avec un niveau de confiance de 95 %.
2. Quelle est la taille minimale de l’échantillon qui aurait permis d’obtenir un intervalle de confiance à 95
% de longueur inférieure à 10−2 (c’est-à-dire une précision d’au moins 0,02) ?
C.Vexiau - année 2013-2014
Chapitre 20 - TS - Echantillonnage - Page 6/ 6
Téléchargement