n - Free

publicité
Biostatistique et Introduction
à la Santé Publique
Echantillonnage et
estimation statistique
Novembre 2005
Pr P. Ingrand - Biostatistique PCEM2
1
Echantillonnage statistique
• Un échantillon statistique est constitué d’un nombre limité
d’individus tirés au sort dans la population étudiée.
• C’est le tirage au sort qui assure la représentativité.
• Un échantillon de taille n d’une v.a. X est obtenu en
répétant n fois l’épreuve qui donne X.
• Notation : (X1, X2, … , Xn)
• Une réalisation particulière : (x1, x2, … , xn)
Novembre 2005
Pr P. Ingrand - Biostatistique PCEM2
2
Moyenne et variance de la somme de v.a.
• Soit S la somme des v.a. X et Y : S = X + Y
• E(S) = E(X) + E(Y)
• Var(S) = Var (X) + Var(Y) + 2 Cov(X,Y)
• Si X et Y sont indépendantes, alors Cov(X,Y) = 0
Var(S) = Var (X) + Var(Y)
• La variance de la somme de variables aléatoires
indépendantes est la somme de leurs variances.
Novembre 2005
Pr P. Ingrand - Biostatistique PCEM2
3
La moyenne d’un échantillon est une variable aléatoire
• Soit une variable X de moyenne  et de variance ²
• La moyenne Mn d’un échantillon de taille n est la moyenne
arithmétique de ses valeurs X1, … , Xn
X

X

...

X
1
2
n
M

n
n
2
σ
• Mn a pour moyenne  et pour variance
n
Novembre 2005
Pr P. Ingrand - Biostatistique PCEM2
4
Théorème central limite
• Quand la taille de l’échantillon est grande (tend vers
l’infini), la distribution de la moyenne M des valeurs d’un
échantillon tend vers une loi normale, quelle que soit la loi
parente.
• Soit une variable X de distribution quelconque, de
moyenne  et de variance ²
• La moyenne des valeurs d’un échantillon de taille n a une
probabilité 1- d’appartenir à l’intervalle :
μ  zα σ
• Condition de validité : n  30
n
• Il s’agit de l’intervalle de pari de la moyenne.
Novembre 2005
Pr P. Ingrand - Biostatistique PCEM2
5
Intervalle de pari d’une proportion
• Quand la taille de l’échantillon est grande (tend vers
l’infini), la distribution de la proportion P d’une
caractéristique dans un échantillon tend vers une loi
normale de moyenne p et de variance pq/n
(la loi parente est une binomiale de paramètres n et p).
• La proportion observée dans un échantillon de taille n a
une probabilité 1- d’appartenir à l’intervalle :


p
(
1

p
)
P

p

z


α
n


1

α
• Condition de validité : np et n(1-p)  5
Novembre 2005
Pr P. Ingrand - Biostatistique PCEM2
6
Estimation
• Estimateur : c’est une caractéristique calculée en fonction
des observations destiné à estimer la valeur d’un paramètre
inconnu d’une loi de probabilité.
• Estimateur sans biais : il donne en moyenne la valeur
recherchée
• Estimateur convergent : tend à se rapprocher de plus en
plus de la valeur recherchée quand n augmente
Novembre 2005
Pr P. Ingrand - Biostatistique PCEM2
7
Estimation de la moyenne et de la variance d’un
échantillon de taille n
• Estimation de la moyenne 
xi

m
n
• Estimation de la variance ²
2
 x


i
21
21
2

s

(
x

m
)

x
 
i
i
n

1
n

1
n




estimateur sans biais
Novembre 2005
Pr P. Ingrand - Biostatistique PCEM2
8
Estimation de la moyenne et de la variance d’un
échantillon de taille n
• Estimation de la moyenne 
xi

m
n
• Estimation de la variance ²
2
 x


i
21
21
2

s

(
x

m
)

x
 
i
i
n

1
n

1
n






2
2
1 
x

n
m
n

1 i
Novembre 2005
Pr P. Ingrand - Biostatistique PCEM2
9
Estimation par intervalle
Intervalle de confiance de la moyenne
• Un intervalle de confiance d’un paramètre inconnu est une
fourchette de valeurs construite de telle sorte qu’une
proportion 1- des intervalles ainsi construits recouvrent la
vraie valeur du paramètre estimé.
• On dit aussi que le paramètre inconnu a une probabilité
1- de se trouver à l’intérieur de cet intervalle.
• Intervalle de confiance au risque  de la moyenne 


s
μ

m

z

α 
n

1

α
Novembre 2005
Pr P. Ingrand - Biostatistique PCEM2
condition n  30
m et s observés
10
Intervalle de confiance d’une proportion
• Intervalle de confiance au risque  d’une proportion 
inconnue à partir d’un échantillon de taille n présentant
une proportion p


p
(
1

p
)


p

z
α


n


1

α
• conditions de validité : n  et n (1-)  5
à vérifier aux bornes de l’intervalle
Novembre 2005
Pr P. Ingrand - Biostatistique PCEM2
11
Intervalle de confiance d’une proportion : exercice
• Dans un registre de 11 712 naissances, enregistrées de façon
systématique, le nombre de filles est égal à 5 778.
• Donner une estimation de la proportion de filles, et du sexe-ratio
(rapport G/F) au risque 5%.
• Ce résultat vous fournit-il une information sur la vraisemblance de
l’équiprobabilité des sexes dans la population étudiée ?
• Proportion de filles 5778/11712 = 0,493 estim. Ponctuelle


0
,
493

0
,
507






0
,
493

1,96

0,49

0,0

0,4
;
0
F


11
712


0
,
498
0,516


• Sexe-ratio IC


95
%
:
;

0,992
;
1,06


0
,
502
0,484


1 est inclus dans l’intervalle
Novembre 2005
Pr P. Ingrand - Biostatistique PCEM2
12
Attention à bien distinguer :
• Intervalle de variation
Concerne une variable aléatoire
• Intervalle de pari
Concerne la loi connue d’un paramètre
(moyenne, proportion, …)
• Intervalle de confiance
Concerne l’estimation d’un paramètre inconnu à
partir d’observations tirées d’un échantillon
Novembre 2005
Pr P. Ingrand - Biostatistique PCEM2
13
Téléchargement