Biostatistique Chapitre I: Estimation

publicité
Biostatistique
Chapitre I: Estimation
Caroline Verhoeven
Table des matières
1
Introduction
2
La distribution normale
3
Distribution d’échantillonnage
Théorème central limite
Intervalles de confiance
Intervalle de confiance pour une probabilité
Caroline Verhoeven
MEDI-G1203
2 / 35
1. Introduction
Inférence statistique I
1
échantillonnage
population
µ =?
échantillon
x
Statistique
descriptive
2
inférence
3
Population : l’ensemble des individus qui nous intéressent
Exemple : adultes souffrant du dos,
lapins ayant les dents trop longues
Echantillon : Partie de la population qu’on étudie vraiment
Hypothèse de la biostatistique : la population est beaucoup plus grande
que l’échantillon
Caroline Verhoeven
MEDI-G1203
3 / 35
1. Introduction
Inférence statistique II
1
échantillonnage
population
µ =?
échantillon
x
Statistique
descriptive
2
inférence
3
Inférence statistique : Processus pour généraliser les conclusions
obtenues pour l’échantillon vers la population
Il faut idéalement que l’échantillon soit aléatoire simple, c.-à-d. que tous les
individus de la population aient la même probabilité d’être choisi
Caroline Verhoeven
MEDI-G1203
4 / 35
1. Introduction
Inférence statistique III
1
échantillonnage
population
µ =?
échantillon
x
Statistique
descriptive
2
inférence
3
Les individus dans la population varient
⇒ Les échantillons varient aussi
Comment traiter cette variation ?
Caroline Verhoeven
MEDI-G1203
5 / 35
1. Introduction
Statistiques pour la population
La moyenne (arithmétique) : µ =
La variance : σ2 =
L’écart-type : σ =
N
1X
(x − µ)2
N i =1 i
p
N
1X
x
N i =1 i
σ2
N : Le nombre de sujets dans la population
Caroline Verhoeven
MEDI-G1203
6 / 35
1. Introduction
Statistiques pour l’échantillon
La moyenne (arithmétique) : x =
La variance : s2 =
L’écart-type : s =
1
N
X
N
1X
x
N i =1 i
(x − x)2
N − 1 i =1 i
p
s2
N : Le nombre de sujets dans l’échantillon
Caroline Verhoeven
MEDI-G1203
7 / 35
1. Introduction
Variation de la moyenne
Prenons 3 fois 7 mesures au hasard, avec la loi de probabilité N (0,1)
0,53
0,74
0,96
−0,28
1,02
0,29
−0,09
x 1 = 0,45
−0,76
−0,85
1,09
−0,32
−0,03
1,69
−0,33
x 2 = 0,07
Caroline Verhoeven
−1,20
−1.02
1.87
0.72
−0.07
1,59
1,71
x 3 = 0,51
MEDI-G1203
8 / 35
1. Introduction
Estimations ponctuelles
Paramètres de la population
Moyenne µ
Déviation standard σ
Probabilité π
Estimation
x
s
proportion
Est-ce une bonne estimation ?
Comment le savoir ?
Il faut regarder comment les échantillons sont distribués
Caroline Verhoeven
MEDI-G1203
9 / 35
2. La distribution normale
Définition
Une distribution continue très importante est la distribution normale. Elle
est définie par sa fonction de densité de probabilité
(x −µ)2
1
−
e 2σ2
f (x) = p
2πσ
µ correspond à la moyenne pour la population
σ correspond à la déviation standard pour la population
0,08
0,06
µ = 180, σ = 5
µ = 190, σ = 5
0,04
µ = 180, σ = 10
0,02
170 180 190 200 210
Caroline Verhoeven
MEDI-G1203
10 / 35
2. La distribution normale
Calcul de la probabilité
Soit X une variable aléatoire continue, si X suit la distribution
normale de paramètre µ,σ, on notera
X ∼ N (µ,σ2 )
Nous avons que
P(a ≤ X ≤ b) =
Zb
a
p
1
2πσ
e
−
(x −µ)2
2σ2
dx
En particulier :
1.0
0.8
F (x) = P(X ≤ x) =
Zx
−∞
p
1
2πσ
e
(x ′ −µ)2
−
2σ2
F (x)
0.6
dx’
0.4
0.2
160 170 180 190 200 210
x
Caroline Verhoeven
MEDI-G1203
11 / 35
2. La distribution normale
La distribution normale centrée reduite I
BProblème !
Il n’y a pas moyen de calculer l’integrale
Zb
a
p
1
2πσ
e
−
(x −µ)2
2σ2
dx
On peut utiliser des logiciels ou des tables
Des tables pour chaque µ et σ ? NON
Caroline Verhoeven
MEDI-G1203
12 / 35
2. La distribution normale
La distribution normale centrée réduite II
X a une moyenne µ ⇒ Y = aX + b a une moyenne aµ + b
X a une déviation standard σ
⇒ Y = aX + b a une déviation standard |a|σ
X ∼ N (µ,σ2 ), alors :
Z=
X −µ
,
σ
a=
1
,
σ
µ
σ
b=− .
Z a comme moyenne 0
Z a comme déviation standard 1
⇒ Z ∼ N (0,1)
Caroline Verhoeven
MEDI-G1203
13 / 35
2. La distribution normale
La distribution normale centrée réduite III
La fonction de la loi normale centrée réduite a comme fonction de densité
1
ϕ(z) = p
2π
et on note
Φ(z) = P(Z ≤ z) =
Caroline Verhoeven
e −z
Zz
2
/2
ϕ(z ′ )dz ′
−∞
MEDI-G1203
14 / 35
3. Distribution d’échantillonnage
Exemple d’un échantillon
Exemple 1
Le diamètre X d’un globule rouge est aléatoire, σ = 0,617, mais on ne connaît pas sa
moyenne.
On mesure le diamètre de 200 globules
rouges d’un patient.
On obtient un diamètre moyen x = 7,07µm.
Si on mesure 200 autres globules, on aura une autre moyenne
La moyenne de 200 globules est une variable aléatoire
On a une distribution probabiliste pour la moyenne
⇒ La distribution de cette moyenne est la distribution d’échantillonnage
Caroline Verhoeven
MEDI-G1203
15 / 35
3. Distribution d’échantillonnage
1. Théorème central limite
Théorème central limite pour σ connu
Théorème 2
Soit X une variable aléatoire avec une distribution probabiliste de
moyenne µ (inconnue) et de déviation standard σ (connue).
La moyenne X des échantillons de X de taille N une distribution d’autant
plus proche de N (µ,σ2 /N) que N est grand
Remarque 3
Si la distribution de X est gaussienne, celle de X le sera aussi.
Remarque 4
Si la distribution de X n’est pas trop éloignée de la normale, la
distribution normale est une bonne approximation pour la distribution de
X pour N ≥ 30
Caroline Verhoeven
MEDI-G1203
16 / 35
3. Distribution d’échantillonnage
1. Théorème central limite
Erreur standard de la moyenne
σ
On nomme σx = p l’erreur standard de la moyenne
N
Supposons que X ∼ N (0,1), distribution de X
1.5
2
N = 1 ⇒ X ∼ N (0, σN ) = N (0,1)
1.0
N = 4 ⇒ X ∼ N (0, 41 )
0.5
-4
-2
0
1
N = 16 ⇒ X ∼ N (0, 16
)
2
4
Caroline Verhoeven
MEDI-G1203
17 / 35
3. Distribution d’échantillonnage
1. Théorème central limite
Et pour σ inconnu ?
L’exemple 1 n’est pas très réaliste : souvent on ne connaît pas σ
Et maintenant ?
Théorème 5
Soit X une variable aléatoire avec une distribution probabiliste de
moyenne µ (inconnue) et de déviation standard σ (inconnue).
Soit X la moyenne des échantillons de X de taille N, alors
T=
X −µ
p
s/ N
a une distribution s’approchant d’autant mieux la loi de Student à N − 1
degrés de liberté, que N est grand
La loi de Student ?
Caroline Verhoeven
MEDI-G1203
18 / 35
3. Distribution d’échantillonnage
1. Théorème central limite
La loi de Student
Loi de Student : distribution d’une variable continue qui dépend du degré
de liberté ddl (ou df )
0,4
0,3
N (0,1), ddl = 4
N (0,1), ddl = 14
0,2
ddl → ∞
0,1
-4
-2
⇒ Student → N (0,1)
2
4
Caroline Verhoeven
MEDI-G1203
19 / 35
3. Distribution d’échantillonnage
1. Théorème central limite
Table de Student
Quantiles
ddl
0, 6
0, 7
0, 8
0, 9
0,95
0.975
0.99
0.995
0.999
1
2
3
4
5
6
7
8
9
10
11
12
13
0.32
0.29
0.28
0.27
0.27
0.26
0.26
0.26
0.26
0.26
0.26
0.26
0.26
0.73
0.62
0.58
0.57
0.56
0.55
0.55
0.55
0.54
0.54
0.54
0.54
0.54
1.38
1.06
0.98
0.94
0.92
0.91
0.90
0.89
0.88
0.88
0.88
0.87
0.87
3.08
1.89
1.64
1.53
1.48
1.44
1.41
1.40
1.38
1.37
1.36
1.36
1.35
6.31
2.92
2.35
2.13
2.02
1.94
1.89
1.86
1.83
1.81
1.80
1.78
1.77
12.71
4.30
3.18
2.78
2.57
2.45
2.36
2.31
2.26
2.23
2.20
2.18
2.16
31.82
6.96
4.54
3.75
3.36
3.14
3.00
2.90
2.82
2.76
2.72
2.68
2.65
63.66
9.92
5.84
4.60
4.03
3.71
3.50
3.36
3.25
3.17
3.11
3.05
3.01
318.31
22.33
10.21
7.17
5.89
5.21
4.79
4.50
4.30
4.14
4.02
3.93
3.85
Caroline Verhoeven
MEDI-G1203
20 / 35
3. Distribution d’échantillonnage
2. Intervalles de confiance
Intervalle de confiance si σ connu : exemple
Exemple 6
En 1991, 4017264 bébés sont nés seuls (pas jumeaux, triplés,. . .)
aux Etats-Unis.
On sait que la déviation standard σ = 573g pour la distribution de
poids de cette population.
On mesure le poids de N = 80 de ces bébés. La moyenne des poids
pour ces 80 bébés : x = 3350g.
Comment faire pour avoir une estimation du poids de la population
de ces nouveaux-nés en laquelle j’ai confiance ?
Caroline Verhoeven
MEDI-G1203
21 / 35
3. Distribution d’échantillonnage
2. Intervalles de confiance
Intervalle de confiance si σ connu : principe I
Pour rappel : X ∼ N (µ,σ2x ) = N (µ,σ2 /N)
⇒
X −µ
p ∼ N (0,1)
σ/ N
0. 5
95%
Le 97,5ème centile pour N (0,1) : 1,96
Ã
⇒ P −1,96 ≤
!
X −µ
p ≤ 1,96 = 0,95
σ/ N
−2
−1
1
2
X −µ
p ≤ 1,96
σ/ N
σ
σ
⇔ X − 1,96 p ≤ µ ≤ X + 1,96 p
−1,96 ≤
N
N
Caroline Verhoeven
MEDI-G1203
22 / 35
3. Distribution d’échantillonnage
2. Intervalles de confiance
Intervalle de confiance si σ connu : principe II
On peut donc conclure que
σ
¶
σ
σ
x − 1,96 p ;x + 1,96 p
¸
µ
σ
P X − 1,96 p ≤ µ ≤ X + 1,96 p = 0,95
N
N
L’intervalle
·
N
N
est un intervalle de confiance (IC) de 95% pour la moyenne
Caroline Verhoeven
MEDI-G1203
23 / 35
3. Distribution d’échantillonnage
2. Intervalles de confiance
Intervalle de confiance si σ connu : signification
Signification de
·
σ
σ
¸
x − 1,96 p ;x + 1,96 p
N
N
comme intervalle de confiance (IC) de 95% pour la moyenne
Je suis confiant à 95% que la moyenne est dans cet intervalle
Si je considère la moyenne de tous les échantillons de taille N, la
moyenne µ sera dans 95% des cas dans l’IC
µ
Caroline Verhoeven
MEDI-G1203
24 / 35
3. Distribution d’échantillonnage
2. Intervalles de confiance
Intervalle de confiance si σ connu : calcul I
·
σ
σ
¸
x − p ;x + p
est un IC de 68%
N
N
·
¸
σ
σ
σ
σ
x − 1,96 p ;x + 1,96 p
est un IC de 95%
N
N¸
·
x − 2,58 p ;x + 2,58 p
est un IC de 99%
N
N
68%
95%
16%
16%
-1
1
2,5%
-1,96
Caroline Verhoeven
99%
2,5%
1,96
MEDI-G1203
0,5%
-2,58
0,5%
2,58
25 / 35
3. Distribution d’échantillonnage
2. Intervalles de confiance
Intervalle de confiance si σ connu : calcul II
Si X ∼ N (µ,σ2 /N) :
Général : l’IC de 1 − α pour la moyenne :
·
σ
σ
x − z1−α/2 p ;x + z1−α/2 p
N
N
¸
z1−α/2 : le 1 − α/2 quantile N (0,1)
1 − α/2
z1−α/2
Exemple : 1,96 est le 0,975ème quantile.
Caroline Verhoeven
MEDI-G1203
26 / 35
3. Distribution d’échantillonnage
2. Intervalles de confiance
Intervalle de confiance si σ connu : résolution
Exemple 6
Retournons à nos bébés. On a σ = 573g, un échantillon de N = 80
bébés avec x = 3350g
Quel est l’IC de 90% ?
·
573g
573g
3350g − 1,64 p ;3350g + 1,64 p
80
80
¸
≃ [3245g;3455g]
Quel est l’IC de 95% ?
573g
573g
3350g − 1,96 p ;3350g + 1,96 p
≃ [3224g;3476g]
80
80
·
¸
Caroline Verhoeven
MEDI-G1203
27 / 35
3. Distribution d’échantillonnage
2. Intervalles de confiance
IC si σ connu : taille de l’échantillon
Comment choisir N si on veut un IC d’une largeur précise ?
·
σ
σ
Largeur l de l’intervalle x − z1−α/2 p ;x + z1−α/2 p
µ
σ
l = x + z1−α/2 p
⇒
p
N
N = 2z1−α/2
³
⇒ N = 2z1−α/2
N
N
¸
:
¶ µ
¶
σ
σ
− x − z1−α/2 p
= 2z1−α/2 p
N
N
σ
l
σ ´2
l
On arrondi vers le haut
Caroline Verhoeven
MEDI-G1203
28 / 35
3. Distribution d’échantillonnage
2. Intervalles de confiance
IC si σ connu : taille de l’échantillon, exemple
Exemple 6
Combien de bébés faut-il peser pour avoir un IC de 95% d’une largeur
de 150g ?
¶
µ
³
σ ´2
573g 2
= 224,23
N = 2z0,975
= 2 · 1,96
l
150g
On arrondi vers le haut ⇒ N = 225
L’IC de 95% sera alors donné par
·
573g
573g
¸
;3350g + 1,96 p
≃ [3275g;3425g]
3350g − 1,96 p
225
225
Caroline Verhoeven
MEDI-G1203
29 / 35
3. Distribution d’échantillonnage
2. Intervalles de confiance
Intervalle de confiance si σ inconnu
L’IC de 1 − α pour la moyenne est :
s
·
s
x − t1−α/2,N −1 p ;x + t1−α/2,N −1 p
N
N
¸
On considère ici la déviation standard de l’échantillon s
t1−α/2,N −1 : le quantile 1 − α/2 de t(df = N − 1)
Si on veut un intervalle d’une largeur l précise, on prend :
³
N = 2t1−α/2,N −1
s ´2
l
On arrondi vers le haut
Caroline Verhoeven
MEDI-G1203
30 / 35
3. Distribution d’échantillonnage
3. Intervalle de confiance pour une probabilité
Exemple
Exemple 7
Elections régionales bruxelloises de mai 2014.
Sondage fait entre le 15 et le 20 novembre 2013 chez N = 703 résidents
de la région bruxelloises.
Résultat
parti
nj
nj′
159
22,6%
146
20,8%
86
12,2%
83
11,8%
75
10,7%
Quels scores pensent obtenir ces partis en mai 2014, avec un taux de
confiance de 95%
Caroline Verhoeven
MEDI-G1203
31 / 35
3. Distribution d’échantillonnage
3. Intervalle de confiance pour une probabilité
Calcul
On a un échantillon de N sujet
Une proportion p des sujets se trouve dans une catégorie, et 1 − p
dans une autre
L’IC de 1 − α pour la probabilité est donné par

p − z1−α/2
s
p(1 − p)
,p + z1−α/2
N
z1−α/2 le quantile 1 − α/2 de N (0,1)
s

p(1 − p) 
N
Remarque 8
Il faut que N soit assez grand, c-à-d.
Np ≥ 5 et N(1 − p) ≥ 5
Caroline Verhoeven
MEDI-G1203
32 / 35
3. Distribution d’échantillonnage
3. Intervalle de confiance pour une probabilité
Retour à l’exemple
Exemple 7
Pour le MR
N = 703
p=
159
= 0,226
703
1 − p = 0,774
z0,975 = 1,96
s
(0,226)(0,774)
]
703
L’IC de 95% est donc
s
(0,226)(0,774)
[0,226 − 1,96
;0,226 + 1,96
703
≃ [0,195;0,257]
Caroline Verhoeven
MEDI-G1203
33 / 35
3. Distribution d’échantillonnage
3. Intervalle de confiance pour une probabilité
Calcul de la taille de l’échantillon
Comment choisir N si on veut un intervalle d’une largeur précise ?
largeur de l’IC de 1 − α :
l = 2z1−α/2
⇒ On a
N=
µ
s
2z1−α/2
l
p(1 − p)
N
¶2
p(1 − p)
On arrondi vers le haut.
Caroline Verhoeven
MEDI-G1203
34 / 35
3. Distribution d’échantillonnage
3. Intervalle de confiance pour une probabilité
Calcul de la taille de l’échantillon
Combien de résidents aurait-on du choisir si le MR voulait un intervalle
de 95% de largeur 0,05 ?
⇒ On a
2 × 1,96
N=
0,05
µ
¶2
(0,226)(0,774) = 1075,18
→ N = 1076
On arrondi vers le haut.
Si on interroge 1076 personnes, on aura un intervalle de confiance
de 95% :

0,226 − 1,96
s
(0,226)(0,774)
;0,226 + 1,96
1076
≃ [0,201;0,251]
Caroline Verhoeven
MEDI-G1203
s

(0,226)(0,774) 
1076
35 / 35
Téléchargement