Cours3 - Ent Paris 13

publicité
M2 Biomatériaux- Cours n°3
1 - Rappels du cours n°1 et 2
2 - La statistique inférentielle
Fluctuation d’échantillonnage,
Théorème central limite
Estimation
1
Statistique inférentielle:
• Tirer des conclusions sur une population générale en
utilisant un échantillon d’individus tirés au sort dans cette
population
•Tirer des conclusions sur l’échantillon à partir de la
population
•Exemple
•savoir quel va être le vainqueur d’une élection
•Savoir si un médicament est plus efficace qu’un autre
•Savoir si techniques de dépistage identifie bien les
sujets malades
•Savoir si deux techniques de dosages sont
équivalentes
…
2
LA POPULATION
•Sa taille très grande, voire infinie,
l’étude de tous ses individus est quasi impossible
•Les caractères mesurés ont des valeurs aléatoires
Les mesures prennent des valeurs différentes, elles varient selon les
phénomènes du hasard
•Les probabilités permettent de modéliser les phénomènes
liés au hasard.
•Les loi de probabilités, ou lois de distribution théoriques.
Elles décrivent la probabilité de réalisation de chacune des modalités de la
variable aléatoire
3
•Tracer une loi de densité de probabilité quelconque d’une
variable aléatoire quantitative continue X
•Que représente toute la surface comprise entre la courbe et
l’axe des x?
•Que représente la surface comprise entre la courbe et l’axe
des x mais seulement entre les valeurs x=1 et x=3
•Que représente la surface restante?
4
Loi de densité
quelconque
x
5
En bleu: probabilité que la variable prenne toutes les
valeurs possibles = certitude=1
x
6
En bleu: probabilité que la variable prenne une valeur
comprise entre 1 et 3
1
3
x
7
En bleu: probabilité que la variable ne prenne pas une
valeur comprise entre 1 et 3
1
3
x
8
•Dessiner approximativement une loi normale de moyenne 
et de variance ²
•Que peut on dire des surfaces sous la courbe pour des
valeurs de x comprises entre  - 2 et  + 2 ?
•Que peut on dire des surfaces sous la courbe pour des
valeurs de x non comprises entre  - 2 et  +2 ?
9
Loi normale
•
•
•
•
Loi normale N(x; , )
Moyenne: 
Variance: ²
Ecart type: 
10
Loi normale: répartition des tailles
Il y a une probabilité de 95% que la variable x prenne
une valeur entre  - 2 et  + 2
11
Loi normale: répartition des tailles
Il y a une probabilité de 5% que la variable x ne
prenne pas une valeur entre  - 2 et  + 2
0,025
0,025
12
•Dessiner approximativement une loi normale de moyenne
=0 et de variance ²=1
•Que peut on dire des surfaces sous la courbe pour des
valeurs de x comprises entre -2 et 2 ?
•Que peut on dire des surfaces sous la courbe pour des
valeurs de x non comprises entre -2 et 2 ?
13
Loi normale centrée réduite
•
•
•
•
Loi normale N(x; 0, 1)
Moyenne:  = 0
Variance: ²=1
Ecart type: =1
14
Loi normale centrée réduite
Il y a une probabilité de 95% que la variable x prenne
une valeur entre -2 et + 2
-2
0
2
15
Loi normale centrée réduite
Il y a une probabilité de 5% que la variable x ne
prenne pas une valeur entre -2 et + 2
0,025
-2
0,025
0
2
16
Utilisation de la loi normale centrée
réduite
•Dessiner approximativement une loi normale de moyenne
=1,7m et de variance =0,05 m
•Que devient  si on l’exprime chaque mesure en cm
•Que devient  si on l’exprime chaque mesure en cm
•Que devient  si on soustrait 1,70m à chaque mesure
•Que devient si on soustrait 1,70 m à chaque mesure
17
0,05 0,05
1,70
18
Transformation de variable
•Que devient  si on l’exprime chaque mesure en cm
Si x’=100 x
’ = (x’1 + x’2+…..+ x’n)/n = 100 (x1 + x2+…..+ xn)/n
’=100 
•Que devient  si on l’exprime chaque mesure en cm
Si x’=100 x
’= ((x’1- ’)²+ (x’2- ’)²+…+ (x’n- ’)²)n
=((100x1- 100)²+ (100x2-100)²+…+ (100xn-100)²)/n
= 100 ((x1- )²+(x2- )²+…+(xn- )²)/n
’=100 
19
Effet sur la distribution normale d’une variable transformée par
multiplication ou division
170
20
Transformation de variable
•Que devient  si on soustrait 0,20m à chaque mesure
Si x’=x - 20, ’= - 20
’ = ((x’1- -20) + (x’2-20)+…..+ (x’n-20))/n = (x1 + x2+…..+ xn)/n - 20n/n
•Que devient si on soustrait 0,20 m à chaque mesure
Si x’= x - 20 ; ’=
’= ((x1-20 - ’)²+ (x2- 20 - ’)²+…+ (xn- 20 - ’)²)/n
=((x1-20)-(-20))²+((x2-20)-(-20))²+…+ ((xn-20)-(-20)²))/n
= (x1- )²+(x2- )²+…+(xn- )²)/n
21
Effet sur la distribution normale d’une variable
transformer par addition ou soustraction
22
Quelles transformations de variables pour
passer d’une loi normale N(x; , ) à une loi
normale centrée réduite N(z;0;1)
0,05

1,7
1
0
23
Quelles transformations de variables pour
passer d’une loi normale N(x; , ) à une loi
normale centrée réduite N(z;0;1)
Faire passer la moyenne de 1,7 à 0
V=X-1,7 suit N (V,0,0,05)
Faire passer l’écart type de 0,05 à 1
Z=V/0,05 = (X-1,7)/0,05 suit N(Z, 0, 1)
0,05

1,7
1
0
24
Quelles transformations de variables pour
passer d’une loi normale N(x; , ) à une loi
normale centrée réduite N(z;0;1)
Création d’une variable centrée réduite
Z
X 

0,05

1,7
1
0
25
Création d’une variable centrée réduite
et utilisation de la loi normale centrée
réduite
•La variable taille X suit dans la population une loi normale de
moyenne = 1,749 m et d’écart type =0,78 m.
•Quelle est la probabilité qu’un individu ait une taille
supérieure à 1,67 m?
•Représenter graphiquement cette question.
•Calculer une variable centrée réduite et donner le résultat
en utilisant la table de la loi normale centrée réduite.
26
Loi Normale Centrée Réduite
Z
x 

X
Z
Pour calculer la probabilité que la taille soit supérieure à 1.67: Pr(X>1,67).
Quelle est la valeur de z pour x=1,67?
1
,
67
1
.
67

1
.
749
z.
1- =Pr(Z< z.)
table 3.1
Z




1
0
.
78
-1
0.159


Pr(X>1.67) équivaut à Pr(Z>-1).
Pr(Z>-1)=1-Pr(Z<-1)=1-0.159=0.841
La probabilité que X soit supérieure à 1.67 m est donc de 0.841
27
L’ECHANTILLON
•Sous ensemble de la population de dimension étudiable
• Ses individus sont représentatifs de la population
(INCERTITUDE)
•La loi de distribution dans la population n’est souvent pas
entièrement connue
•Mais on peut connaître uniquement des indices résumés sur
ces distributions
•Des estimateurs de ces indices peuvent aussi être calculés sur
les échantillons
•La connaissance de ces indices résumés est souvent
suffisante pour réaliser des inférences
28
Méthodes d’échantillonnage
29
•échantillonnage = opération consistant à identifier un sous
groupe d’individus dans une population afin d ’y recueillir des
données statistiques
•échantillon = groupe d ’individus qui a été sélectionné
•sondage=méthode utilisée pour échantillonner.
Avantage : économie de moyens
Inconvénient : imprécision dans la mesure
But: extrapoler les données observées à l ’ensemble de la
population. Les paramètres mesurés sur un échantillon sont des
estimateurs des valeurs inconnues dans la population.
La qualité primordiale d’un échantillon est d ’être représentatif de
la population qu’il est sensé décrire.
30
BIAIS DE SELECTION
Lorsqu ’un échantillon n’est pas représentatif, il fournit des
données biaisées.
Le processus de sélection des individus ne doit pas procéder
d ’un choix subjectif, il doit être indépendant de toute
caractéristiques des individus .
On introduit un biais de sélection dès que le processus de
sélection influe sur le résultat
ex: interroger les passants dans la rue (quid des sujets ne se
déplaçant pas, ne fréquentant pas le quartier?)
ex: interroger les lycéens d ’un seul établissement pour connaître
certains comportements (influence conditions sociales et
localisation géographique de l ’établissement)
31
SONDAGES ALEATOIRES
•Faire confiance au hasard lors de la sélection des individus:
tirage au sort = randomisation
•Sondages aléatoires : ils ne laissent aucune liberté de
choix à l’expérimentateur, seul le hasard détermine la
sélection de l’échantillon:
Chaque membre de la population a une chance d’être
sélectionné
•Utilisation de tables de nombre aléatoires ou générateurs
de nombres aléatoires.
32
SONDAGE ELEMENTAIRE
Base de sondage : chaque sujet de la population d’étude est
numéroté (si la population est très grande, il n’est pas
envisageable de faire cette base de sondage)
Taille de l’échantillon n est fixée
Tous les individus de la population ont a priori la même probabilité
d ’être sélectionnés. Cette probabilité est de n/N = fraction de
sondage (N=taille de la population)
Tirage avec remise: la probabilité d ’être tiré au sort reste
identique au cours du tirage au sort = CAS IDEAL
Tirage sans remise: la probabilité d ’être tiré au sort diminue au
cours du tirage. En pratique on néglige ce problème tant que
l’échantillon est petit par rapport à la population
33
34
SONDAGE SYSTEMATIQUE
La base de sondage est ordonnée mais non numérotée.
On détermine un pas de sondage : N/n (N=taille population,
n=taille échantillon
Le premier individu est tiré au sort entre 1 et N/n.
Les individus suivants sont ensuite sélectionnés de pas en pas
Risque de biais si l’ordre des individus correspond à une
caractéristique dont la présence revienne exactement avec la
même périodicité que le pas de sondage.
Exemple les individus sont ordonnés en alternant les sujets de
sexe opposés (M F M F….), si le pas de sondage est pair,
l ’échantillon sera composé d ’individus de même sexe.
35
Tirage au sort systématique
36
SONDAGE A PLUSIEURS DEGRES
Population de très grande taille
On réalise une partition de la population en Unités Primaires (UP
=groupe de population). La liste des UP constitue la base de sondage.
sondage à 2 degrés :On réalise un premier sondage élémentaire ou
systématique sur cette base.On pratique un 2ème sondage élémentaire
ou systématique sur les individus des UP qui ont été tirées
effet de grappe :variance intra-groupe faible, variance inter-groupe
grande. Plus l ’effet de grappe est élevé, plus la précision de
l’estimation diminue
37
38
SONDAGE EN GRAPPES,
SONDAGE EN GRAPPES
Variante du sondage à plusieurs niveaux. Tous les individus de
l ’ultime niveau sont sélectionnés.
39
40
SONDAGE STRATIFIE
La variance de la variable étudiée peut dépendre d’un caractère
particulier de la population.
Si cette liaison est connue, on peut diviser la population en strates
correspondantes aux classes de ce caractère.
A l ’intérieur de chaque strate la variance devient plus homogène.
On réalise un sondage à l ’intérieur de chaque strate
41
42
La fluctuation d’échantillonnage
•Chaque échantillon a une composition en individus différente à
chaque tirage
• Comment tirer des conclusions sur des mesures variant d’un
échantillon à l’autre?
43
Comportement de la moyenne expérimentale
44
Distribution de la variable taille: loi normale de
moyenne 1,749 m et d’écart type 0,78
45
1,76
1,74
1,83
1,76 1,89 1,78
1,77 1,74 1,77 1,76
Moyenne=
46
Distribution de la moyenne expérimentale de la taille pour 30
échantillons de 10 individus
47
Distribution de la moyenne expérimentale de la taille pour 30
échantillons de 10 individus
48
Distribution de la moyenne expérimentale de la taille pour 30
échantillons de 10 individus
49
Distribution de la moyenne expérimentale de la taille pour 90
échantillons de 10 individus
50
Distribution de la moyenne expérimentale de la taille pour un
très grand nombre d’échantillons de 10 individus
51
Distribution de la moyenne expérimentale de la taille : effet de
la taille de l’échantillon
52
•
Pour chaque série, la distribution de la moyenne de
l’échantillon est différente (fluctuations d’échantillonnage)
–
•
La moyenne observée sur un échantillon est donc une variable
aléatoire
globalement pour chaque série, la distribution de la variable
aléatoire moyenne de l’échantillon présente les
particularités communes suivantes :
- elle est centrée sur la moyenne théorique de la taille
dans la population
- la dispersion de ses valeurs par rapport à la moyenne est
faible
- Lorsque la taille de l’échantillon augmente, la dispersion
se réduit autour de la moyenne
53
Distribution d’une moyenne expérimentale
Echantillon de n
individus
POPULATION
X
m
= Moyenne théorique
²= Variance théorique
m=Moyenne expérimentale
s²=Variance expérimentale
Lorsque qu’une variable aléatoire quantitative X suit une loi
normale de moyenne  et de variance ²,
la moyenne expérimentale observé sur un échantillon de n
individus suit une loi normale de moyenne  et de variance
²/n = variance de la moyenne
m, moyenne expérimentale calculée sur n réalisations
de X suit une loi normale N(m, , /n) si X suit N(x, , 54
)
•
•
•
•
•
•
•
100 boules
20 sont marquées 1
20 sont marquées 2
20 sont marquées 3
20 sont marquées 4
20 sont marquées 5
Quelle est la distribution de la variable
aléatoire valeur de la boule?
55
distribution de la variable aléatoire valeur de la boule
Moyenne=3, Variance = 1,33
56
• Je tire 25 échantillons de 2 boules. Je
calcule la moyenne des valeurs des 2
boules à chaque fois.
57
• Je tire 25 échantillons de 5 boules. Je
calcule la moyenne des valeurs des 5
boules à chaque fois.
58
• Je tire 25 échantillons de 10 boules. Je
calcule la moyenne des valeurs des 10
boules à chaque fois.
59
• Je tire 25 échantillons de 20 boules. Je
calcule la moyenne des valeurs des 20
boules à chaque fois.
60
•Je réalise toute les combinaisons de 4 boules dans N
échantillons = distribution théorique de la moyenne de 4
boules
61
Distribution d’une moyenne expérimentale
Echantillon de n
individus
POPULATION
X
?
p
= Moyenne théorique
²= Variance théorique
m=Moyenne expérimentale
s²=Variance expérimentale
Lorsque qu’une variable aléatoire quantitative X suit une loi
quelconque de moyenne  et de variance ²,
la moyenne expérimentale observée sur un échantillon de
30 individus ou plus suit une loi normale de moyenne 
et de variance ²/n
Théorème central limite : m, moyenne expérimentale
calculée sur n réalisations de X suit une loi normale
N(m, (m converge avec , /n) si n 30
62
Population: Distribution de la variable X inconnue, mais
moyenne = 10, ²=4
•Quelle distribution suit la moyenne expérimentale
mesurée sur 30 individus?
•Dessiner cette distribution.
•Que peut on dire des surfaces sous la courbe pour des
valeurs de m comprises entre  - 2 /n et  + 2 /n ?
• Quelles sont les bornes de l’intervalle pour lesquelles il y
a 95% de chances de trouver la moyenne expérimentale?
•La 68% de surface sous la courbe est comprise entre  - 1
/n et  + 1 /n. Quelles sont les bornes de l’intervalle
pour lesquelles il y a 68% de chance de trouver la
moyenne expérimentale?
63
Population: Distribution de la variable X inconnue, mais
moyenne = 10, ²=4
Si on extrait un échantillon de 30 individus, la moyenne
observée dans l’échantillon suit une loi normale de
moyenne =10 et de variance =4/30=0,13 et d’écart type
=0,36
Il y a 95% de chance
de trouver une
moyenne
expérimentale
comprise en [a et b]
lorsqu’on tire un
échantillon de 30
individus, a et b étant
distants de 2 écarts
type de la moyenne
a
10
b
64
2 x 0,36
a=10-2x0,36 10
a=  - 2 /n 
2 x 0,36
b=10+2x0,36
b =  + 2 /n
Il y a 95% de chance de trouver une moyenne expérimentale comprise
entre [a et b] lorsqu’on tire un échantillon de 30 individus
Pour 100 échantillons de 30 individus, la moyenne expérimentale ne sera
pas comprise entre [a et b] pour 5 d’entre eux
65
1 x 0,36 1 x 0,36
15,5%
15,5%
b=10+1x0,36
10-1x0,36 =a
10
Il y a 68% de chance de trouver une moyenne expérimentale comprise
entre [a et b] lorsqu’on tire un échantillon de 30 individus
Pour 100 échantillons de 30 individus, la moyenne expérimentale ne
sera pas comprise entre [a et b] pour 31 d’entre eux
66
Statistique inférentielle:
POPULATION
Echantillon de n
individus
Déduction
m
X
= Moyenne théorique
²= Variance théorique
m=Moyenne expérimentale ?
s²=Variance expérimentale?
Pour 95% des échantillons de n individus que je vais tirer,
la moyenne expérimentale de la variable étudiée sera
comprise dans l’intervalle [a-b] (intervalle de pari) (5% de
chance de se tromper= risque , z =1,96)




1
,
96;


1
,
96
2
2
n
n
67
Intervalle de pari
Pour 95% des échantillons de n individus que je vais tirer, la
moyenne expérimentale de la variable étudiée sera
comprise dans l’intervalle [a-b] (intervalle de pari), je risque
de me tromper dans 5% des cas
Si j’augmente le risque de me tromper, l’intervalle de pari
diminue
Si je diminue le risque de me tromper, l’intervalle de pari
augmente
Si j’augmente la taille de mon échantillon, l’intervalle de pari
diminue
Si je diminue la taille de mon échantillon, l’intervalle de pari
augmente.
68
Comportement de la proportion expérimentale
69
Distribution d’une proportion expérimentale
Echantillon de n
individus
POPULATION
X
P= proportion théorique
p
po=proportion expérimentale
la proportion expérimentale observée sur un grand
échantillon de n individus (nP>5 et n(1-P)>5) suit une loi
normale de moyenne P et de variance P(1-P)/n
Théorème central limite
70
Dans la population, la proportion de fille P=0,56.
•Quelle distribution suit la proportion expérimentale de filles
mesurée sur 30 individus?
•Dessiner cette distribution.
•Que peut on dire des surfaces sous la courbe pour des
valeurs de x comprises entre  - 2 (P(1-P)/n) et  + 2
(P(1-P)/n) ?
• Quelles sont les bornes de l’intervalle pour lesquelles il y
a 95% de chances de trouver la moyenne expérimentale?
71
Si on extrait un échantillon de 30 individus, la proportion
observée sur 30 individus suit une loi normale de moyenne
=0,56 et de variance =(0,56*0,44)/30=0,008 et d’écart type
=racine(variance)=0,09
Il y a 95% de chance
de trouver une
proportion
expérimentale
comprise en [a et b]
lorsqu’on tire un
échantillon de 30
individus, a et b étant
distants de 2 écarts
type de la moyenne
a
0,56
b
72
2 x 0,09
2 x 0,09
a=0,56-2x0,09
0,56
a= P - 2 (P(1-P)/n) P
b=0,56+2x0,09
b =  + 2 (P(1-P)/n)
Il y a 95% de chance de trouver une proportion expérimentale
comprise en [a et b] lorsqu’on tire un échantillon de 30 individus
Sur 100 échantillons de 30 individus, pour 5 d’entre eux, la proportion
expérimentale ne sera pas comprise entre [a et b]
73
Statistique inférentielle:
POPULATION
X
P= Proportion théorique
Echantillon de n
individus
Déduction
m
Po=Proportion expérimentale ?
Pour 95% des échantillons de n individus que je
vais tirer, la proportion expérimentale sera comprise
dans l’intervalle [a-b] (intervalle de pari) (5% de
chance de se tromper= risque , z =1,96)
P
(
1

P
)
P
(
1

P
)
P

1
,
96 ;
P

1
,
96
n
n
74
Statistique inférentielle:
Quand on extrait des échantillons d’une population, la
fluctuation des moyennes observées peut être
parfaitement décrite si on connaît la moyenne  et la
variance ² dans la population.
Dans la réalité ces indices ne sont pas connus
On peut avoir en avoir une valeur approchée, une
estimation à partir d’un échantillon
75
Estimateur - Estimation
•Définitions
Estimation : Mesure faite sur l’échantillon permettant d’obtenir
une valeur du paramètre étudié dans la population (valeur
numérique)
Estimateur: Formule mathématique utilisée pour obtenir
l’estimation. Le calcul dépend de la façon dont l’échantillon est
tiré
•Propriétés
Absence de biais: les estimations successives sur des
échantillons différents ne s’écartent pas de la vraie valeur de
façon systématique (moyenne des estimations = valeur vraie)
Variance faible: les estimations sont peu dispersées (peu
d’écart entre les valeurs de 2 échantillons)
76
Variance faible
Variance élevée
Absence de biais
Présence de biais
77
Estimateur
•Condition de constitution de l’échantillon
•Tirage au sort simple
•Taille de l’échantillon < 10% taille population
•Estimateur po d’un pourcentage P
Population où le pourcentage vrai de malades est P, et
soit un échantillon tiré au hasard dans cette population
comprenant n sujets dont k malades. L’estimation de P à
partir de cet échantillon est po
k
po 
n
78
Estimateur
• Estimateur m d’une moyenne , Estimateur s² d’une variance ²
Soit une population dans laquelle une variable X a une
moyenne vraie  et une variance vraie et soit un
échantillon de n sujets tirés au sort dans cette population.
x1, x2,…xn sont les valeurs de X observées sur l’échantillon.
L’estimation de  à partir de cet échantillon est m
x

m
nx

m
i
i i
n
n
L’estimation de ² à partir de cet échantillon est s²
(xm
)

s
2
2
i
n
1
2
in 
2 1
x
x


i  
i
n
i1 
s2i1
n
1
i
n
2
in 
2 1
n
n


ix
i 
ix
i
n
1
1
i

2
s
i
n

1
i
n
79
Estimation par intervalle de confiance
A partir de la valeur obtenue sur l’échantillon, que puis-je
dire sur la valeur vraie dans la population?
- je ne peux pas la connaître avec certitude du fait des
fluctuations d’échantillonnage
- je peux calculer la probabilité qu’elle se trouve dans un
intervalle de valeur fortement probable
80

Il y a 95% de chance qu’un intervalle de confiance
calculé à partir d’un échantillon contienne la valeur vraie
de la population
81
Statistique inférentielle:
POPULATION
X
?
= Moyenne théorique ?
²= Variance théorique ?
Echantillon de n
individus
Induction
X
?
m=Moyenne expérimentale
s²=Variance expérimentale
Il y a 95% de chance que la moyenne théorique soit
comprise l’intervalle [a-b] (intervalle de confiance)(5% de
chance de se tromper= risque ) (n  30)
s
²
s
²
m

1
,
96
;
m

1
,
96
n
n
82
Statistique inférentielle:
POPULATION
Echantillon de n
individus
Induction
X
P= Proportion théorique ?
X
?
po=Proportionexpérimentale
Il y a 95% de chance que la proportion théorique soit
comprise l’intervalle [a-b] (intervalle de confiance)(5% de
chance de se tromper= risque ) (npinf5, npsup5, n(1-pinf)5,
n(1-psup)5)
p
(
1

p
)
p
(
1

p
)
o
o
o
o
p

1
,
96 ;
p

1
,
96
o
o
n
n
83
Précision de l’estimation varie en fonction du risque 
de se tromper choisi
Précision de l’estimation varie en fonction de l’effectif de
l’échantillon
84
Constituer un échantillon
Quelle est la précision souhaitée = quelle largeur
pour l’intervalle de confiance?
-
La précision dépend :
- du risque α = risque d’avoir un échantillon qui ne
contiendra pas la vraie valeur de la population (5%,
10%)
- du nombre d’individus dans l’échantillon
85
Taille de l’échantillon
Intervalle de confiance
IC1- α : [P-Z
- α√(P(1-P)/n) ; P+Zα√(P(1-P)/n)]
Largeur de l’intervalle  = 2Zα√(P(1-P)/n
On suppose que la prévalence dans la population est
connue, P (cf bibliographie, par defaut P=0,5)
On choisit le risque α (10%: Zα=1,64, 5%: Zα=1,96 )
On choisit la précision=largeur de l’intervalle (10%)
n= (2Zα/ )² (P(1-P)
86
Téléchargement