Probabilités et Biostatistique

publicité
Probabilités et Biostatistique
1 - Probabilités et probabilités conditionnelles
E al ation d'
Evaluation
d'un
n test diagnostiq
diagnostique
e
PAES Faculté de Médecine P. et M. Curie
V Morice
V.
M i
Pourquoi la biostatistique :
la variabilité entre individus
Un exemple
p : comment comparer
p
2
traitements A et B pour la même affection
„
„
„
Critère de comparaison
Choisir les p
patients A et ceux B
⇒ échantillons A et B
Pouvoir généraliser à la population (taille
d’échantillon, comparabilité , représentativité)
V. Morice - Biostatistique PAES
2
Variabilité
„
„
„
Variabilité = métrologique + biologique
Variabilité biologique =
inter-individuelle + intra-individuelle
Grandeurs mesurées = aléatoires
⇒ les variations ne sont pas maîtrisées
î é
V. Morice - Biostatistique PAES
3
Probabilités et statistique
„
„
Probabilités concernent
„
Populations, modèles, théorie
„
On ne peut y faire des mesures
Statistique concerne
„
É
Échantillons
, monde réel, pratique
„
On fait des mesures sur des individus
V. Morice - Biostatistique PAES
4
Liens entre probabilités et
statistique
„
Statistique descriptive
„
„
„
Statistique inférentielle, estimation
„
„
„
Mesures sur un échantillon
M
é h till
Résumer/représenter les mesures (moyenne, histogramme)
Généraliser les résultats à la population (espérance mathématique,
loi de probabilité)
⇒ définir un modèle
Tests d’hypothèses
„
„
„
Contrôler la validité d’un modèle
En utilisant des mesures sur échantillons
En prenant en compte les fluctuations d’échantillonnage
V. Morice - Biostatistique PAES
5
Rappels sur les ensembles
„
Ensemble fini (nombre fini d’éléments)
Ensemble infini dénombrable (les
(l éléments
élé
peuvent être
ê
„
Ensemble infini non dénombrable
„
A ∩ B : intersection ⇔ A et B
„
numérotés ; ex. Գ)
(les éléments ne
peuvent pas être numérotés ; ex. Թ)
„
„
„
„
A ∩ B = ∅ ⇔ A et B sont disjoints
A ∪ B : réunion ⇔ A ou B
‫׋‬A ou A : complémentaire ou négation ⇔ non A
A × B : produit (ex. A={p,f}, B={1,2,3,4,5,6}
A×B={(p,1),(f,1),(p,2),…,(f,6)})
V. Morice - Biostatistique PAES
6
Rappels sur les intégrales
„
b
∫a f(x)dx =
surface jaune
f(x)dx = surface bleue
„
f ( x ) dx = ∫ac f ( x ) dx + ∫cb f ( x ) dx
b
b
„ ∫a λf(x)dx=λ ∫a f(x)dx
„ ∫ab f(x)dx=∫ab f(t)dt
x
„ ∫−∞ f(t)dt =F(x)
b
„ ∫a
= primitive de f(x)
= surface hachurée
f(x)dx
d =F(b)−F(a)
dF
(
x
)
f(x)=
dx
b
„ ∫a
„
V. Morice - Biostatistique PAES
7
Équations aux dimensions
„
„
Deux grandeurs physiques comparables
possèdent la même dimension
7 dimensions de base :
„
„
longueur L, masse M, temps T, intensité
électrique I, température Θ, intensité lumineuse J,
quantité de matière N
La dimension de toute grandeur physique
s'exprime en fonction des dimensions de base
par une équation
p
q
aux dimensions :
„
„
v = x/t ⇒ [v] = LT-1
w = Fl = mγl ⇒ [w] = ML2T-2
V. Morice - Biostatistique PAES
8
Systèmes d'unités
„
„
„
Deux grandeurs de même dimension doivent avoir la
même unité p
pour être comparables
p
Unités les plus utilisées définies par le Système
International
Unités SI des 7 dimensions de base
„
„
„
„
„
„
„
„
Mètre (m) pour une longueur L
Kilogramme (kg) pour une masse M
Seconde (s) pour un temps T
Ampère (A) pour une intensité électrique I
Degré Kelvin (K) pour une température Θ
C d l (cd)
Candela
( d) pour une intensité
i t
ité lumineuse
l i
J
Mole (mol) pour une quantité de matière N
Unités SI dérivées : p
pascal,, joule,
j
, newton,, volt,, …
V. Morice - Biostatistique PAES
9
Erreurs de mesure
„
La mesure d'une grandeur X est entachée d'une erreur ΔX
„
„
„
„
Imprécision de ll'outil
outil de mesure
Biais introduit par l'outil de mesure
Variabilité intra-individuelle
Si G est fonction de variables X
X, Y,
Y Z mesurables avec des
erreurs ΔX, ΔY, ΔZ
„
G = f(X, Y, Z)
„
ΔG =
„
∂f
∂f
∂f
ΔX +
ΔY + ΔZ
∂X
∂Y
∂Z
df
Si une seule variable : G = f(X)
f(X), alors ΔG =
ΔX
dX
ΔG
Ce qui revient à confondre la dérivée et
ΔX
V. Morice - Biostatistique PAES
10
Expérience aléatoire,
ensemble fondamental
„
Expérience aléatoire
„
„
„
„
Ex : lancer de dé, glycémie de 100 personnes
Réalisation ⇒ mesures ⇒ statistique
Étude des résultats possibles ⇒ probabilités
Ensemble fondamental
„
„
E={r1, r2, …., rn} : liste des résultats possibles
E peut être fini ou infini
infini, dénombrable ou non
V. Morice - Biostatistique PAES
11
Événements
„
Sous-ensemble de résultats possibles
„
„
„
Si E={1,2,3,4,5,6}, l’événement résultat pair est {2,4,6}
L’événement se produit si le résultat de
ll’expérience
expérience fait partie du sous-ensemble
sous ensemble
Cas particuliers
„
„
„
„
{{ri} = événement élémentaire
∅ = ensemble vide = événement impossible
E = événement certain
Événements A et B incompatibles ou exclusifs
⇔ sous-ensembles A et B disjoints
j
⇔A∩B=∅
V. Morice - Biostatistique PAES
12
Règles de combinaison
d’événements
„
Si A et B sont 2 événements, on veut
„
„
„
A ∩ B est un événement
A ∪ B est un événement
A est un événement
ƒ Si E est fini ou infini dénombrable, tout
sous-ensemble de E est un événement
ƒ Si E est infini non dénombrable ( ),
) un
événement est un intervalle ou une
combinaison d
d’intervalles
intervalles
V. Morice - Biostatistique PAES
13
Probabilité d’un événement
„
„
„
„
La théorie des probabilités ne permet pas de
calculer toutes les probabilités
é
Elle permet le calcul pour les combinaisons
d’événements de probabilités connues
Définition utilisée : probabilité = limite de
fréquence
Autres définitions possibles (jeux,
(jeux probabilités
subjectives, …)
V. Morice - Biostatistique PAES
14
Règles (axiomes) du calcul des
probabilités
1.
Pr(A) ≥ 0
2.
Pr(E) = 1
3
3.
Si A ∩ B = ∅,
∅ Pr(A ∪ B) = Pr(A) + Pr(B)
Conséquences
Pr(A) ≤ 1
„ Pr(∅)
( )=0
„
Car E ∩ ∅ = ∅ ⇒ Pr(E ∪ ∅) = Pr(E) = Pr(E) + Pr(∅)
NB : si Pr(A) = 0, A n’est pas nécessairement ∅
„
Pr(A ∪ B) = Pr(A) + Pr(B) - Pr(A ∩ B)
V. Morice - Biostatistique PAES
15
Probabilités à définir sur un
ensemble fondamental fini
„
On doit se donner les probabilités de tout
événement élémentaire {r
{ i} :
Pr({ri})=Pr(ri), pour tout ri de E
Pr(ri) ≥ 0
Pr(r
„ ∑ Pr( )=1 (n = nombre d’événements élémentaires)
ri
„
i=1,n
„
„
Si A={r
A {r1,rr4,rr5},
} Pr(A)=
Pr(A) Pr(r1)+ Pr(r4)+ Pr(r5)
Ensemble équiprobable : les événements
élémentaires ont tous la même probabilité 1/n
„
Si A possède k éléments, sa probabilité est k/n (nombre de
cas favorables sur nombre de cas total)
V. Morice - Biostatistique PAES
16
Définition des probabilités sur
un ensemble infini non
dénombrable ( )
„
„
Il faut définir les probabilités de tout
intervalle
On utilise une fonction qui dépend des
bornes de ll’intervalle
intervalle
„
„
La fonction de répartition permet un
calcul par simple soustraction
La densité de probabilité nécessite un
calcul d
d’intégrale
intégrale
V. Morice - Biostatistique PAES
17
Probabilités conditionnelles :
introduction
„
„
„
Expérience considérée sur une population P
Événement A de probabilité Pr(A)
É
Que devient Pr(A) si on se restreint à une
sous-population de P
„
„
A = taille ∈ [[170 ; 175]]
Sous-population = les hommes
A = présence d’une maladie M
Sous-population = les individus présentant un signe S
V. Morice - Biostatistique PAES
18
Probabilités conditionnelles :
notations
„
B = événement conditionnant,
qui définit la sous
sous-population
population
„
„
L’ensemble fondamental doit p
parler de B
„
„
„
„
B=être un homme ; B=présenter le signe S
Ensemble produit
Ex : {(M,S), (M, S),(M,S),(M, S)}
Pr(A/B) = Probabilité de A pour les individus présentant B
= Probabilité de A sachant que B s’est produit
= Probabilité de A parmi les B
= Probabilité de A si B
= Probabilité de A sachant que B
Confusion fréquente entre Pr(A/B) et Pr(A∩B)
V. Morice - Biostatistique PAES
19
Probabilités conditionnelles :
formule de calcul
„
„
„
Pr(A/ B)= Pr(A∩B)
Pr(B)
Pr(B
Pr(B) ne doit pas être nul
Pr(A/B) est une véritable probabilité
„
„
(A ∩ B) ⊂ B ⇒ Pr(A ∩ B) ≤ Pr(B) ⇒ Pr(A/B) ≤ 1
Si A1 ∩ A2 = ∅ (au moins chez les B) ⇒
Pr((A1 ∪ A2)/B) = Pr(A1/B) + Pr(A2/B)
V. Morice - Biostatistique PAES
20
Probabilités conditionnelles :
interprétation 1
„
Interprétation fréquentielle
„
„
„
„
„
Expérience répétée n fois
Fréquence
q
de A = nA/n
Fréquence de B = nB/n
Fréquence de A ∩ B = nAB/n
Fréquence de A parmi les B =
nb cas favorables sur nb cas total =
nAB
nAB/nB = n n
B
n
V. Morice - Biostatistique PAES
21
Probabilités conditionnelles :
interprétation 2
„
Interprétation graphique
• Représentation avec surfaces
proportionnelles aux probabilités
• Pr(A) = |A|/|E|
• Les A parmi les B sont représentés par la
surface de A incluse dans B
• Pr(A/B) = |A ∩ B|/|B| =
V. Morice - Biostatistique PAES
A∩B E
B E
22
Probabilités conditionnelles :
exemple 1 (E fini)
„
„
„
On lance 2 dés. La somme des 2 résultats est 6.
Probabilité qu’un des résultats soit 2 ?
On a 36 résultats possibles, équiprobables
A = un résultat
é lt t estt 2 = {(2,1)(2,2)(2,3)(2,4)(2,5)(2,6)
(1,2)(3,2)(4,2)(5,2)(6,2)}
„
„
„
„
B = somme vaut 6 = {(1,5)(2,4)(3,3)(4,2)(5,1)}
A ∩ B = {(2,4)(4,2)}
Pr(A ∩ B) = 2/36 = 5,6%
5 6%
2 36
Pr(A/B) = 2/5 = 40% (=
)
5 36
V. Morice - Biostatistique PAES
23
Probabilités conditionnelles :
exemple 2 (E = )
Durée de vie t : Pr(t1≤t ≤t2)=∫t1t2α(t)dt
Avec α(t)=At2(100-t)2 si 0≤t≤100. Sinon α(t)=0
100α(t)dt=1 ⇒ A=3×10 −9
∫0
Probabilité
P
obabilité p de décès entre
ent e 60 et 70
sachant qu’on a déjà vécu 60 ?
p= Pr[(60≤t≤70)∩(t≥60)] = Pr(60≤t≤70)
Pr(t≥60)
Pr(t≥60)
70
Pr(60≤t≤70)=∫60
α(t)dt
Pr(t≥60)=∫60100α(t)dt
p = 0,486
,
V. Morice - Biostatistique PAES
24
Théorème de la multiplication
„
„
„
„
Pr(A∩B)
Rappel : Pr(A/B)= Pr
P (B)
Pr(A ∩ B) = Pr(A/B)Pr(B)
Pr(A∩B)
ème
2
rappel : Pr(B/ A)=
Pr(A)
Autre forme du théorème :
P (A ∩ B) = Pr(B/A)Pr(A)
Pr(A
P (B/A)P (A)
V. Morice - Biostatistique PAES
25
Probabilités totales
Pr(B)= Pr(B /A1) Pr(A1)+ Pr(B /A2) Pr(A2)+…+ Pr(B /An)Pr(An)
À condition que les Ai
forment une partition de E
((les Ai sont exclusifs et ∪Ai = E)
B=B ∩ E= B ∩ (A1∪A2…∪An)=
(B∩A1)∪(B∩A2) … ∪(B∩An)
Les (B ∩ Ai) sont exclusifs
car les Ai le sont. D’où :
Pr(B)=Pr(B∩A
( )
( A1)+Pr(B∩A
)
( A2)…+Pr(B∩A
)
( An)
Théorème de la multiplication :
Pr(B ∩ Ai)= Pr(B/Ai) Pr(Ai)
D’où le résultat annoncé
V. Morice - Biostatistique PAES
26
Probabilités totales : exemple
AA
0,50
0,25
0,25
CH
CN
0,20
0,10
0,80
0,90
,
0,15
0,85
„
„
F
„
F
F
F
F
F
„
Douleur aiguë de l’abdomen
3p
pathologies
g
„
„
„
„
„
AA (50% des cas)
CH (25% des cas)
CN (25% des cas)
20% des AA ont de la fièvre
10% des
d CH et 15% des
d CN
Probabilité de fièvre en cas de douleur aiguë de ll’abdomen
abdomen
Pr(F) = Pr(F/AA)Pr(AA) + Pr(F/CH)Pr(CH) + Pr(F/CN)Pr(CN)
= 0,162
0 162
V. Morice - Biostatistique PAES
27
Formule de Bayes
„
Théorème de la multiplication :
Pr(A ∩ B) = Pr(A/B)Pr(B) = Pr(B/A)Pr(A)
„
Pr(A/ B)= Pr(B / A)Pr(A)
Pr(B)
„
Interprétation :
„
„
B est une conséquence,
q
, A une cause
La formule permet de remonter aux causes
V. Morice - Biostatistique PAES
28
Théorème de Bayes
„
„
Soit n événements Ai formant une partition de E, et
un autre événement
é é
B (souvent n=2 et A2= A1 )
Pr(
B
/
A
i )Pr(Ai )
Pour
ou chaque
aqu Ai : Pr((Ai / B)=
P (B )
Pr(
Utilisons le théorème des probabilités totales :
Pr(B / Ai )Pr(Ai )
Pr(Ai / B)=
Pr(B / A1)Pr(A1)+ Pr(B / A2 )Pr(A2)+...+ Pr(B / An )Pr(An)
„
„
Pour calculer une probabilité conditionnelle, utiliser :
„
„
La définition
Ou Bayes (formule ou théorème)
V. Morice - Biostatistique PAES
29
Bayes : exemple
AA
0,50
0,25
0,25
CH
CN
0,20
0,10
0,80
0,90
,
0,15
0,85
F
„
F
F
F
F
F
„
„
„
Douleur aiguë de l’abdomen
Un patient présente de la
fièvre. Probabilité de
chacune des causes
Q l estt le
Quel
l diagnostic
di
ti le
l
plus probable ?
Rappel : Pr(F) = 0,162
0 162
„
Pr(AA / F)= Pr(F / AA)Pr(AA)=0,2×0,5=0,62
Pr(F)
0,162
„
Pr(CH/F)=0,15.
(
) , Pr(CN/F)=0,23
(
) ,
V. Morice - Biostatistique PAES
30
Indépendance entre deux
événements
„
„
„
A est indépendant de B si la réalisation
ou non de B n’influe pas sur celle de A
Pr(A) = Pr(A/B)
Pr
(
A
∩
B
)
De Pr(A/B)=
on tire
Pr(B)
Pr(A ∩ B) = Pr(A) Pr(B)
„
Autres formes : Pr(A) = Pr(A/B), Pr(B) = Pr(B/A)
V. Morice - Biostatistique PAES
31
Indépendance et
incompatibilité
„
„
Ne pas confondre événements indépendants
et événements
é é
exclusifs
f (incompatibles)
Si A et B sont exclusifs
„
„
„
„
La réalisation de B influe sur celle de A : elle l’empêche
Pr(A/B) = Pr(B/A) = 0
Pr(A ∩ B) = 0 [≠Pr(A)Pr(B)]
Si A et B sont indépendants
„
„
La réalisation
é
de B n’influe pas sur celle de A
Pr(A ∩ B) = Pr(A)Pr(B)
V. Morice - Biostatistique PAES
32
Indépendance entre deux
événements : exemple
„
Trois jets consécutifs d’une pièce
„
„
„
„
„
„
„
„
„
„
A = le premier jet donne face
B = le deuxième jet donne face
C = deux jets consécutifs donnent face
Indépendance entre A et B, A et C, B et C ?
E contient 8 éléments équiprobables {FFF,FFP,FPF,FPP,PFF,PFP,PPF,PPP}
A {FFF FFP FPF FPP} Donc Pr(A) = 1/2
A={FFF,FFP,FPF,FPP}.
B={FFF,FFP,PFF,PFP} ⇒ Pr(B) = 1/2. C={FFF,FFP,PFF} ⇒ Pr(C) = 3/8
A ∩ B={FFF,FFP}
{
,
} ⇒ Pr(A ∩ B) = 1/4 = Pr(A)Pr(B) = 1/2×1/2
A ∩ C={FFF,FFP} ⇒ Pr(A ∩ C) = 1/4 ≠ Pr(A)Pr(C) = 1/2×3/8 = 3/16
B ∩ C={FFF,FFP,PFF} ⇒ Pr(B ∩ C) = 3/8 ≠ Pr(B)Pr(C) = 1/2×3/8 = 3/16
V. Morice - Biostatistique PAES
33
Intérêt diagnostique des
informations médicales
On se place dans la situation suivante :
„
On considère
O
idè une maladie
l di quii peutt être
êt présente
é
t (M)
ou absente (M)
„
„
On dit aussi que le diagnostic de M est vrai (D) ou faux (D)
On considère un examen dont le résultat est un signe
qui peut être présent (S) ou absent ( S )
„ Idée : si S on conclut M,
M si S on conclut M
„
„
Si le signe est le résultat d’un examen en tout ou rien, la
présence du signe désigne la caractéristique pathologique
Si l’examen fournit une valeur numérique, on définit un
seuil.
D’un côté du seuil, les valeurs sont dites normales.
D l’l’autre, elles
De
ll sont dites
di
pathologiques,
h l i
et S est présent
é
V. Morice - Biostatistique PAES
34
Sensibilité et spécificité
„
Sensibilité Se d’un test diagnostique
„
„
„
LLe test est d’autant
d’
plus
l sensible
ibl que les
l sujets
j
atteints de M présentent plus souvent S
Se = Pr(S/M)
Spécificité Sp d’un test diagnostique
„
„
Le test est d’autant
d autant plus spécifique que les sujets
non atteints de M présentent moins souvent S
Sp
p = Pr(S/M)
V. Morice - Biostatistique PAES
35
Dépistage et confirmation de
la maladie M
„
„
Un test diagnostique parfait aurait une
sensibilité
é et une spécificité
é f é de 1
Un test avec une bonne sensibilité sera positif
chez presque tous les malades
„
„
⇒ utilisable p
pour un dépistage
p
g
Un test avec une bonne spécificité sera
négatif chez presque tous les non malades
„
⇒ utilisable pour une confirmation
V. Morice - Biostatistique PAES
36
Valeur prédictive positive
„
La
a VPP est la
ap
probabilité
obab té d
d’être
êt e atte
atteintt de M ssi
on présente le signe S : VPP = Pr(M/S)
„
P r((S/M))Pr((M))
P (M/S)=
P B
Par
Bayes :VPP= Pr
Pr(S/M)Pr(M)+ Pr(S/M) Pr(M)
„
Se × Pr (M)
Donc VPP = Pr (M/S) =
Se × Pr (M) + (1 − Sp)(1 - Pr (M))
„
La VPP dépend
é
de Pr(M), prévalence
é
de la
maladie
V. Morice - Biostatistique PAES
37
Valeur prédictive négative
„
„
„
„
La VPN est la probabilité de ne pas être atteint
de M si on ne présente pas le signe S :
VPN = Pr(M/S)
Pr(S/M) Pr(M)
Par Bayes : VPN= Pr
P (M/S) =
Pr(S/M)Pr(M)+ Pr(S/M) Pr(M)
Spp × ((1 - Pr ((M))
))
P (M/S) =
Donc VPN = Pr
(1 − Se) × Pr (M) + Sp × (1 - Pr (M))
La VPN dépend de la prévalence de la maladie
V. Morice - Biostatistique PAES
38
Sensibilité et spécificité vs
valeurs prédictives
„
Les valeurs prédictives semblent plus
naturelles pour juger de l’intérêt
é ê d’un examen
Si on observe S, on connaît la probabilité de M (VPP)
„
M i elles
Mais
ll dépendent
dé
d t de
d la
l prévalence
é l
de
d M
Deux centres ont des recrutements différents, et des
prévalences différentes. Les valeurs prédictives ne sont pas
comparables.
„
Ce n’est p
pas le cas du couple
p
sensibilité/spécificité
V. Morice - Biostatistique PAES
39
Critère continu : influence du
seuil
„
Maladie = grippe.
„
„
Signe présent = température θ > 39°C
Signe présent = température θ > 40°C
„
Se = Pr (S/M) = Pr (θ>seuil/grippe)
„
Décroît lorsque
q le seuil augmente
g
Sp =Pr (S /M) = Pr (θ<seuil/pas grippe)
„
„
„
Croît avec le seuil
Se et Sp varient en sens inverse
V. Morice - Biostatistique PAES
40
Critère continu : courbes ROC
ƒ Aide à choisir le seuil
ƒ Courbe ROC : Se = f(1-Sp)
selon le seuil
ƒ Courbe ROC θ pour grippe
ƒ Meilleur compromis
Si coûts d’erreur identiques,
choisir le point le plus proche du
coin supérieur gauche
V. Morice - Biostatistique PAES
41
Critère continu : courbes ROC
ƒ A = courbe θ pour grippe
ƒ Courbe B : examen inutile
S et M indépendants Pr(S/M) = Pr(S/ M)
ƒ Courbe C : bon critère
diagnostique
g
q
V. Morice - Biostatistique PAES
42
Sensibilité, spécificité, VPP,
VPN : estimation (1)
„
M
M
„
„
S
VP
FP
„
„
S
FN
VN
„
Un seul échantillon
On compte les VP, FN, etc
Se ≈ VP/(VP+FN)
Sp ≈ VN/(VN+FP)
VPP ≈ VP/(VP+FP)
VPN ≈ VN/(VN+FN)
V. Morice - Biostatistique PAES
43
Sensibilité, spécificité, VPP,
VPN : estimation (2)
„
S
M
M
„
VP
FP
„
„
S
FN
VN
„
Deux échantillons
((malades
a ades et non
o malades)
a ades)
La proportion malades/non
malades n’est p
plus respectée
p
Se ≈ VP/(VP+FN)
Sp ≈ VN/(VN+FP)
VPP et VPN se calculent
„
„
VPP =
Se×Pr(M)
Se×Pr
P (M)+(1−Sp)(1-Pr
P (M))
par Bayes
en utilisant la prévalence de M
VPN =
Sp×(1-Pr(M))
(1−Se)×Pr
P (M)+Sp×(1-Pr
P (M))
V. Morice - Biostatistique PAES
44
Téléchargement