Probabilités et Biostatistique

publicité
Probabilités et Biostatistique
2 – Variables aléatoires
P incipales lois de probabilité
Principales
p obabilité
PAES Faculté de Médecine P. et M. Curie
V Morice
V.
M i
Variable aléatoire
„
Une variable aléatoire désigne la grandeur
mesurée lors d'une
d une expérience aléatoire
„
„
„
Exemples : âge, couleur des yeux
Résultats possibles de l'expérience ⇒ valeurs
possibles
ibl de
d la
l variable
bl aléatoire
lé
Types de variables aléatoires
„
Si résultats numériques (variable quantitative)
„
„
„
V.a. continue : les valeurs couvrent Թ ou un intervalle
V.a. discrète : les valeurs sont discontinues (Գ)
Sinon (variable qualitative)
„
„
V.a. ordinale : les valeurs sont ordonnées
V.a. nominale ou catégorielle : valeurs sans ordre
V. Morice - Biostatistique PAES
2
Fonction de répartition
„
„
„
„
„
Soit X une v.a. quantitative
On cherche une fonction définissant la
probabilité de tout intervalle [a
p
[ ; b]]
Soit l’événement [X ≤ x] où x est un
nombre
Pr ([X ≤ x]) dépend de la valeur x
FX(x)
( ) = F(
F(x)) = Pr
P ([X ≤ x])
]) =
fonction de répartition de X
V. Morice - Biostatistique PAES
3
Fonction de répartition :
premières propriétés
„
„
„
FX(-∞) = 0
FX(+∞)
( )=1
a<b⇒
P ([X ≤ b]) = Pr
Pr
P ([X ≤ a])
]) + Pr
P ([a
([ < X ≤ b])
car [X ≤ a] et [a < X ≤ b] = événements exclusifs
„
FX(b) = FX(a) + Pr ([a < X ≤ b])
„
„
„
FX est monotone croissante
On trace la courbe en cumulant les probabilités rencontrées
l
lorsque
x augmente
t
Pr ([a < X ≤ b]) = FX(b) - FX(a)
V. Morice - Biostatistique PAES
4
Fonction de répartition :
exemple d’une v.a. discrète
„
„
„
Jet d’une pièce : E = {p, f} ; Pr (p) = Pr (f) = ½
V.a. X : X(f) = 0 ; X(p) = 1
Fonction de répartition
V. Morice - Biostatistique PAES
5
Fonction de répartition :
exemple d’une v.a. continue
„
„
Appel téléphonique dans l’intervalle [0,T]
t =instant d
d’appel
appel : Pr (t1 ≤ t ≤ t2)=(t2
t2)=(t2-t1)/T
t1)/T (t1 et t2 ∈ [0,T])
[0 T])
Fonction de répartition
ƒ Si x<0, l’appel n’a pas eu
lieu avant x : F(x)
( )=0
ƒ Si x >T, l’appel a eu lieu
avant x : F(x) = 1
ƒ Sinon F(x)=Pr (0≤ t≤ x)= x/T
V. Morice - Biostatistique PAES
6
Fonction de répartition :
autres propriétés
„
„
On sait Pr ([x - < X ≤ x]) = FX(x) - FX(x -)
Si x - → x, Pr ([x
([ - < X ≤ x])
]) → Pr ([X = x])
])
Si X est une v.a. continue
„
„
„
„
FX est continue (si x - → x, FX(x
( -) → FX(x))
( ))
Pour tout x, Pr ([X = x]) = 0
Pr ([
([a ≤ X ≤ b])
]) = Pr ([
([a < X < b])
])
Si X est une v.a. discrète
„
„
FX est discontinue
En chaque point x de discontinuité, la hauteur du saut
(FX(x) - FX(x -) lorsque x - → x) est la probabilité de x
V. Morice - Biostatistique PAES
7
v.a. discrète : distribution des
probabilités
V. Morice - Biostatistique PAES
8
v.a. continue : densité de
probabilité
„
Densité de probabilité
fX ( x ) = f( x ) = dF X ( x )
dx
„
„
Fonction
F
ti d
de répartition
é titi
FX (x) = ∫−x∞fX (t)dt
Pr ([
([a ≤ X ≤ b])
])
= FX(b) – FX(a)
= ∫abfX (x)dx
„
f(x)≥0
f(
)≥0 (F croissante)
f(x)dx=Pr ([x≤X≤x+dx])
f(x)dx≈
( )
Pr ([X=x])
])
„
∫-∞f(x)dx = 1
„
„
V. Morice - Biostatistique PAES
∞
9
Pour définir une v.a. …
v.a. discrète
ou qualitative
Définition de la Tableau des
pi=Pr (X=xi)
loi de proba
Propriétés
pi ≥ 0
n
∑i=1 pi = 1
Uniquement si
quantitative :
F(x) = ∑xi≤x pi
v.a. continue
Densité de proba f(x)
b
Pr ([a ≤ X ≤b]) = ∫ f( x)d x=F(b) -F(a)
a
f(x) ≥ 0
∞
∫−∞f(x)dx = 1
F(x) = ∫−x∞f(tt)d
)dt
f(x)dx = Pr (x≤X≤x+dx)
f( )d ≈ Pr (X=x)
f(x)dx
(X )
V. Morice - Biostatistique PAES
10
Espérance mathématique
[variable quantitative]
Moyenne au niveau de la population
„ Notation E(X) = μX = μ
„ Calcul : somme de toutes les valeurs
pondérées par leur probabilité
„ V.a. discrète :
E(X) = ∑in=1xi pi
„
„
V a continue : E(X) =
V.a.
∫−∞ xf(x)dx
∞
V. Morice - Biostatistique PAES
11
Espérance mathématique :
propriétés
Soient des v.a. X et Y et des constantes a, b, c
„ E(c) = c
„ E(X+c) = E(X)+c
Démonstration du cas discret : Y=X+cc a pour valeurs yi=xxi+cc
E(X+c) = E(Y) = ∑yiPr (Y=yi) = ∑(xi+c)Pr (Y=yi)
Or Pr (Y=yi) = Pr (X+c=xi+c) = Pr (X = xi) = pi
Donc E((X+c)) = ∑(x
( i+c)p
)pi = ∑xipi + c∑ppi = E((X))+c
Plus généralement si Y=g(X), on a ∑yiPr (Y=yi) = ∑g(xi)pi
„
Si c = -E(X) ⇒ E(X -E(X)) = E(X) - E(X) = 0
Une v.a.
va d
d’espérance
espérance nulle est dite centrée
„
„
E(aX) = aE(X)
E(X +Y) = E(X) + E(Y)
V. Morice - Biostatistique PAES
12
Variance (et écart-type)
[variable quantitative]
„
Variance = mesure de la variabilité autour de l’espérance
Notation var(X) = σ2X = σ2
Définition var(X) = E[(X -E(X))2]
„
Calcul
„
„
On ne peut utiliser E[X -E(X)] qui est nul
„
V.a. discrète var(X) = ∑in=1(xi-E(X))2 pi
„
V.a. continue var(X) = ∫-∞∞(x-E(X)) f(x)dx
2
„
A t défi
Autre
définition
iti var((X) = E(X 2) -E(
E(X)2
„
Calcul
„
Car E[(X -E(X))2] = E[X 2-2X E(X)+E(X)2] = E(X 2)-2E(X)E(X)+E(X)2 = E(X 2) -E(X)2
2
„
V discrète
V.a.
di èt
var((X) = ∑in=1xi pi-E(X)2
„
V.a. continue
var(X) = ∫-∞∞ x2f(x)dx-E(X)2
Ecart-type
Ecart
type = σX = σ = var(X)
V. Morice - Biostatistique PAES
13
Variance : propriétés
„
Var(X) ≥ 0 (somme de carrés)
Variance nulle pour une constante.
constante
Variance faible pour une variable peu dispersée
„
Si X possède une unité
„
„
„
Si c est une constante
„
„
„
„
E(X) ett σ ontt lla même
ê
unité
ité
Var(X) a cette unité au carré
Var(c) = 0
Var(X +c)
c) = var(X)
Var(c X) = c2var(X)
Var(X +Y) = ?
V. Morice - Biostatistique PAES
14
Loi de 2 variables discrètes ou
qualitatives
„
„
„
„
„
X et Y, deux v.a. discrètes ou qualitatives mesurables
sur les mêmes individus
EX = {x1, x2, …, xn} ; Ey = {y1, y2, …, ym}
Exemple :
X =sexe (x1=H ; x2=F)
Y =CSP (y1=agriculteur ; y2=ouvrier ; … ; ym=retraité)
Pour parler simultanément de X et Y, il faut
considérer l’espace produit :
EX ×Ey = {(x1,y1), (x1,y2), …, (x1,ym), …, (xn,ym)}
On doit se donner les probabilités de chaque couple :
Pr ([X = xi] ∩ [Y = yj]) = pxi,yj
V. Morice - Biostatistique PAES
15
Loi de 2 variables discrètes :
tableau des probabilités
„
„
„
„
X \ Y
y1
y2
…
ym
∑y
x1
px1,1 y1
px1,1 y2
…
px1,1 ym
px 1
x2
px2,y1
px2,y2
…
px2,ym
px 2
…
…
…
…
…
…
xn
pxn,y1
pxn,y2
…
pxn,ym
pxn
∑x
py 1
py 2
…
pym
1
p xi,yj = Pr ([X = xi] ∩ [Y = yj])
pxii = ∑pxi,yj
i j ; pyjj = ∑pxi,yj
i j
px et py sont souvent appelées lois marginales
Ce sont les lois des variables X et Y indépendamment l’une de l’autre
V. Morice - Biostatistique PAES
16
Covariance et corrélation
[variables quantitatives]
„
„
„
Var(X+Y) = E[((X+Y)-(μX+μY))2] = E[((X -μX)+(Y -μY))2]
= E[(X -μX)2 +(Y -μY)2 +2(X -μX)(Y -μY)] = σX2+ σY2 +2cov(X,Y)
Première définition : cov(X,Y) = E[(X -μX)(Y -μY)]
Seconde définition : cov(X,Y) = E(XY)-μX μY = E(XY)-E(X)E(Y)
car E[(X -μX)(Y -μY)] = E(XY-μXY-XμY+μX μY ) = E(XY)-μX μY-μX μY+μX μY
„
„
„
„
Calculs pour deux variables discrètes :
„
cov(X,Y) = ∑i,j(xi-μX)(yj-μY) pxi,yj
„
cov(X,Y) = ∑i,jxiyj pxi,yj - μX μY
La covariance est une mesure de l’intensité de la liaison linéaire
entre deux variables
cov(X,Y)
Corrélation ρ XY =
σ Xσ Y
La corrélation est toujours entre -1
1 et 1
V. Morice - Biostatistique PAES
17
Indépendance de deux
variables aléatoires
„
„
„
„
„
X et Y quantitatives sont indépendantes si et
seulement si les événements [X ≤ x] et [Y ≤ y] sont
indépendants pour tout x et tout y
⇔ Pr ([X ≤ x]∩[
] [Y ≤ y]) = Pr ([X ≤ x])
])Pr ([Y ≤ y])
⇔ FXY(x,y) = FX(x)FY(y)
où FX et FY sont les fonctions de répartition de X et de Y, et FXY est la
fonction de répartition du couple X, Y (définition)
Si X et Y sont des v.a. discrètes ou qualitatives,
l’indépendance peut s’écrire (pour tout xi et tout yj)
P ([X = xi]∩[
Pr
] [Y = yj]) = Pr
P ([X = xi])Pr
P ([Y = yj])
⇔ pxi,yj = pxi pyj
V. Morice - Biostatistique PAES
18
Conséquences de l’indépendance
l indépendance
de 2 variables quantitatives
Si X et Y sont indépendantes,
indépendantes alors :
„
„
„
cov(X, Y) = 0 et ρXY = 0
var(X + Y) = var(X ) + var(Y)
E(XY) = E(X)E(Y)
car cov(X, Y) = E(XY) - E(X)E(Y)
„
La réciproque est fausse
V. Morice - Biostatistique PAES
19
Loi normale N(μ ; σ2)
„
„
„
„
„
„
Loi continue la plus importante
1 − 1 ( x − μ )2
Densité
é : f(x) = e 2 σ2
σ 2π
E(X) = μ
var((X) = σ2 (donc
(d
σ > 0)
Si X et Y sont N et indépendantes, alors aX+bY est N
C particulier
Cas
ti li N(0
(0 ; 1)
ƒ
ƒ
Loi centrée (μ = 0) et réduite (σ = 1)
1 − x2
f(x) = e 2
2π
V. Morice - Biostatistique PAES
20
Allure de la loi N(0 ; 1)
„
„
„
„
„
„
Courbe de la densité
Surface sous la courbe = 1
Loi symétrique
Axe de symétrie = espérance
Maximum sur l’axe de
symétrie
Ecart-type = distance entre
axe de symétrie et point
d inflexion
d’inflexion
V. Morice - Biostatistique PAES
21
Loi N(0 ; 1) et probabilités
„
„
„
„
„
Probabilité d’un intervalle =
surface sous la courbe
Pr (0,5 ≤ X ≤ 2) = 0,312 =
surface grisée
Calcul = intégration de f(x)
⇒ ???
Des tables numériques
donnent les résultats
Pr (-2 ≤ X ≤ 2) ≈ 0,95
V. Morice - Biostatistique PAES
22
Loi N(μ ; σ2) : influence de μ
„
„
„
V. Morice - Biostatistique PAES
σ = 1 pour les 3 courbes
L’allure de la courbe se
conserve si on change
de moyenne
Il s’agit d’un simple
décalage
23
Loi N(μ ; σ2) : influence de σ
„
„
„
„
„
V. Morice - Biostatistique PAES
μ = 0 pour les 3 courbes
La courbe s’aplatit si σա
Elle se resserre si σբ
Le maximum ss’ajuste
ajuste
pour que la surface = 1
Le maximum peut
dépasser 1
24
Loi N(μ ; σ2) et probabilités
Soit X→ N(μ ; σ2). On cherche Pr (a ≤ X ≤ b)
„ Seule
S l N(0 ; 1) estt tabulée
t b lé
X −μ
„ Mais Y =
→ N(0 ; 1)
σ
„
„
„
O va centrer
On
t
ett réduire
éd i pour obtenir
bt i la
l probabilité
b bilité
a -μ X -μ b -μ
≤
≤
Pr(a ≤ X ≤ b) = Pr(
)
σ
σ
σ
Posons c = a - μ et d = b - μ
σ
σ
Alors Pr (a ≤ X ≤ b) = Pr (c ≤ Y ≤ d)
La probabilité sur Y se lit dans la table de la loi
normale centrée réduite
V. Morice - Biostatistique PAES
25
Loi du « chi-deux »
„
Famille de lois dérivées de
„
Si X1 →
„
„
„
„
„
2
χ (n)
N(0 ; 1)
N(0 ; 1), alors X = X12 → χ2(1)
Si X1, X2, …, Xn → N(0 ; 1) et sont indépendantes,
alors X = X12 + X22 + … + Xn2 → χ2(n)
n est le nombre de degrés
g
de liberté ((ddl))
X≥0
E(X) = n, var(X) = 2n
La probabilité d’un intervalle est donnée par une
table (qui dépend du ddl)
V. Morice - Biostatistique PAES
26
Allure de la loi du
„
„
„
„
2
χ
Exemples avec un ddl n = 1, 2, et 8
Courbes = densités de probabilité
Si n > 2, la courbe présente un maximum
en n – 2
Si n augmente, la courbe se rapproche
d’une loi normale
V. Morice - Biostatistique PAES
27
Loi de Bernoulli
„
„
„
„
„
„
Base des lois discrètes ou qualitatives
Expérience
é
à deux résultats
é
possibles succès
è et échec
é
Variable de Bernoulli : X(échec) = 0, X(succès) = 1
Pr (succès)
è = Pr ([X = 1]) = Π
Pr (échec) = Pr ([X = 0]) = 1 – Π
E(X) = Π × 1 + (1 - Π) × 0 = Π
var(X) = E(X 2) – E(X)2
„
„
E(X 2) = Π × 12 + (1 - Π) × 02 = Π
var(X) = Π - Π 2 = Π(1 - Π)
V. Morice - Biostatistique PAES
28
Loi binomiale B(n, Π)
„
„
„
Construite sur n expériences de Bernoulli
indépendantes (Π ne change pas entre les
épreuves)
La variable X est le nombre de succès p
parmi les n
expériences (valeur entre 0 et n)
La p
probabilité d’avoir exactement k succès est
n! Πk(1−Π)n−k
Pr(X =k) = kn Πk(1−Π)n−k =
k!(n−k)!
()
( kn) est le nombre de manières d’obtenir k succès parmi n
Πk(1-Π)n-k est la probabilité d’en obtenir une
„
E((X) = nΠ ; var((X) = nΠ(1( Π))
V. Morice - Biostatistique PAES
29
Loi de Poisson
„
Loi concernant la réalisation d’événements
„
„
„
„
„
„
Faiblement probables (loi des événements rares)
Indépendants
Exemples : accidents, files d’attente, ruptures de stock
La variable X est le nombre de réalisations de l’événement
La loi dépend d’un paramètre λ (λ > 0)
La probabilité d
d’avoir
avoir k réalisations de l’événement
l événement rare est
k
λ
λ
Pr(X =k) = e
„
„
„
k!
LLe nombre
b kd
de réalisations
é li ti
varie
i entre
t 0 ett ∞ (≠ loi
l i binomiale)
bi
i l )
−λ
E(X) = λ ; var(X) = λ ; Pr(X=0) = e
Si X1→Poisson(λ1),
) X2→Poisson(λ2),
) X1 et X2 indépendantes,
indépendantes
alors X=X1+X2 → Poisson(λ1 +λ2)
V. Morice - Biostatistique PAES
30
Approximations d
d’une
une loi
binomiale B(n, Π)
X → B(n, Π)
„
Approximation par une loi normale
„
Conditions : nΠ ≥ 5 et n(1-Π) ≥ 5
„
Variable pour ll’approximation
approximation Y →
„
„
„
N(nΠ ; nΠ(1
(1- Π))
On a Pr ([X=k]) ≈ Pr ([k - 0,5 ≤ Y ≤ k + 0,5])
Les probabilités Pr([Y <0]) et Pr ([Y > n]) sont faibles, mais
non nulles
ll
Approximation par une loi de Poisson
„
„
„
„
Conditions : Π < 0,1 et n ≥ 50
Variable pour l’approximation Y → Poisson(λ = nΠ)
On a Pr ([X=k]) ≈ Pr ([Y=k])
L probabilité
La
b bilité Pr
P ([Y > n])
]) estt faible,
f ibl mais
i non nulle
ll
V. Morice - Biostatistique PAES
31
Approximation d
d’une
une loi de
poisson par une loi normale
„
X → Poisson(λ)
„
Conditions : λ > 25
Variable pour l’approximation
Y → N(λ ; λ)
„
On a Pr ([X=k]) ≈ Pr ([k - 0,5 ≤ Y ≤ k + 0,5])
„
V. Morice - Biostatistique PAES
32
Loi de Poisson et risque sanitaire
pas encore observé
„
„
„
„
Après 10.000 prescriptions d'un nouveau
médicament pas d
médicament,
d'effet
effet indésirable
Que se passera-t-il après 1.000.000
prescriptions ?
Π = risque individuel d'effet indésirable,
inconnu mais faible
Sur n individus, si X est le nombre d'effets
indésirables observés, X → B(n, Π)
„
„
Π faible, n grand : X → Poisson(λ = nΠ)
Pr(X=0)
(
) = e-λ = e-nΠ
V. Morice - Biostatistique PAES
33
Loi de Poisson et risque sanitaire
pas encore observé (2)
„
„
„
„
„
Que peut-on dire de Π qui soit compatible avec la non
observation d'effet indésirable sur n individus ?
Règle : il n'est pas raisonnable d'imaginer ne pas observer
d'effet indésirable si la probabilité de cette non observation est
inférieure à 5%
Si X=0
X 0 sur n individus,
i di id
Pr(X=0)=
P (X 0) e-nΠ≥0,05
0 05 ⇒
nΠ ≤ 3 ⇒ Π ≤ 3/n
La non observation d'effet indésirable sur n individus est
compatible avec un risque individuel Π ≤ 3/n
Si n=10000 prescriptions sans effet indésirable, et
Π=3/n=3×10-4
„
„
Avec 1.000.000
1 000 000 de prescriptions on ss'attend
attend à 300 effets
indésirables
Ce qui est énorme
V. Morice - Biostatistique PAES
34
Téléchargement