Distributions théoriques Existe-t-il des calculs théoriques de

publicité
24/10/2016
Existe-t-il des calculs
théoriques de distributions ?
Distributions théoriques
Partons d’une situation simple: un événement
pour lequel seules deux issues sont possibles.
– Exemples:
Cours VETE0432-1
Mathématique et Biostatistique –
Année académique 2016-2017
Une variable aléatoire X, représentant un tel
événement, ne peut prendre que deux valeurs,
0 ou 1. On parle de variable de Bernoulli.
1
Quelle est la distribution d’une
variable de Bernoulli ?
Mathématique et Biostatistique –
Année académique 2016-2017
2
Et si on répète l’expérience
aléatoire ?
La distribution d’une variable aléatoire de
Bernoulli X peut s’écrire:
Si on fait n fois l’expérience aléatoire, une question
est: combien de fois l’événement aléatoire a-t-il eu
lieu ?
Pr( X ) = θ X (1 − θ )
1− X
– Exemple: si je prélève n=5 individus, combien d’individus
malades vais-je avoir ?
– Où θ est un paramètre, représentant la probabilité
que X = 1
– Exemple: si la prévalence d’une maladie est 0.2, X
représente l’expérience aléatoire consistant à prélever
un individu dans la population. L’événement aléatoire
« choix d’un individu sain (malade) » correspond à X =
0 (1).
Mathématique et Biostatistique –
Année académique 2016-2017
mâle (0) ou femelle (1),
mort (0) ou vivant (1),
malade (0) ou sain (1).
Théoriquement, je peux avoir entre 0 et n fois
l’événement qui m’intéresse, chaque valeur
possible ayant une certaine probabilité (à
déterminer). On représente ce nombre de
réalisations par une variable aléatoire, notée r.
3
Mathématique et Biostatistique –
Année académique 2016-2017
4
1
24/10/2016
Comment calculer la
distribution de r ?
Quels sont tous les cas
possibles dans l’expérience ?
Sain
Repartons de l’exemple des n = 5 individus
prélevés dans une population où la prévalence
d’une maladie est p = 0.2
On peut représenter tous les cas de figure
pouvant se présenter lors d’une expérience de ce
type (soit, prélever 5 individus dans une
population binaire)
Mathématique et Biostatistique –
Année académique 2016-2017
Mathématique et Biostatistique –
Année académique 2016-2017
5
Comment calculer la
probabilité d’avoir 0 malade ?
Sain
Malade
6
Comment calculer la
probabilité d’avoir 1 malade ?
Sain
Malade
Malade
Pr(r = 0) = (1 − p ) = 0.85 = 0.328
n
On a fait les hypothèses que:
– Les tirages successifs sont indépendants
– La prévalence reste constante de tirage en tirage
(on parle de tirage avec remise).
Mathématique et Biostatistique –
Année académique 2016-2017
Pr(r = 1) = 5 * p * (1 − p )
n −1
7
= 5 * 0.2 * 0.84 = 0.410
Mathématique et Biostatistique –
Année académique 2016-2017
8
2
24/10/2016
Comment calculer la
probabilité d’avoir 2 malades ?
Sain
Comment calculer la
probabilité d’avoir r malades ?
Malade
Dans chaque situation, il y aura r malades et (n - r)
sains. La probabilité de chaque situation est donc:
p r * (1 − p )
n−r
Pr(r = 2) = 10 * p r * (1 − p )
n−r
Combien de situations (mutuellement exclusives)
y a-t-il ?
n!
Cnr =
r!( n − r )!
3
= 10 * 0Mathématique
.2 2 * 0et.8Biostatistique
= 0.–205
Année académique 2016-2017
Mathématique et Biostatistique –
Année académique 2016-2017
9
Comment calculer la
probabilité d’avoir r malades ?
10
Peut-on avoir des exemples
d’utilisation de la loi binomiale ?
En sommant (probabilités totales), on obtient la
probabilité globale d’avoir r malades:
Exemple I : représenter graphiquement la loi
binomiale pour p = 0.3 et n = 50.
Pr(r | p, n) = Cnr p r * (1 − p )
n−r
Distribution binomiale
Probabilité
0,15
Cette distribution de r comporte donc deux
paramètres n et p. Elle s’appelle « distribution
binomiale »
0,1
0,05
48
45
42
39
36
33
30
27
24
21
18
15
9
12
6
3
0
0
r
Mathématique et Biostatistique –
Année académique 2016-2017
11
Mathématique et Biostatistique –
Année académique 2016-2017
12
3
24/10/2016
Peut-on avoir des exemples
d’utilisation de la loi binomiale ?
Peut-on avoir des exemples
d’utilisation de la loi binomiale ?
Exemple III : si une affection est présente dans
une population avec une fréquence de 0.02,
combien d ’animaux dois-je examiner pour
être sûr à 99% de détecter l ’affection ?
Exemple II : si la probabilité d ’une affection
est de 0.2, quelle est la probabilité d ’avoir
(exactement) 2 atteints parmi 10 animaux ?
2
B ( 2 ) = C 10
0 .2 2 0 .8 8 =
B(0 | 0.02, n) = 0.98n = 0.01
10 !
0 . 2 2 0 . 8 8 = 0 . 302
2 !8 !
n = log(0.01) / log(0.98) = 228
Mathématique et Biostatistique –
Année académique 2016-2017
Comment calculer la moyenne et
la variance d’une binomiale ?
r=n
r =0
La distribution binomiale se généralise à des
situations avec k issues
=> distributions polynomiales
Pr(r1 , r2 ,⋯ , rk | p1 , p2 , ⋯ , pk , n) =
k
r =n
σ 2 = ∑ (r − np) 2 B( r ) = npq
r =0
Mathématique et Biostatistique –
Année académique 2016-2017
14
Que faire si j’ai plus de deux
issues dans mon expérience ?
Ce sont les espérances mathématiques de r
et de (r - µr)², respectivement.
On peut les calculer puisque toutes les
valeurs de r et les probabilités associées sont
connues.
µ = ∑ r * B(r ) = np
Mathématique et Biostatistique –
Année académique 2016-2017
13
n = ∑ rk
i =1
15
n!
p1r1 ⋯ pkrk
r1!⋯ rk !
k
1 = ∑ pk
i =1
Mathématique et Biostatistique –
Année académique 2016-2017
16
4
24/10/2016
Un exemple ?
Un exemple ?
Exemple: des animaux peuvent être indemnes (-),
atteints légèrement (+) ou gravement (++) d’une
pathologie. Calculer la probabilité d’avoir 3 atteints
légers et un atteint grave dans un échantillon de
taille 10, sachant que P(-) = 0.8, P(+) = 0.15, P(++) = 0.05
Solution:
Graphique: P(n+,n++ | p+, p++)
Distribution trinomiale P(x,y | p,q)
0,25
0,2
0,2-0,25
0,15
0,15-0,2
0,1-0,15
0,1
9
0,05
6
0
0
Pr(3,1,6 | 0.15,0.05,0.8,10) =
3
4
5
6
7
8
9
0
10
Mathématique et Biostatistique –
Année académique 2016-2017
18
Quelles sont les propriétés
principales de cette loi ?
Exemple: lors de comptages bactériens, le nombre
de bactéries qui peut apparaître par unité de
volume dépend de la concentration initiale et de la
dilution. A priori, n est inconnu, mais supposé
potentiellement très grand. Stricto sensu, il s’agit
d’un événement binomial, et µ = np
Si n est très grand, mais que µ n’est pas trop grand
(ce qui implique que p est petit), on peut faciliter
le calcul en utilisant la loi de Poisson
Mathématique et Biostatistique –
Année académique 2016-2017
2
17
Que faire quand n n’est pas
limité ?
0-0,05
3
1
10!
0.153 * 0.05 * 0.86 = 0.037
3!1!6!
Mathématique et Biostatistique –
Année académique 2016-2017
0,05-0,1
Il s’agit d’une loi avec un seul paramètre
(m). La variable aléatoire k peut prendre
n’importe quelle valeur entière positive ou
nulle.
−m k
P ( k m) =
µ = E (k ) = m
19
e m
k!
σ 2 = E (k − µ ) 2 = µ
Mathématique et Biostatistique –
Année académique 2016-2017
20
5
24/10/2016
Un exemple ?
Un autre exemple ?
Exemple: la rage a une fréquence de 0.001 en
Belgique. Quelle est la probabilité d’avoir plus de 2
atteints dans une région comptant 5000 chiens ?
Solution:
Exemple: après ensemencement de 20 tubes avec
0.1 ml d’une solution, 3 sont restés stériles. Quelle
est la concentration moyenne de ce liquide en
bactéries ?
Solution:
– p est très petit, et n très grand => loi de Poisson
– µ = np = 5
– Pr = 1 – P(0 | 5) – P(1 | 5) – P(2 | 5)
= 1 – exp(-5) * (50 / 0! + 51 / 1! + 52 / 2!)
= 1 - 0.124652 = 0.875348
– µ est inconnue
– Pr (0 | µ) = 3 / 20 = 0.15 = exp(-µ)
– µ = -ln (0.15) = 1.897 (bactéries par 0.1 ml)
Calcul binomial ? pbinom(2,5000,0.001,lower.tail=F) = 0.8754
Mathématique et Biostatistique –
Année académique 2016-2017
22
Que faire si la probabilité entre
tirages successifs varie ?
Un autre exemple ?
Exercice: le nombre de cas de BSE en Belgique,
au moment de la crise, était de 1 toutes les 5
semaines. Quelle est la probabilité d’avoir 2 cas
en 3 semaines ?
Solution:
On parle toujours d’événements binaires (malade
ou pas, mâle ou femelle, vivant ou mort, …),
répétés n fois, mais sans remise (ce qui revient à
dire que p varie de tirage en tirage)
Exemple: quelle est la probabilité de tirer deux
individus malades en tirant deux individus au
hasard dans une exploitation de 10 individus dont 2
sont malades ?
– µ(#cas / sem) = 0.2 => µ(# cas / 3 sem) = 0.6
– Pr (2 | µ) = exp(-µ) * µ² / 2! ≈ 0.099
Mathématique et Biostatistique –
Année académique 2016-2017
Mathématique et Biostatistique –
Année académique 2016-2017
21
23
Mathématique et Biostatistique –
Année académique 2016-2017
24
6
24/10/2016
Que faire si la probabilité entre
tirages successifs varie ?
Et pour une situation plus
compliquée ?
Exemple: Un lot de 30 poissons en contient 5 qui sont
contaminés. Quelle est la probabilité de prélever 2 de
ces 5 poissons contaminés en prélevant 10 poissons
du lot ?
Idée: compter le nombre de choix possibles de 10
poissons parmi 30 (nombre de cas possibles N).
Ensuite, compter le nombre cas n parmi ceux-là qui
répondent à la question.
La probabilité cherchée est le rapport n/N
Exemple:
P( E1 =
) = 0.2
P( E1 =
P( E2 =
| E1 =
) = 0.111
et E2 = ) = 0.2 * 0.111 = 0.0222
Mathématique et Biostatistique –
Année académique 2016-2017
Mathématique et Biostatistique –
Année académique 2016-2017
25
Distribution hypergéométrique:
exemple
Distribution hypergéométrique:
exemple
Exemple (solution I) :
Une solution (parmi les C102 possibles)
consiste à prendre d’abord 2 poissons
contaminés puis ensuite 8 sains.
La probabilité correspondante est:
p=
Exemple :
5 4 25 24
18 5! 25! 20!
* * * *⋯ * = *
*
30 29 28 27
21 3! 17! 30!
Lot:
25
5
Prélevé:
8
2
10
N = C30
Comme chaque solution est équiprobable:
10! 5! 25! 20!
5!
25! 20!*10!
P=C *p=
=
* *
*
*
*
2!*8! 3! 17! 30! Mathématique
3!*2! 17
!*8!
30!
et Biostatistique –
2
10
Année académique 2016-2017
26
27
Pr =
C 52 C
C
10
30
8
25
Contaminé
Sain
8
n = C52C25
=
10815750
30045015
= 0 . 36
Mathématique et Biostatistique –
Année académique 2016-2017
28
7
24/10/2016
Distribution hypergéométrique: un
autre exemple
Quelle est la forme de la
distribution hypergéométrique ?
H(a; A; c; C) =
Exemple : Un lot de 30 poissons en contient 10%
qui sont contaminés. Quelle est la probabilité de
détecter la pathologie en prélevant 10 poissons
?
Solution : Avec remise (!?)
C aA C bB
C cC
a+b=c
A+B=C
Pr = 1 − B ( 0 ) = 1 − 0 . 9 10 = 0 . 651
Sans remise
Seulement 4 paramètres sont nécessaires
(les deux autres s’en déduisent)
Mathématique et Biostatistique –
Année académique 2016-2017
Pr = 1 − H ( 0 ; 3 ;10 ; 30 ) = 0 . 719
Mathématique et Biostatistique –
Année académique 2016-2017
29
Comment fait-on avec une variable
continue ?
Comment fait-on avec une variable
continue ?
f (X)
Problème : Il n’est pas possible d’attribuer une
probabilité à chaque valeur de la variable aléatoire
X (il y en a une infinité !).
Solution : on définit une fonction f(X) appelée
« densité de probabilité ». La probabilité d’être
entre X1 et X2 se calcule par la surface sous la
courbe entre ces deux valeurs
b
∫
a
P
a
Q
P
31
f(X)dX =P(a≤ X ≤b)
Q
b
∫
Mathématique et Biostatistique –
Année académique 2016-2017
30
X
f(X)dX =1
Mathématique et Biostatistique –
Année académique 2016-2017
32
8
24/10/2016
Peut on avoir un exemple d’une
telle distribution ?
Quelle est la forme de cette
distribution ?
La distribution la plus utilisée est la
distribution normale
Distributions normales
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
◦ voir une justification plus loin (TLC)
f (X) =
( X −µ ) 2
f(X)
−
e
2σ 2
σ 2π
Moyenne = µ
Variance = σ
-4
-2
σ= 1
σ> 1
σ< 1
0
2
4
X
2
Mathématique et Biostatistique –
Année académique 2016-2017
Mathématique et Biostatistique –
Année académique 2016-2017
33
Comment calculer une
probabilité avec cette f(X) ?
Comment calculer une
probabilité avec cette f(X) ?
Il faut calculer une intégrale…
Le premier« truc » consiste à effectuer un
changement de variable:
z=
X −µ
σ
La densité de probabilité devient alors une
densité appelée « densité réduite »:
Heureusement, il y a des « trucs » !
Distribution réduite + tables
Logiciels
f ( z) =
Mathématique et Biostatistique –
Année académique 2016-2017
34
35
e
−z2
2
2π
Moyenne = 0
Variance = 1
Mathématique et Biostatistique –
Année académique 2016-2017
36
9
24/10/2016
En quoi est-ce plus simple ?
A quoi ressemble la table ?
Toutes les distributions normales se
ramènent à cette distribution réduite
Les probabilités liées à la densité réduite
sont tabulées: les intégrales ont été précalculées !
Mathématique et Biostatistique –
Année académique 2016-2017
∫
0
f ( z )dz = P (0 ≤ z ≤ A)
z
0.00
0.01
0.02
0.03
0.00
0.0000
0.0040
0.0080
0.0120
0.10
0.0398
0.0438
0.0478
0.0517
0.20
0.0793
0.0832
0.0871
0.0910
0.30
0.1179
0.1217
0.1255
0.1293
…
Mathématique et Biostatistique –
38
Année académique 2016-2017
37
Des exemples ?
Comment utiliser la table ?
Exemple 1: Sachant qu ’en moyenne, une
espèce pèse 4 kgs (à un âge donné), avec une
déviation standard de 0.3kg, quelle est la
probabilité:
- qu ’un individu pèse entre 4 et 4.3 kgs ?
P( X1 < X < X2 ) = ?
Z1 = ( X1 - µ ) / σ
A
Z2 = ( X2 - µ ) / σ
0.3413
P( Z1 < Z < Z2 ) = P
- qu ’un individu pèse plus de 4.5 kgs ?
0.0475
Mathématique et Biostatistique –
Année académique 2016-2017
39
Mathématique et Biostatistique –
Année académique 2016-2017
40
10
24/10/2016
Comment calculer une
probabilité avec cette f(X) ?
Des exemples (suite)
Le deuxième « truc » consiste à utiliser un
logiciel:
Exemple: P(4.1 < X < 4.3)
Excel
=LOI.NORMALE(4.3;4.0;0.3;VRAI) –
LOI.NORMALE(4.1;4.0;0.3:VRAI)
R
pnorm(4.3,mean=4,sd=0.3) –
pnorm(4.1,mean=4,sd=0.3)
Exemple 1 (suite):
- qu ’un individu pèse moins de 3.8 kgs ?
0.2514
- qu ’un individu pèse entre 3.8 et 4.1 kgs ?
0.3780
- qu ’un individu pèse entre 4.1 et 4.3 kgs ?
0.2120
Mathématique et Biostatistique –
Année académique 2016-2017
41
Quelques valeurs classiques de z
42
Quelques valeurs classiques de z
Quelle valeur de z dépasse-t-on dans 95%
des cas ?
qnorm(0.05) => -1.644854
Mathématique et Biostatistique –
Année académique 2016-2017
Mathématique et Biostatistique –
Année académique 2016-2017
Quelle valeur de z dépasse-t-on dans 97.5%
des cas ?
qnorm(0.025) => -1.959964
43
Mathématique et Biostatistique –
Année académique 2016-2017
44
11
24/10/2016
Y a-t-il d’autres utilisations de la
distribution normale ?
Distribution normale:
autres utilisations
Considérons (par exemple) la distribution
binomiale (cumulée) suivante: n=100, p=0.4.
A toutes fins utiles, les deux distributions B(n,p)
et N(µ=n*p, σ2=npq) coïncident.
On passe de l ’une à l ’autre par le changement
de variable:
z=
r − np
npq
En général, si n augmente, et p est « proche » de
0.5, une binomiale peut être approchée par une
distribution normale.
Mathématique et Biostatistique –
Année académique 2016-2017
45
Un exemple d’utilisation de
l’approximation normale ?
46
Approximation normale:
exemple
Exemple 1: sachant qu ’en moyenne, une espèce
de chiens pèse 4 kgs (à un âge donné), avec une
déviation standard de 0.3kg, combien de chiens
dois-je prélever pour être sûr à 95% d ’avoir au
moins 20 chiens de plus de 4.5 kgs ?
Mathématique et Biostatistique –
Année académique 2016-2017
Mathématique et Biostatistique –
Année académique 2016-2017
Solution 1:
si on suppose le poids réparti normalement, la
probabilité de peser plus de 4.5 kgs pour un
chien prélevé au hasard est :
P( Poids > 4.5 Kg)
= P( z > (4.5 - 4) / 0.3)
= P( z > 5/3)
≈ 0.0475.
ou
1-pnorm(4.5,mean=4.0,sd=0.3)
47
Mathématique et Biostatistique –
Année académique 2016-2017
48
12
24/10/2016
Approximation normale:
exemple (suite)
Approximation normale:
exemple (suite)
Solution 1A: Approche binomiale
Solution 1A: Approche binomiale.
Choisir n tel que B(0) + B(1) + … + B(19) <= 0.05
Équation non linéaire en n…
On peut résoudre le problème avec un logiciel.
Exemple: avec excel
=LOI.BINOMIALE(19;n;0.0475;VRAI)
On fait varier n jusqu’à remplir la condition
Exemple: avec R
n=20
while (pbinom(9,n,0.0475)>0.05)
{ n<-n+1
}
Mathématique et Biostatistique
–
Année académique 2016-2017
p
n
r
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
49
Approximation normale:
exemple (suite)
0,0475
583
Binomiale
4,7674E-13
1,3861E-11
2,0114E-10
1,9426E-09
1,4047E-08
8,1119E-08
3,897E-07
1,6019E-06
5,7517E-06
1,8325E-05
5,2455E-05
0,00013626
0,00032391
0,00070949
0,00144052
0,00272502
0,00482421
0,00802397
0,01258235
0,01865887
Somme
Proba = 0.0475
N = 583
Somme < 5%
Mathématique et Biostatistique –
Année académique 2016-2017
0,04950324
50
Distribution normale:
autre utilisation
Solution 1B: Approche normale
Divisant le numérateur et le dénominateur par n
dans le changement de variable donné plus haut,
on obtient:
Choisir n tel que: -1.64 < z
z = (20 - n*p) / (n*p*q)1/2
=> (n*p*q) z2 = (20 -n*p)2
=> n = 601
L ’approximation n ’est pas très bonne (p << 0.5)
dans ce problème.
z=
r
−π
n
π (1 − π )
n
Distribution d ’une proportion (r/n estime π, et
la racine est la déviation standard)
Mathématique et Biostatistique –
Année académique 2016-2017
51
Mathématique et Biostatistique –
Année académique 2016-2017
52
13
24/10/2016
Distribution d’une proportion:
exemple
Distribution d’une proportion:
exemple
Exemple 2: dans un échantillon de 100 poissons, 68
sont des mâles. Peut on conclure à une distorsion
de la proportion des sexes ?
Solution 2:
on répond à cette question en calculant la
probabilité d ’avoir 68% des mâles si la vraie
proportion (π) est 50%.
Mathématique et Biostatistique –
Année académique 2016-2017
53
Solution 2 (suite): le calcul est le suivant:
z=
r
−π
0.68 − 0.5
n
=
= 3.6
π (1 − π )
0.5 * 0.5
n
100
La probabilité d ’avoir une telle valeur de z (ou une
plus grande encore) est 1.6E-4, et donc très peu
probable. On en déduit que π=0.5 n ’est
probablement pas la valeur correcte.
Mathématique et Biostatistique –
Année académique 2016-2017
54
En résumé:
Il est possible de déduire (ou tout du moins de
prendre pour hypothèse) la distribution
correspondant à de nombreuses variables
aléatoires.
L’utilisation de ces distributions permet de calculer
les probabilités correspondant à une situation
observée sous une hypothèse donnée.
Si la probabilité est faible, on peut mettre en doute
la validité de l’hypothèse sur laquelle le calcul
repose (avec un certain risque, voir plus loin)
Mathématique et Biostatistique –
Année académique 2016-2017
55
14
Téléchargement