DISTRIBUTIONS BINOMIALE ET DE POISSON

publicité
Principes et Méthodes de la Biostatistique
Chapitre 4
DISTRIBUTIONS BINOMIALE ET DE POISSON
A- DISTRIBUTION BINOMIALE
Définition et propriétés
Une population est composée d’éléments pouvant ou non posséder un certain caractère ;
la probabilité de présence du caractère est p, la probabilité complémentaire étant q=1-p. On
considère un échantillon de taille n de cette population, et on s’intéresse au nombre
d’éléments de cet échantillon qui possèdent le caractère ; c’est une variable aléatoire X
pouvant prendre les valeurs 0, 1, ...,k,…, n. On cherche la distribution de cette variable
aléatoire, appelée variable binomiale.
Commençons par le cas évident n=1. X peut prendre les 2 seules valeurs 1 et 0, avec les
probabilités p et q. On rappelle que X est appelée variable de Bernoulli. Son espérance
mathématique est 0*q+1*p=p ; comme pour cette variable, qui ne prend que les valeurs 0 et 1,
X2=X, E(X2)=E(X)=p et var(X)=E(X2)-E(X)2=p-p2=p(1-p)=pq (résultats déjà donnés).
Venons-en maintenant au cas général où l’on examine n éléments. Appelons X1 la
variable de Bernoulli attachée au premier, X2 celle attachée au second , etc… Xi vaut 1 si le
caractère est présent, 0 s’il est absent. On remarque que X1+X2+…+Xn est le nombre de fois
où le caractère est présent dans l’échantillon, c’est-à-dire tout simplement X . On vient donc
de voir qu’une variable binomiale est simplement la somme de n variables de Bernoulli
indépendantes.
Cette remarque nous permet de calculer instantanément la moyenne et la variance d’une
binomiale. E(X)=np et var(X)=npq. On notera que ces résultats ont été obtenus sans
connaissance de la distribution complète de X, c’est-à-dire sans connaissance des probabilités
Pr{X=k}=Bk.
Calculons néanmoins ces Bk.
{X=0} est l’événement {absence du caractère chez les n éléments de
l’échantillon}={A,, A,..A}, de probabilité B0= q*q*..*q=qn. (A signifie absence, P signifie
présence).
{X=1} est l’événement {(P, A,….,A) ou (A,P,A..) ou (A,A,P, A,…) ou….} soit la
réunion de n événements incompatibles de probabilité pqn-1. p1 vaut donc p1=npqn-1.
On verrait de la même façon que l’événement {X=k} est la réunion d’événements
incompatibles dont chacun a la probabilité pkqn-k et dont le nombre est égal au nombre de
n!
n!
façons de choisir k emplacements parmi n, soit Cnk =
; donc Bk=
p k qn −k .
k!(n − k)!
k!(n − k)!
(C’est à cause du coefficient Cnk =
n!
que la distribution est appelée binomiale).
k!(n − k)!
Les logiciels (en particulier Excel) permettent le calcul immédiat de ces probabilités Bk.
Distributions Binomiale et de Poisson
16
Principes et Méthodes de la Biostatistique
On vérifiera aisément que l’on a les relations de récurrence suivantes qui permettent de
calculer un terme en fonction du précédent :
B0 = qn
p n− k
Bk +1 =
B
q k +1 k
Ces relations seront utilisées pour présenter la distribution de Poisson.
Au lieu de nous intéresser au nombre de fois où le caractère est présent dans un
X
échantillon de taille n, intéressons-nous au pourcentage P de fois où il est présent, P= . P est
n
0 1
k n
une variable aléatoire qui peut prendre les valeurs , , …, ,.., , avec les mêmes
n n
n n
probabilités Bk. On a immédiatement
E( X ) np
pq
var( X ) npq
E(P)=
=
= p et var(P)=
= 2 =
.
2
n
n
n
n
n
pq
. Si
n
n est grand, var(P) est voisine de 0 , ce qui signifie que le pourcentage observé P n’est
“presque plus“ aléatoire et va être près de p. On dit que P tend vers p. Ceci est la forme la plus
simple de ce qui est appelée la loi des grands nombres.
On a donc ces résultats très importants : la moyenne de P est p et sa variance est
B- DISTRIBUTION DE POISSON
Description
Cette distribution, qui, comme nous le verrons, intervient dans de nombreux problèmes
biomédicaux, peut être présentée de multiples façons ; nous le ferons à partir de la loi
binomiale.
Soit X une variable binomiale (n, p). Supposons que p soit très petit
(mathématiquement, tende vers 0). Pour qu’on ait une chance d’observer au moins un
événement (de probabilité p très petite), il est nécessaire que le nombre d’observations n soit
très grand (tende vers l’infini). Supposons que le produit np ait une valeur (tende vers) µ. Par
exemple, si p=1/10 000 et n=20 000, µ vaut 2.
Que deviennent les termes de la loi binomiale dans cette situation ?
Le premier terme est B0=qn=(1-p)n. Son logarithme est logB0=nlog(1-p) ; on sait (et on
pourra vérifier sur sa calculette) que lorsque p est petit, log(1-p) ≅-p, donc logB0 ≅ -np=-µ ; et
B0 → P0 = e − µ
Distributions Binomiale et de Poisson
17
Principes et Méthodes de la Biostatistique
Pour avoir le terme suivant, utilisons les relations de récurrence des probabilités
p n
binomiales : P1 =
P0 , mais pn=µ et q ≅1, soit P1 = e − µ µ
q 1
Calculons encore un terme : P2 =
donc P2 = e − µ
µ2
2!
p n −1
pn − p P1
P1 =
( pn = µ, p ≅ 0, q ≅ 1),
q 2
q
2
, et de façon générale Pk = e − µ
µk
k!
.
Cette expression donne la probabilité que X=k, si X a une distribution de Poisson de
paramètre µ. Les valeurs possibles pour X sont les nombres entiers 0, 1, 2, …
Cette présentation de la loi de Poisson nous permet d’avoir immédiatement sa moyenne
et sa variance. En effet, si X est binomiale (n,p), E(X)=np et var(X) =npq. Si maintenant p
tend vers 0, n vers l’infini, et le produit vaut µ , alors E(X)=µ et var(X)=µq =µ (puisque q
tend vers 1).
D’où le très important résultat, la moyenne et la variance d’une loi de Poisson de
paramètre µ sont toutes deux égales à µ.
On peut montrer que si X1 et X2 sont deux Poisson indépendantes de paramètres µ1 et
µ2, la somme X1+X2 est une Poisson de paramètre µ1+µ2.
Il est indispensable de supposer l’indépendance de X1 et X2 ; en effet, si X est une
Poisson de paramètre µ, Y=X+X=2X a pour moyenne 2µ et pour variance 4µ ; la variance
n’étant pas égale à la moyenne, Y ne peut être une variable de Poisson.
Importance de la loi de Poisson
Nous donnons deux exemples, l’un tiré de l’épidémiologie et l’autre de la biologie.
a) Soit une maladie très rare, dont la probabilité d’atteinte annuelle d’un sujet est p=1
sur un million. Le nombre de nouveaux patients annuels en France, dont la population est
n=60 106, est une variable de Poisson de paramètre µ=np=60. Plus généralement, dans les
enquêtes de cohortes où on enregistre les nouveaux cas d’une maladie, si celle-ci est rare, le
nombre de ces nouveaux cas est traité comme une variable de Poisson.
b) Soit un volume V contenant un nombre N de particules (bactéries, particules virales,
hématies,…) réparties de façon homogène dans le liquide. On prélève un volume v, et on
s’intéresse au nombre X de particules contenues dans ce volume v. Ce nombre est clairement
aléatoire, puisque des prélèvements différents, tous du même volume v, conduiraient à des
nombres différents. On cherche la loi de probabilité de cette variable aléatoire. Nous allons
montrer que c’est une distribution de Poisson.
V
de ces
Appelons w le volume, très petit, d’une particule. Le volume V contient
w
volumes élémentaires, dont N sont occupés par une particule. La probabilité qu’un volume w
N
Nw
du volume soit occupée par une particule est donc p=
=
très petite.
V w
V
Distributions Binomiale et de Poisson
18
Principes et Méthodes de la Biostatistique
v
volumes élémentaires, nombre très grand.
w
Le nombre de ceux occupés par une particule, donc le nombre de particules dans v, est une
Nv
Poisson de paramètre µ=pn=
.
V
Maintenant, dans le volume v, il y a n =
Ceci explique l’importance de la loi de Poisson en biologie dans les problèmes de
numérations bactériennes ou de titrages de suspensions virales.
A SAVOIR
n!
Distribution binomiale (n,p) Bk =
pk q n − k (k=0,1,….,n)
k!(n − k )!
Moyenne =np ; Variance=npq.
Distribution de Poisson (µ) Pk = e
−µ
µk
k!
(k=0 , 1, 2,…..)
Moyenne = Variance =µ.
Distributions Binomiale et de Poisson
19
Téléchargement