7
J. sci. pharm. biol., Vol.12, n°2 - 2011
POLNEAU S. & al. : Estimation de l’erreur commise lors de l’approximatio...
© EDUCI 2011.
des machines et des logiciels puissants
capables d’effectuer rapidement la plupart
des calculs que nécessitent les méthodes
exactes [Vollset 1993, Agresti 2001,
Newcombe 1998, Prum 1997]. Il convient
alors de mener la réexion sur les avantages
comparatifs de l’emploi des méthodes
approchées ou exactes.
L’objectif de ce travail a été de
quantier le risque d’erreur différentiel
lié à l’approximation de la loi binomiale
par la loi normale permettant ainsi de
vérier la validité du théorème de la limite
centrale couramment employé par les
utilisateurs d’outils statistiques dans le but
de répondre à des questions posées dans
le domaine des sciences de la santé.
INTRODUCTION
Le développement de la biostatistique
a révolutionné le traitement des données
biomédicales [Colton 1974], à l’instar de
l’épidémiologie et la santé publique pour
lesquelles cette discipline est un outil
privilégié [Bernard 1987]. Les premières
méthodes largement utilisées étaient basées
sur des hypothèses de distribution normale
des phénomènes étudiés [Schwartz 1987]
en raison de la complexité des formules de
calcul de la loi exacte.
Cependant l’approximation d’une loi
exacte (par exemple la loi binomiale) par
une loi normale est accompagnée d’une
perte d’information, et inévitablement
d’un risque d’erreur [Vollset 1993, Agresti
2001]. Or les progrès dans le domaine
de l’informatique ont mis à disposition
MATERIEL ET METHODES
LOGICIELS ET LOIS STATISTIQUES
Les logiciels employés étaient Stata 11
et Excel 2007.
Les lois statistiques ayant fait l’objet de
notre réexion étaient les lois binomiale et
normale.
M É T H O D E D ’ E S T I M A T I O N D E
L’ERREUR
Soit une variable aléatoire Y à 2
modalités notées 1 (associé au succès) et
0 (associé à l’échec) et soit la probabilité
p associée à la réalisation du succès: p =
P(Y = 1) avec 0
p
1 et q la probabilité
associée à la réalisation de l’échec : q =1- p
= P(Y = 0).
Alors la variable aléatoire Y suit une loi
de Bernoulli de paramètre p dont l’espérance
est égale à p et la variance à pq.
Soient n variables aléatoires
suivant
la même loi de Bernoulli d’espérance p
et de variance pq. Considérons ensuite
la variable aléatoire X somme de ces n
variables aléatoires de Bernoulli.
Cette variable X suit une loi binomiale
dont la distribution est totalement
déterminée par la connaissance de n et
de p .
L’espérance et la variance de X répondent
aux relations suivantes : E(X)=np et
V(X)=npq.
Sous certaines conditions dépendant
des auteurs [Colton 1974, Schwartz 1987]
(par exemple pour np
5 et nq
5 et/ou n
grand), la loi binomiale peut être approchée
par une loi normale de même espérance et
de même variance :
[X~B(n;p)] ⇒ [X~N(np;npq)].
Pour chacune des lois ci-dessus, on
dénit d’une part la fonction de distribution
de probabilité (f(x)) et d’autre part la
fonction de répartition (F(x)). La fonction
de distribution de probabilité associe
à chacune des valeurs x prises par la
variable X sa probabilité de réalisation P(X=