estimation de l`erreur commise lors de l`approximation de

publicité
J. sci. pharm. biol., Vol.12, n°2 - 2011, pp. 6-12
© EDUCI 2011
POLNEAU S.1
VALLEE L.2
MALAN K.A.3
6
ESTIMATION DE L’ERREUR COMMISE LORS DE
L’APPROXIMATION DE LA LOI BINOMIALE PAR LA
LOI NORMALE
Resume
Le développement de l’informatique
et des logiciels de statistique permet
actuellement l’utilisation indifférenciée
des outils de statistique classique et des
outils exacts. Les premiers sont basés sur
des approximations de lois et notamment
la loi normale tandis que les seconds
sont utilisés «hors approximation» d’où
leur qualification d’outils «exacts». Nous
nous sommes intéressés à l’étude de la
différence entre la loi binomiale «exacte» et
la loi normale «approchée». L’approximation
de la loi binomiale par la loi normale est
accompagnée d’un risque d’erreur que
nous avons quantifié et nous présentons
la différence d’erreur selon la loi utilisée
dans différentes situations et comparons
les résultats dans les contextes «exact»
et «approché». Les bornes des intervalles
«exact» ou «approchée» ne différant qu’à
la troisième ou à la quatrième décimale,
l’utilisation indifférenciée des outils «exacts»
ou «approchés» est alors possible.
Mots-clés : Loi binomiale, loi normale,
statistique exacte, statistique approchée,
erreur
Summary
The development of the data processing
of error and we present the difference in
and the software of statistics currently
error according to the law used in various
allows the undifferentiated use of the tools of
situations and compare the results in the
traditional statistics and the exact tools. The
contexts “exact’’ and “approached’’. The
first are based on approximations of laws
differences of the terminals relate only to
and in particular the normal law while the
the third or the fourth decimal. This then
seconds are used “except approximation’’
authorizes the undifferentiated use of the
and are then called “exact’’ tools. We were
tools of traditional or exact statistics.
interested in the study of the difference
Key words: Binomial distribution,
between the binomial distribution “exact’’
normal
law, exact statistics, approximate
and the normal law “approximate’’. The
statistics
approximation of the binomial distribution
by the normal law is accompanied by a risk
1- Département de Biostatistique, UFR des Sciences pharmaceutiques et biologiques, Université de Cocody
Abidjan, Côte d’Ivoire
2- Centre de formation professionnelle et artistique, , Abidjan, Côte d’Ivoire
3- Département de Chimie Analytique, UFR Sciences pharmaceutiques et biologiques, Université de Cocody
Abidjan, Côte d’Ivoire
- Correspondance : Sandrine POLNEAU, 18 BP 2635Abidjan 18 Côte d’Ivoire, Téléphone: +22558304151,
Fax:+22521259528, [email protected]
J. sci. pharm. biol., Vol.12, n°2 - 2011
POLNEAU S. & al. : Estimation de l’erreur commise lors de l’approximatio...
© EDUCI 2011.
7
INTRODUCTION
Le développement de la biostatistique
a révolutionné le traitement des données
biomédicales [Colton 1974], à l’instar de
l’épidémiologie et la santé publique pour
lesquelles cette discipline est un outil
privilégié [Bernard 1987]. Les premières
méthodes largement utilisées étaient basées
sur des hypothèses de distribution normale
des phénomènes étudiés [Schwartz 1987]
en raison de la complexité des formules de
calcul de la loi exacte.
Cependant l’approximation d’une loi
exacte (par exemple la loi binomiale) par
une loi normale est accompagnée d’une
perte d’information, et inévitablement
d’un risque d’erreur [Vollset 1993, Agresti
2001]. Or les progrès dans le domaine
de l’informatique ont mis à disposition
des machines et des logiciels puissants
capables d’effectuer rapidement la plupart
des calculs que nécessitent les méthodes
exactes [Vollset 1993, Agresti 2001,
Newcombe 1998, Prum 1997]. Il convient
alors de mener la réflexion sur les avantages
comparatifs de l’emploi des méthodes
approchées ou exactes.
L’objectif de ce travail a été de
quantifier le risque d’erreur différentiel
lié à l’approximation de la loi binomiale
par la loi normale permettant ainsi de
vérifier la validité du théorème de la limite
centrale couramment employé par les
utilisateurs d’outils statistiques dans le but
de répondre à des questions posées dans
le domaine des sciences de la santé.
MATERIEL ET METHODES
Logiciels et lois statistiques
Les logiciels employés étaient Stata 11
et Excel 2007.
Les lois statistiques ayant fait l’objet de
notre réflexion étaient les lois binomiale et
normale.
M é t h ode
l’erreur
d ’ estimation
de
Soit une variable aléatoire Y à 2
modalités notées 1 (associé au succès) et
0 (associé à l’échec) et soit la probabilité
p associée à la réalisation du succès: p =
P(Y = 1) avec 0 ≤ p ≤ 1 et q la probabilité
associée à la réalisation de l’échec : q =1- p
= P(Y = 0).
Alors la variable aléatoire Y suit une loi
de Bernoulli de paramètre p dont l’espérance
est égale à p et la variance à pq.
Soient n variables aléatoires Yi suivant
la même loi de Bernoulli d’espérance p
et de variance pq. Considérons ensuite
la variable aléatoire X somme de ces n
variables aléatoires de Bernoulli.
Cette variable X suit une loi binomiale
dont la distribution est totalement
déterminée par la connaissance de n et
de p .
L’espérance et la variance de X répondent
aux relations suivantes : E(X)=np et
V(X)=npq.
Sous certaines conditions dépendant
des auteurs [Colton 1974, Schwartz 1987]
(par exemple pour np ≥ 5 et nq ≥ 5 et/ou n
grand), la loi binomiale peut être approchée
par une loi normale de même espérance et
de même variance :
[X~B(n;p)] ⇒ [X~N(np;npq)].
Pour chacune des lois ci-dessus, on
définit d’une part la fonction de distribution
de probabilité (f(x)) et d’autre part la
fonction de répartition (F(x)). La fonction
de distribution de probabilité associe
à chacune des valeurs x prises par la
variable X sa probabilité de réalisation P(X=
J. sci. pharm. biol., Vol.12, n°2 - 2011
POLNEAU S. & al. : Estimation de l’erreur commise lors de l’approximatio...
© EDUCI 2011.
8
x). La fonction de répartition F(x)=P(X ≤ x)
associe à chaque valeur de x la somme des
probabilités des valeurs de X inférieures
k
ou égale à x. Ainsi F(x) = ∑ P(X=i) =
i =0
P(X=0)+P(X=1)+P(X=2)+…............+P(X=x).
Nous avons utilisé dans les logiciel
Stata 11 et Excel 2007 de Microsoft
les fonctions de calcul de la distribution
de probabilité et celle de répartition
d’une variable suivant une loi binomiale
respectivement. Il s’agissait pour Stata de
« binomialp (n,k,p) et binomial(n,k,p) » et
pour Excel de « LOI BINOMIALE (k ; n ; p ;
faux) et LOI BINOMIALE (k ; n ; p ; vrai) ».
Le risque d’erreur α accompagnant la
plupart des résultats d’analyse statistique
de données biologiques est classiquement
et arbitrairement fixé à 5%. C’est la raison
pour laquelle nous nous sommes intéressés
à l’étude d’un quantile particulier le
quantile à 95%. Il s’agit de trouver la
valeur de x telle que F(x)= 95%. Cependant
le caractère discret de la loi binomiale ne
permet pas de trouver dans tous les cas
une valeur entière de x qui satisfasse à la
relation : F(x)= 95%. On procède alors à un
encadrement de la fonction de répartition.
Sachant que cette fonction de répartition
est une fonction croissante on obtient alors
les relations suivantes:
x1 < x < x2
F(x1) <F(x) < F(x2)
De cet encadrement de la fonction de
répartition, nous pouvons déduire un
encadrement du risque d’erreur sans
approximation appelé risque d’erreur
« exact ».
F(x1)<F(x)<F(x2)
⇒1-F(x2)<1-F(x1)
⇔ a1<a<a2
Nous avons fixé deux valeurs de p et
calculé les fonctions de répartition des lois
binomiales pour des valeurs croissantes
de n. Ces simulations nous ont permis
de représenter l’encadrement du risque
d’erreur exact pour une loi binomiale.
Intervalles de confiance « exact »
et « approché »
L’estimation ponctuelle des paramètres
complémentée par l’intervalle de confiance
pour un risque d’erreur de première
espèce fixé est couramment employée en
statistique. Nous avons utilisé cette seconde
méthode pour quantifier l’approximation
d’une loi binomiale par une loi normale. Cet
intervalle de confiance est classiquement
donné en utilisant l’approximation par la
loi Normale :
p - pu- 1-a/2
u1-a 2
p+u
p(1 - p )
p(1 - pp)(1 - p )
; ; p + u1-pa -2 1-a/2
; ; p + u1-a 2
u1-a 2
n
n
n
p(1 - p )
n
Les paramètres nécessaires pour le
calcul de l’intervalle de confiance exact
sont constitués par le couple (n, p).
Le nombre x est compris entre 0 et n.
Fixons n et x et faisons varier p à travers
plusieurs simulations de cas pour suivre
les positions respectives des intervalles de
confiance de p «exact » et « approché ». Pour
chaque valeur de p, calculons P X ≥ x et
P X ≤x .
(
(
)
)
Cherchons deux valeurs p1 et p 2 (bornes
inférieure et supérieure de l’intervalle
de confiance) telles que pour p1 (et
q1 = 1 - p1 ), l’on
obtienne l’égalité suivante
n
x
n- x
P(X ≥ x )= ∑ C nx p 1 q 1
a 2 que
== a/2
( )( )
i=x
l’on notera G p1 (x ) ; = 1-p ; pour p 2 (et
q 2 = 1 - p 2 ), l’on obtienne l’égalité suivante :
x
( ) (q )
P(X ≤ x )= ∑ C nx p 2
x
i =0
n- x
2
=aa/2
équivalente
=
2
à la fonction de répartition d’une loi
Binomiale que l’on notera F p (x ).
2
Ces probabilités
par interpolation.
p1 et p 2 sont obtenues
J. sci. pharm. biol., Vol.12, n°2 - 2011
POLNEAU S. & al. : Estimation de l’erreur commise lors de l’approximatio...
© EDUCI 2011.
9
RESULTATS
Les logiciels Stata 11 et Excel 2007 ont
augmente. Cependant cette évolution
donné des résultats de calcul des fonctions
n’est pas linéaire, elle se fait par série.
de distribution et de répartition identiques
Ainsi on aurait pu s’attendre à trouver
avec une précision de 10 décimales.
la relation suivante : α1 ≈ α ≈ α2 pour
Les calculs d’erreurs exactes déduits
de grandes valeurs de n, mais les deux
par complémentarité de la fonction de
valeurs α1 et α2 ne se rapprochent pas
répartition étaient donc identiques à 10-10
simultanément de α. Les figures 1 et 2
près avec les 2 logiciels employés.
montrent une évolution différente l’une par
rapport à l’autre. Concernant la figure 2,
Nous estimons d’une part l’encadrement
le phénomène observé semble périodique
des risques d’erreurs « exacts » présenté par
avec un rétrécissement progressif de
l’intervalle [α1 ; α2] autour de la valeur 5%
l’encadrement entrecoupé de brusques
(figures 1 et 2) et d’autre part la différence
variations.
de résultats obtenus entre les intervalles de
Concernant la comparaison des calculs
confiance de pourcentage p « exact » (ICe)
d’intervalle
de confiance de p exact (ICe)
et « approché » (ICn) (figure 3).
et approché (ICn), 3 cas de figure sont
Pour deux valeurs particulières de p
observés selon les valeurs de p : (i) lorsque
(p = 0,5 et p = 0,8) et des valeurs de n
p<0,5 : translation de ICe par rapport à ICn
croissantes par pas de 1, les encadrements
vers les valeurs supérieures ; (ii) lorsque p =
du risque d’erreur «exact» [α1 ; α2] sont
0,5 : inclusion de ICn dans ICe ; (iii) lorsque
schématisés sur les figures 1 et 2. L’on
p>0,5 : translation de ICe par rapport à ICn
peut voir sur ces figures les fluctuations
vers les valeurs inférieures.
de cet encadrement autour de la valeur
Dans tous les cas, les résultats des
théorique de 5% conventionnellement
calculs
des bornes d’intervalle de confiance
acceptée en biologie.
de p « exact » ou « approché » ne montrent
Ces figures montrent une tendance
des différences qu’au niveau de la troisième
globale à la réduction de l’étendue de
voire de la quatrième décimale.
l’encadrement lorsque la valeur de n
a
20%
18%
16%
14%
12%
10%
8%
6%
4%
2%
0%
α1
α2
5%
10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 105 110
nombre total d'observations n
Figure 1 : Encadrement du risque d’erreur α pour p = 0,5
J. sci. pharm. biol., Vol.12, n°2 - 2011
POLNEAU S. & al. : Estimation de l’erreur commise lors de l’approximatio...
© EDUCI 2011.
10
a
95
10
0
10
5
11
0
90
85
80
75
70
65
60
55
50
45
40
35
30
25
20
α1
α2
5%
15
10
20%
18%
16%
14%
12%
10%
8%
6%
4%
2%
0%
nombre total d'observations n
Figure 2 : Encadrement du risque d’erreur α pour p = 0,8
1 IC
0,9
n = 30
p = 0,5
np = 15
nq = 15
0,8
0,7
0,6
n = 20
p = 0,3
np = 6
nq = 14
n = 50
p = 0,3
np = 15
nq = 35
n = 100
p = 0,3
np = 30
nq = 70
n = 100
p = 0,5
np = 50
nq = 50
n = 30
p = 0,8
np = 24
nq = 6
0,5
0,4
n = 50
p = 0,8
np = 40
nq = 10
0,3
0,2
0,1
0
n = 10
p = 0,5
np = 5
nq = 5
IC "normal"
IC " exact"
Figure 3 : Intervalles de confiance de pourcentage comparés sous l’hypothèse de la normalité (ICn)
et « exact » (ICe). Cas de conditions d’approximations vérifiées.
J. sci. pharm. biol., Vol.12, n°2 - 2011
POLNEAU S. & al. : Estimation de l’erreur commise lors de l’approximatio...
© EDUCI 2011.
11
DISCUSSION
Dans la littérature, nous avons relevé
plusieurs approches de comparaison
des méthodes statistiques « approchée »
et « exacte » [Vollset 1993, Agresti 2001,
Newcombe 1998, Prum 1997, Pires 2002,
Agresti 1992, Clopper 1934, Collins 2008].
De manière courante, la méthode décrite
par Clopper et Pearson [1934] est celle que
l’on qualifie d’exacte. Cette méthode est
basée sur la relation entre les distributions
de Fisher et Binomiale. Nos calculs n’ont
pas précisément fait appel à cette méthode
mais nos résultats diffèrent peu de ceux
obtenus à l’aide de cette méthode : les
différences entre notre méthode et celle de
Clopper et Pearson [1934] sont de l’ordre
du millième voire du dix millième.
Différentes méthodes de calcul
d’intervalle de confiance bilatéral du
pourcentage d’une variable suivant une
loi binomiale ont été décrites. Ainsi
différents auteurs [Vollset 1993, Agresti
2001, Newcombe 1998, Pires 2003] ont
comparé 7 à 16 méthodes différentes de
calcul d’un intervalle de confiance de ce
pourcentage, parmi lesquelles figurait
toujours celle de Clopper et Pearson
[1934] permettant le calcul « exact » de
l’intervalle de confiance. La détermination
de l’intervalle de confiance du pourcentage
de type Wald [Vollset 1993] correspond
à l’intervalle de confiance « approché ».
Il s’agit d’un intervalle construit de
manière symétrique par rapport au
pourcentage estimé obtenu à partir des
données recueillies sur l’échantillon. En
conséquence lorsque le pourcentage de la
variable étudiée est proche de 0 (c’est le cas
de la prévalence d’affections rares) ou de
1 (cas de la sensibilité ou de la spécificité
de tests de diagnostic ou de dépistage),
en raison de la symétrie, le calcul de
l’intervalle de confiance est à l’origine de
valeurs peu probables car soit négatives
soit excédant l’unité. Cet inconvénient
a conduit les statisticiens à rechercher
d’autres méthodes afin de corriger ces
défauts. Ainsi deux modifications de la
méthode de Wald [Vollset 1993] ont été
proposées afin de s’approcher davantage
des limites exactes. La plus simple permet
d’obtenir l’intervalle de Wald noté WCC
incluant une correction de continuité (le
facteur de correction 1/2n est ajouté à
l’écart-type du pourcentage) et l’autre
méthode décrite fournit un intervalle de
Wald noté WBS modifié par une correction
de continuité plus complexe [Blyth 1983].
Ces méthodes ont l’avantage d’améliorer
la précision de l’intervalle de confiance en
évitant d’obtenir des limites inférieures
négatives. Cependant l’inconvénient de
limite supérieure excédant l’unité lorsque la
probabilité avoisine 1 est majoré du fait de
l’ajout du facteur de correction. La méthode
de Clopper et Pearson [1934] offre le double
avantage d’une part de l’amélioration de la
précision et d’autre part de l’élimination
de valeurs « aberrantes » négatives ou
supérieures à 1. En outre, cette approche
garantit la propriété de conservation stricte
puisque la probabilité de couverture est au
moins égale à 95% pour tout pourcentage.
La propriété conservatrice signifie donc
que la probabilité d’erreur est inférieure au
niveau fixé a priori et reflète les difficultés
liées à la nature discrète des données.
Cependant, le caractère conservateur
n’est pas toujours nécessaire et représente
un défaut lorsque notamment la base de
données révèle un caractère hautement
discret. Une autre méthode s’appliquant
aux données discrètes représente un
compromis entre la méthode de Clopper et
Pearson jugée « trop » conservatrice et la
méthode de Wald (utilisant l’approximation
de la loi binomiale par la loi normale)
non adaptée [Vollset 1993]. Il s’agit d’un
ajustement de la méthode exacte basée
sur le calcul de la « moitié du degré de
signification » [Blyth 1983]. Dans ce cas,
la probabilité de couverture dépasse
légèrement la valeur souhaitée mais cette
méthode tend à être moins conservatrice
que les méthodes exactes habituelles.
J. sci. pharm. biol., Vol.12, n°2 - 2011
POLNEAU S. & al. : Estimation de l’erreur commise lors de l’approximatio...
© EDUCI 2011.
12
CONCLUSION
Nos résultats ont montré que le calcul
exact du quantile 95% n’était jamais atteint
pour la loi binomiale mais qu’on pouvait
en déterminer un encadrement exact
permettant donc le calcul d’erreur exacte
lors de l’utilisation de la loi binomiale. Les
résultats de nos simulations menées dans
le but de comparer non seulement le risque
d’erreur exact à la classique erreur de 5%
mais aussi les intervalles de confiance de
pourcentage de p « exact » et « approché »
confirment le théorème de la limite centrale
présent dans les ouvrages de statistique
et permettant l’approximation de la loi
binomiale par la loi normale puisque les
différences ne portent que sur la troisième
ou la quatrième décimale.
Remerciements
A toute l’équipe du laboratoire de Biostatistique de la faculté de Pharmacie, Université
René Descartes, Paris 5, France..
REFERENCES
Agresti A. (1992) : A survey of exact inference for
contingency tables. Statistical Science ; vol 7 :
131-177.
Agresti Alan (2001). Exact inference for categorical
data: recent advances and continuing controversies.
Statistics in medicine; 20: 2709-2722.
Bernard P-M et Lapointe C (1987). Mesures
statistiques en Epidémiologie. Quebec : Presses
de l’Université du Québec. 314p.
Blyth C.and Still H.A (1983). Binomial confidence
intervals. Journal of the American
Statistical Association; 78: 108-116.
Clopper C.J., Pearson E.S.(1934) The use of confidence
or fiducial limits illustrated in the case of the
Binomial. Biometrika; 26: 404-413.
Collins M.W., Morris S.B. (2008).Testing for adverse
impact when sample size is small. Journal of
Applied Psychology; 93: 463-471.
Newcombe Robert G. (1998). Two-sided confidence
intervals for the single proportion: comparison
of seven methods. Statistics in medicine; 17:
857-872.
Pires A. M. (2002) : A closer look at confidence
intervals for a binomial proportion : http://
statistics.open.ac.uk/seminars/2002/pires.html
access on 06/03/03
Prum Bernard (1997). Loi exacte et ré-échantillonnage
ou comment tirer d’avantages d’informations des
données? Biom Hum et Anthropol ;15 :177-181.
Schwartz D (1987). Méthodes statistiques à l’usage
des médecins et des biologistes. Paris : Flammarion
Médecine Sciences Troisième édition. 418p.
Vollset Stein E. (1993). Confidence intervals for a
binomial proportion. Statistics in Medicine; 12:
809-24.
Colton T.(1974). Statistics in medecine. Boston :
Little, Brown and Company. 213p.
J. sci. pharm. biol., Vol.12, n°2 - 2011
POLNEAU S. & al. : Estimation de l’erreur commise lors de l’approximatio...
© EDUCI 2011.
Téléchargement