J. sci. pharm. biol., Vol.12, n°2 - 2011, pp. 6-12 © EDUCI 2011 POLNEAU S.1 VALLEE L.2 MALAN K.A.3 6 ESTIMATION DE L’ERREUR COMMISE LORS DE L’APPROXIMATION DE LA LOI BINOMIALE PAR LA LOI NORMALE Resume Le développement de l’informatique et des logiciels de statistique permet actuellement l’utilisation indifférenciée des outils de statistique classique et des outils exacts. Les premiers sont basés sur des approximations de lois et notamment la loi normale tandis que les seconds sont utilisés «hors approximation» d’où leur qualification d’outils «exacts». Nous nous sommes intéressés à l’étude de la différence entre la loi binomiale «exacte» et la loi normale «approchée». L’approximation de la loi binomiale par la loi normale est accompagnée d’un risque d’erreur que nous avons quantifié et nous présentons la différence d’erreur selon la loi utilisée dans différentes situations et comparons les résultats dans les contextes «exact» et «approché». Les bornes des intervalles «exact» ou «approchée» ne différant qu’à la troisième ou à la quatrième décimale, l’utilisation indifférenciée des outils «exacts» ou «approchés» est alors possible. Mots-clés : Loi binomiale, loi normale, statistique exacte, statistique approchée, erreur Summary The development of the data processing of error and we present the difference in and the software of statistics currently error according to the law used in various allows the undifferentiated use of the tools of situations and compare the results in the traditional statistics and the exact tools. The contexts “exact’’ and “approached’’. The first are based on approximations of laws differences of the terminals relate only to and in particular the normal law while the the third or the fourth decimal. This then seconds are used “except approximation’’ authorizes the undifferentiated use of the and are then called “exact’’ tools. We were tools of traditional or exact statistics. interested in the study of the difference Key words: Binomial distribution, between the binomial distribution “exact’’ normal law, exact statistics, approximate and the normal law “approximate’’. The statistics approximation of the binomial distribution by the normal law is accompanied by a risk 1- Département de Biostatistique, UFR des Sciences pharmaceutiques et biologiques, Université de Cocody Abidjan, Côte d’Ivoire 2- Centre de formation professionnelle et artistique, , Abidjan, Côte d’Ivoire 3- Département de Chimie Analytique, UFR Sciences pharmaceutiques et biologiques, Université de Cocody Abidjan, Côte d’Ivoire - Correspondance : Sandrine POLNEAU, 18 BP 2635Abidjan 18 Côte d’Ivoire, Téléphone: +22558304151, Fax:+22521259528, [email protected] J. sci. pharm. biol., Vol.12, n°2 - 2011 POLNEAU S. & al. : Estimation de l’erreur commise lors de l’approximatio... © EDUCI 2011. 7 INTRODUCTION Le développement de la biostatistique a révolutionné le traitement des données biomédicales [Colton 1974], à l’instar de l’épidémiologie et la santé publique pour lesquelles cette discipline est un outil privilégié [Bernard 1987]. Les premières méthodes largement utilisées étaient basées sur des hypothèses de distribution normale des phénomènes étudiés [Schwartz 1987] en raison de la complexité des formules de calcul de la loi exacte. Cependant l’approximation d’une loi exacte (par exemple la loi binomiale) par une loi normale est accompagnée d’une perte d’information, et inévitablement d’un risque d’erreur [Vollset 1993, Agresti 2001]. Or les progrès dans le domaine de l’informatique ont mis à disposition des machines et des logiciels puissants capables d’effectuer rapidement la plupart des calculs que nécessitent les méthodes exactes [Vollset 1993, Agresti 2001, Newcombe 1998, Prum 1997]. Il convient alors de mener la réflexion sur les avantages comparatifs de l’emploi des méthodes approchées ou exactes. L’objectif de ce travail a été de quantifier le risque d’erreur différentiel lié à l’approximation de la loi binomiale par la loi normale permettant ainsi de vérifier la validité du théorème de la limite centrale couramment employé par les utilisateurs d’outils statistiques dans le but de répondre à des questions posées dans le domaine des sciences de la santé. MATERIEL ET METHODES Logiciels et lois statistiques Les logiciels employés étaient Stata 11 et Excel 2007. Les lois statistiques ayant fait l’objet de notre réflexion étaient les lois binomiale et normale. M é t h ode l’erreur d ’ estimation de Soit une variable aléatoire Y à 2 modalités notées 1 (associé au succès) et 0 (associé à l’échec) et soit la probabilité p associée à la réalisation du succès: p = P(Y = 1) avec 0 ≤ p ≤ 1 et q la probabilité associée à la réalisation de l’échec : q =1- p = P(Y = 0). Alors la variable aléatoire Y suit une loi de Bernoulli de paramètre p dont l’espérance est égale à p et la variance à pq. Soient n variables aléatoires Yi suivant la même loi de Bernoulli d’espérance p et de variance pq. Considérons ensuite la variable aléatoire X somme de ces n variables aléatoires de Bernoulli. Cette variable X suit une loi binomiale dont la distribution est totalement déterminée par la connaissance de n et de p . L’espérance et la variance de X répondent aux relations suivantes : E(X)=np et V(X)=npq. Sous certaines conditions dépendant des auteurs [Colton 1974, Schwartz 1987] (par exemple pour np ≥ 5 et nq ≥ 5 et/ou n grand), la loi binomiale peut être approchée par une loi normale de même espérance et de même variance : [X~B(n;p)] ⇒ [X~N(np;npq)]. Pour chacune des lois ci-dessus, on définit d’une part la fonction de distribution de probabilité (f(x)) et d’autre part la fonction de répartition (F(x)). La fonction de distribution de probabilité associe à chacune des valeurs x prises par la variable X sa probabilité de réalisation P(X= J. sci. pharm. biol., Vol.12, n°2 - 2011 POLNEAU S. & al. : Estimation de l’erreur commise lors de l’approximatio... © EDUCI 2011. 8 x). La fonction de répartition F(x)=P(X ≤ x) associe à chaque valeur de x la somme des probabilités des valeurs de X inférieures k ou égale à x. Ainsi F(x) = ∑ P(X=i) = i =0 P(X=0)+P(X=1)+P(X=2)+…............+P(X=x). Nous avons utilisé dans les logiciel Stata 11 et Excel 2007 de Microsoft les fonctions de calcul de la distribution de probabilité et celle de répartition d’une variable suivant une loi binomiale respectivement. Il s’agissait pour Stata de « binomialp (n,k,p) et binomial(n,k,p) » et pour Excel de « LOI BINOMIALE (k ; n ; p ; faux) et LOI BINOMIALE (k ; n ; p ; vrai) ». Le risque d’erreur α accompagnant la plupart des résultats d’analyse statistique de données biologiques est classiquement et arbitrairement fixé à 5%. C’est la raison pour laquelle nous nous sommes intéressés à l’étude d’un quantile particulier le quantile à 95%. Il s’agit de trouver la valeur de x telle que F(x)= 95%. Cependant le caractère discret de la loi binomiale ne permet pas de trouver dans tous les cas une valeur entière de x qui satisfasse à la relation : F(x)= 95%. On procède alors à un encadrement de la fonction de répartition. Sachant que cette fonction de répartition est une fonction croissante on obtient alors les relations suivantes: x1 < x < x2 F(x1) <F(x) < F(x2) De cet encadrement de la fonction de répartition, nous pouvons déduire un encadrement du risque d’erreur sans approximation appelé risque d’erreur « exact ». F(x1)<F(x)<F(x2) ⇒1-F(x2)<1-F(x1) ⇔ a1<a<a2 Nous avons fixé deux valeurs de p et calculé les fonctions de répartition des lois binomiales pour des valeurs croissantes de n. Ces simulations nous ont permis de représenter l’encadrement du risque d’erreur exact pour une loi binomiale. Intervalles de confiance « exact » et « approché » L’estimation ponctuelle des paramètres complémentée par l’intervalle de confiance pour un risque d’erreur de première espèce fixé est couramment employée en statistique. Nous avons utilisé cette seconde méthode pour quantifier l’approximation d’une loi binomiale par une loi normale. Cet intervalle de confiance est classiquement donné en utilisant l’approximation par la loi Normale : p - pu- 1-a/2 u1-a 2 p+u p(1 - p ) p(1 - pp)(1 - p ) ; ; p + u1-pa -2 1-a/2 ; ; p + u1-a 2 u1-a 2 n n n p(1 - p ) n Les paramètres nécessaires pour le calcul de l’intervalle de confiance exact sont constitués par le couple (n, p). Le nombre x est compris entre 0 et n. Fixons n et x et faisons varier p à travers plusieurs simulations de cas pour suivre les positions respectives des intervalles de confiance de p «exact » et « approché ». Pour chaque valeur de p, calculons P X ≥ x et P X ≤x . ( ( ) ) Cherchons deux valeurs p1 et p 2 (bornes inférieure et supérieure de l’intervalle de confiance) telles que pour p1 (et q1 = 1 - p1 ), l’on obtienne l’égalité suivante n x n- x P(X ≥ x )= ∑ C nx p 1 q 1 a 2 que == a/2 ( )( ) i=x l’on notera G p1 (x ) ; = 1-p ; pour p 2 (et q 2 = 1 - p 2 ), l’on obtienne l’égalité suivante : x ( ) (q ) P(X ≤ x )= ∑ C nx p 2 x i =0 n- x 2 =aa/2 équivalente = 2 à la fonction de répartition d’une loi Binomiale que l’on notera F p (x ). 2 Ces probabilités par interpolation. p1 et p 2 sont obtenues J. sci. pharm. biol., Vol.12, n°2 - 2011 POLNEAU S. & al. : Estimation de l’erreur commise lors de l’approximatio... © EDUCI 2011. 9 RESULTATS Les logiciels Stata 11 et Excel 2007 ont augmente. Cependant cette évolution donné des résultats de calcul des fonctions n’est pas linéaire, elle se fait par série. de distribution et de répartition identiques Ainsi on aurait pu s’attendre à trouver avec une précision de 10 décimales. la relation suivante : α1 ≈ α ≈ α2 pour Les calculs d’erreurs exactes déduits de grandes valeurs de n, mais les deux par complémentarité de la fonction de valeurs α1 et α2 ne se rapprochent pas répartition étaient donc identiques à 10-10 simultanément de α. Les figures 1 et 2 près avec les 2 logiciels employés. montrent une évolution différente l’une par rapport à l’autre. Concernant la figure 2, Nous estimons d’une part l’encadrement le phénomène observé semble périodique des risques d’erreurs « exacts » présenté par avec un rétrécissement progressif de l’intervalle [α1 ; α2] autour de la valeur 5% l’encadrement entrecoupé de brusques (figures 1 et 2) et d’autre part la différence variations. de résultats obtenus entre les intervalles de Concernant la comparaison des calculs confiance de pourcentage p « exact » (ICe) d’intervalle de confiance de p exact (ICe) et « approché » (ICn) (figure 3). et approché (ICn), 3 cas de figure sont Pour deux valeurs particulières de p observés selon les valeurs de p : (i) lorsque (p = 0,5 et p = 0,8) et des valeurs de n p<0,5 : translation de ICe par rapport à ICn croissantes par pas de 1, les encadrements vers les valeurs supérieures ; (ii) lorsque p = du risque d’erreur «exact» [α1 ; α2] sont 0,5 : inclusion de ICn dans ICe ; (iii) lorsque schématisés sur les figures 1 et 2. L’on p>0,5 : translation de ICe par rapport à ICn peut voir sur ces figures les fluctuations vers les valeurs inférieures. de cet encadrement autour de la valeur Dans tous les cas, les résultats des théorique de 5% conventionnellement calculs des bornes d’intervalle de confiance acceptée en biologie. de p « exact » ou « approché » ne montrent Ces figures montrent une tendance des différences qu’au niveau de la troisième globale à la réduction de l’étendue de voire de la quatrième décimale. l’encadrement lorsque la valeur de n a 20% 18% 16% 14% 12% 10% 8% 6% 4% 2% 0% α1 α2 5% 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 105 110 nombre total d'observations n Figure 1 : Encadrement du risque d’erreur α pour p = 0,5 J. sci. pharm. biol., Vol.12, n°2 - 2011 POLNEAU S. & al. : Estimation de l’erreur commise lors de l’approximatio... © EDUCI 2011. 10 a 95 10 0 10 5 11 0 90 85 80 75 70 65 60 55 50 45 40 35 30 25 20 α1 α2 5% 15 10 20% 18% 16% 14% 12% 10% 8% 6% 4% 2% 0% nombre total d'observations n Figure 2 : Encadrement du risque d’erreur α pour p = 0,8 1 IC 0,9 n = 30 p = 0,5 np = 15 nq = 15 0,8 0,7 0,6 n = 20 p = 0,3 np = 6 nq = 14 n = 50 p = 0,3 np = 15 nq = 35 n = 100 p = 0,3 np = 30 nq = 70 n = 100 p = 0,5 np = 50 nq = 50 n = 30 p = 0,8 np = 24 nq = 6 0,5 0,4 n = 50 p = 0,8 np = 40 nq = 10 0,3 0,2 0,1 0 n = 10 p = 0,5 np = 5 nq = 5 IC "normal" IC " exact" Figure 3 : Intervalles de confiance de pourcentage comparés sous l’hypothèse de la normalité (ICn) et « exact » (ICe). Cas de conditions d’approximations vérifiées. J. sci. pharm. biol., Vol.12, n°2 - 2011 POLNEAU S. & al. : Estimation de l’erreur commise lors de l’approximatio... © EDUCI 2011. 11 DISCUSSION Dans la littérature, nous avons relevé plusieurs approches de comparaison des méthodes statistiques « approchée » et « exacte » [Vollset 1993, Agresti 2001, Newcombe 1998, Prum 1997, Pires 2002, Agresti 1992, Clopper 1934, Collins 2008]. De manière courante, la méthode décrite par Clopper et Pearson [1934] est celle que l’on qualifie d’exacte. Cette méthode est basée sur la relation entre les distributions de Fisher et Binomiale. Nos calculs n’ont pas précisément fait appel à cette méthode mais nos résultats diffèrent peu de ceux obtenus à l’aide de cette méthode : les différences entre notre méthode et celle de Clopper et Pearson [1934] sont de l’ordre du millième voire du dix millième. Différentes méthodes de calcul d’intervalle de confiance bilatéral du pourcentage d’une variable suivant une loi binomiale ont été décrites. Ainsi différents auteurs [Vollset 1993, Agresti 2001, Newcombe 1998, Pires 2003] ont comparé 7 à 16 méthodes différentes de calcul d’un intervalle de confiance de ce pourcentage, parmi lesquelles figurait toujours celle de Clopper et Pearson [1934] permettant le calcul « exact » de l’intervalle de confiance. La détermination de l’intervalle de confiance du pourcentage de type Wald [Vollset 1993] correspond à l’intervalle de confiance « approché ». Il s’agit d’un intervalle construit de manière symétrique par rapport au pourcentage estimé obtenu à partir des données recueillies sur l’échantillon. En conséquence lorsque le pourcentage de la variable étudiée est proche de 0 (c’est le cas de la prévalence d’affections rares) ou de 1 (cas de la sensibilité ou de la spécificité de tests de diagnostic ou de dépistage), en raison de la symétrie, le calcul de l’intervalle de confiance est à l’origine de valeurs peu probables car soit négatives soit excédant l’unité. Cet inconvénient a conduit les statisticiens à rechercher d’autres méthodes afin de corriger ces défauts. Ainsi deux modifications de la méthode de Wald [Vollset 1993] ont été proposées afin de s’approcher davantage des limites exactes. La plus simple permet d’obtenir l’intervalle de Wald noté WCC incluant une correction de continuité (le facteur de correction 1/2n est ajouté à l’écart-type du pourcentage) et l’autre méthode décrite fournit un intervalle de Wald noté WBS modifié par une correction de continuité plus complexe [Blyth 1983]. Ces méthodes ont l’avantage d’améliorer la précision de l’intervalle de confiance en évitant d’obtenir des limites inférieures négatives. Cependant l’inconvénient de limite supérieure excédant l’unité lorsque la probabilité avoisine 1 est majoré du fait de l’ajout du facteur de correction. La méthode de Clopper et Pearson [1934] offre le double avantage d’une part de l’amélioration de la précision et d’autre part de l’élimination de valeurs « aberrantes » négatives ou supérieures à 1. En outre, cette approche garantit la propriété de conservation stricte puisque la probabilité de couverture est au moins égale à 95% pour tout pourcentage. La propriété conservatrice signifie donc que la probabilité d’erreur est inférieure au niveau fixé a priori et reflète les difficultés liées à la nature discrète des données. Cependant, le caractère conservateur n’est pas toujours nécessaire et représente un défaut lorsque notamment la base de données révèle un caractère hautement discret. Une autre méthode s’appliquant aux données discrètes représente un compromis entre la méthode de Clopper et Pearson jugée « trop » conservatrice et la méthode de Wald (utilisant l’approximation de la loi binomiale par la loi normale) non adaptée [Vollset 1993]. Il s’agit d’un ajustement de la méthode exacte basée sur le calcul de la « moitié du degré de signification » [Blyth 1983]. Dans ce cas, la probabilité de couverture dépasse légèrement la valeur souhaitée mais cette méthode tend à être moins conservatrice que les méthodes exactes habituelles. J. sci. pharm. biol., Vol.12, n°2 - 2011 POLNEAU S. & al. : Estimation de l’erreur commise lors de l’approximatio... © EDUCI 2011. 12 CONCLUSION Nos résultats ont montré que le calcul exact du quantile 95% n’était jamais atteint pour la loi binomiale mais qu’on pouvait en déterminer un encadrement exact permettant donc le calcul d’erreur exacte lors de l’utilisation de la loi binomiale. Les résultats de nos simulations menées dans le but de comparer non seulement le risque d’erreur exact à la classique erreur de 5% mais aussi les intervalles de confiance de pourcentage de p « exact » et « approché » confirment le théorème de la limite centrale présent dans les ouvrages de statistique et permettant l’approximation de la loi binomiale par la loi normale puisque les différences ne portent que sur la troisième ou la quatrième décimale. Remerciements A toute l’équipe du laboratoire de Biostatistique de la faculté de Pharmacie, Université René Descartes, Paris 5, France.. REFERENCES Agresti A. (1992) : A survey of exact inference for contingency tables. Statistical Science ; vol 7 : 131-177. Agresti Alan (2001). Exact inference for categorical data: recent advances and continuing controversies. Statistics in medicine; 20: 2709-2722. Bernard P-M et Lapointe C (1987). Mesures statistiques en Epidémiologie. Quebec : Presses de l’Université du Québec. 314p. Blyth C.and Still H.A (1983). Binomial confidence intervals. Journal of the American Statistical Association; 78: 108-116. Clopper C.J., Pearson E.S.(1934) The use of confidence or fiducial limits illustrated in the case of the Binomial. Biometrika; 26: 404-413. Collins M.W., Morris S.B. (2008).Testing for adverse impact when sample size is small. Journal of Applied Psychology; 93: 463-471. Newcombe Robert G. (1998). Two-sided confidence intervals for the single proportion: comparison of seven methods. Statistics in medicine; 17: 857-872. Pires A. M. (2002) : A closer look at confidence intervals for a binomial proportion : http:// statistics.open.ac.uk/seminars/2002/pires.html access on 06/03/03 Prum Bernard (1997). Loi exacte et ré-échantillonnage ou comment tirer d’avantages d’informations des données? Biom Hum et Anthropol ;15 :177-181. Schwartz D (1987). Méthodes statistiques à l’usage des médecins et des biologistes. Paris : Flammarion Médecine Sciences Troisième édition. 418p. Vollset Stein E. (1993). Confidence intervals for a binomial proportion. Statistics in Medicine; 12: 809-24. Colton T.(1974). Statistics in medecine. Boston : Little, Brown and Company. 213p. J. sci. pharm. biol., Vol.12, n°2 - 2011 POLNEAU S. & al. : Estimation de l’erreur commise lors de l’approximatio... © EDUCI 2011.