PRAXIS Forum Med Suisse Nr. 3 17 janvier 2001 46 469-00 Praxis f Sur la voie de l’intuition? Théorème de Bayes et diagnostic en médecine générale Partie II D. Pewsnera, J. P. Bleuerb, H. C. Bucherc, M. Battagliad, P. Jünid,e, M. Egger d,f Introduction Nous avons montré dans la première partie de cet article que l’application du théorème de Bayes en matière de diagnostic pouvait constituer un soutien rationnel de l’intuition. Nous avons expliqué à l’exemple de l’agriculteur avec présomption d’appendicite les règles valables dans le diagnostic différentiel pour l’acquisition d’informations. Outre la sensibilité et la spécifité, nous avons également exposé les avantages du coefficient de probabilité en tant que paramètre objectif de la performance d’un test. Nous décrivons ci-dessous comment le théorème de Bayes est susceptible d’enrichir quantitativement le diagnostic, et cela dans la perspective du potentiel représenté par une banque de données diagnostiques aisément accessible aux médecins généralistes. Un agriculteur souffre de douleurs abdominales: quelle est la probabilité d’une appendicite? a b c d e f Praxis für Innere Medizin FMH, Bern Mediscope AG, PF, 3000 Bern 23 Medizinische UniversitätsPoliklinik, Kantonsspital, Basel Institut für Sozial- und Präventivmedizin, Universität Bern Rheumatologische Universitätsklinik, Inselspital, Bern Division of Health Services Research, Department of Social Medicine, University of Bristol Correspondance: Dr Daniel Pewsner Case postale CH-3000 Berne 26 [email protected] Dans le cas de notre agriculteur, comment parvenir, à l’aide du théorème de Bayes, à la probabilité post-test d’une appendicite? La première étape consiste à évaluer la probabilité avant test d’une appendicite. Wagner et al [4] ont montré que dans la pratique ambulatoire, la prévalence de cette maladie chez les adultes présentant des douleurs abdominales se situe entre 0,7 et 1,6 % (tab. 1). La prévalence de l’appendicite chez les patients souffrant de douleurs abdominales aiguës ne revêt aucune signification dans notre cas, parce que la définition «aiguës» présuppose déjà l’utilisation de tests cliniques. Versons la prévalence de 1% dans l’«entonoir» du premier «transformateur de probabilité», à savoir le premier test (fig. 1). Afin de caractériser ces transformateurs de probabilité, nous avons besoin maintenant d’informations sur les qualités de test de l’anamnèse, des résultats des examens cliniques et des résultats de laboratoire. Ces qualités sont réunies dans le tableau 2, à ceci près que seuls sont indiqués les coefficients de transformation de probabilité et qu’on a renoncé à la citation de la sensibilité et de la spécificité. L’exemple des vomissements montre clairement que l’existence d’un symptôme peut présenter un CP+ inférieur à 1. Des vomissements cités dans l’anamnèse réduisent ainsi la probabilité d’une appendicite. On remarquera que seule la mention de douleurs dans la zone de l’abdomen inférieur droit avec un CP+ de 7 apporte, en tant que test isolé, un complément d’information essentiel. Une certaine numération de leucocytes ainsi que de la fièvre sont cités à titre de paramètres de l’inflammation (tab. 3). La protéine C-réactive et la vitesse de sédimentation du sang fournissent des performances de test de qualité inférieure. Dans la mesure où ces paramètres ne sont pas dichotomiques, la distinction en CP+ et CP– est inutile. Ceci met en lumière un autre avantage du coefficient de probabilité: le potentiel informatif d’un test peut être optimisé par le calcul des CP pour différentes valeurs limites d’un test. Seules les numérations de leucocytes de plus de 15 × 109/ L peuvent être considérées comme expressives à titre de test isolé. Dans le cas de notre agriculteur souffrant de douleurs abdominales, les indications suivantes sont donc exploitables à titre de tests pour une appendicite (pour simplifier, les valeurs ont été arrondies): (I) Douleurs dans l’abdomen inférieur droit (CP+ = 7.3); (II) Migration de la douleur dans l’abdomen inférieur droit (CP+ = 3.2); (III) Douleur d’un genre nouveau, jamais encore éprouvée (CP+ = 1.5) et (IV) la Leucocytose de 13× 109/ L (LR+ = 2.4). La probabilité avant test d’environ 1% (tab. 1) est ainsi modifiée par plusieurs tests qui peuvent être considérés comme séquence de «transformateurs de probabilité» (fig. 1). Le test de la nouveauté du type de douleur qui, considéré isolément, serait peu expressif avec PRAXIS Figure 1. Une cascade de transformateurs de probabilité modifie la probabilité avant test, la probabilité post-test du test précédent correspondant en l’occurence à la probabilité avant test du test suivant. La cascade peut être considérée dans sa globalité comme un test dont le coefficient de probabilité (Likelihood Ratio) correspond au produit du coefficient de probabilité des différents tests. L’utilisation mathématique de cette cascade est autorisée également si les tests ne sont pas effectués l’un après l’autre dans l’ordre indiqué. un CP+ de seulement 1,5, peut aussi être judicieusement intégré en qualité de chaînon à une telle «chaîne de test». La probabilité post-test du test précédent correspond en l’occurrence à la probabilité avant test du test suivant. L’important est que des grandeurs de test indépendantes les unes des autres soient prises en compte. Ainsi serait-il erroné de combiner les paramètres de l’inflammation que sont la fièvre et la leucocytose. Nous devons bien plus nous limiter à ceux des paramètres de l’inflammation qui présentent de meilleures performances de test. Le coefficient de probabilité de toute la série de tests résulte du produit du coefficient de chacun des tests utilisés dans cette série: Coefficient de probabilité total = 7,3 × 3,2 × 1,5 × 2,4 = 84 Cette constellation de résultats de tests se trouvera être ainsi 84 fois plus probable chez les pa- Forum Med Suisse Nr. 3 17 janvier 2001 47 tients souffrant d’une appendicite aiguë que chez les patients sans inflammation de l’appendice. Connaissant la probabilité avant test d’environ 1% et le coefficient de probabilité de 84, la probabilité post-test peut être calculée. Ceci en changeant d’«unité» pour passer de celle des pourcentages de la probabilité avant test à celle des Odds, en multipliant ces Odds avant test par 84 et en retranscrivant ensuite les Odds de post-test à nouveau en pourcentage. Ce travail fastidieux nous est facilité par le Nomogramme Fagan [17] (fig. 2): avec son aide et par l’intermédiaire du coefficient de probabilité, on parvient directement à la probabilité post-test en se basant sur la probabilité avant test. La probabilité avant test de 1% est recherchée sur l’échelle de gauche et une ligne est tracée à l’aide d’une règle jusqu’au coefficient de probabilité 84 sur l’échelle du milieu. Il est alors possible de lire la valeur de la probabilité post-test sur l’échelle de droite: elle est d’environ 45 % (fig. 2). Parce que les groupes de patients examinés présentent une prévalence de l’appendicite plus élevée qu’en médecine générale, les coefficients de probabilité ont sans doute été plutôt surestimés (biais de profil, voir tab. 5). De manière plus réaliste, la probabilité post-test devrait se situer entre 35 et 45 %, une valeur correspondant vraisemblablement à la probabilité intuitivement estimée par le lecteur. Mais intuition et probabilité calculée ne sont pas toujours identiques. Ainsi, nombreux seraient sans doute les médecins qui auraient tendance à surestimer la probabilité d’une embolie pulmonaire chez un patient en état post-critique après mise en place d’une prothèse de la hanche, avec symptomatologie et résultats typiques (voir tab. 6). Comment continuer? La signification de la probabilité post-test Quelle est la probabilité post-test qui doit être exigée pour qu’un diagnostic puisse être posé respectivement exclu dépend de nombreux facteurs. Insistons rapidement dans ce contexte sur le concept des seuils de décision [1, 3, 5]. «Poser un diagnostic» implique que nous traitions un patient comme si la maladie correspondante était présente, même si la probabilité que la maladie soit réellement donnée n’atteint pas 100 %. Le «seuil de test thérapeutique» définit le seuil de probabilité de la maladie auquel les deux options «examens supplémentaires» et «thérapie» sont équivalentes. En cas de dépassement de cette valeur-limite, le diagnostic est posé et par conséquent le traitement induit, alors que si ce seuil-limite n’est pas atteint, d’autres examens sont effectués, jusqu’à ce que le «seuil de test thérapeutique» soit dépassé quand même ou que le résultat obtenu se situe PRAXIS Tableau 1. Probabilité avant test (prévalence) de l’appendicite. Collectif de patients Probabilité avant test Domaine ambulatoire: adultes présentant des douleurs abdominales 0,7–1,6 % Pavillon des urgences: patients de moins de 60 ans présentant des douleurs abdominales aiguës 12 – 26 % Pavillon des urgences: patients de plus de 60 ans présentant des douleurs abdominales aiguës 4% Source: Wagner et al [4] Tableau 2. Anamnèse et examen clinique de l’appendicite aiguë. Coefficient de probabilité pour la présence d’un symptôme ou d’un résultat (CP+) Indications anamnestiques et symptômes Douleur dans l’abdomen inférieur droit 7.31 Douleur d’un genre nouveau 1.50 Douleur avant vomissements 2.76 Migration de la douleur dans l’abdomen inférieur droit 3.18 Inappétence 1.27 Nausée 1.20 Vomissements 0.92 Résultats de l’examen Défense 3.76 Psoïtis 2.38 Douleur au relachement de la pression abdominale 6.30 Douleur au point de Douglas 5.34 Fièvre (rectale) Voir tableau 3 Source: Wagner et al [4] Tableau 3. Performance de tests des paramètres de l’inflammation en cas d’appendicite. Paramètres de l’inflation Coefficient de probabilité Numération des leucocytes (10 9 / L) < 8,0 0,16 8 bis ≤ 10 0,83 10 bis ≤ 12 1,12 12 bis ≤ 15 2,44 >15 7,03 Température rectale en °C < 37,7 0,44 37,7– 37,9 1,61 38,0 – 38,4 1,77 ≥ 38,5 3,01 Source: Andersson et al [16] Forum Med Suisse Nr. 3 17 janvier 2001 48 en dessous du «seuil non thérapeutique de test». Cette deuxième valeur-limite indique que les deux possibilités «examens supplémentaires» et «pas de thérapie» sont équivalentes. Si le résultat obtenu se situe en dessous de cette valeur, on n’induit ni traitement ni examens supplémentaires, le diagnostic est considéré comme exclu. Un test n’est donc vraiment judicieux que si nous nous trouvons dans le «no man’s land» du domaine de ce test et qu’une chance existe par ailleurs que ce test nous amène dans la zone située au-delà du «seuil de test thérapeutique» (traitement) ou au-delà du «seuil de test non-thérapeutique» (pas de traitement). Dans le cas de notre agriculteur, avec une probabilité post-test de 35 à 45 %, l’indication d’une opération n’est pas donnée. Mais cette probabilité post-test ne nous autorise cependant pas à renvoyer chez lui le patient rassuré. Nous nous trouvons encore dans le «no man’s land» entre les deux seuils de décision. Bien au contraire, l’utilisation d’autres tests présentant un potentiel nous permettant de franchir l’un ou l’autre seuil s’impose donc. L’utilisation ciblée du test de l’épreuve du temps (Test of Time) sans hospitalisation (dont les caractéristiques sont difficiles à évaluer) dépend non seulement de la préférence du patient et de l’éloignement de l’hôpital mais également de la disponibilité d’autres ressources diagnostiques. Ainsi, la sonographie abdominale (sensibilité = 76 %, spécificité = 91%, CP+ = 8, CP– = 0.25 [7]) et bien plus encore la tomodensitométrie de l’appendice (sensibilité = 96 %, spécificité = 89 %, CP+ = 9, CP– = 0.04 [7]) resp. la tomodensitométrie hélicoïdale avec injection de substance de contraste (sensibilité = 98 % et spécificité = 98 %, CP+ = 48, CP– = 0.02 [8]) peuvent constituer des étapes supplémentaires permettant des économies de temps et de coûts. La tomodensitométrie, grâce à sa sensibilité élevée, remplit les conditions d’un test SnNout (voir encadré 1): un résultat négatif exclut une appendicite avec une grande fiabilité, si la probabilité avant test n’est pas très élevée. La tomodensitométrie hélicoïdale avec injection satisfait même les critères d’un test SnNout et SpPin (tab. 4). Dans notre cas, après un entretien détaillé en présence de sa femme, le patient est autorisé à rentrer chez lui, sous réserve de contrôles quotidiens. Le deuxième jour, les douleurs abdominales ont nettement diminué, le patient est tout à fait rétabli après une semaine. Le test de l’«épreuve du temps» a conduit à l’exclusion d’une appendicite (nécessitant un traitement). PRAXIS Forum Med Suisse Nr. 3 17 janvier 2001 Probabilité post-test Probabilité avant test Nomogramme pour l’interprétation de tests diagnostiques Coefficient de probabilité (Likelihood Ratio) Figure 2. Connaissant la probabilité avant test en pour-cent et le coefficient de probabilité du ou des test(s) utilisé(s), il est possible de lire directement la probabilité post-test en pour-cent à l’aide du «nomogramme de Fagan» [17]. Celui-ci permet d’éviter le calcul en Odds. Dans le cas de l’agriculteur souffrant de douleurs abdominales, la probabilité avant test est de 1% et le coefficient de probabilité du test utilisé est de 63. On obtient donc une probabilité post-test de 40 %. Un pas de plus sur les traces de l’intuition: une «Collaboration Bayes» est-elle nécessaire? La connaissance de la prévalence de maladies ainsi que la performance de l’anamnèse, des signes cliniques et des tests en matière de diagnostic constituent des outils précieux pour la pose d’un bon diagnostic. Les grands secrets de l’art médical ne nous sont bien entendu pas révélés pour autant. Le théorème de Bayes nous permet de franchir un pas de plus sur la voie de l’intuition, par définition difficilement saisissable et sujette à erreur, en donnant à celle- 49 ci un fondement plus rationnel. Mais il ne doit ni ne peut remplacer le fruit d’une expérience de longues années. A l’heure actuelle, les médecins généralistes et les spécialistes profitent peu de Thomas Bayes, dans la mesure où les informations nécessaires et les caractéristiques des tests ne sont pas disponibles sous forme claire et rapidement accessible. Idéalement parlant, l’élaboration et l’entretien d’une telle banque de données devrait être entreprise sous forme de «Collaboration Bayes», de manière analogue à la «Cochrane Collaboration», par un réseau international de spécialistes intéressés [9]. La recherche systématique et aussi complète que possible ainsi que la sélection critique des articles sur la qualité des tests et la prévalence constituent la base de l’élaboration de la banque de données planifiée. Sont essentiels en l’occurrence pour la sélection des études leur qualité méthodologique et leur signification pour les médecins généralistes. Dans un aperçu d’ensemble de la littérature consacrée au diagnostic dans des revues médicales de haut niveau (N Engl J Med, JAMA, Br Med J et Lancet 1990 – 93), seules 18 % des études examinées répondaient aux exigences méthodologiques de base [6] (voir tab. 5). 30 % des travaux examinés par Lijmer et al [10] en 1996 – 97 répondaient cependant à des critères analogues. C’est pourquoi il est permis de supposer que la méthodologie s’est améliorée au cours de ces dernières années. Dans le cadre d’un projet pilote soutenu par l’Académie Suisse des Sciences Médicales, nous avons commencé les travaux d’élaboration d’une banque de données diagnostiques pour médecins généralistes: l’objectif est d’inclure des maladies fréquentes et jouant un rôle important au quotidien. Citons à titre d’exemple la thrombose veineuse profonde, l’infarctus du myocarde, l’angine de poitrine chronique, l’embolie pulmonaire aiguë, la pneumonie, la sinusite aiguë, la méningite, les céphalées et les douleurs dorsales. Le but est de mettre à la disposition des praticiens et des cliniciens un outil qui leur permette d’améliorer les processus de diagnostic dans l’assistance des patients. La banque de données doit être accessible par voie électronique. Il est prévu d’étendre ce fichier et de le maintenir à jour par l’inclusion permanente d’études nouvellement parues. Il s’agit d’une entreprise de longue haleine, c’est pourquoi nous sommes très intéressés par les suggestions et la collaboration d’autres praticien(ne)s et clinicien(ne)s. Remerciements Nous tenons à remercier les docteurs A. Jaggi et Ch. Junker, Berne, de la lecture critique de ce manuscrit. PRAXIS Forum Med Suisse Nr. 3 17 janvier 2001 50 Tableau 4. «SpPins» et «SnNouts». On peut déduire de la définition de la sensibilité la règle approximative selon laquelle un test négatif de sensibilité élevée (faible taux faux négatif) permet l’exclusion d’une maladie recherchée (p. ex. D-Dimères [ELISA] lors de la recherche d’une embolie pulmonaire), mais n’autorise par contre pas l’«inclusion» en présence d’un résultat positif. Pour être plus explicite, imaginons un pêcheur qui utilise un filet aux mailles très serrées (= sensibilité élevée), afin de ne pas laisser échapper les poissons de petite taille. Il doit par contre accepter le risque de récolter une grande quantité de déchets dans son filet (un filet lourd ne doit pas induire la conclusion qu’un poisson a été pris). Cette règle est souvent appelée «SnNout» dans la littérature anglo-saxonne [2, 15]. «SnNout»: «Sensitivity Negative rule the target disorder out»: un résultat de test négatif d’un test de sensibilité élevée permet l’exclusion d’une maladie. Inversement, la règle approximative selon laquelle un test positif de sensibilité élevée (faible taux faux positif) permet l’inclusion d’une maladie recherchée (p. ex. mise en culture de salive Tbc positive), mais n’autorise par contre pas son exclusion en présence d’un résultat négatif. De tels résultats sont également appelés «pathognomoniques». Un filet aux mailles larges ou mieux une nasse permet certes à de nombreux poissons de s’échapper, mais la probabilité est cependant élevée que lors d’une prise rare, un poisson recherché soit réellement capturé. On parle alors de «SpPin». «SpPin»: «Specificity Positive rule the target disorder in»: un résultat de test positif d’un test de spécificité élevée permet l’inclusion d’une maladie. Ajoutons à titre limitatif que le potentiel informatif d’un test – qu’il s’agisse d’exclusion ou d’inclusion – dépend à la fois de la sensibilité et de la spécificité. C’est pourquoi les règles de «SnNout» et de «SpPin» ne sont valables que si la spécificité respectivement la sensibilité correspondante ne se situent pas au dessous de 40 à 50 %; une condition que remplissent d’ailleurs la plupart des tests usuels. Tableau 5. Distorsions lors de l’évaluation de tests diagnostisques: biais de profil (du patient), biais de vérification, biais de révision. Chez les populations présentant une fréquence élevée d’une certaine pathologie, les stades avancés de cette maladie sont également plus fréquents, d’où une amélioration potentielle de la sensibilité des tests (moins de faux négatifs) [10, 11]. Ce phénomène est désigné par le terme de «biais de profil» (Spektrumbias). La transformation du profil du patient peut également exercer une influence sur la présence d’autres maladies importantes du point de vue du diagnostic différentiel, ce qui modifie la spécificité (nombre de faux positifs). Les qualités de test présentées dans le texte principal pour les symptômes et les résultats viennent de patients qui ont été admis aux urgences en raison d’une présomption d’appendicite. La plupart ont donc franchi la barrière de la médecine générale et présentent en conséquence une probabilité avant test respectivement une prévalence de l’appendicite plus élevée. Dans le cas de l’appendicite, mais également pour d’autres maladies, se pose le problème de l’application du standard de référence, dans ce cas de l’opération avec examen histologique. Dans le cas d’un design idéal de l’étude, le diagnostic établi avec l’aide du standard de référence devrait se vérifier chez tous les patients. Parce que la responsabilité d’une opération ne peut être prise dans le cas d’une appendicite qu’en présence d’une présomption d’urgence, un diagnostic négatif ne sera donc pas vérifié. C’est par contre un test de référence subordonné au standard de référence (p. ex. «Test of Time») qui sera utilisé. Ce qui peut conduire à un biais de vérification [13, 14]. Lors de la comparaison de la performance d’un nouveau test avec celle du test de référence, les résultats doivent être évalués indépendamment les uns des autres. Les personnes qui évaluent les résultats d’un nouveau test devraient ne rien connaître du standard de référence [10]. Sans quoi le danger d’un «embellissement» de la sensibilité et de la spécificité du nouveau test existe, dans la mesure où l’expérience montre que nous décelons mieux les choses lorque que nous savons ce que nous devons chercher et où nous devons le faire. En ce qui concerne l’appendicite, ce phénomène appelé biais de révision joue surtout un rôle pour les procédés fournisseurs d’images de la sonographie et de la tomodensitométrie. PRAXIS Forum Med Suisse Nr. 3 17 janvier 2001 51 Tableau 6. Quelle est l’utilité de l’anamnèse et des observations cliniques en cas de soupçon d’embolie pulmonaire? Un homme âgé de 65 ans en état post-critique après mise en place d’une prothèse de la hanche un mois auparavant consulte pour une dyspnée, des palpitations intermittentes nouvelles et des douleurs pleurales. Les examens mettent en évidence une tachypnée et une tachycardie. Embolie pulmonaire? Pas obligatoirement: Stein et al [14], dans un travail méthodologiquement remarquable, ont examiné 365 patients avec présomption d’embolie pulmonaire. L’embolie pulmonaire a été vérifiée (probabilité avant test = 32 %) du point de vue angiographique pour 117 patients. Aucune des indications typiques de l’anamnèse ou des examens cliniques ne fournit d’information analytique de qualité en ce qui concerne l’embolie pulmonaire (voir tableau). Ceci est même valable pour une thrombose veineuse profonde et concomitante. La combinaison des indications de plusieurs tests permet tout au plus d’exprimer une présomption au sujet de l’embolie pulmonaire ou d’affaiblir celle-ci (dans cet exemple, les symptômes et résultats décrits d’un CP total de 2,5 transforment la probabilité avant test d’environ 32 % en une probabilité post-test de 54 %). Seul le diagnostic établi à l’aide d’appareils est en mesure de poser ou d’exclure le diagnostic. Sensibilité (%) Spécificité (%) Coefficient de probabilité (CP+) Immobilisation 56 67 1.7 Opération préalable 54 69 1.7 Dyspnée 73 28 1.0 Douleur pleurale 66 41 1.1 Toux 37 64 1.0 Hémoptysie 13 92 1.6 Palpitations 10 82 0.6 4 94 0.7 Indications d’anamnèse et symptômes Angor sans irradiations Résultats de l’examen Tachypnée (> 20/min) 70 32 1.0 Tachycardie (>100/min) 30 76 1.3 4e bruit cardiaque 24 86 1.7 Eclat du bruit de la valve pulmonaire 23 87 1.8 Thrombose veineuse profonde 11 89 1.0 Soulèvement du ventricule droit 4 98 2.0 Frottement pleural 3 98 1.5 3e bruit cardiaque 3 96 0.7 Cyanose 1 98 0.5 Source: Stein et al [14] PRAXIS Forum Med Suisse Nr. 3 17 janvier 2001 52 Références 1 Sox HC, Blatt MA, Hinggins MC, Marton KI. Medical Decision-Making. Boston: Butterworth-Heinemann; 1987. 2 Sackett DL, Richardson WS, Rosenberg W, Haynes RB. Evidence-based Medicine. New York: Churchill Livingstone; 1997. 3 Dubs L. Diagnostik mit Hilfe der Entscheidungsanalyse. Schweiz Arztezeitung 1999;80:785-7. 4 Wagner JM, McKinney WP, Carpenter JL. Does this patient have appendicitis? JAMA 1996;276:1589-94. 5 Kassirer JP, Gorry GA. Clinical problem solving: a behavioral analysis. Ann Intern Med 1978;89:245-55. 6 Reid MC, Lachs MS, Feinstein AR. Use of methodological standards in diagnostic test research. Getting better but still not good. JAMA 1995; 274:645-51. 7 Balthazar EJ, Birnbaum BA, Yee J, Megibow AJ, Roshkow J, Gray C. Acute Appendicitis: CT and US Correlation in 100 Patients. Radiology 1991;1889:21-4. 8 Rao PM, Rhea JT, Novelline RA, Mostafavi AA, McCabe CJ. Effect of computed tomography of the appendix on treatment of patients and use of hospital resources. N Engl J Med 1998;338:141-6. 9 Pewsner D, Bleuer JP, Jüni P, Battaglia M, Bucher HC, Egger M. Do we need a Bayes Collaboration? Proposal for a Diagnostic Database. 8th Cochrane Colloquium, Cape Town, South Africa, 25-29 October 2000. 10 Lijmer JG, Mol BW, Heisterkamp S, Bonsel GJ, Prins MH, van der Meulen JH, et al. Empirical evidence of design-related bias in studies of diagnostic tests. JAMA 1999;282: 1061-6. 11 Deeks JJ. Systematic Reviews of Evaluations of Diagnostic and Screening Tests. In Egger M, Smith GD, Altman DG, eds. Systematic Reviews in Health Care: Meta-Analysis in Context. London: Br Med J Books, 2000. 12 Panzer RJ, Suchman AL, Griner PF. Workup bias in prediction research. Med Decis Making 1987;7:115-9. 13 Magid D, Schwartz B, Craft J, Schwartz JS. Prevention of Lyme disease after tick bites. A cost-effectiveness analysis. N Engl J Med 1992; 327:534-41. 14 Stein PD, Terrin ML, Hales CA, Palevsky HI, Saltzman HA, Thompson BT, et al. Clinical, laboratory, roentgenographic, and electrocardiographic findings in patients with acute pulmonary embolism and no pre-existing cardiac or pulmonary disease. Chest 1991;100:598-603. 15 Littenberg B, Moses LE. Estimating diagnostic accuracy from multiple conflicting reports: a new meta-analytic method. Med Decis Making 1993;13:313-21. 16 Andersson RE, Hugander AP, Ghazi SH, Ravn H, Offenbartl SK, Nystrom PO, et al. Diagnostic Value of Disease History, Clinical Presentation and Inflammatory Parameters of Appendicitis. World J Surg 1999;23: 133–140. 17 Fagan TJ. Nomogram for Bayes theorem. N Engl J Med 1975;293:257.