Telechargé par acaro1601

evaluation des examens diagnostiques

publicité
Méthodologie
Évaluation
des examens diagnostiques
Sara Quenet1, Emilie Presles1, Grégoire Le Gal2
1
Unité de pharmacologie clinique, Groupe de recherche sur la thrombose (EA 3065),
Hôpital Bellevue, CHU de St-Etienne, 42055 St Etienne Cedex 2
2
Département de médecine interne et de pneumologie, Groupe d’étude de la thrombose
de Bretagne occidentale (EA 3878), CHU de Brest
Comme pour toute nouvelle thérapeutique, l’évaluation d’un nouvel examen diagnostique
nécessite de franchir différentes étapes pour optimiser son utilisation ultérieure en pratique
médicale. La première étape doit permettre de répondre à la question de base : « Le développement de ce nouveau test répond-il à une question pertinente ? ». On verra alors les qualités
du test en termes de reproductibilité, de sensibilité et de spécificité. La deuxième étape consiste
à interpréter les qualités du test, notamment les valeurs prédictives positives et négatives, les
probabilités cliniques et les rapports de vraisemblance. En dernière étape, n’oublions pas la
validation des performances du test en situation pragmatique. Le test devient décisionnel...
Mots clés : test diagnostique, valeurs prédictives, rapport de vraisemblance
E
mt
Tirés à part : S. Quenet
318
n médecine, nous aimerions toujours et nous croyons souvent
avoir à notre disposition des examens
complémentaires qui nous permettent, devant un patient suspect d’une
pathologie, de trancher de façon sûre
et définitive sur l’existence ou non de
cette pathologie. Prenons l’exemple
de l’embolie pulmonaire. Ce choix
n’est pas innocent car dans cette affection, alors qu’un diagnostic de certitude s’impose, il n’existe pas à l’heure
actuelle de test non invasif qui
réponde en « blanc ou noir ». En
d’autres termes, le même test ne peut
pas à la fois éliminer le diagnostic
chez un patient indemne s’il est négatif, et l’affirmer chez un patient s’il est
positif. L’angiographie pulmonaire, à
qui on prêtait ces qualités, reste l’examen de référence (« gold-standard »).
C’est un examen invasif, parfois
impossible, coûteux, qui de plus
aujourd’hui a perdu de ses qualités du
fait de l’inexpérience des opérateurs.
En l’absence d’examen « blanc ou
noir », le praticien s’expose à deux
risques : traiter à tort un malade qui
mt, vol. 11, n° 5, septembre-octobre 2005
n’a pas d’embolie pulmonaire (et
l’exposer à un risque hémorragique
inacceptable), ou ne pas traiter un
malade porteur d’une embolie pulmonaire et l’exposer au risque de récidive
potentiellement mortelle.
Dans une stratégie de décision thérapeutique, l’utilisation d’un nouvel
examen complémentaire impose qu’il
ait franchi un certain nombre d’étapes, avec la question préalable suivante.
Le développement
de ce nouveau test
répond-il à une question
pertinente ?
En gardant le même exemple de
l’embolie pulmonaire, nous allons
nous intéresser à la valeur diagnostique du dosage des D-dimères. Le
développement de nouveaux examens diagnostiques pour l’embolie
pulmonaire est justifié par le caractère
invasif du « gold-standard ». Une plus
grande disponibilité, un coût moindre, la possibilité de répéter l’examen,
d’obtenir un diagnostic alternatif, sont d’autres arguments
possibles. Enfin, l’objectif n’est pas forcément de remplacer le gold-standard mais de limiter le nombre de malades
pour lesquels le recours à celui-ci sera nécessaire. En
d’autres termes, c’est d’ajouter un nouveau « filtre », sûr,
dans la stratégie diagnostique.
D-dimères positifs
Les étapes successives
D-dimères négatifs
La mise au point du test et la détermination
de sa reproductibilité
La première étape est la mise au point du test et la
détermination de sa reproductibilité. L’idée initiale, qui
s’est révélée performante, était d’associer la présence de
produits de dégradation de la fibrine (D-dimères) à un
processus thrombotique évolutif. Pour pouvoir être utilisé
comme test diagnostique, il faut être certain des qualités
métrologiques, c’est-à-dire que leur dosage par la technique utilisée est exact, précis et reproductible (avec une
bonne reproductibilité intra- et interobservateur). Plusieurs facteurs peuvent contribuer à la mauvaise reproductibilité d’un test : la précision de la méthode de dosage,
des facteurs d’environnement mal maîtrisés, les variations
dues à l’observateur (si par exemple l’interprétation du test
repose sur la comparaison d’une couleur à une gamme de
référence, sur l’interprétation d’un scanner ou d’une scintigraphie). La reproductibilité peut être évaluée par le
kappa de concordance, qui mesure l’accord entre deux
observateurs. Il évalue dans quelle mesure deux observateurs différents ont classé de la même façon les patients
chez qui a été réalisé le test. Il n’est applicable que quand
le résultat du test n’est pas exprimé sous la forme d’une
valeur continue.
L’évaluation des qualités intrinsèques du test
La deuxième étape est l’évaluation des qualités intrinsèques du test par rapport au test ou à une stratégie diagnostique de référence : la sensibilité et la spécificité
(tableau 1, encadré 1). Cette deuxième étape impose la
réalisation d’une étude dont les contraintes empruntent
beaucoup à la méthodologie de l’essai thérapeutique. La
population sur laquelle sera étudié le test doit être parfaitement définie. Dans l’exemple retenu, c’est une population suspecte d’embolie pulmonaire dans le contexte où le
test sera utilisé (patients admis aux urgences, ou patients
en postopératoire, ou encore patients hospitalisés en
médecine...). L’évaluation est faite sur un échantillon,
l’expression des résultats est rendue sous la forme d’un
intervalle de confiance, à 95 % par convention. Le nombre de patients nécessaires doit ainsi être calculé pour
obtenir une précision suffisante autour de l’estimation de
la sensibilité et de la spécificité. Le comparateur doit être
l’examen complémentaire de référence (ici l’angiographie
pulmonaire) ou une stratégie diagnostique validée pour la
Tableau 1. Résultats d’un nouveau test diagnostique par rapport
à l’examen ou à la stratégie de référence : évaluation des D-dimères
dans le diagnostic de l’embolie pulmonaire. D’après Oger et al. [1]
Malades
EP+
A
Vrais positifs (VP)
146
C
Faux négatifs (FN)
0
Non-malades
EP–
B
Faux positifs (FP)
157
D
Vrais négatifs (VN)
83
A) Patients malades correctement diagnostiqués par le nouvel examen : vrais
positifs. B) Patients non malades avec le nouvel examen positif : faux positifs.
C) Patients malades avec le nouvel examen négatif : faux négatifs. D) Patients
non malades avec le nouvel examen négatif : vrais négatifs.
Encadré 1. Caractéristiques intrinsèques d’un examen
diagnostique
Sensibilité
(Se)
Se =
A
A+C
=
VP
VP + FN
IC95%(Se) = Se ± 1,96 ×
Spécificité
(Sp)
Sp =
D
D+B
IC95%(Sp) = Sp ± 1,96 ×
=
冑
Se × (1 − Se)
nb malades
VN
VN + FP
冑
Sp × (1 − Sp)
nb non − malades
pathologie étudiée. C’est cet examen ou cette stratégie de
référence qui permettront de classer les patients comme
indemnes ou porteurs de la maladie. L’interprétation du
test doit être faite en aveugle de la conclusion donnée par
le test ou la stratégie de référence, et en aucun cas le
résultat du nouveau test ne doit intervenir dans la décision
diagnostique ou thérapeutique. Ainsi, pour éviter le biais
de préjugé, les observateurs qui interprètent un des tests
ne doivent pas être informés des résultats de l’autre test.
De la comparaison de ces deux tests, le nouveau test
d’une part, le test ou la stratégie de référence d’autre part,
résulte quatre situations possibles (tableau 1). Dans
l’exemple choisi, extrait d’une étude sur la valeur diagnostique des D-dimères dans l’embolie pulmonaire, les
D-dimères étaient comparés à une stratégie diagnostique
validée (probabilité clinique, scintigraphie pulmonaire,
écho-doppler veineux des membres inférieurs, angiographie) [1]. Le nouvel examen peut être source de deux
types d’erreurs : 1) ne pas identifier un patient porteur
d’une embolie pulmonaire : on parle alors de faux négatifs
mt, vol. 11, n° 5, septembre-octobre 2005
319
Méthodologie
(case C) ; 2) faire conclure à une embolie pulmonaire qui
n’existe pas réellement : on parle alors de faux positifs
(case B).
La sensibilité
Elle est définie comme la proportion de patients
atteints d’embolie pulmonaire ayant un test positif (autrement dit, c’est le pourcentage de vrais positifs). La sensibilité s’évalue donc chez les malades tels qu’identifiés par
la stratégie de référence. Dans notre tableau, c’est le
rapport A / (A+C), soit 100 % (146/146). Cela signifie que
100 % des patients ayant une embolie pulmonaire ont un
test positif. Cela ne veut pas dire qu’un test positif affirme
l’EP mais que le test est positif pour tous les patients ayant
une EP.
La spécificité
Elle est définie comme la proportion de tests négatifs
chez les patients indemnes d’embolie pulmonaire. La
spécificité s’évalue donc chez les non-malades. Dans
notre tableau, c’est le rapport D / (D+B), soit 35 % (83 /
(83+157)) avec un intervalle de confiance à 95 % [29 41 %]. Cela signifie que 35 % des patients n’ayant pas
d’embolie pulmonaire ont des D-dimères négatifs. Si la
spécificité d’un test est de 100 %, cela veut dire que tous
les patients indemnes ont un test négatif, mais cela ne veut
pas dire qu’un test positif affirme l’EP.
Choix du seuil de positivité
Quand le résultat du test est donné sous la forme d’une
valeur numérique, il faut choisir un seuil au-delà duquel le
test sera considéré comme positif. Le choix de ce seuil se
fait à l’aide d’une courbe ROC. La courbe ROC (Receiver
Operating Characteristic) exprime, pour chaque seuil possible, la sensibilité du test en fonction de (1 – spécificité).
Elle permet de choisir le seuil correspondant au meilleur
compromis entre sensibilité et spécificité selon la situation
clinique dans laquelle le test sera utilisé. En effet, sensibilité et spécificité varient en sens inverse. Ainsi, pour tout
test, chaque variation du seuil permettant un gain de
sensibilité se traduit par une perte de spécificité, et inversement. La courbe ROC reflète la capacité du test à
distinguer les malades des non-malades pour toutes les
valeurs possibles du test. Une autre façon d’expliquer la
courbe ROC est qu’elle exprime pour chaque seuil possible le pourcentage de vrais positifs (la sensibilité) en
fonction du pourcentage de faux positifs (1 moins la
spécificité).
Sensibilité ou spécificité : laquelle privilégier ?
Il faut faire un choix entre une forte sensibilité et une
forte spécificité, et ce choix doit être fait en fonction de
l’objectif du nouvel examen. Si celui-ci est développé
pour dépister une maladie, il est important de ne « rater »
aucun cas de cette maladie parmi les patients testés (mammographie pour le cancer du sein, dosages sanguins de
dépistage de la trisomie 21 chez la femme enceinte), une
forte sensibilité doit être privilégiée. En effet, plus la sensibilité est forte, plus le taux de détection des patients
malades est élevé et plus le taux de faux négatifs est bas. Le
test ici est un premier filtre. Les patients doivent ensuite
être soumis à un deuxième test, celui-ci très spécifique. En
effet, de tels diagnostics ont de lourdes conséquences
(thérapeutiques, pronostiques, psychologiques), et il est
important de ne pas avoir de faux positifs. On choisit donc
un test très spécifique pour permettre, s’il est positif,
d’affirmer de façon certaine le diagnostic (biopsie avec
examen anatomo-pathologique pour le cancer du sein,
amniocentèse).
Quand le nouveau test n’est pas interprétable
Parfois, l’examen diagnostique n’est pas interprétable
(problème technique lors de l’examen...). Lors du calcul
de la sensibilité ou de la spécificité de l’examen, il est
important de tenir compte aussi de ces patients. Généralement, l’examen de référence, lui, identifie si ces patients
présentent l’événement : ils font partie du total des
patients soit présentant (dans le calcul de la sensibilité) soit
ne présentant pas (dans le calcul de la spécificité) l’événement. Ne pas en tenir compte donnerait une vision trop
optimiste de la performance diagnostique de l’examen
évalué. L’ « hypothèse du pire » est en règle retenue pour
le calcul de la sensibilité et de la spécificité, c’est-à-dire
que tout examen non interprétable sera considéré comme
faux positif si le patient est indemne de la pathologie, et
comme faux négatif s’il en est atteint. Un exemple est
fourni au tableau 2.
Variations de la sensibilité et de la spécificité
En théorie, les caractéristiques intrinsèques du test (sa
capacité à se positiver chez un patient malade, et à rester
négatif chez un patient indemne) ne varient pas avec la
Tableau 2. Effet de la non-prise en compte des examens non conclusifs ou ininterprétables (à gauche) par rapport
à l’analyse conventionnelle adéquate (à droite) dans l’estimation de la sensibilité et de la spécificité d’un test
Test positif
Test négatif
Test non conclusif
Total
Sensibilité
Spécificité
Patients malades
102
5
144*
107
102/107 = 95 %
Patients indemnes
14
50
416*
64
50/64 = 78 %
* Données ignorées.
320
mt, vol. 11, n° 5, septembre-octobre 2005
Patients malades
102
5
144
251
102/251 = 41 %
Patients indemnes
14
50
416
480
50/480 = 10 %
babilité d’avoir une embolie pulmonaire quand les
D-dimères sont positifs est de 48 %.
Encadré 2. Valeurs prédictives
Valeur
prédictive
positive
(VPP)
VPP =
A
A+B
IC95%(VPP) = VPP ± 1,96 ×
Valeur
prédictive
négative
(VPN)
VPN =
D
D+C
IC95%(VPN) = VPN ± 1,96 ×
=
VP
冑
=
Le test est négatif, quelle est la probabilité que mon patient
n’ait pas la maladie ? La valeur prédictive négative (VPN)
VP + FP
VPP × (1 − VPP)
nb de positifs
VN
VN + FN
冑
VPN × (1 − VPN)
nb de négatifs
prévalence de la maladie. En revanche, elles varient en
fonction de multiples facteurs (âge, sexe, grossesse, états
morbides...). Ainsi, chez le sujet âgé, les causes d’augmentation des D-dimères en dehors de l’embolie pulmonaire
sont fréquentes, et donc la spécificité de l’examen est plus
basse. Chez la femme enceinte, les D-dimères augmentent
progressivement au cours de la grossesse normale, et donc
là encore leur spécificité diminue.
Comment interpréter le résultat du test ?
Les valeurs prédictives (encadré 2)
Le test est positif, quelle est la probabilité que mon patient
soit malade ? La valeur prédictive positive (VPP)
Pour calculer cette valeur, il faut revenir à notre
tableau à quatre cases (tableau 1). La VPP est tout simplement la proportion de malades parmi les patients ayant un
test positif, soit A / (A + B). Dans notre exemple, parmi les
malades chez qui nous avons suspecté l’embolie pulmonaire, le test est positif chez 146 patients effectivement
atteints d’embolie mais il est aussi positif chez 157
patients qui ne présentaient pas d’embolie. La VPP est
donc de 146 / (146 + 157), soit 48 %, IC95 % [43 % ;
54 %]. En d’autres termes, dans notre population, la pro-
Pour calculer cette valeur, dans notre tableau à quatre
cases, la VPN est la proportion de patients indemnes
parmi ceux ayant un test négatif, soit D / (C+D). Dans notre
exemple, parmi les malades chez qui nous avons suspecté
l’embolie pulmonaire, le test est négatif chez 83 patients
qui n’ont pas d’embolie. Aucun patient atteint d’embolie
n’avait en revanche un test négatif. La VPN est donc de
83 / (83 + 0), soit 100 %. En d’autres termes, dans notre
population, la probabilité d’être indemne d’embolie pulmonaire quand les D-dimères sont négatifs est de 100 %.
Variation des valeurs prédictives en fonction
de la prévalence : intégration de cette propriété des tests
dans le raisonnement clinique
Si la maladie est rare, la probabilité que la maladie soit
absente, si le test est négatif, est forte. De même, si la
maladie est fréquente, la probabilité que la maladie soit
présente, si le test est positif, est forte. À sensibilité et
spécificité identiques, un même test appliqué dans des
populations où la prévalence de la maladie est différente
aura donc des valeurs prédictives différentes. Dans le
tableau 3, nous avons pris l’exemple d’un test fictif qui
aurait une sensibilité de 95 % et une spécificité de 90 %.
Dans la partie supérieure du tableau, il est appliqué à une
population où la prévalence de la maladie est de 50 %
(100 patients malades et 100 patients indemnes). Sur les
100 patients atteints, 95 ont un test positif (sensibilité
95 %). Sur les 100 patients indemnes, 10 patients ont aussi
un test positif (faux positifs) (spécificité 90 %). La valeur
prédictive positive est donc de 95/105, soit 90 %, et la
valeur prédictive négative de 90/95, soit 95 %. Dans la
partie inférieure du tableau, ce même test est appliqué
dans une population où la prévalence est maintenant de
9 % (100 malades et 1 000 non-malades). Les sensibilité et
spécificité sont les mêmes (95 % et 90 % respectivement).
Par contre, les valeurs prédictives sont très différentes,
Tableau 3. Influence de la prévalence sur les valeurs prédictives
• Prévalence de la maladie à 50 %
Patients malades
Test positif
95
Test négatif
5
Total
100
Sensibilité = 95/100 = 95 %
• Prévalence de la maladie à 9 %
Patients malades
Test positif
95
Test négatif
5
Total
100
Sensibilité = 95/100 = 95 %
Patients indemnes
10
90
100
Spécificité = 90/100 = 90 %
Total
105
95
200
VPP = 95/105 = 90 %
VPN = 90/95 = 95 %
Prévalence = 100/200 = 50 %
Patients indemnes
100
900
1000
Spécificité = 900/1000 = 90 %
Total
195
905
1100
VPP = 95/195 = 49 %
VPN = 900/905 = 99 %
Prévalence = 100/1100 = 9 %
mt, vol. 11, n° 5, septembre-octobre 2005
321
Méthodologie
respectivement 95/195 = 49 %
900/905 = 99 % pour la VPN.
pour
la
VPP,
et
Interprétation du test en fonction de la probabilité clinique
Face à son patient, le médecin peut utiliser cette propriété des valeurs prédictives. Il est démontré qu’avec
l’histoire et l’examen clinique, le médecin, de façon intuitive, estime correctement la probabilité que son patient
soit atteint d’une maladie donnée. C’est la probabilité
clinique ; on l’appelle encore probabilité pré-test. Il existe
une corrélation évidente entre la probabilité clinique évaluée par le médecin et la prévalence réelle de la maladie
dans un groupe de patients qui aurait les mêmes caractéristiques. Ainsi, un test positif aura une valeur prédictive
plus importante chez un patient ayant une probabilité
clinique forte que chez un patient ayant une probabilité
clinique faible. À l’inverse, la valeur prédictive négative
sera plus faible chez un patient ayant une forte probabilité
que chez un patient ayant une probabilité clinique faible.
Cette notion doit être parfaitement intégrée dans le raisonnement diagnostique. Elle est par exemple indispensable à
l’interprétation d’une scintigraphie pulmonaire chez un
patient suspect d’embolie. Une scintigraphie de forte probabilité correspond réellement à une embolie pulmonaire
chez 56 % des patients qui ont une probabilité clinique
faible, et chez 98 % des patients qui ont une probabilité
clinique forte [2]. Cet exemple illustre la nécessité d’intégrer la probabilité clinique dans l’interprétation du résultat
d’un examen complémentaire et donc la nécessité de
poursuivre ou non, en fonction de la probabilité clinique,
les examens devant le même résultat – positif ou négatif –
de l’examen réalisé. Le problème majeur ici est l’évaluation de la probabilité clinique, qui devrait être reproductible d’un examinateur à l’autre. La mise au point de scores
de prédiction clinique peut aider à l’évaluation de la
probabilité clinique de façon plus fiable, y compris par les
médecins juniors.
Les rapports de vraisemblance (likelihood ratios)
(encadré 3)
Pour simplifier le calcul de la valeur prédictive positive
dans une population où la prévalence est connue ou pour
un groupe de probabilité clinique donné (le niveau de
probabilité clinique correspondant à la prévalence de la
maladie dans ce groupe), chaque test peut être efficaceEncadré 3. Rapports de vraisemblance
322
Rapport de
vraisemblance positif
(RV+)
RV+ =
Rapport de
vraisemblance négatif
(RV-)
RV– =
Sensibilité
1 − Spécificité
1 − Sensibilité
Spécificité
ment résumé par le rapport de vraisemblance qui combine
l’information contenue dans les indices de sensibilité et de
spécificité. Il correspond au rapport de la fréquence d’un
résultat donné chez les patients présentant l’événement
sur la fréquence de ce même résultat chez les patients ne
présentant pas l’événement. Simplement, le rapport de
vraisemblance indique combien de fois supplémentaires
(ou en moins) les patients avec l’événement auront un
résultat donné comparés aux patients ne présentant pas
l’événement.
Ainsi, dans le cas d’un examen avec un résultat dichotomique, positif ou négatif, on calcule deux rapports de
vraisemblance :
• Un rapport de vraisemblance associé à un test positif : le rapport de vraisemblance positif ou RV+. Il se
calcule en faisant le rapport de la sensibilité sur (1 –
Spécificité). Il indique dans quelle mesure un test positif
augmente la probabilité qu’un patient soit malade. Plus le
rapport de vraisemblance positif est élevé, plus la probabilité que le patient soit atteint de la maladie augmente si
le test est positif. Généralement, un RV+ >10 est considéré
comme fiable. Une méta-analyse récente dans ce
domaine montre par exemple que le RV+ du scanner
spiralé est de 24,1 dans le diagnostic de l’EP alors qu’il est
de seulement 5,0 pour l’échocardiographie [3].
• Un rapport de vraisemblance associé à un test négatif : le rapport de vraisemblance négatif ou RV–. Il se calcule
en faisant le rapport de (1 – Sensibilité) sur la spécificité. Il
indique dans quelle mesure un résultat négatif diminue la
probabilité qu’un patient soit indemne. Plus le rapport de
vraisemblance négatif est élevé, plus la probabilité qu’un
patient soit atteint de la maladie est diminuée si le test est
négatif. Généralement, un RV– < 0,1 indique un résultat
négatif fiable. Par exemple, dans la méta-analyse précitée,
le RV– est de 0,05 en cas de scintigraphie négative alors
qu’il est de 0,67 en cas d’écho-Doppler veineux négatif des
membres inférieurs [3].
Le rapport de vraisemblance n’est pas affecté par la
prévalence de la maladie dans la population considérée,
puisqu’il ne dépend que de la sensibilité et de la spécificité. Le rapport de vraisemblance aide à extrapoler les
performances d’un test à un groupe de patients différents
de la population dans laquelle il a été étudié. Le théorème
de Bayes permet de calculer la probabilité post-test, c’està-dire la probabilité d’avoir la maladie en fonction du
résultat de l’examen diagnostique et de la probabilité
pré-test de maladie. Pour ce faire, il faut en fait se servir de
l’odds pré-test et du rapport de vraisemblance pour obtenir un odds post-test, l’odds étant tout simplement la cote
(probabilité divisée par 1 – probabilité) (encadré 4). Pour
éviter ces calculs, il est possible de se servir du nomogramme de Fagan (figure 1) qui utilise le même calcul par
le théorème de Bayes et qui permet d’obtenir directement
sur une échelle visuelle la probabilité post-test à partir de
la probabilité pré-test et le rapport de vraisemblance. Par
mt, vol. 11, n° 5, septembre-octobre 2005
Encadré 4. Calcul de la probabilité post-test en fonction
de la probabilité pré-test et du rapport de vraisemblance
(théorème de Bayes)
1) Calcul de l’odds pré-test :
Odds pré-test = probabilité pré-test / (1 – probabilité pré-test)
2) Calcul de l’odds post-test :
Odds post test = odds pré-test x RV
3) Calcul de la probabilité post-test :
Probabilité post-test = odds post-test / (odds post-test)
ailleurs, le calcul est maintenant disponible sur les logiciels permettant leur utilisation sur les PDA (personal
digital assistant).
Ainsi, le résultat d’un examen complémentaire devrait
toujours être assorti des rapports de vraisemblance de ce
test pour la pathologie suspectée. Dans la pratique quotidienne, ceci permettrait de systématiquement calculer la
probabilité post-test en fonction de la probabilité pré-test
99
0,1
0,2
1 000
0,5
1
5
10
20
80
90
95
90
500
200
100
50
20
10
5
2
1
2
30
40
50
60
70
95
RV négatif
80
RV positif
70
60
50
40
30
0,5
20
0,2
0,1
0,05
0,02
0,01
0,005
0,002
10
0,001
5
2
1
et du RV et ainsi d’éviter deux erreurs trop fréquentes :
affirmer le diagnostic sur la foi d’un test positif ou éliminer
la maladie sur un test négatif, quelle que soit la probabilité
clinique. Une scintigraphie pulmonaire de forte probabilité
ne permet pas d’affirmer le diagnostic d’embolie pulmonaire, un scanner spiralé monobarrette négatif ne permet
pas d’éliminer ce diagnostic.
La validation des performances
du test
La troisième étape est la validation des performances du
test en situation pragmatique : le test devient décisionnel.
Dans la deuxième étape, les résultats du test n’ont pas
été pris en compte dans la décision diagnostique et thérapeutique (le test n’est pas décisionnel). Le test a été interprété sans connaître le statut malade ou non malade du
patient. Une nouvelle évaluation est nécessaire, où cette
fois-ci le résultat du test sera décisionnel : décision thérapeutique de poursuite ou non de la démarche diagnostique
sur la foi du résultat du test. Une telle étude doit être
prospective, au mieux randomisée et comparative avec un
test ou une stratégie antérieurement validée. Par exemple,
s’il est important de connaître la sensibilité et la spécificité
du dosage des D-dimères pour le diagnostic de l’embolie
pulmonaire dans une étude où ils auront été réalisés en
parallèle et en aveugle d’une stratégie antérieurement validée, avant de pouvoir utiliser ce test pour éliminer de façon
sûre en pratique clinique le diagnostic d’embolie, il faut
vérifier dans une étude pragmatique que les patients ayant
des D-dimères négatifs n’ont effectivement pas d’embolie,
ce qui est apprécié par leur risque de récidive thromboembolique et/ou de mortalité par maladie veineuse thromboembolique, classiquement au cours d’un suivi de trois
mois. Dans une telle étude, les patients ne seront pas
anticoagulés sur le seul résultat d’un test de D-dimères
négatif. Aucun autre examen diagnostique ne sera réalisé.
Ces études permettent en outre de valider la place des
nouveaux examens complémentaires dans les stratégies
diagnostiques. Malheureusement, cette troisième étape
n’a jamais été réalisée pour une grande majorité des
examens complémentaires. Une autre difficulté est l’utilisation trop courante d’examens complémentaires dans
des stratégies où ils n’ont pas été évalués.
0,5
Références
0,2
99
Probabilité
de pré-test
Rapport de
vraisemblance
0,1
Probabilité
post-test
Figure 1. Le nomogramme de Fagan. Exemple : l’utilisation d’un
test qui aurait un rapport de vraisemblance positif à 20 et un
rapport de vraisemblance négatif à 0,1 chez un patient ayant une
probabilité pré-test de 30 %, permet de prédire une probabilité
post-test de 92 % environ s’il est positif et de 4 % environ s’il est
négatif.
1. Oger E, Leroyer C, Bressollette L, et al. Evaluation of a new, rapid,
and quantitative D-Dimer test in patients with suspected pulmonary
embolism. Am J Respir Crit Care Med 1998 ; 158 : 65-70.
2. The PIOPED Investigators. Value of the ventilation/perfusion scan
in acute pulmonary embolism. Results of the prospective investigation of pulmonary embolism diagnosis (PIOPED). JAMA 1990 ;
263(20) : 2753-9.
3. Roy PM, Colombet I, Durieux P, Chatellier G, Sors H, Meyer G.
Systematic review and meta-analysis of strategies for the diagnosis of
suspected pulmonary embolism. Br Med J 2005 ; 331 : 259.
mt, vol. 11, n° 5, septembre-octobre 2005
323
Téléchargement