evaluation des examens diagnostiques

Telechargé par acaro1601
Méthodologie
Évaluation
des examens diagnostiques
Sara Quenet
1
, Emilie Presles
1
, Grégoire Le Gal
2
1
Unité de pharmacologie clinique, Groupe de recherche sur la thrombose (EA 3065),
Hôpital Bellevue, CHU de St-Etienne, 42055 St Etienne Cedex 2
2
Département de médecine interne et de pneumologie, Groupe d’étude de la thrombose
de Bretagne occidentale (EA 3878), CHU de Brest
Comme pour toute nouvelle thérapeutique, l’évaluation d’un nouvel examen diagnostique
nécessite de franchir différentes étapes pour optimiser son utilisation ultérieure en pratique
médicale. La première étape doit permettre de répondre à la question de base : « Le dévelop-
pement de ce nouveau test répond-il à une question pertinente ? ». On verra alors les qualités
du test en termes de reproductibilité, de sensibilité et de spécificité. La deuxième étape consiste
à interpréter les qualités du test, notamment les valeurs prédictives positives et négatives, les
probabilités cliniques et les rapports de vraisemblance. En dernière étape, n’oublions pas la
validation des performances du test en situation pragmatique. Le test devient décisionnel...
Mots clés :test diagnostique, valeurs prédictives, rapport de vraisemblance
En médecine, nous aimerions tou-
jours et nous croyons souvent
avoir à notre disposition des examens
complémentaires qui nous permet-
tent, devant un patient suspect d’une
pathologie, de trancher de façon sûre
et définitive sur l’existence ou non de
cette pathologie. Prenons l’exemple
de l’embolie pulmonaire. Ce choix
n’est pas innocent car dans cette affec-
tion, alors qu’un diagnostic de certi-
tude s’impose, il n’existe pas à l’heure
actuelle de test non invasif qui
réponde en « blanc ou noir ». En
d’autres termes, le même test ne peut
pas à la fois éliminer le diagnostic
chez un patient indemne s’il est néga-
tif, et l’affirmer chez un patient s’il est
positif. L’angiographie pulmonaire, à
qui on prêtait ces qualités, reste l’exa-
men de référence (« gold-standard »).
C’est un examen invasif, parfois
impossible, coûteux, qui de plus
aujourd’hui a perdu de ses qualités du
fait de l’inexpérience des opérateurs.
En l’absence d’examen « blanc ou
noir », le praticien s’expose à deux
risques : traiter à tort un malade qui
n’a pas d’embolie pulmonaire (et
l’exposer à un risque hémorragique
inacceptable), ou ne pas traiter un
malade porteur d’une embolie pulmo-
naire et l’exposer au risque de récidive
potentiellement mortelle.
Dans une stratégie de décision thé-
rapeutique, l’utilisation d’un nouvel
examen complémentaire impose qu’il
ait franchi un certain nombre d’éta-
pes, avec la question préalable sui-
vante.
Le développement
de ce nouveau test
répond-il à une question
pertinente ?
En gardant le même exemple de
l’embolie pulmonaire, nous allons
nous intéresser à la valeur diagnosti-
que du dosage des D-dimères. Le
développement de nouveaux exa-
mens diagnostiques pour l’embolie
pulmonaire est justifié par le caractère
invasif du « gold-standard ». Une plus
grande disponibilité, un coût moin-
dre, la possibilité de répéter l’examen,
m
t
Tirésàpart:S.Quenet
mt, vol. 11, n° 5, septembre-octobre 2005
318
d’obtenir un diagnostic alternatif, sont d’autres arguments
possibles. Enfin, l’objectif n’est pas forcément de rempla-
cer le gold-standard mais de limiter le nombre de malades
pour lesquels le recours à celui-ci sera nécessaire. En
d’autres termes, c’est d’ajouter un nouveau « filtre », sûr,
dans la stratégie diagnostique.
Les étapes successives
La mise au point du test et la détermination
de sa reproductibilité
La première étape est la mise au point du test et la
détermination de sa reproductibilité. L’idée initiale, qui
s’est révélée performante, était d’associer la présence de
produits de dégradation de la fibrine (D-dimères) à un
processus thrombotique évolutif. Pour pouvoir être utilisé
comme test diagnostique, il faut être certain des qualités
métrologiques, c’est-à-dire que leur dosage par la techni-
que utilisée est exact, précis et reproductible (avec une
bonne reproductibilité intra- et interobservateur). Plu-
sieurs facteurs peuvent contribuer à la mauvaise reproduc-
tibilité d’un test : la précision de la méthode de dosage,
des facteurs d’environnement mal maîtrisés, les variations
dues à l’observateur (si par exemple l’interprétation du test
repose sur la comparaison d’une couleur à une gamme de
référence, sur l’interprétation d’un scanner ou d’une scin-
tigraphie). La reproductibilité peut être évaluée par le
kappa de concordance, qui mesure l’accord entre deux
observateurs. Il évalue dans quelle mesure deux observa-
teurs différents ont classé de la même façon les patients
chez qui a été réalisé le test. Il n’est applicable que quand
le résultat du test n’est pas exprimé sous la forme d’une
valeur continue.
L’évaluation des qualités intrinsèques du test
La deuxième étape est l’évaluation des qualités intrin-
sèques du test par rapport au test ou à une stratégie dia-
gnostique de référence : la sensibilité et la spécificité
(tableau 1, encadré 1). Cette deuxième étape impose la
réalisation d’une étude dont les contraintes empruntent
beaucoup à la méthodologie de l’essai thérapeutique. La
population sur laquelle sera étudié le test doit être parfai-
tement définie. Dans l’exemple retenu, c’est une popula-
tion suspecte d’embolie pulmonaire dans le contexte où le
test sera utilisé (patients admis aux urgences, ou patients
en postopératoire, ou encore patients hospitalisés en
médecine...). L’évaluation est faite sur un échantillon,
l’expression des résultats est rendue sous la forme d’un
intervalle de confiance, à 95 % par convention. Le nom-
bre de patients nécessaires doit ainsi être calculé pour
obtenir une précision suffisante autour de l’estimation de
la sensibilité et de la spécificité. Le comparateur doit être
l’examen complémentaire de référence (ici l’angiographie
pulmonaire) ou une stratégie diagnostique validée pour la
pathologie étudiée. C’est cet examen ou cette stratégie de
référence qui permettront de classer les patients comme
indemnes ou porteurs de la maladie. L’interprétation du
test doit être faite en aveugle de la conclusion donnée par
le test ou la stratégie de référence, et en aucun cas le
résultat du nouveau test ne doit intervenir dans la décision
diagnostique ou thérapeutique. Ainsi, pour éviter le biais
de préjugé, les observateurs qui interprètent un des tests
ne doivent pas être informés des résultats de l’autre test.
De la comparaison de ces deux tests, le nouveau test
d’une part, le test ou la stratégie de référence d’autre part,
résulte quatre situations possibles (tableau 1). Dans
l’exemple choisi, extrait d’une étude sur la valeur diagnos-
tique des D-dimères dans l’embolie pulmonaire, les
D-dimères étaient comparés à une stratégie diagnostique
validée (probabilité clinique, scintigraphie pulmonaire,
écho-doppler veineux des membres inférieurs, angiogra-
phie) [1]. Le nouvel examen peut être source de deux
types d’erreurs : 1) ne pas identifier un patient porteur
d’une embolie pulmonaire : on parle alors de faux négatifs
Tableau 1.Résultats d’un nouveau test diagnostique par rapport
à l’examen ou à la stratégie de référence : évaluation des D-dimères
dans le diagnostic de l’embolie pulmonaire. D’après Oger et al. [1]
Malades Non-malades
EP+ EP–
D-dimères positifs A B
Vrais positifs (VP) Faux positifs (FP)
146 157
D-dimères négatifs C D
Faux négatifs (FN) Vrais négatifs (VN)
083
A) Patients malades correctement diagnostiqués par le nouvel examen : vrais
positifs. B) Patients non malades avec le nouvel examen positif : faux positifs.
C) Patients malades avec le nouvel examen négatif : faux négatifs. D) Patients
non malades avec le nouvel examen négatif : vrais négatifs.
Encadré 1. Caractéristiques intrinsèques d’un examen
diagnostique
Sensibilité
(Se)
Se =A
A+C=VP
VP +FN
IC95%(Se) =Se ± 1,96 ×
Se ×
(
1Se
)
nb malades
Spécificité
(Sp)
Sp =D
D+B=VN
VN +FP
IC95%(Sp) =Sp ± 1,96 ×
Sp ×
(
1Sp
)
nb non malades
mt, vol. 11, n° 5, septembre-octobre 2005 319
(case C) ; 2) faire conclure à une embolie pulmonaire qui
n’existe pas réellement : on parle alors de faux positifs
(case B).
La sensibilité
Elle est définie comme la proportion de patients
atteints d’embolie pulmonaire ayant un test positif (autre-
ment dit, c’est le pourcentage de vrais positifs). La sensi-
bilité s’évalue donc chez les malades tels qu’identifiés par
la stratégie de référence. Dans notre tableau, c’est le
rapport A / (A+C), soit 100 % (146/146). Cela signifie que
100 % des patients ayant une embolie pulmonaire ont un
test positif. Cela ne veut pas dire qu’un test positif affirme
l’EP mais que le test est positif pour tous les patients ayant
une EP.
La spécificité
Elle est définie comme la proportion de tests négatifs
chez les patients indemnes d’embolie pulmonaire. La
spécificité s’évalue donc chez les non-malades. Dans
notre tableau, c’est le rapport D / (D+B), soit 35 % (83 /
(83+157)) avec un intervalle de confiance à 95 % [29 -
41 %]. Cela signifie que 35 % des patients n’ayant pas
d’embolie pulmonaire ont des D-dimères négatifs. Si la
spécificité d’un test est de 100 %, cela veut dire que tous
les patients indemnes ont un test négatif, mais cela ne veut
pas dire qu’un test positif affirme l’EP.
Choix du seuil de positivité
Quand le résultat du test est donné sous la forme d’une
valeur numérique, il faut choisir un seuil au-delà duquel le
test sera considéré comme positif. Le choix de ce seuil se
fait à l’aide d’une courbe ROC. La courbe ROC (Receiver
Operating Characteristic) exprime, pour chaque seuil pos-
sible, la sensibilité du test en fonction de (1 – spécificité).
Elle permet de choisir le seuil correspondant au meilleur
compromis entre sensibilité et spécificité selon la situation
clinique dans laquelle le test sera utilisé. En effet, sensibi-
lité et spécificité varient en sens inverse. Ainsi, pour tout
test, chaque variation du seuil permettant un gain de
sensibilité se traduit par une perte de spécificité, et inver-
sement. La courbe ROC reflète la capacité du test à
distinguer les malades des non-malades pour toutes les
valeurs possibles du test. Une autre façon d’expliquer la
courbe ROC est qu’elle exprime pour chaque seuil possi-
ble le pourcentage de vrais positifs (la sensibilité) en
fonction du pourcentage de faux positifs (1 moins la
spécificité).
Sensibilité ou spécificité : laquelle privilégier ?
Il faut faire un choix entre une forte sensibilité et une
forte spécificité, et ce choix doit être fait en fonction de
l’objectif du nouvel examen. Si celui-ci est développé
pour dépister une maladie, il est important de ne « rater »
aucun cas de cette maladie parmi les patients testés (mam-
mographie pour le cancer du sein, dosages sanguins de
dépistage de la trisomie 21 chez la femme enceinte), une
forte sensibilité doit être privilégiée. En effet, plus la sen-
sibilité est forte, plus le taux de détection des patients
malades est élevé et plus le taux de faux négatifs est bas. Le
test ici est un premier filtre. Les patients doivent ensuite
être soumis à un deuxième test, celui-ci très spécifique. En
effet, de tels diagnostics ont de lourdes conséquences
(thérapeutiques, pronostiques, psychologiques), et il est
important de ne pas avoir de faux positifs. On choisit donc
un test très spécifique pour permettre, s’il est positif,
d’affirmer de façon certaine le diagnostic (biopsie avec
examen anatomo-pathologique pour le cancer du sein,
amniocentèse).
Quand le nouveau test n’est pas interprétable
Parfois, l’examen diagnostique n’est pas interprétable
(problème technique lors de l’examen...). Lors du calcul
de la sensibilité ou de la spécificité de l’examen, il est
important de tenir compte aussi de ces patients. Généra-
lement, l’examen de référence, lui, identifie si ces patients
présentent l’événement : ils font partie du total des
patients soit présentant (dans le calcul de la sensibilité) soit
ne présentant pas (dans le calcul de la spécificité) l’événe-
ment. Ne pas en tenir compte donnerait une vision trop
optimiste de la performance diagnostique de l’examen
évalué. L’ « hypothèse du pire » est en règle retenue pour
le calcul de la sensibilité et de la spécificité, c’est-à-dire
que tout examen non interprétable sera considéré comme
faux positif si le patient est indemne de la pathologie, et
comme faux négatif s’il en est atteint. Un exemple est
fourni au tableau 2.
Variations de la sensibilité et de la spécificité
En théorie, les caractéristiques intrinsèques du test (sa
capacité à se positiver chez un patient malade, et à rester
négatif chez un patient indemne) ne varient pas avec la
Tableau 2.Effet de la non-prise en compte des examens non conclusifs ou ininterprétables (à gauche) par rapport
à l’analyse conventionnelle adéquate (à droite) dans l’estimation de la sensibilité et de la spécificité d’un test
Patients malades Patients indemnes Patients malades Patients indemnes
Test positif 102 14 102 14
Test négatif 5 50 5 50
Test non conclusif 144*416* 144 416
Total 107 64 251 480
Sensibilité 102/107 = 95 % 102/251 = 41 %
Spécificité 50/64 = 78 % 50/480 = 10 %
* Données ignorées.
Méthodologie
mt, vol. 11, n° 5, septembre-octobre 2005
320
prévalence de la maladie. En revanche, elles varient en
fonction de multiples facteurs (âge, sexe, grossesse, états
morbides...). Ainsi, chez le sujet âgé, les causes d’augmen-
tation des D-dimères en dehors de l’embolie pulmonaire
sont fréquentes, et donc la spécificité de l’examen est plus
basse. Chez la femme enceinte, les D-dimères augmentent
progressivement au cours de la grossesse normale, et donc
là encore leur spécificité diminue.
Comment interpréter le résultat du test ?
Les valeurs prédictives (encadré 2)
Le test est positif, quelle est la probabilité que mon patient
soit malade ? La valeur prédictive positive (VPP)
Pour calculer cette valeur, il faut revenir à notre
tableau à quatre cases (tableau 1). La VPP est tout simple-
ment la proportion de malades parmi les patients ayant un
test positif, soit A / (A + B). Dans notre exemple, parmi les
malades chez qui nous avons suspecté l’embolie pulmo-
naire, le test est positif chez 146 patients effectivement
atteints d’embolie mais il est aussi positif chez 157
patients qui ne présentaient pas d’embolie. La VPP est
donc de 146 / (146 + 157), soit 48 %, IC95 % [43 % ;
54 %]. En d’autres termes, dans notre population, la pro-
babilité d’avoir une embolie pulmonaire quand les
D-dimères sont positifs est de 48 %.
Le test est négatif, quelle est la probabilité que mon patient
n’ait pas la maladie ? La valeur prédictive négative (VPN)
Pour calculer cette valeur, dans notre tableau à quatre
cases, la VPN est la proportion de patients indemnes
parmi ceux ayant un test négatif, soit D / (C+D). Dans notre
exemple, parmi les malades chez qui nous avons suspecté
l’embolie pulmonaire, le test est négatif chez 83 patients
qui n’ont pas d’embolie. Aucun patient atteint d’embolie
n’avait en revanche un test négatif. La VPN est donc de
83 / (83 + 0), soit 100 %. En d’autres termes, dans notre
population, la probabilité d’être indemne d’embolie pul-
monaire quand les D-dimères sont négatifs est de 100 %.
Variation des valeurs prédictives en fonction
de la prévalence : intégration de cette propriété des tests
dans le raisonnement clinique
Si la maladie est rare, la probabilité que la maladie soit
absente, si le test est négatif, est forte. De même, si la
maladie est fréquente, la probabilité que la maladie soit
présente, si le test est positif, est forte. À sensibilité et
spécificité identiques, un même test appliqué dans des
populations où la prévalence de la maladie est différente
aura donc des valeurs prédictives différentes. Dans le
tableau 3, nous avons pris l’exemple d’un test fictif qui
aurait une sensibilité de 95 % et une spécificité de 90 %.
Dans la partie supérieure du tableau, il est appliqué à une
population où la prévalence de la maladie est de 50 %
(100 patients malades et 100 patients indemnes). Sur les
100 patients atteints, 95 ont un test positif (sensibilité
95 %). Sur les 100 patients indemnes, 10 patients ont aussi
un test positif (faux positifs) (spécificité 90 %). La valeur
prédictive positive est donc de 95/105, soit 90 %, et la
valeur prédictive négative de 90/95, soit 95 %. Dans la
partie inférieure du tableau, ce même test est appliqué
dans une population où la prévalence est maintenant de
9 % (100 malades et 1 000 non-malades). Les sensibilité et
spécificité sont les mêmes (95 % et 90 % respectivement).
Par contre, les valeurs prédictives sont très différentes,
Encadré 2. Valeurs prédictives
Valeur
prédictive
positive
(VPP)
VPP =A
A+B=VP
VP +FP
IC95%(VPP) =VPP ± 1,96 ×
VPP ×
(
1VPP)
nb de positifs
Valeur
prédictive
négative
(VPN)
VPN =D
D+C=VN
VN +FN
IC95%(VPN) =VPN ± 1,96 ×
VPN ×
(
1VPN)
nb de négatifs
Tableau 3.Influence de la prévalence sur les valeurs prédictives
Prévalence de la maladie à 50 %
Patients malades Patients indemnes Total
Test positif 95 10 105 VPP = 95/105 = 90 %
Test négatif 5 90 95 VPN = 90/95 = 95 %
Total 100 100 200 Prévalence = 100/200 = 50 %
Sensibilité = 95/100 = 95 % Spécificité = 90/100 = 90 %
Prévalence de la maladie à 9 %
Patients malades Patients indemnes Total
Test positif 95 100 195 VPP = 95/195 = 49 %
Test négatif 5 900 905 VPN = 900/905 = 99 %
Total 100 1000 1100 Prévalence = 100/1100=9%
Sensibilité = 95/100 = 95 % Spécificité = 900/1000 = 90 %
mt, vol. 11, n° 5, septembre-octobre 2005 321
respectivement 95/195 = 49 % pour la VPP, et
900/905 = 99 % pour la VPN.
Interprétation du test en fonction de la probabilité clinique
Face à son patient, le médecin peut utiliser cette pro-
priété des valeurs prédictives. Il est démontré qu’avec
l’histoire et l’examen clinique, le médecin, de façon intui-
tive, estime correctement la probabilité que son patient
soit atteint d’une maladie donnée. C’est la probabilité
clinique ; on l’appelle encore probabilité pré-test. Il existe
une corrélation évidente entre la probabilité clinique éva-
luée par le médecin et la prévalence réelle de la maladie
dans un groupe de patients qui aurait les mêmes caracté-
ristiques. Ainsi, un test positif aura une valeur prédictive
plus importante chez un patient ayant une probabilité
clinique forte que chez un patient ayant une probabilité
clinique faible. À l’inverse, la valeur prédictive négative
sera plus faible chez un patient ayant une forte probabilité
que chez un patient ayant une probabilité clinique faible.
Cette notion doit être parfaitement intégrée dans le raison-
nement diagnostique. Elle est par exemple indispensable à
l’interprétation d’une scintigraphie pulmonaire chez un
patient suspect d’embolie. Une scintigraphie de forte pro-
babilité correspond réellement à une embolie pulmonaire
chez 56 % des patients qui ont une probabilité clinique
faible, et chez 98 % des patients qui ont une probabilité
clinique forte [2]. Cet exemple illustre la nécessité d’inté-
grer la probabilité clinique dans l’interprétation du résultat
d’un examen complémentaire et donc la nécessité de
poursuivre ou non, en fonction de la probabilité clinique,
les examens devant le même résultat – positif ou négatif –
de l’examen réalisé. Le problème majeur ici est l’évalua-
tion de la probabilité clinique, qui devrait être reproduc-
tible d’un examinateur à l’autre. La mise au point de scores
de prédiction clinique peut aider à l’évaluation de la
probabilité clinique de façon plus fiable, y compris par les
médecins juniors.
Les rapports de vraisemblance (likelihood ratios)
(encadré 3)
Pour simplifier le calcul de la valeur prédictive positive
dans une population où la prévalence est connue ou pour
un groupe de probabilité clinique donné (le niveau de
probabilité clinique correspondant à la prévalence de la
maladie dans ce groupe), chaque test peut être efficace-
ment résumé par le rapport de vraisemblance qui combine
l’information contenue dans les indices de sensibilité et de
spécificité. Il correspond au rapport de la fréquence d’un
résultat donné chez les patients présentant l’événement
sur la fréquence de ce même résultat chez les patients ne
présentant pas l’événement. Simplement, le rapport de
vraisemblance indique combien de fois supplémentaires
(ou en moins) les patients avec l’événement auront un
résultat donné comparés aux patients ne présentant pas
l’événement.
Ainsi, dans le cas d’un examen avec un résultat dicho-
tomique, positif ou négatif, on calcule deux rapports de
vraisemblance :
Un rapport de vraisemblance associé à un test posi-
tif : le rapport de vraisemblance positif ou RV+.Ilse
calcule en faisant le rapport de la sensibilité sur (1 –
Spécificité). Il indique dans quelle mesure un test positif
augmente la probabilité qu’un patient soit malade. Plus le
rapport de vraisemblance positif est élevé, plus la proba-
bilité que le patient soit atteint de la maladie augmente si
le test est positif. Généralement, un RV+ >10 est considéré
comme fiable. Une méta-analyse récente dans ce
domaine montre par exemple que le RV+ du scanner
spiralé est de 24,1 dans le diagnostic de l’EP alors qu’il est
de seulement 5,0 pour l’échocardiographie [3].
Un rapport de vraisemblance associé à un test néga-
tif : le rapport de vraisemblance négatif ou RV. Il se calcule
en faisant le rapport de (1 – Sensibilité) sur la spécificité. Il
indique dans quelle mesure un résultat négatif diminue la
probabilité qu’un patient soit indemne. Plus le rapport de
vraisemblance négatif est élevé, plus la probabilité qu’un
patient soit atteint de la maladie est diminuée si le test est
négatif. Généralement, un RV– < 0,1 indique un résultat
négatif fiable. Par exemple, dans la méta-analyse précitée,
le RV– est de 0,05 en cas de scintigraphie négative alors
qu’il est de 0,67 en cas d’écho-Doppler veineux négatif des
membres inférieurs [3].
Le rapport de vraisemblance n’est pas affecté par la
prévalence de la maladie dans la population considérée,
puisqu’il ne dépend que de la sensibilité et de la spécifi-
cité. Le rapport de vraisemblance aide à extrapoler les
performances d’un test à un groupe de patients différents
de la population dans laquelle il a été étudié. Le théorème
de Bayes permet de calculer la probabilité post-test, c’est-
à-dire la probabilité d’avoir la maladie en fonction du
résultat de l’examen diagnostique et de la probabilité
pré-test de maladie. Pour ce faire, il faut en fait se servir de
l’odds pré-test et du rapport de vraisemblance pour obte-
nir un odds post-test, l’odds étant tout simplement la cote
(probabilité divisée par 1 – probabilité) (encadré 4). Pour
éviter ces calculs, il est possible de se servir du nomo-
gramme de Fagan (figure 1) qui utilise le même calcul par
le théorème de Bayes et qui permet d’obtenir directement
sur une échelle visuelle la probabilité post-test à partir de
la probabilité pré-test et le rapport de vraisemblance. Par
Encadré 3. Rapports de vraisemblance
Rapport de
vraisemblance positif
(RV+)
RV+ =Sensibilité
1Spécificité
Rapport de
vraisemblance négatif
(RV-)
RV=1Sensibilité
Spécificité
Méthodologie
mt, vol. 11, n° 5, septembre-octobre 2005
322
1 / 6 100%

evaluation des examens diagnostiques

Telechargé par acaro1601
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !