Reproductibilité d’un examen : généralités C

publicité
d o s s i e r
Reproductibilité
d’un examen : généralités
n P. Glémain*
“La nature est écrite dans
le grand livre de l'univers,
qui se tient toujours ouvert
devant nos yeux (...). Il est
écrit dans la langue
mathématique, et les
caractères sont des figures
géométriques. Si on ne sait
pas déchiffrer cet alphabet,
il est humainement
impossible de comprendre
quoi que ce soit à
l'univers.”
Galilée
“Il existe trois sortes de
mensonges : les mensonges,
les sacrés mensonges, et les
statistiques."
Disraeli
* Nantes,
e-mail : [email protected]
6
CONDITIONS DE REPRODUCTIBILITÉ
Un examen est reproductible si les résultats varient
peu au cours de la répétition. D’une façon générale,
un examen comporte une méthode de mesure instrumentale (physique ou chimique), une procédure
d’examen plus ou moins complexe, un individu sur
lequel la mesure est effectuée et un évaluateur. En
biologie, en médecine, en biostatistique, le terme
“reproductibilité” associe la notion de précision
d’une mesure à celle de variabilité intra-individuelle. La première n’est pas seulement d’origine
instrumentale, mais correspond à l’ensemble de la
procédure de mesure. C’est la précision, la fidélité
d’une balance, qui montre le même résultat lorsqu’on place le même poids plusieurs fois sur le
même plateau. La seconde est liée à la nature de ce
qui est évalué lorsque des variations sont possibles
entre les répétitions. En biologie, il faut donc tenir
compte des variations spontanées observées chez
les individus au cours du temps (variations intraindividuelles).
JUSTESSE ET REPRODUCTIBILITÉ
Un examen peut être reproductible mais faux ; une
mesure est dite exacte si elle indique la vraie valeur
de la grandeur mesurée. S’il s’agit d’une simple
pesée, l’exactitude de la balance est vérifiée à l’aide
d’un poids étalon. D’une façon générale, pour vérifier la justesse d’une méthode, il faut rapporter les
résultats à une méthode de référence connue et
déjà évaluée ou à la connaissance de la vraie valeur.
Il faut aussi que toute la gamme des mesures possibles soit étalonnée, sous peine d’avoir des
mesures fausses pour les valeurs extrêmes, a priori
les plus intéressantes en pathologie.
La confusion entre justesse et reproductibilité peut
exister dans certains travaux. C’est le cas, par
exemple, si l’on effectue successivement plusieurs
mesures de pression de clôture chez les mêmes
patientes, en utilisant différents modèles de
sondes. On étudie alors la reproductibilité entre
diverses méthodes (ou sondes). Mais cela pourrait
être aussi une tentative d’étude de la justesse.
Quelle méthode (ou sonde) donne la pression
sphinctérienne la plus juste ? Il va de soi que, la
vraie valeur de la pression sphinctérienne n’étant
pas connue, un tel objectif est illusoire. La méthode
statistique appropriée ne serait pas celle des corrélations mais celle de Bland et Altman (1, 2), dans le
cadre d’un essai clinique du type de la loi Huriet (en
raison de la répétition des examens, inutile pour les
patients). La reproductibilité de la mesure de la
pression de clôture, avec le même modèle de
sonde, serait étudiée en évaluant plusieurs fois de
suite la pression chez les mêmes patientes.
INTÉRÊT DE LA REPRODUCTIBILITÉ
La reproductibilité d’un examen est d’un intérêt
majeur. Il peut s’agir de mesures de paramètres
physiques, d’évaluations de paramètres quantitatifs ou semi-quantitatifs, de scores de symptômes
ou, enfin, d’examens cliniques effectués à plusieurs
reprises sur le même patient.
Mise en évidence
d’une évolution sous traitement
Si la reproductibilité est bonne, les variations mises
en évidence par la répétition de l’examen pourront
être rapportées à l’effet thérapeutique ou, du
moins, à une évolution dans le temps. Cette évolution pourra être interprétée et testée statistiquement. Si la méthode n’est pas reproductible, les
fluctuations de la mesure risquent de masquer les
variations liées à l’effet thérapeutique.
Accord de plusieurs examinateurs
sur le signe étudié
Cet accord est important pour la définition d’un
patient, son inclusion éventuelle dans un essai thérapeutique et son évaluation définitive.
Défaut de reproductibilité et défaut
d’exactitude
Un défaut de reproductibilité est plus grave qu’un
défaut d’exactitude. Si une mesure est fausse mais
reproductible et si l’erreur, l’écart à la réalité, est
toujours la même sur l’ensemble de la gamme de
mesure, il suffit d’effectuer une correction pour
Correspondances en pelvi-périnéologie - n° 3, vol. III - juillet/août/septembre 2003
Reproductibilité des explorations en pelvi-périnéologie
RÉFÉRENCES BIBLIOGRAPHIQUES
1.
Altman DG, Bland JM. Measurement in medecine : the analysis of
method comparison studies. The Statistician 1983 ; 32 : 307-17.
2. Bland JM, Altman DG. Statistical
methods for assessing agreement between two methods of clinical measurment. The Lancet 1986 ; 307-10.
3. Bland JM, Altman DG. Regression
towards the mean. Br Med J 1994 ;
308 : 1499.
4. Bland JM, Altman DG. Some
examples of regression towards the
mean. Br Med J 1994 ; 309 : 780.
5. Cam K, Senel F, Akman Y, Erol A.
The efficacy of an abbreviated model of
international prostate symptom score
in evaluating benign prostatic hyperplasia. Br J Urol 2003 ; 91 : 186-9.
6.
Galton F. Regression towards
mediocrity in hereditary stature. J
Anthropological Institute 1886 ; 15 :
246-63.
7. Grise P, Sibert L, Pfister C.
Dysurie et adénome de la prostate :
renseignements fournis par la débitmétrie. Progrès en Urol 1999 ; 9 : 146-50.
8. Lenormand L, Glémain P, Cordonnier JP, Brunel P, Karam G, Buzelin
JM. Exactitude des mesures obtenues
par une nouvelle sonde rectale à ballonnet à air. Prog Urol 2001 ; 11 : 12731.
9. Papox L. Qualité des critères de
jugements. In : Essais cliniques.
Théorie, pratique et critique. G. Bouvenot, M. Vray, Flammarion Médecine-Sciences, Paris, 1994, 364 pages,
Chapitre III, pp. 25-38.
10. Prescott RJ, Garraway WM.
Regression to the mean occurs in
measuring peak urinary flow. Br J
Urol 1995 ; 76 : 611-3.
11. Rambeaud JJ, Terrier N, Rozet F,
Mongiat-Artus P, Muszinski R, Teillac
P. Validation d’une échelle visuelle
analogique (EVA) dans l’évaluation
clinique de la sévérité de l’HBP en
médecine générale. Premiers résultats de la phase transversale de
l’étude EVAMIX. Abstract N° 035 au
96e congrès de l’AFU, Paris 2002. Prog
Urol 2002 ; 12 (suppl. 1) : 10A.
12. Sech SM et al. The so-called “placebo effect” in benign prostatic hyperplasia treatment trials represents
partially conditional regression to
the mean induced by censoring. Urology 1998 ; 51 : 242-50.
rendre la méthode utilisable. À l’inverse, une
méthode non reproductible, non précise, est difficilement utilisable en raison de l’importance des
variations et de leur caractère aléatoire.
REPRODUCTIBILITÉ D’UN PARAMÈTRE
QUANTITATIF : COEFFICIENT DE VARIATION
ET ERREUR RELATIVE (9)
Reproductibilité de la méthode
instrumentale
Lorsqu’il s’agit de variables biologiques (PSA,
glycémie, hémoglobinémie, créatininémie...), la
reproductibilité peut être testée en effectuant plusieurs mesures des mêmes prélèvements d’une
série de patients. En pratique, chaque tube de
sang est séparé en deux ou plusieurs petits tubes
(alicots), qui seront ensuite analysés séparément
selon une procédure statistique adaptée (indépendance des mesures, méconnaissance des
valeurs précédentes, randomisation...). La variabilité entre les répétitions aboutira au calcul d’un
coefficient de variation (CV). Il faut s’assurer que
l’ensemble de la gamme des valeurs possibles a
été évalué. En effet, la variabilité de la mesure
peut ne pas être la même pour tous les niveaux de
mesure. Ce phénomène peut poser un problème
lorsque la variabilité est plus élevée pour les
mesures extrêmes, celles qui nous intéressent en
pathologie. Si l’erreur de mesure est indépendante du niveau de la variable, le terme d’“erreur
relative” (ER) peut être utilisé.
La valeur du CV ou de l’ER doit rester inférieure à
10 % ou, mieux, à 5 %. En pratique, il vaut mieux
travailler sur les moyennes de 2 ou 3 évaluations
de la même variable biologique sur le même sujet
plutôt que sur une seule.
Lorsqu’il s’agit de paramètres physiques, telles
la débitmétrie, la pression (8), la mesure du
volume de la prostate ou d’un résidu en échographie, la reproductibilité de la méthode instrumentale est plus difficile à tester : il faut utiliser des
dispositifs expérimentaux (8) permettant de valider les procédures de mesure. Dans tous les cas,
il est au minimum possible d’effectuer un calcul
d’incertitude, comme en physique. Si la précision
d’une mesure de longueur en échographie est de
l’ordre de 5 % (incluant le positionnement du curseur), l’incertitude mathématique sur le volume
calculé du résidu ou du volume (D1 x D2 x D3 x
0,53, en cm pour obtenir le volume en ml) est de
l’ordre de 15 %.
Correspondances en pelvi-périnéologie - n° 3, vol. III - juillet/août/septembre 2003
Reproductibilité de la procédure
de mesure
La reproductibilité de la procédure de mesure doit
aussi être prise en compte car elle est source de
variations lors des répétitions. Il peut s’agir de
variations du “zéro” de référence lors des mesures
de pression ou de variations du positionnement
de l’échographe lors de la répétition des mesures
par le même examinateur ou par un autre. Il est
donc vraisemblable que la précision des mesures
de volumes soit de l’ordre de 20 % ou plus.
Les variations intra-individuelles
Elles sont souvent les plus importantes en biologie et en médecine. Il s’agit des fluctuations, des
variations d’un paramètre biologique, d’une performance, autour de la valeur moyenne d’un individu.
Reprenons l’exemple de la débitmétrie (7).
Admettons que la précision de la méthode physique soit de l’ordre de 1 %. Si on effectue deux ou
trois débitmétries successives chez le même
patient, on sait que les variations seront plus
importantes. Celles-ci ont plusieurs origines : effet
de l’habitude, modifications psychologiques,
variation du remplissage vésical, en volume ou en
vitesse... Si le délai entre deux mesures est plus
important, des variations spontanées, saisonnières ou non, peuvent se faire sentir. Le phénomène de régression vers la moyenne peut intervenir (3, 4, 6, 10, 12) en améliorant une performance
faible et en diminuant une performance élevée.
Enfin, signalons qu’il peut y avoir des difficultés à
identifier le débit maximum parmi les artéfacts ou
les pics anormaux d’une courbe de débitmétrie.
Finalement, si on dispose de plusieurs mesures
du débit maximum, laquelle choisir pour inclure
un patient ou servir de référence dans un essai clinique ? Le problème n’est pas réglé, sauf à reléguer le débit en critère secondaire. Il ne faut sûrement pas choisir le meilleur ou le moins bon, en
raison du risque de régression vers la moyenne.
La première solution gênerait la démonstration de
l’amélioration, la seconde la favoriserait. En théorie, et par analogie avec les critères biologiques, la
solution juste au plan biostatistique consisterait à
établir la moyenne de deux évaluations du débit
maximum obtenues dans des conditions proches
(contexte, volumes, horaires...). Une autre solution serait de ne prendre qu’un seul débit, pourvu
qu’il soit obtenu dans de bonnes conditions, sans
se poser de questions supplémentaires.
D’une façon générale, une précision élevée sera
7
d o s s i e r
demandée à un examen chargé de montrer une
variation (effet thérapeutique, par exemple) pour
un critère dont la variabilité entre les individus est
faible. Lorsque la variabilité intra- ou interindividuelle est élevée, le problème de la précision instrumentale est relégué au second plan. C’est le cas
de la débitmétrie et, vraisemblablement, des
chaînes de mesures de pression en urodynamique.
REPRODUCTIBILITÉ D’UN PARAMÈTRE
QUALITATIF OU SEMI-QUANTITATIF :
LA CONCORDANCE
Le problème peut être posé ainsi : quelle est la
concordance entre deux médecins devant décider,
selon un ensemble de critères, s’il y a ou non un
signe, une pathologie, dans un groupe de
patients ? On peut alors se demander si telle ou
telle classification des prolapsus, des incontinences, des dyssynergies est reproductible. Un
simple test, comme la manœuvre de Bonney, peut
ainsi être évalué.
On s’intéresse alors à la proportion de réponses
concordantes entre les deux médecins. Mais attention, cela n’est pas suffisant, car une partie des
concordances est le simple fait du hasard ! Il faut en
tenir compte dans le calcul définitif de la concordance. Parmi les indices proposés, celui qui est le
plus souvent utilisé est le test Kappa de Cohen (voir
tableau).
CAS PARTICULIER DE LA REPRODUCTIBILITÉ DES
SCORES DE SYMPTÔMES
Degré d’accord
Très bon
Bon
Moyen
Médiocre
Mauvais
Très mauvais (nul)
8
Valeur de Kappa
≥ 0,80
0,60 – 0,80
0,40 – 0,60
0,20 – 0,60
≤ 20
0
Un score de symptômes comprend tout d’abord
une transformation de chacun des symptômes en
une échelle semi-quantitative, puis une addition de
l’ensemble des valeurs ainsi obtenues. C’est une
globalisation des symptômes. La validation d’un
score passe par plusieurs étapes (linguistique, biométrique...). Mais, même ainsi validé, le score pose
des problèmes intrinsèques de reproductibilité.
Si un score est utilisé comme critère principal de
jugement, sa variation au cours du traitement est la
base de l’évaluation. Par exemple, pour un essai clinique dans le domaine de l’HBP, des patients sont
inclus avec un score fonctionnel, l’IPSS, d’au moins
13. On mesure la variation de ce score au terme
d’une année de traitement. Admettons que l’on
puisse connaître la reproductibilité de l’IPSS
autoadministré ou présenté par le médecin. Qui
nous garantit que, derrière la même valeur de
l’IPSS, il y a la même répartition des symptômes ? Il
faut donc, devant un score total stable, vérifier ce
qui se passe derrière, et finalement revenir au
symptôme puisque l’amélioration de l’un a pu compenser, mathématiquement, l’aggravation de
l’autre. De plus, l’évolution du score total ne permet
pas de comparer les patients entre eux puisqu’elle
peut être le fait de symptômes différents.
Et cette situation risque encore de s’aggraver, avec
la tendance actuelle qui vise à réduire le nombre
d’items pris en compte dans un score (5) ou à le
remplacer par une seule question et une échelle
visuelle analogique (11). Cette façon de procéder ne
permettra même plus de remonter au symptôme.
QUESTIONS PRÉALABLES
À LA REPRODUCTIBILITÉ D’UN EXAMEN
Le passé pèse encore lourdement sur nos conceptions. Pour Galilée, il fallait “mesurer ce qui peut
être mesuré et rendre mesurable ce qui ne peut
l’être”. Depuis cet aphorisme, la science (occidentale) n’accorde sa confiance qu’à des données
quantitatives réputées objectives. Et si, de plus, la
mesure est reproductible, on atteint le merveilleux.
Pourtant, le naturaliste Buffon, pour ne citer que lui,
à la fin du XVIIIe siècle, remit en cause cet idéal
mathématique. Il soutint en effet que les problèmes
posés par l’histoire naturelle étaient trop complexes pour être résolus uniquement par les mathématiques ; l’observation et la comparaison étaient
des méthodes appropriées à la biologie. On peut
ajouter que la sémiologie est une méthode adaptée
à la médecine. Pourtant, cette hégémonie du chiffre
persiste encore dans de nombreux domaines, dont
les sciences humaines et la médecine. Cela relève
parfois plus du scientisme que d’une démarche
scientifique. Ainsi, à côté de vrais paramètres quantitatifs comme le poids, la taille, la glycémie ou le
débit maximum, on a vu apparaître des échelles
visuelles ou verbales, des scores mélangeant différents symptômes (comme un panier qui contiendrait des choux, des carottes, des navets...), des
classifications en stades, des échelles de qualité de
vie... Ces artifices ont permis à des critères qualitatifs de mauvaise réputation d’accéder à la notoriété
du quantitatif, d’être plus faciles à manipuler par les
cliniciens et à travailler par les statisticiens (labourage de données). Ainsi, tout le monde trouve son
compte dans le “tout quantitatif”. Mais, ces scores
s’éloignent de la réalité clinique. Ce sont de mauvais critères de substitution. Leur reproductibilité
n’est même plus un problème. Il est préférable de
travailler sur les symptômes.
n
Correspondances en pelvi-périnéologie - n° 3, vol. III - juillet/août/septembre 2003
Téléchargement