RECIST.1.1 est-il plus reproductible que RECIST.1.0 dans l’évaluation après traitement du cancer rénal métastatique R Thiam1,3, L S Fournier1,2, N Faye1,4, L Trinquart3, O Clément1,2, C A Cuenod1,2, N Siauve1,2 , A Hernigou2, C Grataloup2, G Frija1,2 1Université 2AP-HP, 3Unité Paris Descartes, LRI INSERM 970; Radiologie, HEGP Paris ; d’Epidémiologie et de Recherche Clinique, INSERM CIE4 HEGP Paris ; 4AP-HP, Radiologie, Hôpital Louis Mourier Colombes; JFR 2009 Rokhaya THIAM Introduction En oncologie, l’efficacité thérapeutique est évaluée en mesurant la réponse tumorale du patient basée sur les modifications du nombre et de la taille des lésions. Pour mesurer cette réponse, les critères les plus utilisés sont les critères RECIST (Response Evaluation Criteria In Solid Tumors) (Therasse P et al, J Natl Cancer Inst 2000; Duffaud F et al, Bull Cancer 2000) JFR 2009 Ces critères ont été initialement développés dans le cadre des essais cliniques MAIS ils sont de plus en plus utilisés en pratique clinique Contexte(1/3) Pour déterminer la réponse du patient, les critères RECIST se basent sur : la mesure de la somme des plus grands diamètres (SPGD) des lésions définies sur l’examen initial (avant traitement). des mesures radiologiques comparées réalisées sur ces lésions. En pratique clinique, les examens radiologiques sont interprétés par des radiologues différents au cours du suivi du patient Î d’où la nécessité de prendre en compte la variabilité intra et inter radiologues JFR 2009 Contexte (2/3) Dans la littérature, plusieurs études ont été réalisées sur la reproductibilité de la méthode de mesure unidimensionnelle (RECIST) vs. bidimensionnelle (OMS)(Watanabe H et al, 2003; Mazumdar M et al, 2004; Schwartz LH et al, 2003) la méthode de mesure unidimensionnelle selon RECIST vs. le volume de la tumeur (Marten K et al,2007; Prasad SR et al, 2002; Marten K et al, 2006) la technique de mesure avec caliper électronique vs. Manuel Monsky WL et al, 2004; Miller FH et al, 2007 la catégorie de réponse (réponse, stabilité ou progression de la maladie) Wormanns D et al, 2000 la mesure selon les critères RECIST (Watanabe H., 2006; Zacharia TT et al, 2006) L’étude de Kenneth D. Hopper et al, 1996 avait montré une certaine discordance entre les investigateurs avec une variabilité inter observateurs de l’ordre de 3% à 15% JFR 2009 Contexte (3/3) Toutes ces études n’ont pas permis de quantifier de manière explicite la variabilité intra et inter radiologues sur les mesures des lésions Î d’où la nécessité d’ évaluer la variabilité intra- et inter-investigateurs des mesures de ces lésions afin de déterminer la fiabilité de ces critères sur lesquels repose la décision thérapeutique. JFR 2009 Objectifs Objectif principal : analyser la reproductibilité intra et interinvestigateurs de l’évaluation de la réponse tumorale globale selon les critères RECIST, comparant la version initiale 1.0 (Therasse et al, 2000) avec la nouvelle version 1.1 (Eisenhauer et al, 2009) Selon RECIST 1.0 & 1.1, analyser la reproductibilité intra et inter-investigateurs de la mesure de : chaque lésion cible et en fonction de la taille de la lésion la lésion selon sa localisation (organe) JFR 2009 Matériels et Méthodes JFR 2009 Interprétation de l’examen avant traitement (Baseline) selon RECIST 1.0 et 1.1 Le radiologue fait la liste exhaustive de toutes les métastases du patient Les métastases identifiées sont classées en: Lésions mesurables : toutes les métastases de diamètre ≥ 10 mm (pour 1.1, les ganglions sont mesurés selon leur petit axe) Lésions non mesurables : toutes les métastases de diamètre < 10 mm ou dont la mesure n’est pas fiable Les lésions mesurables sont classées en : Lésions cibles : maximum 10 lésions par patient et maximum 5 lésions par organe Î la Somme des Plus Grands Diamètres (SPGD) est calculée puis reportée comme référence pour le suivi du patient Lésions non cibles : Lésions non mesurables et Lésions mesurables non sélectionnées comme cibles JFR 2009 Evaluation de la réponse selon RECIST Les lésions cibles sont classées en Réponse complète (CR: Complete Response) : disparition de toutes les lésions cibles Réponse partielle (PR: Partial Response): diminution d’au moins 30% des lésions cibles par rapport à l’examen initial Progression (PD: Progressive Disease): ↑ de +20% par rapport à la plus petite SPGD depuis le début du traitement Stable (SD: Stable Disease) : ni réponses complète ou partielle ni progression Classification des lésions non cibles en réponse complète, stable (pas de modification) ou progression (augmentation de leur taille) Identification d’apparition ou d’absence de Nouvelles lésions en Oui/Non Î Combinaison des 3 catégories de réponse ci-dessus donne la Réponse globale en Réponse/Stable/Progression JFR 2009 Différences entre les versions 1.0 et 1.1 de RECIST (cf tableau suivant) Deux différences principales: Le nombre de lésions cibles par patient et par organe la méthode de mesure des ganglions selon leur petit axe un ganglion de petit axe ≥ 15 mm peut être pris comme lésion cible un ganglion < 10 mm est considéré comme en réponse complète JFR 2009 RECIST 1.0 (2000) RECIST 1.1 (2009) 10/patient 5/organe 5/patient 2/organe Grand axe ≥ 10 mm Petit axe ≥ 15 mm SPGD = 0 mm SPGD => ganglions < 10 mm Progression Lésions cibles ΔSPGD ≥ +20% ΔSPGD ≥ +20% et ≥ 5 mm Progression Lésions non cibles Non-équivoque Exemples, (si mesuré > 75%) Modifications apportées par RECIST 1.1 Lésions cibles Ganglions Réponse complète Lésions cibles Nouvelles lésions JFR 2009 Utilisation de la TEP possible Population Etude réalisée sur une population de 100 patients atteints de métastases de cancer du rein suivis à l’HEGP de mars 2004 à juin 2008. Chaque patient a une ou plusieurs type de réponses définies selon RECIST au cours de son suivi par scanner Selon un calcul d’effectifs, nous avions besoin de 76 patients pour garantir à notre étude une puissance statistique de 80% Les 76 patients ont été tirés au sort sur notre base de 100 patients. Puis par tirage au sort, ils ont été classés en 19 patients répondeurs, 19 patients en progression et 38 patients stables selon leur réponse définie lors de leur suivi clinique (selon RECIST 1.0). JFR 2009 Matériels Pour chaque patient, 2 examens ont été identifiés (selon la classe de réponse du patient) : Répondeurs: baseline et 1 examen post-traitement; Stables et en progression: nadir et 1 examen Le délai moyen entre deux examens était de 2 mois (1 à 13 mois) Les examens ont été anonymisés Sur chaque examen, les lésions cibles étaient fléchées par un opérateur indépendant (afin de s’assurer que les deux investigateurs mesuraient les mêmes lésions) JFR 2009 Méthodologie d’interprétation radiologique Le radiologue « référent » validait toutes les lésions cibles de chaque examen. 26 sur 698 lésions cibles soit 4% ont été exclues par rapport à la première interprétation des examens (lésions cibles inadaptés ou non visibles sur les deux examens de suivi choisis pour le patient). Les examens ont été interprétés par 2 radiologues indépendants d’expérience comparable pour l’analyse de la concordance inter-investigateurs et intra-investigateur Résultats définitifs présentés après consensus entre les 2 radiologues sous forme de catégories de réponse ainsi que de mesures de chaque lésion cible et de localisation de ces lésions JFR 2009 Méthodologie de mesures selon RECIST 1.0 & 1.1 Lésions cibles : 10 / patient 5 / organe Mesures des ganglions: grand axe et petit axe RECIST 1.0 Grand axe ganglion SPGD RECIST 1.1 5 + grosses lésions / patient 2 / organe Petit axe ganglion SPGD Evaluation des lésions non cibles et nouvelles lésions est idem pour les 2 méthodes JFR 2009 (RECIST1.0 &1.1). Méthodes statistiques La concordance sur les catégories de réponses a été analysée grâce au coefficient pondéré de Kappa (k) La reproductibilité intra et inter sur les mesures a été étudiée grâce aux méthodes des graphiques de Bland & Altman Pour l’analyse statistique, la 2ème mesure de l’investigateur principal était considérée comme la mesure de référence JFR 2009 Caractéristiques de la population 76 Patients RECIST 1.0 Age (mean ± SD) RECIST 1.1 62 ± 11 Homme (n) 59 (78%) Lésions cibles (n) 1 cible 10 (13%) 16 (21%) 2-3 cibles 23 (30%) 40 (53%) ≥ 4 cibles 43 (57%) 20 (26%) JFR 2009 Résultats JFR 2009 Catégories de réponses de la lecture de référence n(%) Lésions cibles Réponse Stable Progression RECIST 1.0 RECIST 1.1 14 52 10 16 54 6 Lésions non cibles Stable Progression Absence 62 5 9 Nouvelles lésions Oui Non 7 69 Réponse Globale Réponse Stable Progression JFR 2009 14 47 15 16 46 14 Concordance intra et inter radiologues de la réponse selon RECIST 1.0 et 1.1 Kappa RECIST 1.0 Intra Inter RECIST 1.1 Intra Inter Lésions cibles 0.82 0.90 0.82 0.78 Lésions non cibles 0.90 0.95 0.90 0.95 Nouvelles lésions 0.58 0.64 0.58 0.64 Réponse tumorale globale 0.73 0.76 0.80 0.73 JFR 2009 Concordance intra et inter radiologues de la réponse selon RECIST 1.0 et 1.1 Kappa RECIST 1.0 Intra Inter RECIST 1.1 Intra Inter Lésions cibles 0.82 0.90 0.82 0.78 Lésions non cibles 0.90 0.95 0.90 0.95 Selon les seuils du coefficient kappa définis dans la littérature, la concordance Nouvelles 0.64 pour 0.58 0.64 est excellente en intra0.58 et inter-investigateurs lésions Les lésions cibles (k>0.8) avec 5 à 11% de patients discordants selon la Réponse réponse tumorale 0.73 0.76 0.80 0.73 Les lésions non cibles (k>0.9) avec 2 à 5% de patients discordants selon globale la réponse JFR 2009 Concordance intra et inter radiologues de la réponse selon RECIST 1.0 et 1.1 Kappa RECIST 1.0 Intra Inter RECIST 1.1 Intra Inter Lésions cibles est modérée 0.82 0.82 sur l’évaluation 0.78 La concordance en intra0.90 et inter-investigateurs de l’apparition ou de l’absence de nouvelle(s) lésion(s) (k~0.6) avec 5 à 9% Lésions non discordants des patients 0.90 0.95 0.90 0.95 cibles Nouvelles lésions 0.58 0.64 0.58 0.64 Réponse tumorale globale 0.73 0.76 0.80 0.73 JFR 2009 Concordance intra et inter radiologues de la réponse selon RECIST 1.0 et 1.1 Kappa RECIST 1.0 Intra Inter RECIST 1.1 Intra Inter Une bonne concordance intra et inter-investigateurs sur0.78 Lésions cibles 0.82est obtenue en 0.90 0.82 l’évaluation de la réponse globale. Ce résultat est dégradé par la mauvaise concordance pour les nouvelles lésions donnant au total 10 à 15 % de patients discordants. Lésions non 0.90 0.95 0.90 0.95 cibles Nouvelles lésions 0.58 0.64 0.58 0.64 Réponse tumorale globale 0.73 0.76 0.80 0.73 JFR 2009 Concordance intra et de inter radiologues de la Pour toutes les catégories réponse, la concordance reste comparable pour RECIST et 1.1 réponse selon RECIST 1.01.0 et 1.1 Kappa RECIST 1.0 Intra Inter RECIST 1.1 Intra Inter Lésions cibles 0.82 0.90 0.82 0.78 Lésions non cibles 0.90 0.95 0.90 0.95 Nouvelles lésions 0.58 0.64 0.58 0.64 Réponse tumorale globale 0.73 0.76 0.80 0.73 JFR 2009 Causes discordances réponses Pour les lésions cibles, nous avons identifié 2 types de discordance : Pour les lésions non cibles, il y a ambiguïté sur la définition de la « progression non équivoque » Les discordances liées au « hasard statistique » 3 patients sur 8 (par exemple un radiologue obtient une réponse à +19% alors que le 2ème radiologue obtient +21%) Les Vraies discordances (détaillées dans la partie des résultats par lésion) Le radiologue compte l’apparition de nouvelle(s) lésion(s) comme progression des lésions non cibles. Cette erreur est fréquente. 2 patients progressent sur une seule lésion non cible, mais de manière franche Î dans ce cas le problème de comment définir la réponse se pose: progression? Nouvelles lésions Performance du radiologue Î la détection des nouvelles lésions dépend de la vigilance du radiologue JFR 2009 Exemple: confusion lésions non cibles Apparition de nouvelles lésions pulmonaires interprétée comme progression non équivoque de lésions non cibles pulmonaires par un des radiologues Lésions non cibles Examen de référence Nouvelles lésions JFR 2009 Examen de suivi Exemple: erreur lésions non cibles Progression d’une seule lésion non cible, mais de manière franche (dans RECIST 1.1, il est spécifié que la progression d’une seule lésion ne suffit pas pour être considérée comme une progression NON EQUIVOQUE) Examen de référence JFR 2009 Examen de suivi Reproductibilité des différentes mesures des lésions cibles réalisées par les radiologues Analyse par: Lésions cibles Taille de la lésion cible Lésions cibles selon les organes JFR 2009 Analyse descriptive Localisation des lésions cibles [n(%)] RECIST 1.0 n = 336 RECIST 1.1 n = 201 Ganglion 138 (41) 68 (34) Poumon 104 (31) 63 (31) Foie 20 (6) 11 (6) Surrénale 19 (6) 18 (9) Loge de Néphrectomie 15 (5) 12 (6) Péritoine 12 (4) 10 (5) Autres 40 (12) 19 (9) 44 patients ayant des lésions ganglionnaires selon RECIST1.0 JFR 2009 42 patients ayant des lésions ganglionnaires selon RECIST1.1 Reproductibilité des mesures des lésions cibles JFR 2009 Reproductibilité sur la mesure d’une lésion Il n’y a pas de différence systématique entre les mesures des 2 radiologues MAIS la différence de mesure atteignait +/- 9 à 13 mm pour des lésions mesurant 26 mm en médiane Ex: pour la reproductibilité intra-investigateur RECIST 1.0 19 mesures des lésions cibles ont des différences > 10 mm (soit 3% des mesures) chez 14 patients (soit 18% des patients) Î erreur de classification de la SPGD chez 7 patients (2 par « hasard statistique ») JFR 2009 Reproductibilité sur la mesure inter-radiologues des lésions cibles selon RECIST 1.0 D’après les graphiques de Bland et Altman: 1) la différence de mesure peut atteindre 12 mm sur des lésions mesurant 26 mm de plus grand diamètre 2) une différence systématique moyenne faible à -0.78 mm. Différence (M1- M2) de e la l taille de la lésion cible (mm) Biais = -0.78 mm Coef reproductibilité = 11.99 mm 60 50 Médiane: 26mm 40 Limites d’agrément: -12.77 to 11.20 30 20 Biais + 2SD 10 0 20 40 60 80 100 120 140 160 180 200 -10 Biais -20 Biais - 2SD -30 -40 -50 -60 Moyenne de M1 & M2 de la taille de la lésion cible (mm) JFR 2009 Reproductibilité des mesures selon la taille de la lésion JFR 2009 Reproductibilité sur la mesure inter-radiologues de la taille de la lésion cible selon RECIST 1.0 Différence (M1- M2 M2) de la taille de la lésion cible (m (mm) Biais = -0.78 mm Coef reproductibilité = 11.99 mm Médiane: 26mm Limites d’agrément: -12.77 to 11.20 60 50 40 30 20 Biais + 2SD 10 0 10 20 30 40 50 60 70 80 90 100 -10 Biais -20 Biais - 2SD Si on s’intéresse aux mesures de lésions ≤100 mm de diamètre, nous observons que l’erreur de mesure ne dépend pas de la taille de la lésion. -30 -40 -50 -60 Moyenne de M1 & M2 de la taille de la lésion cible (mm) JFR 2009 Donc les radiologues se trompent autant (en valeur absolue) sur la mesure des petites lésions que celle des grosses lésions. 3 Types de Causes discordance lésions cibles Causes « intrinsèques » à la méthode Différence de mesure (variabilité intrinsèque + variabilité du choix de la coupe et du grand axe) 1 lésion Causes « anatomiques » Causes « intercurrentes » Certaines lésions sont difficiles à mesurer compte tenu de leur localisation/forme Modifications au cours de suivi non prévisibles 14 lésions Pas de correction possible Ne pas choisir ces lésions 4 lésions Exclure secondairement ces lésions Exemples de chaque cause de discordance Variabilité de la technique de mesure des radiologues entre eux JFR 2009 En majorité ganglions confluents, hilaires ou sous carinaires, lésions au contact des vaisseaux, quelques lésions mal limitées. Apparition d’un trouble de perfusion hépatique, apparition d’une atélectasie Exemple de lésion difficile à mesurer (« cause anatomique ») Ganglion hilaire GG hilaires Investigateur n°1 JFR 2009 Investigateur n°2 Exemple de lésion difficile à mesurer (« cause anatomique ») Ganglions confluents GG confluents Investigateur n°1 JFR 2009 Investigateur n°2 Exemple de lésion difficile à mesurer (« cause anatomique ») Lésion pulmonaire au contact d’un vaisseau Poumon au contact vaisseaux Investigateur n°1 JFR 2009 Investigateur n°2 Exemple de lésion à exclure secondairement (« cause intercurrente ») Trouble de perfusion au niveau du foie trouble perfusion foie Examen de référence Examen de suivi ? JFR 2009 Reproductibilité de la mesure des lésions cibles selon la localisation (organe) JFR 2009 Lésions ganglionnaires 4% des mesures sont discordantes avec une différence atteignant +/- 14 mm il faut donner des consignes de mesures Î certains sites sont à éviter Petit axe (RECIST1.0) vs. Grand axe (RECIST1.1): En intra et en inter les résultats sont comparables entre ces 2 versions. Mais la qualité des mesures des lésions ganglionnaires est améliorée. Néanmoins il existe toujours une différence de mesure atteignant +/- 9 mm Î ceci est dû peut être au fait que le petit axe considéré par un radiologue n’est pas forcément celui d’un autre radiologue. JFR 2009 Les autres lésions Foie et pancréas: il existe parfois de grosses erreurs (exemple pancréas différence de +/- 20mm avec une erreur systématique de 5 mm entre les 2 radiologues) Î ces lésions sont à éviter Pour le foie, nécessité de préciser si la lésion est mesurée sur le temps sans injection, artériel ou portal, et si la mesure inclut ou non la couronne hypervasculaire Poumon, différence de mesure de +/- 10 mm nécessité de préciser si la lésion est mesurée sur la fenêtre médiastinale ou parenchymateuse JFR 2009 Discussion RECIST développé comme méthode statistique pour grands essais cliniques avec nouvelle version présentée en janvier 2009 (RECIST 1.1) MAIS utilisé en pratique clinique pour guider le clinicien dans sa décision thérapeutique Evaluation souvent pratiquée par des radiologues différents au cours du suivi des patients Æimportance de l’évaluation de sa reproductibilité JFR 2009 Discussion: résumé des résultats Les versions 1.0 et 1.1 ont une reproductibilité comparable en intra et inter-investigateurs Concordance excellente en intra et inter-investigateurs sur la catégorie de réponse des lésions cibles et lésions non cibles (répondeur, stable ou en progression) Concordance modérée pour la détection de l’apparition de nouvelles lésions: VIGILANCE +++ Il faut éviter certaines lésions qui ne sont pas reproductibles JFR 2009 Discussion: résumé des résultats L’erreur réalisée sur la mesure d’une seule lésion n’est pas négligeable Æ intérêt d’avoir plusieurs lésions cibles L’erreur réalisée sur la mesure des lésions est la même quelle que soit la taille de la lésion Æ choisir les plus grosses lésions pour laquelle une erreur de 5 mm aura moins de répercussion Ne pas hésiter à exclure secondairement des lésions si elles deviennent difficiles à mesurer JFR 2009 Conclusion Radiologue doit avoir une méthodologie rigoureuse, se mettre d’accord et partager ses expériences sur: Choix des lésions Exclusion secondaire des lésions Confirmation de la progression « Pister » les nouvelles lésions PARLER au clinicien (expliquer quand douteux) Clinicien: connaître les limites de la méthode Corréler aux autres indicateurs d’efficacité cliniques et biologiques PARLER au radiologue JFR 2009