Sciences des données en santé Détection et segmentation de cancer du foie par apprentissage profond An Tang, MD, MSc 1,2 Chris Pal, PhD 3,4 Affiliations: 1. Département de radiologie, radio-oncologie et médecine nucléaire, Faculté de médecine 2. Centre de recherche du Centre hospitalier de l'Université de Montréal 3. Département d’informatique et de recherche opérationnelle, Faculté des arts et des sciences 4. Montreal Institute for Learning Algorithms (MILA) Click to edit Master title style «Some will organize the past and others will predict the future.» —Auren Hoffman SafeGraph CEO Plan 1. Historique de notre collaboration 2. Démarche du projet 3. Intuitions des chercheurs en sciences des données 4. Exécution du projet Click to edit Master title style Partie 1 Historique de notre collaboration Collaboration multidisciplinaire Chris Pal Samuel Kadoury An Tang Simon Turcotte Alexandre Le Bouthillier Nicolas Chapados Génie informatique Génie informatique Radiologie Chirurgie Informatique Génie informatique intelligence artificielle post-traitement d’image hépatique hépatobiliaire Co-fondateur Imagia Co-fondateur Imagia Quels sont les types de cancer du foie? Cancer primaire Cancer secondaire (Carcinome hépatocellulaire) (Cancer métastatique) Deuxième cause de mortalité liée au cancer El-Serag HB. N Engl J Med. 2011;365(12):1118-27. Défis en imagerie de cancer du foie 1. Détection précoce de cancer -Survie à 5 ans: 18% -Survie à 5 ans si détection précoce: 40-70%1 2. Classification -Prise en charge varie selon type de cancer 3. Suivi longitudinal -Nombreux examens dans le temps Sutherland LM, et al. Arch Surg 2006. 141 (2):181-190. Chronologie du projet CANDELA Nous sommes ici MEDTEQ (344,200$) FINANCEMENT MITACS-Cluster Accelerate (400,000$) IRSC Catalyseur (lettre d’intention) PROJET CANDELA OBJECTIF 1. Détection de cancer Segmentation (9 personnes) RSNA: Cum Laude Liver Tumor Segmentation (LiTS) Challenge: 2ème position Entraînement OBJECTIF 2. Classification de cancer Préparation base de donnée (5 personnes) Entraînement OBJECTIF 3. Suivi de cancer Segmentation (semi-supervisé) 2015 2016 2017 2018 2019 Click to edit Master title style Partie 2 Démarche du projet Appétit pour Deep Learning LeCun Y, Bengio Y, Hinton G. Nature. 2015;521(7553):436-44. Reconnaissance d’images (a) Siberian husky (b) Eskimo dog Figure 1: Two distinct classes from the 1000 classes of the ILSVRC 2014 classification challenge. and expensive, especially if expert human raters are necessary to distinguish between fine-grained visual categories like those in ImageNet (even in the 1000-class ILSVRC subset) as demonstrated Szegedy C, Liu W, Jia J, et al. Going deeper by Figure 1. with convolutions. arXiv:14094842v1. 2014. Volume d’examens d’imagerie Nombre d’examens d’imagerie année au CHUM CHUM aupar Tous les examens 450,000 384,679 375,319 400,000 373,137 329,880 350,000 360,274 300,000 280,491 250,000 244,642 276,486 231,540 175,637 200,000 193,185 150,000 174,013 100,000 91,338 50,000 0 14,225 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 Data from CHUM: PACS Manager Volume d’imagerie Radiology and Nuclear Medicine DR Digital Mammo Angio CT MRI Ultrasound Nuc Med PET CT US Cardiology XA 1024 No. of Exams per Year 179,267 12,370 19,000 75,969 26,848 54,174 59,000 7,000 15,194 8,687 Ave No. Images per Exam 3 6 50 700 600 50 11 1,055 80 60 Bytes per Image 2 2 2 2 2 1 1 2 Columns Rows 3,072 3,328 1,024 512 512 640 512 512 2 1 year (2014-2015) 2001-2015 3,072 2,560 1,024 512 512 512 512 512 MB/Image 18.0 16.3 2.0 0.5 0.5 0.3 0.3 0.5 5.0 10.0 Total Total (TB) 9,680,418 1,206,075 1,900,000 26,589,150 8,054,400 846,469 162,250 3,692,500 6,077,600 5,212,200 60.5 Total (TB) with 2:1 compression 4,840,209 603,038 950,000 13,294,575 4,027,200 423,234 81,125 1,846,250 3,038,800 2,606,100 30.2 160 Data from CHUM: PACS Manager 5 10 Click to edit Master title style Partie 3 Problèmes et solutions Taxonomie en intelligence artificielle Adapted from: Goodfellow I, Bengio Y, Courville A. Deep Learning. Cambridge: MIT Press, 2016. Réseau convolutionnel profond a b c d Chartrand G, et al. Invited review for RadioGraphics. Réseau convolutionnel de type U-Net Vorontsov E, et al. RSNA 2016. Modèle: ResUNet Ronneberger 2015 (U-Net) arxiv:1505.04597 Drodzal & Vorontsov 2016 (ResUNet) arxiv:1608.04117 Modèle: ResUNet Bottleneck block Simple block He 2016 (ResNet v2) arxiv:1603.05027 Jeu de données d’entraînement a Segmentations corrected by image analysts. Training data (77 volumes) Validation data (28 volumes) Expert segmentations With liver segmentations Testing data (30 volumes) b Traitement de données Vorontsov E, et al. RSNA 2016. Augmentation de données Original Flipping Rotation Translation Zooming Elastic deformation Vorontsov E, et al. RSNA 2016. Segmentation de tumeurs Vorontsov E, et al. RSNA 2016. Résultats a b c d e f Vorontsov E, et al. RSNA 2016. FCN8 [32] Unet [38] FC-ResNet [17] Ours 128 33 11 13 loss -0.419 -0.451 -0.223 -0.795 D i cel esi on 0.589 0.553 0.551 0.771 Segmentation de tumeurs D i cel i v er 0.994 0.994 0.993 0.997 loss -0.437 -0.396 -0.224 -0.796 D i cel esi on 0.535 0.570 0.617 0.711 D i cel i v er 0.989 0.990 0.990 0.993 TABLE V RESULTS ON THE L I V ER L ESI ON DATA SET FOR BOTH VA L I DATI ON A ND TEST SETS. (a) Input CT image (b) Ground Truth (c) FCN8 (d) Unet (e) FC-ResNet (f) Ours Drożdżal M, et al. arXiv:170205174v1. 2017. Fig. 4. Qualitative results on test set for the liver lesion dataset. Each line displays an example form the test set. From left to right: (a) represents an image, (b) displays the expert annotation of liver (red) and lesion (green), (c) displays a prediction for FCN8 model, (d) displays a prediction for UNet model, (e) displays a prediction for FC-ResNet model and (f) displays a prediction of our method. Liver Tumor Segmentation Challenge 2ème position sur 17 équipes Eugene Vorontsov Candidat PhD Polytechnique Montréal URL consulted on March 25, 2017: https://competitions.codalab.org/competitions/15595#results Exam date Back to exam list En cours: classification de tumeurs INDICATION 2010-09-06 FOCAL HEPATI Observation numbe Characterization of liver lesion Localization (segme MODALITY COMPARISON TREATED OBSERV MRI (extracellular agents) Modality PROBABLE MALIG HCC (LR-M) Scanner model LI-RADS V2014 Country Institution Canada Radiologist University of Montreal Multicenter patient number An Tang Patient_test_1 TUMOR IN VEIN (L Contrast agent name Contrast administered dose (mL) DEMOGRAPHIC AND CLINICAL DATA Metric Imperial (US) MAJOR FEATURES Conventional units SI units Contrast agent administered volume (mL) Medical record number ABCDEF Presence of cirrhosis No Height (m) 1.7 (Feet) Anonymized ID ABCDEF Underlying liver disease Hepatitis B Weight (kg) 65 (lbs) 143 INR Saline chaser volume (mL)1.4 Gender M Other (specify) (lb/in2) 22.5 Bilirubin TECHNIQUE (mg/dL) BMI (kg/m2) 22.5 5 (Inches) (mg/dL) rate Creatinine Contrast administered 1.2 (mL/s) 7 Maximum diameter 106.1 (umol/L) Arterial phase hyper "Washout" 1.4 1.0 (umol/L) 4.4 (g/L) "Capsule" 17.1 Threshold growth Non contrast only. Date of birth (yyyy-mm-dd) 1979-10-06 Age 35 MELD score (0-40) Albumin 12 (g/dL) 44 Non contrast followed by multiphase contrast-enhanced imaging. Date of diagnosis (yyyy-mm-dd) 2010-10-04 Child-Pugh class Platelet count A 3 9 (10 /uL) (10only. /L) 178 Multiphase contrast-enhanced imaging > 50% diameter inc 178 Washout and visibili Examination meets LI-RADS technical recommendations. Exam date Back to exam list 2010-09-06 Export standardized report [Current exam] LR CATEGORY AC Examination is compromised by the following factor(s): Export standardized report [Report history] ANCILLARY FEATU INDICATION Lesional fat sparing Observation number Characterization of liver lesion Localization (segment) MODALITY Subthreshold growt SCHEMATICS FOCAL HEPATIC OBSERVATIONS 1 I 2 II 3 III 4 VI 5 6 7 LESIONS 1 - 5 8 9 Nodule-in-nodule ar VII COMPARISON IVb! MRI (extracellular agents) Scanner model Contrast agent name Mosaic architecture 3 III! TREATED OBSERVATION (If applicable) Modality 10 Corona enhanceme IVa! 2 II! 2 II! Distinctive rim V! PROBABLE MALIGNANCY, NOT SPECIFIC FOR HCC (LR-M) No No No No No TUMOR IN VEIN (LR-5V) No No No No No I! Intra-lesional fat VIII! 1 Blood products Lesional iron sparin 5 VII! Restricted diffusion VI! Contrast administered dose (mL) 4 MAJOR FEATURES Contrast agent administered volume (mL) Maximum diameter (mm) 45 20 11 32 6 Contrast administered rate (mL/s) Arterial phase hyper-enhancement No No Yes Yes No Saline chaser volume (mL) "Washout" No Yes Yes No Yes Mild moderate T2 h Hepatobiliary phase Transitional phase h LESIONS 6 - 10 Hepatobiliary phase "Capsule" Yes No Yes Yes Yes Non contrast only. Threshold growth Yes Yes No No No Non contrast followed by multiphase contrast-enhanced imaging. > 50% diameter increase in < 6 months TECHNIQUE III! IVb! Other (specify) IVa! II! II! ANCILLARY FEATU V! I! Diameter stability > VIII! Diameter reduction Parallels blood pool Multiphase contrast-enhanced imaging only. Examination meets LI-RADS technical recommendations. VII! Washout and visibility at antecedent ultrasound LR CATEGORY ACCORDING TO MAJOR FEATURES VI! LR-4 LR-4 LR-5 LR-5 Undistorted vessels Homogeneous mark LR-4 Examination is compromised by the following factor(s): SCHEMATICS LESIONS 1 - 5 Homogeneous mark FIGURE COLLAGE ANCILLARY FEATURES FAVORING MALIGNANCY Hepatobiliary phase Subthreshold growth Yes No No Yes Yes Lesional fat sparing No Yes No Yes No Nodule-in-nodule architecture Yes No No No No 1 Drop image here 2 Drop image here 3 Drop image here 4 Drop image here 5 Drop image here Other (specify) LI-RADS CATEGOR FEATURES AND TI En cours: classification de lésions Cystic and benign Solid and benign Solid and malignant Classification de lésions Click to edit Master title style Partie 4 Exécution du projet Constat #1: Temps en préparation des données Data preparation accounts for about 80% of the work of data scientists Forbes.com consulted on December 17, 2016: Cleaning Big Data: Survey Constat #2: Enjeux institutionnels Nous sommes ici CANDELA MEDTEQ (344,200$) et MITACS (400,000$) 1. Détection de cancer 2. Classification de cancer 3. Suivi de cancer IRSC Catalyseur (lettre d’intention) APOGEE / IVADO APOGEE / IVADO (92.5M$) Gouvernance Infrastructure numérique Infrastructure propice au Big data et AI-friendly Intégration DL et OR au système de santé Scénarios d’usage Accès aux données cliniques Optimisation de flux de patients en oncologie Optimisation en temps réel: horaires, ressources, inventaires, décisions TEMPS -1 2015 0 2016 1 2017 2 2018 3 2019 4 2020 5 2021 6 2022 7 2023 Constat #2: Enjeux institutionnels Nous sommes ici CANDELA MEDTEQ (344,200$) et MITACS (400,000$) 1. Détection de cancer 2. Classification de cancer 3. Suivi de cancer IRSC Catalyseur (lettre d’intention) APOGEE / IVADO APOGEE / IVADO (92.5M$) Gouvernance Infrastructure numérique Infrastructure propice au Big data et AI-friendly Intégration DL et OR au système de santé Scénarios d’usage Accès aux données cliniques Optimisation de flux de patients en oncologie Optimisation en temps réel: horaires, ressources, inventaires, décisions TEMPS -1 2015 0 2016 1 2017 2 2018 3 2019 4 2020 5 2021 6 2022 7 2023 Constat #2: Enjeux institutionnels Nous sommes ici CANDELA MEDTEQ (344,200$) et MITACS (400,000$) 1. Détection de cancer 2. Classification de cancer 3. Suivi de cancer IRSC Catalyseur (lettre d’intention) APOGEE / IVADO APOGEE / IVADO (92.5M$) Gouvernance Infrastructure numérique Infrastructure propice au Big data et AI-friendly Intégration DL et OR au système de santé Scénarios d’usage Accès aux données cliniques Optimisation de flux de patients en oncologie Optimisation en temps réel: horaires, ressources, inventaires, décisions TEMPS -1 2015 0 2016 1 2017 2 2018 3 2019 4 2020 5 2021 6 2022 7 2023 Résumé 1. Importance d’une collaboration multi-disciplinaire -Santé -Intelligence artificielle 2. Thématique fédératrice 3. Accès à données numériques 4. Préparation des données: très énergivore 5. Multiples parties prenantes: éthique, administration, T.I. Remerciements Institutions Organismes subventionnaires Contribution in-kind Programme de recherche supporté par: 1. Consortium industriel de recherche et d’innovation en technologies médicales du Québec (MEDTEQ). 2. MITACS-Cluster Accelerate (IT05356). 3. Fonds de recherche du Québec en Santé (FRQS-ARQ #26993) à An Tang (chercheur-boursier junior 1). 4. Fonds de recherche du Québec en Santé (FRQS) à Simon Turcotte (chercheur-boursier junior 1). 5. Chaire Roger-Des-Groseillers d’oncologie chirurgicale hépatobiliaire et pancréatique. 6. Fonds de démarrage Centre de recherche du CHUM. 7. Polytechnique Montréal.