Contexte scientifique et projet

publicité
Sujet de thèse
Apprentissage profond collaboratif guidé par des connaissances expertes
pour l’analyse d'images histopathologiques
Pr. Cédric Wemmert (ICube, Unistra), Dr. Germain Forestier (MIPS, UHA)
Contexte scientifique et projet
La pathologie consiste à essayer de comprendre des phénomènes microbiologiques en se basant sur l'examen de tissus
vivants. Classiquement, cela implique une évaluation visuelle par des pathologistes d'un échantillon de cellules à l'aide d'un
microscope, pour identifier les propriétés structurales des tissus. Actuellement, l'évaluation visuelle est en grande partie un
processus très coûteux en temps humain et l'exactitude du diagnostic repose sur la formation et l'expérience personnelle du
pathologiste.
Certains standards sont définis internationalement, tels que la classification des tumeurs disponible sur le site Web de l'Organisation mondiale de la santé (OMS) ou encore la classification de "Banff" pour la gradation du rejet d'organe après une
transplantation rénale. Cela permet d'assurer une certaine cohérence entre les observateurs. Cependant, bien que la formation des pathologistes et les contrôles de qualité aient abouti à une concordance suffisante dans de nombreux domaines
de la pathologie, il existe encore d'importantes variations dans l'interprétation des phénomènes biologiques observés et la
précision varie considérablement pour certains systèmes de notation ou biomarqueurs.
Le domaine a connu plusieurs révolutions technologiques ces dernières années avec l'avènement de la microscopie virtuelle, qui consiste à convertir des biopsies de tissus en
images digitales à très haute résolution (appelées lames virtuelles ou whole-slide images - WSI - voir un exemple sur la
Figure1) qui peuvent être consultées et analysées via un ordinateur. Ce nouveau domaine est souvent appelé pathologie
numérique. Dans le cadre de la pathologie numérique, des
efforts importants ont été déployés par la communauté informatique pour concevoir des outils d'analyse d'images, afin
d'identifier par exemple les structures biologiques de base
(stroma, cellules immunitaires, tumeurs, etc.) afin de faciliter
la tâche des médecins / biologistes pour une interprétation
(semi-)automatisée des lames virtuelles. La pathologie numérique est actuellement considérée comme l'une des techniques les plus prometteuses de la médecine diagnostique,
afin d'obtenir plus rapidement un diagnostic plus fiable et un Figure 1 – Exemple de lame virtuelle complète (95615 ×
meilleur pronostique pour de nombreuses maladies impor- 72293 pixels).
tantes.
Avec l'avènement récent de ces images, la pathologie numérique produit quotidiennement une quantité massive d'images
associées à des métadonnées (informations sur le patient, diagnostic, traitement, etc.). Dans ce contexte de données massives, il existe de nombreux défis pour permettre l'utilisation de WSI dans les procédures de diagnostic en routine clinique.
1
En effet, ces images contiennent des milliards de pixels et sont très hétérogènes, à la fois en terme de signal (dispositifs
d'acquisition différents) et de sémantique (plusieurs types de cellules et de structures biologiques), ce qui provoque des difficultés techniques très importantes pour le traitement et la visualisation par des algorithmes classiques. En particulier, les
approches traditionnelles d'analyse d'images ont maintenant atteint leurs limites, en raison de l'explosion de l'information
induite par ces images. Notamment, avec l'augmentation de la résolution spatiale, les structures biologiques visibles dans
les images deviennent de plus en plus complexes puisqu'elles apparaissent maintenant dans l'image comme une disposition
spatiale de structures plus fondamentales. Pour développer la prochaine génération de systèmes informatiques, une direction de recherche clé consiste à transférer l'analyse d'images pathologiques d'un processus de bas niveau à un paradigme
interactif de haut niveau, permettant d'intégrer judicieusement l'expertise utilisateur dans les outils d'analyse d'image.
Dans ce contexte médical, plusieurs défis informatiques majeurs sont soulevés. Le principal porte sur la conception de
techniques d'analyse d'image efficaces, basées à la fois sur le traitement d'image et la fouille de données massives, pour faire
face à la grande taille des images, leur variabilité importante et la complexité des objets biologiques à reconnaître.
Ainsi, ce projet de thèse se concentrera sur trois aspects méthodologiques en imagerie histopathologique avec des objectifs spécifiques :
1. proposer de nouvelles méthodes d'extraction de caractéristiques quantitatives à partir du contenu des images et de
classification de données pour déterminer les régions d'intérêt (zone tumorale, stroma, etc.) à partir d'apprentissage
profond (qui a prouvé son efficacité sur de tels problèmes) ;
2. identifier des modèles biologiques spatiaux complexes en intégrant des connaissances expertes apportées par les
pathologistes dans les procédures d'analyse d'image pour reconnaître les méta-structures biologiques et construire
un dictionnaire et une base de connaissances sur les objets d’intérêts à détecter dans des WSI pour le diagnostic du
cancer du sein ;
3. construire un framework collaboratif travaillant sur un ensemble d'images histopathologiques de coloration différente mais issues d’une même biopsie (identification des objets dans les différentes lames, recalage d'image, analyse
multi-image).
Pour évaluer l'intérêt réel des méthodes en contexte clinique, le travail se focalisera sur l'analyse d’images WSI pour une
pathologie particulière : l’aide au diagnostic pour les patients atteints d'un cancer du sein héréditaire et / ou d'apparition
précoce. Ainsi, l'objectif sera de développer des méthodes permettant de guider les pathologistes pour les aider à découvrir
des sous-types de maladies / groupes de patients pour mieux évaluer la prédiction de survie. Le choix de cette pathologie nous
permettra de bénéficier de l'existence d'une grande archive d'images construite lors de précédents projets en collaboration
avec la Hannover Medical School et de l'expertise de leurs pathologistes sur ce sujet. Ainsi le risque classique inhérent à
ce type de projet (l'absence de données ou d'annotations) sera écarté. Le travail de thèse prendra la suite des premières
recherches effectuées dans notre équipe dans le cadre de ce projet, notamment sur l'analyse des relations spatiales entre les
cellules immunitaires et les lobules dans les images de cancer du sein [1, 2, 3].
Positionnement et enjeux sociétaux
Contexte franco-allemand et européen
Ce travail viendra consolider le partenariat franco-allemand existant entre l'équipe Science des Données et des Connaissances du laboratoire ICube et la Hannover Medical School (MHH, Allemagne). Une collaboration scientifique existe entre
ces deux unités depuis 4 ans, concrétisée par un projet national allemand BMBF - Sysimit : Systems Immunology and Image Mining in Translational Tissue Biomarker Research (2013-2018) et un projet européen ERACoSysMed - SysMIFTA : Systems medicine approach to minimize macrophage-associated interstitial fibrosis and tubular atrophy in renal allograft rejection (20162019).
Le doctorant travaillera en collaboration avec les pathologistes du MHH, en soutien du projet Sysimit qui vient d'être
prolongé de 2 années. Dans le cadre de ce projet, le MHH financera les déplacements du doctorant pour lui permettre de
2
bénéficier de leur expertise durant des séjours réguliers dans leur structure. Il pourra aussi bénéficier du soutien de l'équipe
Diagnostic Image Analysis Group de l'Université Radboud (Nimègue, Pays-Bas). En effet, celle-ci travaille sur l'amélioration
de l'aide au diagnostic assisté par ordinateur. Le groupe est notamment spécialisé dans le développement et la validation
d'algorithmes d'apprentissage profond (deep-learning) pour la pathologie numérique et fait partie des principaux groupes
de recherche internationaux dans ce domaine.
Positionnement local
Au sein du laboratoire ICube, le doctorant sera intégré au sein de l'équipe Sciences des Données et des Connaissances
(SDC) sous la direction de Cédric Wemmert, nouvellement nommé Professeur des Universités en 2016.
Au niveau régional, ce projet permettra de renforcer la collaboration existante entre l'équipe SDC de ICube et le laboratoire Modélisation, Intelligence, Processus et Systèmes (MIPS) de l'Université de Haute-Alsace puisque le doctorant sera
co-encadré par Germain Forestier, MCF au laboratoire MIPS, spécialisé dans l'analyse d'images guidée par des connaissances
expertes.
Enjeux sociétaux
Ce projet présente un enjeu sociétal fort. En effet, en France, on évalue chaque année 54 062 nouveaux cancers du sein
(chiffres 2015), soit 101,5 / 100.000 nouveaux cas annuels, avec 75% des nouveaux cas dépistés chez des femmes de plus
de 50 ans 1 . Ce nombre est en augmentation constante : de 35.000 nouveaux cas en 1995, il est passé à 42.000 cas en 2000,
à 49.800 cas en 2005 mais s'infléchit en 2012 avec 48.763 cas, soit 31,4% des cancers féminins. Concernant l'Alsace, 4500
nouveaux cas ont été dépistés dans le Bas-Rhin en 2015 2 . Nos recherches présentent donc un enjeu national et régional fort,
notre objectif principal étant d’améliorer les diagnostics de dépistage ainsi que les soins.
Références
[1] J. Alfonso, N. Schaadt, R. Schönmeyer, N. Brieu, G. Forestier, Wemmert, C., F. Feuerhake, and H. Hatzikirou. In-silico
insights on the prognostic potential of immune cell infiltration patterns in the breast lobular epithelium. Scientific
Reports, 6, 2016.
[2] G. Apou, B. Naegel, G. Forestier, F. Feuerhake, and Wemmert, C. Efficient Region-based Classification for Whole Slide
Images, volume 550 of Communications in Computer and Information Science, pages 239--256. Springer, 2016.
[3] G. Apou, N. Schaadt, B. Naegel, G. Forestier, R. Schönmeyer, F. Feuerhake, Wemmert, C., and A. Grote. Detection of
lobular structures in normal breast tissue. Computers in Biology and Medicine, 74 :91--102, Jul 2016.
1. http://www.ligue-cancer21.net/blog/article/depistage-des-cancers-du-sein
2. http://www.liguecancer-cd68.fr/Images/Revues_Presse/2015/Mai_2015.pdf
3
Téléchargement