Projet de recherche Diagnostic du cancer du sein basé sur la technologie microarray Benjamin Haibe-Kains [email protected] Promoteur : Gianluca Bontempi Co-promoteur : Christos Sotiriou Table des matières Problème biologique Classification par apprentissage supervisé Etat de l’art Objectifs de la recherche Stratégie scientifique Plan de la recherche Perspectives industrielles Présentation F.R.I.A. – p.1/15 Problème biologique Le cancer du sein représente un tiers des cancers diagnostiqués Détection au stade précoce ➙ traitement systémique (hormono/chimiothérapie) pour les patients à haut risque Evaluation du risque basé sur des critères histo-pathologiques défini par des consensus reconnus (St Gallen, NIH, NPI) important dans la pratique clinique Présentation F.R.I.A. – p.2/15 Problème biologique(2) Taux de sur-traitement élevé haut risque = 80% des patients selon les consensus actuels récidive = 30% des patients (métastases à distance) Amélioration de l’évaluation du risque éviter les effets secondaires non-désirables diminuer les coûts du suivi médical Présentation F.R.I.A. – p.3/15 Classification par appr. supervisé Problème biologique → problème de classification par apprentissage supervisé entrée : données microarray dérivées de tissus tumoraux sortie (oui/non) : apparition de métastases à distance endéans les 5 premières années de suivi médical Présentation F.R.I.A. – p.4/15 Classification par appr. supervisé(2) Problème difficile soit n le nombre de sondes du microarray et N le nombre de patients : n À N expressions géniques hautement corrélés bruit lié à la technologie microarray mauvaises classifications des observations phénomène biologique complexe expressions géniques = information suffisante ? utilisation d’informations supplémentaires (histo-pathologiques) ? Présentation F.R.I.A. – p.5/15 Etat de l’art [van’t Veer et al., 2002] dans Nature et [van de Vijver et al., 2002] dans New England suggèrent une signature métastatique, basée sur les microarray, déjà présente dans la tumeur primitive une meilleure évaluation du risque Les résultats sont prometteurs mais il est nécessaire d’approfondir ce domaine de recherche Présentation F.R.I.A. – p.6/15 Objectifs de la recherche Mise au point d’un outil de diagnostic robuste et performant Valider la signature sur différentes plateformes microarray et populations de patients Identification des gènes informatifs (signature métastatique) å diminution du taux de sur-traitement å recherche de cibles pour de nouveaux traitements Présentation F.R.I.A. – p.7/15 Stratégie scientifique Etude comparative de plusieurs classificateurs Etude approfondie des Support Vector Machines [Vapnik, 1979, Vapnik, 1998, Cristianini and Shawe-Taylor, 2000] Composante classification des SVMs Composante transformation de l’espace d’entrée des SVMs Feature selection Implémentation parallèle sur le cluster du Département Informatique de l’ULB Utilisation des données microarray de l’Unité Microarray à l’IJB Présentation F.R.I.A. – p.8/15 Support Vector Machines Méthode appliquée avec succès dans d’autres domaines de recherche reconnaissance textuelle/vocale catégorisation de textes Gestion de masse importante de données Classificateur non-linéaire Complexité de l’algorithme proportionnelle au nombre de patients (N ) Flexibilité et interprétabilité Présentation F.R.I.A. – p.9/15 Support Vector Machines(2) gène 2 Classification linéaire : maximum margin hyperplane gène 1 Présentation F.R.I.A. – p.10/15 Support Vector Machines(3) Transformation non-linéaire : fonction kernel Présentation F.R.I.A. – p.11/15 Contributions envisagées Fonction kernel spécifique aux données microarray Feature selection stabilité (n À N ) corrélation entre expressions géniques Pondération entre classes Contrôle sur le taux de mauvaises classifications Présentation F.R.I.A. – p.12/15 Plan de la recherche Présentation F.R.I.A. – p.13/15 Perspectives industrielles Aboutissement des projets de l’Unité Microarray à l’IJB kit de diagnostic du cancer du sein c (B IO M ÉRIEUX ° — http://www.biomerieux.com) outil prédictif de réponse au traitement — c ) hormono/chimiothérapie (B IO M ÉRIEUX ° Développement de compétences par l’expérience acquise service commercial spécialisé en Machine c Learning et analyse microarray (B IOVALLEE ° — http://www.biovallee.be) Présentation F.R.I.A. – p.14/15 Merci de votre attention Benjamin Haibe-Kains Présentation F.R.I.A. – p.15/15 References [Cristianini and Shawe-Taylor, 2000] Cristianini, N. and Shawe-Taylor, J. (2000). An Introduction to Support Vector Machines and Other Kernel-Based Learning Methods. Cambridge University Press, Cambridge. ISBN 0-521-78019-5. [van de Vijver et al., 2002] van de Vijver, M., He, Y., van’t Veer, L., Dai, H., Hart, A., Voskuil, D., Schreiber, G., Peterse, J., Roberts, C., Marton, M., Parrish, M., Atsma, D., Witteveen, A., Glas, A., Delahaye, L., van der Velde, T., Bartelink, H., Rodenhuis, S., Rutgers, E., Friend, S., and Bernards, R. (2002). A gene expression signature as a predictor of survival in breast cancer. The new England, 347(25):1999– 2009. [van’t Veer et al., 2002] van’t Veer, L., Dai, H., van de Vijver, M., He, Y., Hart, A., Mao, M., Peterse, H., van der Kooy, K., Marton, M., Witteveen, A., Schreiber, G., RMKerkhiven, Roberts, C., Linsley, P., Bernards, R., and Friend, S. (2002). Gene expression profiling predicts clinical outcome of breast cancer. Nature, 415. [Vapnik, 1979] Vapnik, V. (1979). Estimation of dependences based on empirical data. Nauka. English translation Springer Verlag 1982. 15-1 [Vapnik, 1998] Vapnik, V. (1998). Statistical Learning Theory. Wiley. 15-2