Projet de recherche Diagnostic du cancer du sein basé sur la

publicité
Projet de recherche
Diagnostic du cancer du sein basé
sur la technologie microarray
Benjamin Haibe-Kains
[email protected]
Promoteur : Gianluca Bontempi
Co-promoteur : Christos Sotiriou
Table des matières
Problème biologique
Classification par apprentissage supervisé
Etat de l’art
Objectifs de la recherche
Stratégie scientifique
Plan de la recherche
Perspectives industrielles
Présentation F.R.I.A. – p.1/15
Problème biologique
Le cancer du sein représente un tiers des cancers
diagnostiqués
Détection au stade précoce ➙ traitement
systémique (hormono/chimiothérapie) pour les
patients à haut risque
Evaluation du risque
basé sur des critères histo-pathologiques
défini par des consensus reconnus (St Gallen,
NIH, NPI)
important dans la pratique clinique
Présentation F.R.I.A. – p.2/15
Problème biologique(2)
Taux de sur-traitement élevé
haut risque = 80% des patients selon les
consensus actuels
récidive = 30% des patients (métastases à
distance)
Amélioration de l’évaluation du risque
éviter les effets secondaires non-désirables
diminuer les coûts du suivi médical
Présentation F.R.I.A. – p.3/15
Classification par appr. supervisé
Problème biologique → problème de classification par
apprentissage supervisé
entrée : données
microarray dérivées
de tissus tumoraux
sortie (oui/non) :
apparition de métastases à distance
endéans les 5 premières années de
suivi médical
Présentation F.R.I.A. – p.4/15
Classification par appr. supervisé(2)
Problème difficile
soit n le nombre de sondes du microarray et N le
nombre de patients : n À N
expressions géniques hautement corrélés
bruit lié à la technologie microarray
mauvaises classifications des observations
phénomène biologique complexe
expressions géniques = information suffisante ?
utilisation d’informations supplémentaires
(histo-pathologiques) ?
Présentation F.R.I.A. – p.5/15
Etat de l’art
[van’t Veer et al., 2002] dans Nature et
[van de Vijver et al., 2002] dans New England suggèrent
une signature métastatique, basée sur les
microarray, déjà présente dans la tumeur primitive
une meilleure évaluation du risque
Les résultats sont prometteurs mais il est nécessaire
d’approfondir ce domaine de recherche
Présentation F.R.I.A. – p.6/15
Objectifs de la recherche
Mise au point d’un outil de diagnostic robuste et
performant
Valider la signature sur différentes plateformes
microarray et populations de patients
Identification des gènes informatifs (signature
métastatique)
å diminution du taux de sur-traitement
å recherche de cibles pour de nouveaux traitements
Présentation F.R.I.A. – p.7/15
Stratégie scientifique
Etude comparative de plusieurs classificateurs
Etude approfondie des Support Vector Machines
[Vapnik, 1979, Vapnik, 1998,
Cristianini and Shawe-Taylor, 2000]
Composante classification des SVMs
Composante transformation de l’espace d’entrée
des SVMs
Feature selection
Implémentation parallèle sur le cluster du
Département Informatique de l’ULB
Utilisation des données microarray de l’Unité
Microarray à l’IJB
Présentation F.R.I.A. – p.8/15
Support Vector Machines
Méthode appliquée avec succès dans d’autres
domaines de recherche
reconnaissance textuelle/vocale
catégorisation de textes
Gestion de masse importante de données
Classificateur non-linéaire
Complexité de l’algorithme proportionnelle au
nombre de patients (N )
Flexibilité et interprétabilité
Présentation F.R.I.A. – p.9/15
Support Vector Machines(2)
gène 2
Classification linéaire : maximum margin hyperplane
gène 1
Présentation F.R.I.A. – p.10/15
Support Vector Machines(3)
Transformation non-linéaire : fonction kernel
Présentation F.R.I.A. – p.11/15
Contributions envisagées
Fonction kernel spécifique aux données
microarray
Feature selection
stabilité (n À N )
corrélation entre expressions géniques
Pondération entre classes
Contrôle sur le taux de mauvaises classifications
Présentation F.R.I.A. – p.12/15
Plan de la recherche
Présentation F.R.I.A. – p.13/15
Perspectives industrielles
Aboutissement des projets de l’Unité Microarray à
l’IJB
kit de diagnostic du cancer du sein
c
(B IO M ÉRIEUX °
— http://www.biomerieux.com)
outil prédictif de réponse au traitement —
c
)
hormono/chimiothérapie (B IO M ÉRIEUX °
Développement de compétences par l’expérience
acquise
service commercial spécialisé en Machine
c
Learning et analyse microarray (B IOVALLEE °
—
http://www.biovallee.be)
Présentation F.R.I.A. – p.14/15
Merci de votre attention
Benjamin Haibe-Kains
Présentation F.R.I.A. – p.15/15
References
[Cristianini and Shawe-Taylor, 2000] Cristianini,
N.
and
Shawe-Taylor, J. (2000). An Introduction to Support Vector
Machines and Other Kernel-Based Learning Methods. Cambridge University Press, Cambridge. ISBN 0-521-78019-5.
[van de Vijver et al., 2002] van de Vijver, M., He, Y., van’t Veer,
L., Dai, H., Hart, A., Voskuil, D., Schreiber, G., Peterse, J.,
Roberts, C., Marton, M., Parrish, M., Atsma, D., Witteveen,
A., Glas, A., Delahaye, L., van der Velde, T., Bartelink, H.,
Rodenhuis, S., Rutgers, E., Friend, S., and Bernards, R.
(2002). A gene expression signature as a predictor of survival in breast cancer. The new England, 347(25):1999–
2009.
[van’t Veer et al., 2002] van’t Veer, L., Dai, H., van de Vijver,
M., He, Y., Hart, A., Mao, M., Peterse, H., van der Kooy,
K., Marton, M., Witteveen, A., Schreiber, G., RMKerkhiven,
Roberts, C., Linsley, P., Bernards, R., and Friend, S. (2002).
Gene expression profiling predicts clinical outcome of breast
cancer. Nature, 415.
[Vapnik, 1979] Vapnik, V. (1979). Estimation of dependences
based on empirical data. Nauka. English translation
Springer Verlag 1982.
15-1
[Vapnik, 1998] Vapnik, V. (1998). Statistical Learning Theory.
Wiley.
15-2
Téléchargement