P. Salle , S. Bringay, A. Laurent et M. Teisseire 5/11/09 2 Cancer du sein • 2ème type le plus fréquent de cancer et 5ème cause de mortalité parmi les cancers Hausse mondiale du nombre de morts du cancer du sein Intérêt de la communauté médicale pour comprendre les gènes impliqués et elurs interactions Plusieurs types de cancer les identifier est un problème difficile 5/11/09 3 Etude des expressions de gènes : information sur gène par gène Puces ADN: pour comparer les expressions de milliers de gènes dans différents tissus, cellules, conditions, etc. Traiter ces puces ADN pour les biologistes et médecins est un défi en raison notamment des volumes de données concernés Importance de la fouille de données pour découvrir des connaissances non connues auparavant 5/11/09 4 Genes 5/11/09 5 Genes puces 5/11/09 6 Intensité (expression) du gene mesurée Par la puce Genes puces 5/11/09 7 5/11/09 8 Microarr ay Gene expression sequences M1 M2 M3 M4 <(G2)(G1 G5)(G3)(G4)> <(G2)(G1 G5)(G4)(G3)> <(G2)(G4)(G1 G5)(G3) > <(G2)(G3)(G1 G5)(G4)> <(G2)(G1 G5)(G3)> G2 a une expression plus faible que G1 et G5 dont les expressions sont proches et plus faibles que celle de G3 5/11/09 9 Sequence Microarr ay Gene expression sequences M1 M2 M3 M4 <(G2)(G1 G5)(G3)(G4)> <(G2)(G1 G5)(G4)(G3)> <(G2)(G4)(G1 G5)(G3) > <(G2)(G3)(G1 G5)(G4)> <(G2)(G1 G5)(G3)> Item Itemset 5/11/09 10 Microarr ay Gene expression sequences M1 M2 M3 M4 <(G2)(G1 G5)(G3)(G4)> <(G2)(G1 G5)(G4)(G3)> <(G2)(G4)(G1 G5)(G3) > <(G2)(G3)(G1 G5)(G4)> <(G2)(G1 G5)(G3)> Support: 3/4 5/11/09 11 Difficiles à • Comprendre et utiliser par les experts • Interpretation linguistique difficile 100 200 <(G1 G5) (G3)>97 <(G1 G5) 300 <(G1 G5)(G3)> 400 360 (G3)> 97 190 <(G1 G5) (G3)> 97 105 5/11/09 12 Motifs séquentiels : Pas facilement Interprétables et utilisables par les experts interprétables de manière linguistique <(G1 G5)(G3)> Motifs flous : basés sur écarts flous <(G1 G5)(very over expressed 0,8) (G3)> G3 is far much expressed compared to G1 and G5, which are expressed in a similar way 5/11/09 13 5/11/09 14 Microarr ay Gene expression sequence M1 <(G2)(G1 G5)(G3)(G4)> 3.7 4 4.3 5 7 < (G1 G5) (G3) > M2 <(G2)(G1 G5)(G4)(G3)> 3.2 4.2 4.7 10 12 5/11/09 15 Microarr ay Gene expression sequence M1 <(G2)(G1 G5)(G3)(G4)> 3.7 4 4.3 5 7 M2 Difference entre itemsets δ(it2; it1) Exemple : M1: δ((G3); (G1 G5)) = Ι5-4Ι=1 M2: δ((G3); (G1 G5)) = Ι12-4.2Ι=7,8 <(G2)(G1 G5)(G4)(G3)> 3.2 4.2 4.7 10 12 5/11/09 16 δM2=7.8 5/11/09 17 Microarr ay Gene expression sequence Degré de la séquence : M1 <(G2)(G1 G5)(G3)(G4)> 3.7 4 4.3 5 7 FSFG(M) = (d1, …,dn-1) (avg over expressed; 0,5) M2 <(G2)(G1 G5)(G4)(G3)> 3.2 4.2 4.7 10 12 F(G3)(G1 G5) (M1) = 0,5 F(G3)(G1 G5) (M2) = 1 (very over expressed ;1) 5/11/09 18 Microarr ay Gene expression sequence M1 (0,5) <(G2)(G1 G5)(G3)(G4)> 3.7 4 4.3 5 7 support : (avg over expressed; 1) M2 (1) <(G2)(G1 G5)(G4)(G3)> 3.2 4.2 4.7 10 12 Proportion de puces verifiantle motif Freq(G3)very(G1 G5) = 1/2 = 0,5 (very over expressed ;1) 5/11/09 19 5/11/09 20 Disponible : http://www.ihes.fr/ ~zinovyev/princmanif2006/ comparaison de types de cancers Nombre de puces : 286 Nombre de genes par puce : 17 816 genes -> SAM analysis -> 555 genes discriminants 5/11/09 21 4 ensembles de sequences : séquences discriminant 2 classes • Cancer A vs. B obtained with 2 supports values (20, 40) • Cancer B vs. A obtained with 2 supports values (35, 40) 6 partitions : • 1 fuzzy and 1 crisp partitions provided by the biologists • 1 fuzzy and 1 crisp partitions defined with 5 gaps • 1 fuzzy and 1 crisp partitions with equi-allocation Mesures utilisée : temps d’exécution et mémoire 5/11/09 22 <(5)(41)(51)> frequent dans les classes de Cancer A et B partition floue • <(5) avg over expressed (41) lightly over expressed (51)> frequent in class Cancer A • <(5) avg over expressed (41) very over expressed (51)> frequent in class Cancer B Nouvelle connaissance discriminate entre les 2 types de cancer 5/11/09 23 5/11/09 24 1. 2. 3. Extraction de motifs plus compréhensibles et plus facilement utilisables par les experts Facile à calculer (post-traitement) Une nouvelle information liée au pouvoir discriminant des motifs prédiction du type de cancer 5/11/09 25 Utilisation des propriétés des constraintes introduites par la partition floue pour améliorer les performances de l’algorithme (mémoire et temps) Experimentations sur d’autres bases de données 5/11/09 26