Motifs séquentiels et écarts ous

publicité
P. Salle , S. Bringay,
A. Laurent et M. Teisseire
5/11/09
2
 Cancer
du sein
• 2ème type le plus fréquent de cancer et
5ème cause de mortalité parmi les
cancers
 Hausse
mondiale du nombre de morts
du cancer du sein  Intérêt de la
communauté médicale pour comprendre les
gènes impliqués et elurs interactions
 Plusieurs
types de cancer  les
identifier est un problème difficile
5/11/09
3
 Etude
des expressions de gènes :
information sur gène par gène
 Puces ADN: pour comparer les expressions
de milliers de gènes dans différents tissus,
cellules, conditions, etc.
 Traiter ces puces ADN pour les biologistes
et médecins est un défi en raison
notamment des volumes de données
concernés
 Importance de la fouille de données pour
découvrir des connaissances non connues
auparavant
5/11/09
4
Genes
5/11/09
5
Genes
puces
5/11/09
6
Intensité
(expression)
du gene
mesurée
Par la puce
Genes
puces
5/11/09
7
5/11/09
8
Microarr
ay
Gene expression
sequences
M1
M2
M3
M4
<(G2)(G1 G5)(G3)(G4)>
<(G2)(G1 G5)(G4)(G3)>
<(G2)(G4)(G1 G5)(G3) >
<(G2)(G3)(G1 G5)(G4)>
<(G2)(G1 G5)(G3)>
 G2
a une expression plus faible que G1 et G5
dont les expressions sont proches et plus
faibles que celle de G3
5/11/09
9
Sequence
Microarr
ay
Gene expression
sequences
M1
M2
M3
M4
<(G2)(G1 G5)(G3)(G4)>
<(G2)(G1 G5)(G4)(G3)>
<(G2)(G4)(G1 G5)(G3) >
<(G2)(G3)(G1 G5)(G4)>
<(G2)(G1 G5)(G3)>
Item Itemset
5/11/09
10
Microarr
ay
Gene expression
sequences
M1
M2
M3
M4
<(G2)(G1 G5)(G3)(G4)>
<(G2)(G1 G5)(G4)(G3)>
<(G2)(G4)(G1 G5)(G3) >
<(G2)(G3)(G1 G5)(G4)>
<(G2)(G1 G5)(G3)>
Support: 3/4
5/11/09
11
Difficiles à
• Comprendre et utiliser par les experts
• Interpretation linguistique difficile
100
200
<(G1 G5)
(G3)>97
<(G1 G5)
300
<(G1 G5)(G3)>
400
360
(G3)>
97
190
<(G1 G5) (G3)>
97
105
5/11/09
12
 Motifs séquentiels :
Pas facilement
 Interprétables et utilisables par les
experts
 interprétables de manière linguistique
 <(G1 G5)(G3)>
Motifs flous : basés sur
écarts flous
<(G1 G5)(very over expressed 0,8)
(G3)>
G3 is far much expressed compared to
G1 and G5, which are expressed in a
similar way
5/11/09
13
5/11/09
14
Microarr
ay
Gene expression
sequence
M1
<(G2)(G1 G5)(G3)(G4)>
3.7 4 4.3 5
7
< (G1 G5) (G3) >
M2
<(G2)(G1 G5)(G4)(G3)>
3.2 4.2 4.7 10 12
5/11/09
15
Microarr
ay
Gene expression
sequence
M1
<(G2)(G1 G5)(G3)(G4)>
3.7 4 4.3 5
7
M2
  Difference entre itemsets
δ(it2; it1)
Exemple :
M1: δ((G3); (G1 G5))
= Ι5-4Ι=1
M2: δ((G3); (G1 G5))
= Ι12-4.2Ι=7,8
<(G2)(G1 G5)(G4)(G3)>
3.2 4.2 4.7 10 12
5/11/09
16
δM2=7.8
5/11/09
17
Microarr
ay
Gene expression
sequence
Degré de la séquence :
M1
<(G2)(G1 G5)(G3)(G4)>
3.7 4 4.3 5 7
FSFG(M) =
(d1, …,dn-1)
(avg over expressed; 0,5)
M2
<(G2)(G1 G5)(G4)(G3)>
3.2 4.2 4.7 10 12
F(G3)(G1 G5) (M1) = 0,5
F(G3)(G1 G5) (M2) = 1
(very over expressed ;1)
5/11/09
18
Microarr
ay
Gene expression
sequence
M1 (0,5)
<(G2)(G1 G5)(G3)(G4)>
3.7 4 4.3 5
7
support :
(avg over expressed; 1)
M2 (1)
<(G2)(G1 G5)(G4)(G3)>
3.2 4.2 4.7 10 12
Proportion de puces
verifiantle motif
Freq(G3)very(G1 G5) = 1/2 = 0,5
(very over expressed ;1)
5/11/09
19
5/11/09
20
 Disponible
: http://www.ihes.fr/
~zinovyev/princmanif2006/ comparaison
de types de cancers
 Nombre de puces : 286
 Nombre de genes par puce : 17 816 genes
-> SAM analysis -> 555 genes
discriminants
5/11/09
21
 4
ensembles de sequences : séquences
discriminant 2 classes
• Cancer A vs. B obtained with 2 supports values (20, 40)
• Cancer B vs. A obtained with 2 supports values (35, 40)
 6
partitions :
• 1 fuzzy and 1 crisp partitions provided by the
biologists
• 1 fuzzy and 1 crisp partitions defined with 5 gaps
• 1 fuzzy and 1 crisp partitions with equi-allocation
 Mesures
utilisée
: temps d’exécution et mémoire
5/11/09
22
<(5)(41)(51)> frequent dans les classes de
Cancer A et B
 partition floue
• <(5) avg over expressed (41) lightly over
expressed (51)> frequent in class Cancer A
• <(5) avg over expressed (41) very over
expressed (51)> frequent in class Cancer B
Nouvelle connaissance
discriminate entre les 2 types de cancer
5/11/09
23
5/11/09
24
1. 2. 3. Extraction de motifs plus
compréhensibles et plus facilement
utilisables par les experts
Facile à calculer (post-traitement)
Une nouvelle information liée au pouvoir
discriminant des motifs
 prédiction du type de cancer
5/11/09
25
 Utilisation
des propriétés des
constraintes introduites par la partition
floue pour améliorer les performances
de l’algorithme (mémoire et temps)
 Experimentations
sur d’autres bases de
données
5/11/09
26
Téléchargement