Introduction à la fouille de données en BioInformatique Cours

publicité
1
Introduction à la fouille de
données en BioInformatique
Master EID 2008
Cours MASTER EID-P13 2008
Jean-Daniel Zucker
DR à l’IRD UR GEODES
(Modèlisation Mathématiques Et Informatiques des Systèmes Complexes)
UMR U872 Eq. 7 INSERM
Master 2007
lundi 24 mars 2008
1
2
I.
A) Généralités et rappels
Plan
B) petite intro à la bioinformatique
II.
Une source de données: les BioPuces
III.
La fouille de données BioPuces
•
Clustering
•
Classification/Prediction
•
Feature Selection
IV. Conclusion
http://videolectures.net
Master 2007
lundi 24 mars 2008
2
3
Agents autonomes
http://www.darpa.mil/grandchallenge/rules.asp
150 mile off-road robot race
across the Mojave desert
Natural and manmade hazards
No driver, no remote control
No dynamic passing
Fastest vehicle wins the race
(and 2 million dollar prize)
Master 2007
lundi 24 mars 2008
3
4
Grand DARPA challenge (2005)
•Tâche: apprendre le programme de conduite en temps réel
Master 2007
lundi 24 mars 2008
4
5
Grand DARPA challenge (2005)
Top three finishers to receive $2 million, $1 million and $500,000 prizes. (12/8/06)
Master 2007
lundi 24 mars 2008
5
6
Etude d’une cohorte de 295 cancers du sein
avec/sans métastase ganglionnaire (Vijver et
al., NEJM, décembre 2002)
Années
70 gènes: «!prognosis classifier genes!»
des données (2/2)
Le risque de métastase est x15 pour les profils «!mauvais pronostic!» p=0.003
11/12/06
lundi 24 mars 2008
6
7
Types d’apprentissages
1. Apprentissage supervisé
prédiction/régression/classification
apprentissage de paramètres
2. Apprentissage non-supervisé
regroupement (clustering)
3. Apprentissage par renforcement
planification dans monde inconnu
supervision par l’environnement
Master 2007
lundi 24 mars 2008
7
8
Formulation du problème d’apprentissage supervisé
Learning – Problem Formulation I
···
natural
+1
plastic
-1
natural
plastic
+1
Le ‘Monde’:
Donnees:
Fonction cible inconnue:
Distribution inconnue:
But:
-1
?
d
{(xn, yn)}N
n=1 , xn ∈ R , yn ∈ {±1}
y = f (x) (or y ∼ P (y|x))
x ∼ p(x)
Etant donne n nouvel x, predire y
Probleme: P (x, y) est inconnu!
RŐunion Geodes .
lundi 24 mars 2008
JD Zucker: An Introduction to Boosting.
Master 2007
Part I (Basic Issues), Page 4
8
9
Formulation du problème d’apprentissage supervisé
•
Si f est une fonction continue
– Régression (ex: durée de vie d!un malade)
– Estimation de densité
•
Si f est une fonction discrète
– Classification (ex: niveau de gravité)
•
Si f est une fonction binaire (booléenne)
– Apprentissage de concept (ex: rechute oui/non plastic: oui/non)
Master 2007
lundi 24 mars 2008
9
10
Formulation du problème d’apprentissage supervisé
Learning – Problem Formulation II
Le ‘Modèle’
!
"
Espace des Hypotheses: H = h | h : Rd → {±1}
Fonction de perte:
l(y, h(x)) (par ex. I[y "= h(x)])
But:
Minimiser la vraie (attendue) perte – “erreur
en generalisation”
h∗ = argmin L(h) with L(h) := EX×Y l(Y, h(X))
h∈H
Probleme: on a qu’un echantillon de donnees
disponible, P (x, y) inconnue!
Solution: Trouver un minimiseur empirique
N
1 #
ĥN = argmin
l(yn, h(xn))
N n=1
h∈H
Comment construire efficacement des hypotheses
complexes de faible erreur en generalisation ?
RŐunion Geodes .
JD Zucker: An Introduction to Boosting.
Part I (Basic Issues), Page 5
Master 2007
lundi 24 mars 2008
10
11
Exemples de fonctions de perte
•
Discrimination
"0 si uyii = h(xi )
l (h(xi ), yuii ) = #
$1 si uyii ! h(xi )
•
Régression
l (h(xi ), uyii) = [h(xi ) ! uyii]
•
2
Estimation de densité
l (h(xi )) = ! ln h(xi )
Master 2007
lundi 24 mars 2008
11
Plan
12
I.
A) Généralités B) petite intro à la bioinformatique
II.
Une source de données: les BioPuces
III.
La fouille de données BioPuces
•
Clustering
•
Classification/Prediction
•
Feature Selection
IV. Conclusion
Master 2007
lundi 24 mars 2008
12
13
Qu’est-ce que la Bio-Informatique?
Champs multi-disciplinaire qui utilise des méthodes informatiques (mathématiques,
statistiques, combinatoires…) pour:
!
Formaliser des problèmes de biologie moléculaire;
!
Concevoir des solutions computationelles à la portée des machines,
!
Développer et valider des outils;
!
Analyser, structurer, comparer, traiter les information biologiques
!
Stocker, accéder, filtrer ces informations
!
Modéliser des processus biologiques
!
Prédire des résultats biologiques; etc.
Discipline relativement nouvelle, qui évolue en fonction des nouveaux problèmes posés
par la biologie moléculaire.
Master 2007
lundi 24 mars 2008
13
14
Une définition
• La bioinformatique est une science interdisciplinaire
– Analyser l'info. biologique disponible et produire de nouvelles K.
– Propose et développe des modèles, des méthodes et des outils
– Requiert des K. en mathématique, en informatique et en biologie.
(Introduction à la bioinformatique Cynthia Gibas & Per Jambeck , O’Reilly.)
Langage: BIOPERL
Algorithmique : ex. Algo Appariement BLAST
Réseaux : ex. Grille de calcul GBIO
BD: ex: NCBI (1988 Nat. Res. Mol. Biol)
Modèlisation: Réseaux de régulations Equa Diff.
IA: Prédiction de gènes
lundi 24 mars 2008
Master 2007
14
15
l'étymologie de chromosome: chromo = couleur et soma = corps: des corps colorables
Niveaux de l’information biologique
Noyau
Cellule
Chromosome
Protéine
Gene (ARNm),
Simple brin
Gene (ADN)
National Human Genome Research Institute
Master 2007
lundi 24 mars 2008
16
15
Quelles Types d’informations: «omes» ?
Génome (l!ensemble du matériel génétique d'un individu ou d'une espèce.)
Transcriptome (l’ensemble des ARN messagers transcrits à partir du génome)
Protéome (l'ensemble des protéines exprimés à partir du génome)
Métabolome (l’ensemble des composés organiques (sucres, lipides, amino-acides, …)
Bioinformatics in the Post-Genomic
Era: Genome, Transcriptome,
Proteome, and Information-Based
Medicine
Master 2007
lundi 24 mars 2008
16
17
Structure d’un gène codant une protéine
Début de la
transcription
- 25 - 30
5!’
3!’
TATA
Région 5!’ régulatrice : promoteur
Partie transcrite
Exons: séquences retouvées dans l’ARNm
Introns: séquences transcrites puis éliminées (épissage)
Séquences exoniques retrouvées dans l’ARNm mais non traduites
Master 2007
lundi 24 mars 2008
17
18
Traduction : le code génétique (de l’ARN)
- Les protéines sont formées de 20 acides aminés différents qui s!’enchaînent de façon bien précise.
- L‘ADN a une structure primaire formée de l!’enchaînement de 4 bases. Pour traduire l!’information ADN ==>
acides aminés, il faut donc au minimum un enchaînement de trois bases (codon) pour définir un acide aminé. Il
existe donc 64 possibilités.
Master 2007
lundi 24 mars 2008
18
19
ADN
Le transcriptome: entre le gène et la protéine
AAG CGC TTG CGC TGT ATG CGT CCG
TRANSCRIPTION
Recopie d!un brin où U à la place de T
ARN
primaire
MATURATION
ARN
messager
Epissage alternatif, …
AAAAAAAAAAAAAAAAAA…..AAAAA
Protéine
TRADUCTION
Expression d’un gene
AAG CGC UUG CGC UGU AUG CGU CCG
NOYAU
CYTOPLASME
AAUAAAAAAAAAAAAAAAAAAAAAA…..AAAAA
Ribosomes
Master 2007
lundi 24 mars 2008
19
….ACGTGGTTAAATCGTATGCTTAGCTACCCACGTGGTTAAATCGTATGCTTAGCTA
GTTACGTGGTTAAATCGTATGCTTAGCTAGCCACGTGGTTAAATCGTATGCTTAGCT
ATTTACGTGGTTAAATCGTATGCTTAGCTACGCACGTGGTTAAATCGTATGCTTAGC
TA………
20
ADN
•
Localisation: noyau de chaque cellule
•
Composition: Nucleotides
•
4 Types de Nucleotide Bases: A, G, C, T
•
Humain: 3 millions de kilobases ADN, 1 mètre
•
90% “Junk DNA”; 10% Genes
ARN
…..ACGTGGTTAAATCGTA……
….UGCACCAAUUUAGCAU……
•
•
T->U
Modifications
Protéines
•
•
•
lundi 24 mars 2008
3 Nucleotides "1 acide aminé
20 acides aminé
Modifications Post-traduction
Master 2007
20
21
Les types d’information biologique : les “omes” et outils associés
TCACTAC
GGGTCAG
GGGAAGG
AAAGGGG
AACTGAG
AGATTT..
Séquenceur
Génome
ADN
Puces
Transcriptome
UCACUAC
GGGUCAG
GGGAAGG
AAAGGGG
AACUGAG
AGAUUU..
Puces
ARN
régulation
Protéome
RTPCR
Electrophorèse
Protéines
enzymes
Métabolome
N
N
O
O
N
O
F60-64 env13 ZT50
es4075 MaxEnt 3 8 [Ev-36586,It50,En1] (0.050,200.00,0.200,1400.00,2,Cmp)
1: TOF MSMS 631.30ES+
ATP
N
O
O
O
O
(596.29)
F
G
%
O
L
(329.16)
Spectromètre
de masse
187.12
330.13
b
175.09
401.24
516.25
762.36
y1
932.44
1033.48
y3
825.42
1259.57
0
200
yMax
819.38
y2
312.12
O
O P O P O P O
N
201.11
100
400
600
800
1000
1200
lundi 24 mars 2008
M/z
21
22
Problemes algorithmiques et “omes” : le rôle de l'apprentissage automatique
Génome (l’ensemble du matériel génétique d'un individu ou d'une espèce.)
– Identifier, prédire les gènes dans une séquence (HMM)
– Aligner et comparer de séquences ex: BLAST (Basic Local Alignment Search Tool)
Expression Level
Expression Level
Expression Level
Transcriptome (l’ensemble des ARN messagers transcrits à partir du génome)
– Analyser l’expression des gènes différentiel. exprimés / conditions
Normale
Précancereuse
co-exprimés, Réseaux de régulation
des gènes
– Regrouper des gènes
Cancereuse
de gènes.
– IdentifierA laB fonction
C
A
B
C
A
B
C
Protéome (l'ensemble des protéines exprimés à partir du génome)
– Prédire de la structure secondaire, la fonction des protéines, …
– Analyser, mesurer l’expression en fonction des organes
Métabolome (l’ensemble des composés organiques (sucres, lipides, amino-acides, …)
– Analyser, visualiser, prédire, mesure des concentrations
lundi 24 mars 2008
22
23
APPRENTISSAGE ET GENOME
•
Les observations sont ordonnées
•
Un processus aléatoire peut être représenté par une machine à état
stochastique.
•
Evaluer la probabilité d!une séquence donnée étant donné le model
(Forward)
•
Trouver le chemin le plus probable dans un modèle étant donnée
une observation (Viterbi)
Master 2007
lundi 24 mars 2008
23
24
APPRENTISSAGE ET GENOME
•
Problème:
– Trouver les régions codantes (exons) et non-codantes (introns)
d!un brin d!AND. Les sites des “splice”: accepteur et donneurs
•
Application:
– Annotation de genes séquencés
– Compréhension des mécanismes de transcriptions, etc.
==> Apprentissage des paramètres à partir d!exemples (cf. Rätsch)
Master 2007
lundi 24 mars 2008
24
25
APPRENTISSAGE ET PROTEOME
http://io.uwinnipeg.ca/~simmons/cm1503/proteins.htm
Structure Primaire
–
–
Chaîne d’acides aminés
Chiralité (lévogyre(-),dextrogyre (+))
Structure Secondaire
#
Deux structures: Hélice Alpha, Feuillet Beta
H 20
H 20
H 20
H 20
H 20
H 20
H 20
H 20
H 20
Master 2007
lundi 24 mars 2008
26
25
Prédiction de la structure secondaire,
teriaire et quaternaire
#
Structure tertiaire
–
#
Structure 3D: Arrangement
séquentiel des structures
Structure quaternaire
–
–
Protéines avec plus d’une
chaîne
Arrangement des chaînes
Master 2007
lundi 24 mars 2008
26
27
Différentes classes à prédire
#
dont:
–
Alpha/Alpha
#
–
Beta/Beta
#
–
Roughly alternate alpha helices and beta sheets
Alpha+Beta
#
–
Mainly one or more beta sheets
Alpha/Beta
#
–
Mainly packing of alpha helices
Mixed alpha helices and beta
Coil
#
Mainly small proteins (fewer than 50 residues)
Master 2007
lundi 24 mars 2008
27
28
Tâche d’apprentissage
Format
lisible
–
–
–
–
Algorithme
d’apprentissage
Structure
Predictor
Déterminer la structure de la protéine est difficile -> prédiction
Nombreux algorithmes
CAPS : Comparative Assessment of Protein Structure Prediction
Prédiction à l’aveugle les chimistes ne publient pas leurs résultats et
les algorithmes sont comparés.
Master 2007
lundi 24 mars 2008
28
29
Etat de l’art
#
Prédiction de la structure secondaire
–
#
#
Alpha, Beta, Coil
Majority class predictor: 40%
Prediction est passée de 60%
–
–
–
–
avec des méthodes à bases de règles.
à 80% avec des approches ML
NN et SVM très bons
ILP aussi très performants
Master 2007
lundi 24 mars 2008
30
29
Des BD et encore des
BD…
•
Base de Données ADN
•
– GenBank, DDBJ, EMBL,…
•
Base de Données Protéines
– PIR, Swiss-Prot, PRF, GenPept,
TrEMBL, PDB,…
•
Base de Données EST
– dbEST, DOTS, UniGene, GIs,
STACK,…
•
Base de Données Structure
– MMDB, PDB, Swiss-3DIMAGE,…
•
•
– Prosite, Pfam, BLOCKS, TransFac,
PRINTS, URLs,…
•
Base de Données intégrées
Base de Données sur les maladies
– GeneCards, OMIM, OMIA,…
•
•
Base de Données taxonomique
Base de données littérature scient.
– PubMed, Medline,…
•
Base de données de brevets
– Apipa, CA-STN, IPN, USPTO, EPO,
Beilstein,…
Base de Données voies métabol.
– KEGG, BRITE, TRANSPATH,…
Base de Données de Motifs
•
Autres…
– RNA databases, QTL…
– SRS
Master 2007
lundi 24 mars 2008
30
31
Données en bioinformatique
• Explosion de la quantité de données (ADN 73 Gb,
arrivée des données biopuces, voies
métaboliques, …)
• Croissance exponentielle des données (11-15%
tous les 3 mois), plus traitable localement
• Données hétérogènes dans leur structure et leur
sémantique
• Systèmes d!information hétérogènes
• Beaucoup de connaissances cachées, privées ou
inconnues.
• …
Master 2007
lundi 24 mars 2008
31
32
Croissance des données dans GenBank
http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html
http://commons.wikimedia.org/wiki/Image:Growth_of_Genbank.svg
Master 2007
lundi 24 mars 2008
32
Les Défis
33
! Décoder l!information contenue dans les séquences d!ADN et de protéines
!
!
Trouver les gènes
Différencier entre introns et exons
!
!
!
Analyser les répétitions dans l!ADN
Identifier les sites des facteurs de transcription
Étudier l!évolution des génomes
! Génomique Comparative
!
Construire
les relations de parenté entre organismes
! Génomique fonctionnelle
!
!
Étudier l!expression des gènes
Étudier la régulation des gènes
!
Déterminer les réseaux d!interaction entre les protéines
! Génomique structurale:
!
Modéliser les structures 3D des protéines et des ARN structurels
!
Déterminer la relation entre structure et fonction
! Pharmacogénomique
Master 2007
lundi 24 mars 2008
33
Plan
34
I.
A) Généralités B) petite intro à la bioinformatique
II.
Une source de données: les BioPuces
III.
La fouille de données BioPuces
•
Clustering
•
Classification/Prediction
•
Feature Selection
IV. Conclusion
Master 2007
lundi 24 mars 2008
34
35
Transcriptome: perspective historique
Dans l’ère de la “post-génomique”: identifier la fonction des gènes
• Mécanisme d'hybridation de l!ADN (1960s)
•
«!un fragment d’ADN simple brin ou d’ARN messager
est capable de reconnaître son brin complémentaire
parmi des milliers d’autres: c’est le phénomène
d’hybridation!»
– Détection des hybrides
– Fixation sur les supports:
»Southern blots (1970s), Northern blots, Dot blots
Master 2007
lundi 24 mars 2008
35
36
Une (r)évolution ?
•La nouveauté (1990): passage à l!échelle
«!Il est devenu courant de déposer 20!000!préparations différentes
sur des membranes de Nylon de 20!centimètres de côté. La puce à
ADN (DNA chip ou biochip en anglais) résulte de l’évolution de ce
format vers une miniaturisation plus poussée, qui atteint une densité
de 250!000!unités réactionnelles par centimètre carré.!»
–centaines, milliers de sondes au lieu de 10
•Sondes sont attachées à des supports physiques
•La robotique est largement utilisée
•L!informatique joue un rôle clef dans toutes les étapes
Master 2007
lundi 24 mars 2008
36
Plan
37
A.
Les données BioPuces: du signal aux données brutes
B.
Stockage et standardisation des données
C.
Le traitement statistique des données
D.
Analyse et Fouille de données: Clustering
E.
Analyse et Fouille de données: Annotations
F.
Analyse et Fouille de données: Prédiction
Master 2007
lundi 24 mars 2008
37
38
Principales technologies
•
Sondes cDNA (> 200 nt) sur nylon ou verre
•
Oligonucleotides (25-50 nt) sur du verre
•
Oligonucleotides (25-60 nt) synthétisées in situ sur du silicon
•
(et d!autres puces chromosomiques, …)
Des puces possédant une unique opération: «!quantifier les transcrits!»
Biopuces Commercialisées (liste non exhaustives)
•
•
•
•
Clontech, Incyte, Research Genetics :
jusqu!à 8000 clones
Incyte / Synteni - Biopuces à 10000 sondes,
non distribuées (il faut envoyer l!ARN)
Affymetrix - Biopuce basée sur des oligon.
Ex: HG-U133A Affymetrix contient des sondes pour
22.000 gènes humain.
…
Master 2007
lundi 24 mars 2008
38
39
Un facteur limitant: le prix d’achat
Prix des puces Affymetrix GeneChip
(Prix 3 Mars 2008)
Chaque puce « GeneChip » représente entre 10,000 et
40,000 gènes différents ou EST.
Les prix ci-dessous tiennent compte d’un rabais …
•
•
•
* Rhesus Macaque Genome Array -""
"
$460
* Human Genome HG-U133 Plus 2.0 - " "
* Human Genome HG-U133A 2.0 - " "
"
$460
$310
* Murine Genome MOE 430 2.0 - "
* Murine Genome MOE 430A 2.0 - "
* Murine Genome MOE 430A -" "
* Murine Genome MOE 430B - "
"
"
"
"
"
"
"
$460
$310
$410
$410
* Rat Genome RAE 230 2.0 - " "
* Rat Genome RAE 230A - "
"
* Rat Genome RAE 230B - " "
"
"
"
"
"
"
$435
$385
$385
* C. elegans Genome Array "
* Canine Genome Array - ""
* Chicken Genome Array - "
* Drosophila Genome 2.0 - "
"
"
"
"
"
"
"
"
$310
$310
$ 435
$310
"
"
"
"
"
http://www.ohsu.edu/gmsr/amc/amc_price.html
Master 2007
lundi 24 mars 2008
39
40
Exemple: Analyse de la réponse à un VLCD
•
Hypothèse:
–
•
Matériels:
–
•
L!expression de certains gènes clés varie en réponse au changement de
l!environnement nutritionnel ou hormonal.
Données phénotypiques (investig. cliniques) et d!expression (Puces
pangénomiques (44000 ADNc)) au cours d!un régime hypocalorique.
Méthodes:
–
Analyse différentielle, exploratoire et prédictive des liens phénotype/
expression.
B
A
Données
génétiques
J0
J3
Données biopuces
Données cliniques
J30
Master 2007
lundi 24 mars 2008
40
41
… autres types d’analyse
•
Analyse de l!expression du génome pour caractériser
–
–
–
–
–
•
Effets de certains médicaments
Mécanismes de développement de maladie
Réponses à des facteurs environnementaux
Diagnostic moléculaire
Réseaux de régulations de gènes
Détection de variation de séquences
– Typage génétique
– Détection de mutations somatique
– Séquençage direct
Seule l’imagination des chercheurs
et leur budget
peut limiter le nombre d’analyses…
Master 2007
lundi 24 mars 2008
42
41
Etape 1: De l’artisanat à la fabrication en série de
puces
Clones d’ADN
PCR
Arraying
Figure de: David J. Duggan et al. (1999) Expression Profiling using cDNA microarrays. Nature Genetics 21: 10-14
Master 2007
lundi 24 mars 2008
42
43
Le calibrage du robot imprimeur
Puce: 25x75 mm
Spot-à-spot: 150-350 µm
Tweezer
Micro Spotting
Split Pin
Pin
secteur:
Un print-tip
URL: http://cmgm.stanford.edu/pbrown
Master 2007
lundi 24 mars 2008
44
43
Etape 2:
Hybridation
Test
Référence
RT
colorant
Fluorescent
Cy5 et Cy3
Hybridation
Master 2007
lundi 24 mars 2008
44
45
Le choix du plan d!expérience
Type I: Test/Référence Condi vs. condj ou avant/après
n=8
nbpuces=28
Type II: Pool de référence d’ARN (tissus-teque)
•
Tous les ARN de test sont comparés au même “pool” de référence.
•
Permet de réduire le nombre d!expérimentations comparatives pour n de 0.5 x (n2-n) à n
•
Le fait d!utiliser deux populations d!ARN en compétition et de mesurer le rapport d!hybridation
permet d!éviter les complications liés aux problèmes de cinétique de l!hybridation.
•
Permet de comparer des protocoles d!expérimentations
n=8
nbpuces=8
Série temporelles/Données appariées ou non
Master 2007
lundi 24 mars 2008
45
46
Etape 3: Le signal des puces
Laser 1
Laser 2
Excitation
Emission
Images
Master 2007
lundi 24 mars 2008
46
47
Mesure du ratio
Cy3
Cy5
Cy5
Cy3
log2
Cy5
Cy3
8
4
2
fois
2
4
8
Sousexprimé
relative to
reference pool
Surexprimé
Master 2007
lundi 24 mars 2008
47
48
Le principe des puces : photographie de l’expression génique
ARN de
Contrôle
Cy3
Mesure de
la fluorescence
rouge/verte
Scan
ARN à
tester
Cy5
Hybridisation,
Nettoyage
Expériences
• Protocols (Type I ou Type II, “dye-swap”, replication)
• Quality of RNA used
• Technology of the chips (cDNA, oligo, …)
• Chip batches
• Hybrudizatiion (conditions and technician)
• Scan (software and technician)
• Number of chips
lundi 24 mars 2008
40 000 Gènes
Key factor of variability/precision:
Analyse des
profils
D’expression
48
49
Taille des Bases de Données
Ex: VLCD
49
40000
cDNA
Clement, et al.
Master 2007
lundi 24 mars 2008
49
Plan
50
I.
A) Généralités B) petite intro à la bioinformatique
II.
Une source de données: les BioPuces
III.
La fouille de données BioPuces
•
Clustering
•
Classification/Prediction
•
Feature Selection
IV. Conclusion, Projets...
Master 2007
lundi 24 mars 2008
50
51
Genes
Regrouper des gènes ayant le meme profil d’expression
Experiments
Master 2007
lundi 24 mars 2008
51
52
Classification Ascendante Hiérarchique (Cluster [Eisen,98])
distance(X, Y)
Temps ou conditions
Genes
X
Y
distance(D,E)
lundi 24 mars 2008
Master 2007
52
53
Regrouper des gènes ayant le meme profil d’expression (II)
Genes
Temps ou conditions
Cluster A
Cluster B
Cluster C
Cluster D
Cluster E
Master 2007
lundi 24 mars 2008
54
53
Algorithmes de Clustering
•
Hiérarchique
– single linkage method
– complete linkage method
– average linkage method
•
Non-hiérarchique
– k-means method
Master 2007
lundi 24 mars 2008
54
55
Le “clustering” est un problème mal pose…
… mais on peut apprendre à un ordinateur le
type de clustering que l’on désire.
Idée des articles présentés :
) comment apprendre à clusteriser
Master 2007
lundi 24 mars 2008
56
55
Algorithmes de Clustering basés
•
Similarité
– corrélation
•
Distance
– Euclidienne
– Manhattan Minkowski
Master 2007
lundi 24 mars 2008
56
57
Algorithme Hierarchique (principe 1/)
Master 2007
lundi 24 mars 2008
58
57
Algorithme Hierarchique (principe 2/)
•
Single linkage method
1
min(dij)=d35=2
2
3
4
5
1
2
3
4
5
Master 2007
lundi 24 mars 2008
58
59
Algorithme Hierarchique (principe 3/)
•
Single linkage method
d(35)1=min(d31,d51)=min(3,11)=3
d(35)2=min(d32,d52)=min(7,10)=7
d(35)4=min(d34,d54)=min(9, 8)=8
(35)
1
2
4
(35)
1
2
4
(135)
d(135)2=min[d(35)2,d12]=min(7,9)=7
(135)
d(135)4=min[d(35)4,d14]=min(8,6)=6
4
2
4
2
Master 2007
lundi 24 mars 2008
59
60
Algorithme Hierarchique (principe 4/)
•
Single linkage method
d(135)(24)=min[d(135)2,d(135)4]=min(7,6)=6
(135) (24)
(135)
(24)
Master 2007
lundi 24 mars 2008
60
61
B) Classification Non-hierarchique
•
méthode des K-moyennes
– 2 clusters initiaux : (AB),(CD)
– d2(A,(AB))=10
– d2(A,(CD))=61
– d2(B,(AB))=10
– d2(B,(CD))=9
– A,(BCD)
Master 2007
lundi 24 mars 2008
62
61
Carte Auto-Organisatrice: Self-organization maps
(SOM)
(Kohonen, 1982)
mi(t+1)=mi(t)+hci(t)[x(t)-mi(t)]
where, t is the time index,
hci(t)=f(||rc-ri||,t),
ri and rc are the location
of node c and I.
(Tamayo et al. PNAS, 1999)
Cartes de Kohonen
Master 2007
lundi 24 mars 2008
62
Plan
63
I.
A) Généralités B) petite intro à la bioinformatique
II.
Une source de données: les BioPuces
III.
La fouille de données BioPuces
•
Clustering
•
Classification/Prediction
•
Feature Selection
IV. Conclusion, Projets...
Master 2007
lundi 24 mars 2008
63
64
Classer et Prédire: algorithmes
•
But : utiliser les données d!expression pour construire des
modèles prédictifs ou des classeurs (par ex: arbre de décisions,,
réseaux de neurones)
•
Difficultés: peu d!exemples (conditions), souvent < 100,
beaucoup d!attributs (gènes), souvent > 1,000
•
Problématique d’apprentissage et statistique [MLJ, 2003]:
!
réduction de dimensions (sélection de genes)
adapter les algorithmes
Réseaux de neurones
Machine à vecteurs de support (SVM)
Arbre de décision
Random Forest
Arbre de régression
K plus proche voisins
Environnement: R, Bioconductor, Clémentine©, SAS©, MeV, BRB, TIGR©
Master 2007
lundi 24 mars 2008
64
65
Analyse pour la Classification et
• Problème: Construire des modèles pour la prédiction et classification à partir de données
d’expression.
A
B
Cancereuse
A
C
B
Expression Level
Précancereuse
Expression Level
Normale
Expression Level
• Utilisation : Identification de gènes cibles (prédicteurs),
Modèle prédictifs (d’un risque), Modèle de classification (traitement)
A
C
B
C
A
lundi 24 mars 2008
C<
0.9
C > 0.9
C
Master 2007
65
66
Construction automatique de classfieurs
Données
d’apprentissage
(classées)
Prediction
Règles de
classification
Algorithme
de classification
Données non
classées
Une classe
Apprentissage
d’une règle de classification
Master 2007
lundi 24 mars 2008
66
67
Données d’apprentissage
Classes
prédéfinies
“Diagnostic
clinique”
Mauais prognostic
recurrence < 5ans
Bon Prognostic
recurrence > 5ans
?
Bon prognostic
Objets
BioPuces
Feature vectors
L’expression des
gènes de la puce
Nouvelle
puce
Reference
L van’t Veer et al (2002) Gene expression
profiling predicts clinical outcome of breast
cancer. Nature, Jan.
Règles de
classification
Master 2007
lundi 24 mars 2008
68
67
Données d’apprentissage
Classes
prédéfinies
“type de tumeurs”
B-ALL
T-ALL
AML
T-ALL
?
Nouvelle
puces
Reference
Golub et al (1999) Molecular classification of cancer: class
discovery and class prediction by gene expression monitoring.
Science 286(5439): 531-537.
Règles de
classification
Master 2007
lundi 24 mars 2008
68
69
Données d’apprentissage
Classes
prédéfinies
“Perte de poids
après 30 jours”
faible
moyenne
Perte
moyenne
?
à J30
forte
Objets
BioPuces
Feature vectors
L’expression des
gènes de la puce
à J3
Nouvelle
puces
à J3
6th framework
DioGenes : Diet, obesity and genes
Basé sur NUGENOB (5th framework)
Règles de
classification
Master 2007
lundi 24 mars 2008
69
70
3) Les algorithmes: a) interpretables
Gene 1
Mi1 < -0.67
yes
Gene 2
0
no
Gene 2
Mi2 > 0.18
2
yes
no
0
1
2
0.18
Gene 1
1
-0.67
Master 2007
lundi 24 mars 2008
70
71
3) Les algorithmes: b) “paresseux” k-PPV
Master 2007
lundi 24 mars 2008
71
72
3) Les algorithmes: d) approches statistiques
[DLDA]
Diagonal linear discriminant analysis
[DQDA]
Diagonal quadratic discriminant analysis
NB: Vote pondéré dans Golub et al. (1999) est une variante de DLDA dans le cas biclasses
Master 2007
lundi 24 mars 2008
72
73
Bases d’apprentissage de la littérature
Nombre d’attributs = O( [NB exemples]2)
!"#"$%#
!"#$%"&'%
12"%34
12"%34
89:;6,
<=">?@%2@'>?&%
12%'>
9?A?>
!B&CD?&%
E2?34%4"
F2G@4
01'(23#$4
&'()(*"+,-%./
%*%$
())*
+,-.
(5*
)/65
(5*
)/65
(6.*
-0))
(60*
5/6/
(6+*
--57
(6)*
0,,,
(6-*
),06
(66*
6,++
(67*
0+,/
56%78+%$
9":%*#$
+/
7/
56
6.
76
)0
60
60
.,0
6+
;+"$$%$
0
0
+
/
0
0
+
0
)
lundi 24 mars 2008
73
Résultats d’apprentissage sur ces bases
[Díaz-Uriarte,2006]
lundi 24 mars 2008
74
75
Problématique pour l’apprentissage
Peu d’exemple (50-100 biopuces)
Nombreux d’attributs (2,000-40,000 gènes)
Une majorité d’attributs non pertinents
« Malédiction de la dimension »
Performances des classeurs dégradées
Modèles très complexes
Temps de calcul importants
Interprétation biologique difficile
Réduction de dimension nécessaire (
(ROC
[Mamitzuka, 2006, Pattern Recognition], Incremental Wrapper [Ruiz et al. 2006],
Revue [Guyon & Elisseeff, JMLR2003])
3 types de méthodes dans le contexte des biopuces (Filter, Wrapper,
Reformulation)
Probleme des estimateurs...
lundi 24 mars 2008
75
Plan
76
I.
A) Généralités B) petite intro à la bioinformatique
II.
Une source de données: les BioPuces
III.
La fouille de données BioPuces
•
Clustering
•
Classification/Prediction
•
Feature Selection
IV. Conclusion...
Master 2007
lundi 24 mars 2008
76
77
Génomique Fonctionnelle/transcriptomique
• Une hypothèse: l’approche «!pangénomique!» plutot que «!gène candidat!»
• Le défis biotechnologique: mesurer simultanément l’expression de
milliers de genes (ou tous les gènes) —> les puces à ADN
• Les défis biologiques et médicaux:
"
• Découvrir les fonctions des gènes d’après l’expressions.
"
• Elucider les voies métabolique à partir de l’expression des gènes.
"
• … aider au diagnostique
• Les directions de recherche en bioinformatique du transcriptome:
"
• Analyse de données différentielles. Tests multiples (FDR)
"
"
• Représentation des données d’expression et normalisation.
• Outils de visualisation.
• Fouille de données. Analyse de données exploratoires.
• Intégration de bases de données, de connaissances, d’ontologies, …
Master 2007
lundi 24 mars 2008
77
78
Master 2007
lundi 24 mars 2008
78
79
Conclusions: un long et lourd processus d’analyse
•
Technologie dans une ère de maturité
•
Variabilité expérimentale très forte mais force du parallélisme. Importance des réplications
biologiques.
•
Nécessité de stocker (standard) tous les résultats intermédiaires.
•
Problématiques de recherche: statistique (multiplicité), réduction de dim. (sélection de gènes),
prédiction (algorithmes adaptées), modélisation des réseaux de régulations, visualisation, BD, …
•
Interprétation des listes de gènes requiert des connaissances.
•
Prédiction requiert toujours plus de biopuces.
•
Validations biologiques restent indispensables (ex: RT-PCR)
•
Complémentaire de toutes les autres méthodes d!investigation
http://videolectures.net/mlsb07_evry/
Master 2007
lundi 24 mars 2008
79
Téléchargement