1 Introduction à la fouille de données en BioInformatique Master EID 2008 Cours MASTER EID-P13 2008 Jean-Daniel Zucker DR à l’IRD UR GEODES (Modèlisation Mathématiques Et Informatiques des Systèmes Complexes) UMR U872 Eq. 7 INSERM Master 2007 lundi 24 mars 2008 1 2 I. A) Généralités et rappels Plan B) petite intro à la bioinformatique II. Une source de données: les BioPuces III. La fouille de données BioPuces • Clustering • Classification/Prediction • Feature Selection IV. Conclusion http://videolectures.net Master 2007 lundi 24 mars 2008 2 3 Agents autonomes http://www.darpa.mil/grandchallenge/rules.asp 150 mile off-road robot race across the Mojave desert Natural and manmade hazards No driver, no remote control No dynamic passing Fastest vehicle wins the race (and 2 million dollar prize) Master 2007 lundi 24 mars 2008 3 4 Grand DARPA challenge (2005) •Tâche: apprendre le programme de conduite en temps réel Master 2007 lundi 24 mars 2008 4 5 Grand DARPA challenge (2005) Top three finishers to receive $2 million, $1 million and $500,000 prizes. (12/8/06) Master 2007 lundi 24 mars 2008 5 6 Etude d’une cohorte de 295 cancers du sein avec/sans métastase ganglionnaire (Vijver et al., NEJM, décembre 2002) Années 70 gènes: «!prognosis classifier genes!» des données (2/2) Le risque de métastase est x15 pour les profils «!mauvais pronostic!» p=0.003 11/12/06 lundi 24 mars 2008 6 7 Types d’apprentissages 1. Apprentissage supervisé prédiction/régression/classification apprentissage de paramètres 2. Apprentissage non-supervisé regroupement (clustering) 3. Apprentissage par renforcement planification dans monde inconnu supervision par l’environnement Master 2007 lundi 24 mars 2008 7 8 Formulation du problème d’apprentissage supervisé Learning – Problem Formulation I ··· natural +1 plastic -1 natural plastic +1 Le ‘Monde’: Donnees: Fonction cible inconnue: Distribution inconnue: But: -1 ? d {(xn, yn)}N n=1 , xn ∈ R , yn ∈ {±1} y = f (x) (or y ∼ P (y|x)) x ∼ p(x) Etant donne n nouvel x, predire y Probleme: P (x, y) est inconnu! RŐunion Geodes . lundi 24 mars 2008 JD Zucker: An Introduction to Boosting. Master 2007 Part I (Basic Issues), Page 4 8 9 Formulation du problème d’apprentissage supervisé • Si f est une fonction continue – Régression (ex: durée de vie d!un malade) – Estimation de densité • Si f est une fonction discrète – Classification (ex: niveau de gravité) • Si f est une fonction binaire (booléenne) – Apprentissage de concept (ex: rechute oui/non plastic: oui/non) Master 2007 lundi 24 mars 2008 9 10 Formulation du problème d’apprentissage supervisé Learning – Problem Formulation II Le ‘Modèle’ ! " Espace des Hypotheses: H = h | h : Rd → {±1} Fonction de perte: l(y, h(x)) (par ex. I[y "= h(x)]) But: Minimiser la vraie (attendue) perte – “erreur en generalisation” h∗ = argmin L(h) with L(h) := EX×Y l(Y, h(X)) h∈H Probleme: on a qu’un echantillon de donnees disponible, P (x, y) inconnue! Solution: Trouver un minimiseur empirique N 1 # ĥN = argmin l(yn, h(xn)) N n=1 h∈H Comment construire efficacement des hypotheses complexes de faible erreur en generalisation ? RŐunion Geodes . JD Zucker: An Introduction to Boosting. Part I (Basic Issues), Page 5 Master 2007 lundi 24 mars 2008 10 11 Exemples de fonctions de perte • Discrimination "0 si uyii = h(xi ) l (h(xi ), yuii ) = # $1 si uyii ! h(xi ) • Régression l (h(xi ), uyii) = [h(xi ) ! uyii] • 2 Estimation de densité l (h(xi )) = ! ln h(xi ) Master 2007 lundi 24 mars 2008 11 Plan 12 I. A) Généralités B) petite intro à la bioinformatique II. Une source de données: les BioPuces III. La fouille de données BioPuces • Clustering • Classification/Prediction • Feature Selection IV. Conclusion Master 2007 lundi 24 mars 2008 12 13 Qu’est-ce que la Bio-Informatique? Champs multi-disciplinaire qui utilise des méthodes informatiques (mathématiques, statistiques, combinatoires…) pour: ! Formaliser des problèmes de biologie moléculaire; ! Concevoir des solutions computationelles à la portée des machines, ! Développer et valider des outils; ! Analyser, structurer, comparer, traiter les information biologiques ! Stocker, accéder, filtrer ces informations ! Modéliser des processus biologiques ! Prédire des résultats biologiques; etc. Discipline relativement nouvelle, qui évolue en fonction des nouveaux problèmes posés par la biologie moléculaire. Master 2007 lundi 24 mars 2008 13 14 Une définition • La bioinformatique est une science interdisciplinaire – Analyser l'info. biologique disponible et produire de nouvelles K. – Propose et développe des modèles, des méthodes et des outils – Requiert des K. en mathématique, en informatique et en biologie. (Introduction à la bioinformatique Cynthia Gibas & Per Jambeck , O’Reilly.) Langage: BIOPERL Algorithmique : ex. Algo Appariement BLAST Réseaux : ex. Grille de calcul GBIO BD: ex: NCBI (1988 Nat. Res. Mol. Biol) Modèlisation: Réseaux de régulations Equa Diff. IA: Prédiction de gènes lundi 24 mars 2008 Master 2007 14 15 l'étymologie de chromosome: chromo = couleur et soma = corps: des corps colorables Niveaux de l’information biologique Noyau Cellule Chromosome Protéine Gene (ARNm), Simple brin Gene (ADN) National Human Genome Research Institute Master 2007 lundi 24 mars 2008 16 15 Quelles Types d’informations: «omes» ? Génome (l!ensemble du matériel génétique d'un individu ou d'une espèce.) Transcriptome (l’ensemble des ARN messagers transcrits à partir du génome) Protéome (l'ensemble des protéines exprimés à partir du génome) Métabolome (l’ensemble des composés organiques (sucres, lipides, amino-acides, …) Bioinformatics in the Post-Genomic Era: Genome, Transcriptome, Proteome, and Information-Based Medicine Master 2007 lundi 24 mars 2008 16 17 Structure d’un gène codant une protéine Début de la transcription - 25 - 30 5!’ 3!’ TATA Région 5!’ régulatrice : promoteur Partie transcrite Exons: séquences retouvées dans l’ARNm Introns: séquences transcrites puis éliminées (épissage) Séquences exoniques retrouvées dans l’ARNm mais non traduites Master 2007 lundi 24 mars 2008 17 18 Traduction : le code génétique (de l’ARN) - Les protéines sont formées de 20 acides aminés différents qui s!’enchaînent de façon bien précise. - L‘ADN a une structure primaire formée de l!’enchaînement de 4 bases. Pour traduire l!’information ADN ==> acides aminés, il faut donc au minimum un enchaînement de trois bases (codon) pour définir un acide aminé. Il existe donc 64 possibilités. Master 2007 lundi 24 mars 2008 18 19 ADN Le transcriptome: entre le gène et la protéine AAG CGC TTG CGC TGT ATG CGT CCG TRANSCRIPTION Recopie d!un brin où U à la place de T ARN primaire MATURATION ARN messager Epissage alternatif, … AAAAAAAAAAAAAAAAAA…..AAAAA Protéine TRADUCTION Expression d’un gene AAG CGC UUG CGC UGU AUG CGU CCG NOYAU CYTOPLASME AAUAAAAAAAAAAAAAAAAAAAAAA…..AAAAA Ribosomes Master 2007 lundi 24 mars 2008 19 ….ACGTGGTTAAATCGTATGCTTAGCTACCCACGTGGTTAAATCGTATGCTTAGCTA GTTACGTGGTTAAATCGTATGCTTAGCTAGCCACGTGGTTAAATCGTATGCTTAGCT ATTTACGTGGTTAAATCGTATGCTTAGCTACGCACGTGGTTAAATCGTATGCTTAGC TA……… 20 ADN • Localisation: noyau de chaque cellule • Composition: Nucleotides • 4 Types de Nucleotide Bases: A, G, C, T • Humain: 3 millions de kilobases ADN, 1 mètre • 90% “Junk DNA”; 10% Genes ARN …..ACGTGGTTAAATCGTA…… ….UGCACCAAUUUAGCAU…… • • T->U Modifications Protéines • • • lundi 24 mars 2008 3 Nucleotides "1 acide aminé 20 acides aminé Modifications Post-traduction Master 2007 20 21 Les types d’information biologique : les “omes” et outils associés TCACTAC GGGTCAG GGGAAGG AAAGGGG AACTGAG AGATTT.. Séquenceur Génome ADN Puces Transcriptome UCACUAC GGGUCAG GGGAAGG AAAGGGG AACUGAG AGAUUU.. Puces ARN régulation Protéome RTPCR Electrophorèse Protéines enzymes Métabolome N N O O N O F60-64 env13 ZT50 es4075 MaxEnt 3 8 [Ev-36586,It50,En1] (0.050,200.00,0.200,1400.00,2,Cmp) 1: TOF MSMS 631.30ES+ ATP N O O O O (596.29) F G % O L (329.16) Spectromètre de masse 187.12 330.13 b 175.09 401.24 516.25 762.36 y1 932.44 1033.48 y3 825.42 1259.57 0 200 yMax 819.38 y2 312.12 O O P O P O P O N 201.11 100 400 600 800 1000 1200 lundi 24 mars 2008 M/z 21 22 Problemes algorithmiques et “omes” : le rôle de l'apprentissage automatique Génome (l’ensemble du matériel génétique d'un individu ou d'une espèce.) – Identifier, prédire les gènes dans une séquence (HMM) – Aligner et comparer de séquences ex: BLAST (Basic Local Alignment Search Tool) Expression Level Expression Level Expression Level Transcriptome (l’ensemble des ARN messagers transcrits à partir du génome) – Analyser l’expression des gènes différentiel. exprimés / conditions Normale Précancereuse co-exprimés, Réseaux de régulation des gènes – Regrouper des gènes Cancereuse de gènes. – IdentifierA laB fonction C A B C A B C Protéome (l'ensemble des protéines exprimés à partir du génome) – Prédire de la structure secondaire, la fonction des protéines, … – Analyser, mesurer l’expression en fonction des organes Métabolome (l’ensemble des composés organiques (sucres, lipides, amino-acides, …) – Analyser, visualiser, prédire, mesure des concentrations lundi 24 mars 2008 22 23 APPRENTISSAGE ET GENOME • Les observations sont ordonnées • Un processus aléatoire peut être représenté par une machine à état stochastique. • Evaluer la probabilité d!une séquence donnée étant donné le model (Forward) • Trouver le chemin le plus probable dans un modèle étant donnée une observation (Viterbi) Master 2007 lundi 24 mars 2008 23 24 APPRENTISSAGE ET GENOME • Problème: – Trouver les régions codantes (exons) et non-codantes (introns) d!un brin d!AND. Les sites des “splice”: accepteur et donneurs • Application: – Annotation de genes séquencés – Compréhension des mécanismes de transcriptions, etc. ==> Apprentissage des paramètres à partir d!exemples (cf. Rätsch) Master 2007 lundi 24 mars 2008 24 25 APPRENTISSAGE ET PROTEOME http://io.uwinnipeg.ca/~simmons/cm1503/proteins.htm Structure Primaire – – Chaîne d’acides aminés Chiralité (lévogyre(-),dextrogyre (+)) Structure Secondaire # Deux structures: Hélice Alpha, Feuillet Beta H 20 H 20 H 20 H 20 H 20 H 20 H 20 H 20 H 20 Master 2007 lundi 24 mars 2008 26 25 Prédiction de la structure secondaire, teriaire et quaternaire # Structure tertiaire – # Structure 3D: Arrangement séquentiel des structures Structure quaternaire – – Protéines avec plus d’une chaîne Arrangement des chaînes Master 2007 lundi 24 mars 2008 26 27 Différentes classes à prédire # dont: – Alpha/Alpha # – Beta/Beta # – Roughly alternate alpha helices and beta sheets Alpha+Beta # – Mainly one or more beta sheets Alpha/Beta # – Mainly packing of alpha helices Mixed alpha helices and beta Coil # Mainly small proteins (fewer than 50 residues) Master 2007 lundi 24 mars 2008 27 28 Tâche d’apprentissage Format lisible – – – – Algorithme d’apprentissage Structure Predictor Déterminer la structure de la protéine est difficile -> prédiction Nombreux algorithmes CAPS : Comparative Assessment of Protein Structure Prediction Prédiction à l’aveugle les chimistes ne publient pas leurs résultats et les algorithmes sont comparés. Master 2007 lundi 24 mars 2008 28 29 Etat de l’art # Prédiction de la structure secondaire – # # Alpha, Beta, Coil Majority class predictor: 40% Prediction est passée de 60% – – – – avec des méthodes à bases de règles. à 80% avec des approches ML NN et SVM très bons ILP aussi très performants Master 2007 lundi 24 mars 2008 30 29 Des BD et encore des BD… • Base de Données ADN • – GenBank, DDBJ, EMBL,… • Base de Données Protéines – PIR, Swiss-Prot, PRF, GenPept, TrEMBL, PDB,… • Base de Données EST – dbEST, DOTS, UniGene, GIs, STACK,… • Base de Données Structure – MMDB, PDB, Swiss-3DIMAGE,… • • – Prosite, Pfam, BLOCKS, TransFac, PRINTS, URLs,… • Base de Données intégrées Base de Données sur les maladies – GeneCards, OMIM, OMIA,… • • Base de Données taxonomique Base de données littérature scient. – PubMed, Medline,… • Base de données de brevets – Apipa, CA-STN, IPN, USPTO, EPO, Beilstein,… Base de Données voies métabol. – KEGG, BRITE, TRANSPATH,… Base de Données de Motifs • Autres… – RNA databases, QTL… – SRS Master 2007 lundi 24 mars 2008 30 31 Données en bioinformatique • Explosion de la quantité de données (ADN 73 Gb, arrivée des données biopuces, voies métaboliques, …) • Croissance exponentielle des données (11-15% tous les 3 mois), plus traitable localement • Données hétérogènes dans leur structure et leur sémantique • Systèmes d!information hétérogènes • Beaucoup de connaissances cachées, privées ou inconnues. • … Master 2007 lundi 24 mars 2008 31 32 Croissance des données dans GenBank http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html http://commons.wikimedia.org/wiki/Image:Growth_of_Genbank.svg Master 2007 lundi 24 mars 2008 32 Les Défis 33 ! Décoder l!information contenue dans les séquences d!ADN et de protéines ! ! Trouver les gènes Différencier entre introns et exons ! ! ! Analyser les répétitions dans l!ADN Identifier les sites des facteurs de transcription Étudier l!évolution des génomes ! Génomique Comparative ! Construire les relations de parenté entre organismes ! Génomique fonctionnelle ! ! Étudier l!expression des gènes Étudier la régulation des gènes ! Déterminer les réseaux d!interaction entre les protéines ! Génomique structurale: ! Modéliser les structures 3D des protéines et des ARN structurels ! Déterminer la relation entre structure et fonction ! Pharmacogénomique Master 2007 lundi 24 mars 2008 33 Plan 34 I. A) Généralités B) petite intro à la bioinformatique II. Une source de données: les BioPuces III. La fouille de données BioPuces • Clustering • Classification/Prediction • Feature Selection IV. Conclusion Master 2007 lundi 24 mars 2008 34 35 Transcriptome: perspective historique Dans l’ère de la “post-génomique”: identifier la fonction des gènes • Mécanisme d'hybridation de l!ADN (1960s) • «!un fragment d’ADN simple brin ou d’ARN messager est capable de reconnaître son brin complémentaire parmi des milliers d’autres: c’est le phénomène d’hybridation!» – Détection des hybrides – Fixation sur les supports: »Southern blots (1970s), Northern blots, Dot blots Master 2007 lundi 24 mars 2008 35 36 Une (r)évolution ? •La nouveauté (1990): passage à l!échelle «!Il est devenu courant de déposer 20!000!préparations différentes sur des membranes de Nylon de 20!centimètres de côté. La puce à ADN (DNA chip ou biochip en anglais) résulte de l’évolution de ce format vers une miniaturisation plus poussée, qui atteint une densité de 250!000!unités réactionnelles par centimètre carré.!» –centaines, milliers de sondes au lieu de 10 •Sondes sont attachées à des supports physiques •La robotique est largement utilisée •L!informatique joue un rôle clef dans toutes les étapes Master 2007 lundi 24 mars 2008 36 Plan 37 A. Les données BioPuces: du signal aux données brutes B. Stockage et standardisation des données C. Le traitement statistique des données D. Analyse et Fouille de données: Clustering E. Analyse et Fouille de données: Annotations F. Analyse et Fouille de données: Prédiction Master 2007 lundi 24 mars 2008 37 38 Principales technologies • Sondes cDNA (> 200 nt) sur nylon ou verre • Oligonucleotides (25-50 nt) sur du verre • Oligonucleotides (25-60 nt) synthétisées in situ sur du silicon • (et d!autres puces chromosomiques, …) Des puces possédant une unique opération: «!quantifier les transcrits!» Biopuces Commercialisées (liste non exhaustives) • • • • Clontech, Incyte, Research Genetics : jusqu!à 8000 clones Incyte / Synteni - Biopuces à 10000 sondes, non distribuées (il faut envoyer l!ARN) Affymetrix - Biopuce basée sur des oligon. Ex: HG-U133A Affymetrix contient des sondes pour 22.000 gènes humain. … Master 2007 lundi 24 mars 2008 38 39 Un facteur limitant: le prix d’achat Prix des puces Affymetrix GeneChip (Prix 3 Mars 2008) Chaque puce « GeneChip » représente entre 10,000 et 40,000 gènes différents ou EST. Les prix ci-dessous tiennent compte d’un rabais … • • • * Rhesus Macaque Genome Array -"" " $460 * Human Genome HG-U133 Plus 2.0 - " " * Human Genome HG-U133A 2.0 - " " " $460 $310 * Murine Genome MOE 430 2.0 - " * Murine Genome MOE 430A 2.0 - " * Murine Genome MOE 430A -" " * Murine Genome MOE 430B - " " " " " " " " $460 $310 $410 $410 * Rat Genome RAE 230 2.0 - " " * Rat Genome RAE 230A - " " * Rat Genome RAE 230B - " " " " " " " " $435 $385 $385 * C. elegans Genome Array " * Canine Genome Array - "" * Chicken Genome Array - " * Drosophila Genome 2.0 - " " " " " " " " " $310 $310 $ 435 $310 " " " " " http://www.ohsu.edu/gmsr/amc/amc_price.html Master 2007 lundi 24 mars 2008 39 40 Exemple: Analyse de la réponse à un VLCD • Hypothèse: – • Matériels: – • L!expression de certains gènes clés varie en réponse au changement de l!environnement nutritionnel ou hormonal. Données phénotypiques (investig. cliniques) et d!expression (Puces pangénomiques (44000 ADNc)) au cours d!un régime hypocalorique. Méthodes: – Analyse différentielle, exploratoire et prédictive des liens phénotype/ expression. B A Données génétiques J0 J3 Données biopuces Données cliniques J30 Master 2007 lundi 24 mars 2008 40 41 … autres types d’analyse • Analyse de l!expression du génome pour caractériser – – – – – • Effets de certains médicaments Mécanismes de développement de maladie Réponses à des facteurs environnementaux Diagnostic moléculaire Réseaux de régulations de gènes Détection de variation de séquences – Typage génétique – Détection de mutations somatique – Séquençage direct Seule l’imagination des chercheurs et leur budget peut limiter le nombre d’analyses… Master 2007 lundi 24 mars 2008 42 41 Etape 1: De l’artisanat à la fabrication en série de puces Clones d’ADN PCR Arraying Figure de: David J. Duggan et al. (1999) Expression Profiling using cDNA microarrays. Nature Genetics 21: 10-14 Master 2007 lundi 24 mars 2008 42 43 Le calibrage du robot imprimeur Puce: 25x75 mm Spot-à-spot: 150-350 µm Tweezer Micro Spotting Split Pin Pin secteur: Un print-tip URL: http://cmgm.stanford.edu/pbrown Master 2007 lundi 24 mars 2008 44 43 Etape 2: Hybridation Test Référence RT colorant Fluorescent Cy5 et Cy3 Hybridation Master 2007 lundi 24 mars 2008 44 45 Le choix du plan d!expérience Type I: Test/Référence Condi vs. condj ou avant/après n=8 nbpuces=28 Type II: Pool de référence d’ARN (tissus-teque) • Tous les ARN de test sont comparés au même “pool” de référence. • Permet de réduire le nombre d!expérimentations comparatives pour n de 0.5 x (n2-n) à n • Le fait d!utiliser deux populations d!ARN en compétition et de mesurer le rapport d!hybridation permet d!éviter les complications liés aux problèmes de cinétique de l!hybridation. • Permet de comparer des protocoles d!expérimentations n=8 nbpuces=8 Série temporelles/Données appariées ou non Master 2007 lundi 24 mars 2008 45 46 Etape 3: Le signal des puces Laser 1 Laser 2 Excitation Emission Images Master 2007 lundi 24 mars 2008 46 47 Mesure du ratio Cy3 Cy5 Cy5 Cy3 log2 Cy5 Cy3 8 4 2 fois 2 4 8 Sousexprimé relative to reference pool Surexprimé Master 2007 lundi 24 mars 2008 47 48 Le principe des puces : photographie de l’expression génique ARN de Contrôle Cy3 Mesure de la fluorescence rouge/verte Scan ARN à tester Cy5 Hybridisation, Nettoyage Expériences • Protocols (Type I ou Type II, “dye-swap”, replication) • Quality of RNA used • Technology of the chips (cDNA, oligo, …) • Chip batches • Hybrudizatiion (conditions and technician) • Scan (software and technician) • Number of chips lundi 24 mars 2008 40 000 Gènes Key factor of variability/precision: Analyse des profils D’expression 48 49 Taille des Bases de Données Ex: VLCD 49 40000 cDNA Clement, et al. Master 2007 lundi 24 mars 2008 49 Plan 50 I. A) Généralités B) petite intro à la bioinformatique II. Une source de données: les BioPuces III. La fouille de données BioPuces • Clustering • Classification/Prediction • Feature Selection IV. Conclusion, Projets... Master 2007 lundi 24 mars 2008 50 51 Genes Regrouper des gènes ayant le meme profil d’expression Experiments Master 2007 lundi 24 mars 2008 51 52 Classification Ascendante Hiérarchique (Cluster [Eisen,98]) distance(X, Y) Temps ou conditions Genes X Y distance(D,E) lundi 24 mars 2008 Master 2007 52 53 Regrouper des gènes ayant le meme profil d’expression (II) Genes Temps ou conditions Cluster A Cluster B Cluster C Cluster D Cluster E Master 2007 lundi 24 mars 2008 54 53 Algorithmes de Clustering • Hiérarchique – single linkage method – complete linkage method – average linkage method • Non-hiérarchique – k-means method Master 2007 lundi 24 mars 2008 54 55 Le “clustering” est un problème mal pose… … mais on peut apprendre à un ordinateur le type de clustering que l’on désire. Idée des articles présentés : ) comment apprendre à clusteriser Master 2007 lundi 24 mars 2008 56 55 Algorithmes de Clustering basés • Similarité – corrélation • Distance – Euclidienne – Manhattan Minkowski Master 2007 lundi 24 mars 2008 56 57 Algorithme Hierarchique (principe 1/) Master 2007 lundi 24 mars 2008 58 57 Algorithme Hierarchique (principe 2/) • Single linkage method 1 min(dij)=d35=2 2 3 4 5 1 2 3 4 5 Master 2007 lundi 24 mars 2008 58 59 Algorithme Hierarchique (principe 3/) • Single linkage method d(35)1=min(d31,d51)=min(3,11)=3 d(35)2=min(d32,d52)=min(7,10)=7 d(35)4=min(d34,d54)=min(9, 8)=8 (35) 1 2 4 (35) 1 2 4 (135) d(135)2=min[d(35)2,d12]=min(7,9)=7 (135) d(135)4=min[d(35)4,d14]=min(8,6)=6 4 2 4 2 Master 2007 lundi 24 mars 2008 59 60 Algorithme Hierarchique (principe 4/) • Single linkage method d(135)(24)=min[d(135)2,d(135)4]=min(7,6)=6 (135) (24) (135) (24) Master 2007 lundi 24 mars 2008 60 61 B) Classification Non-hierarchique • méthode des K-moyennes – 2 clusters initiaux : (AB),(CD) – d2(A,(AB))=10 – d2(A,(CD))=61 – d2(B,(AB))=10 – d2(B,(CD))=9 – A,(BCD) Master 2007 lundi 24 mars 2008 62 61 Carte Auto-Organisatrice: Self-organization maps (SOM) (Kohonen, 1982) mi(t+1)=mi(t)+hci(t)[x(t)-mi(t)] where, t is the time index, hci(t)=f(||rc-ri||,t), ri and rc are the location of node c and I. (Tamayo et al. PNAS, 1999) Cartes de Kohonen Master 2007 lundi 24 mars 2008 62 Plan 63 I. A) Généralités B) petite intro à la bioinformatique II. Une source de données: les BioPuces III. La fouille de données BioPuces • Clustering • Classification/Prediction • Feature Selection IV. Conclusion, Projets... Master 2007 lundi 24 mars 2008 63 64 Classer et Prédire: algorithmes • But : utiliser les données d!expression pour construire des modèles prédictifs ou des classeurs (par ex: arbre de décisions,, réseaux de neurones) • Difficultés: peu d!exemples (conditions), souvent < 100, beaucoup d!attributs (gènes), souvent > 1,000 • Problématique d’apprentissage et statistique [MLJ, 2003]: ! réduction de dimensions (sélection de genes) adapter les algorithmes Réseaux de neurones Machine à vecteurs de support (SVM) Arbre de décision Random Forest Arbre de régression K plus proche voisins Environnement: R, Bioconductor, Clémentine©, SAS©, MeV, BRB, TIGR© Master 2007 lundi 24 mars 2008 64 65 Analyse pour la Classification et • Problème: Construire des modèles pour la prédiction et classification à partir de données d’expression. A B Cancereuse A C B Expression Level Précancereuse Expression Level Normale Expression Level • Utilisation : Identification de gènes cibles (prédicteurs), Modèle prédictifs (d’un risque), Modèle de classification (traitement) A C B C A lundi 24 mars 2008 C< 0.9 C > 0.9 C Master 2007 65 66 Construction automatique de classfieurs Données d’apprentissage (classées) Prediction Règles de classification Algorithme de classification Données non classées Une classe Apprentissage d’une règle de classification Master 2007 lundi 24 mars 2008 66 67 Données d’apprentissage Classes prédéfinies “Diagnostic clinique” Mauais prognostic recurrence < 5ans Bon Prognostic recurrence > 5ans ? Bon prognostic Objets BioPuces Feature vectors L’expression des gènes de la puce Nouvelle puce Reference L van’t Veer et al (2002) Gene expression profiling predicts clinical outcome of breast cancer. Nature, Jan. Règles de classification Master 2007 lundi 24 mars 2008 68 67 Données d’apprentissage Classes prédéfinies “type de tumeurs” B-ALL T-ALL AML T-ALL ? Nouvelle puces Reference Golub et al (1999) Molecular classification of cancer: class discovery and class prediction by gene expression monitoring. Science 286(5439): 531-537. Règles de classification Master 2007 lundi 24 mars 2008 68 69 Données d’apprentissage Classes prédéfinies “Perte de poids après 30 jours” faible moyenne Perte moyenne ? à J30 forte Objets BioPuces Feature vectors L’expression des gènes de la puce à J3 Nouvelle puces à J3 6th framework DioGenes : Diet, obesity and genes Basé sur NUGENOB (5th framework) Règles de classification Master 2007 lundi 24 mars 2008 69 70 3) Les algorithmes: a) interpretables Gene 1 Mi1 < -0.67 yes Gene 2 0 no Gene 2 Mi2 > 0.18 2 yes no 0 1 2 0.18 Gene 1 1 -0.67 Master 2007 lundi 24 mars 2008 70 71 3) Les algorithmes: b) “paresseux” k-PPV Master 2007 lundi 24 mars 2008 71 72 3) Les algorithmes: d) approches statistiques [DLDA] Diagonal linear discriminant analysis [DQDA] Diagonal quadratic discriminant analysis NB: Vote pondéré dans Golub et al. (1999) est une variante de DLDA dans le cas biclasses Master 2007 lundi 24 mars 2008 72 73 Bases d’apprentissage de la littérature Nombre d’attributs = O( [NB exemples]2) !"#"$%# !"#$%"&'% 12"%34 12"%34 89:;6, <=">?@%2@'>?&% 12%'> 9?A?> !B&CD?&% E2?34%4" F2G@4 01'(23#$4 &'()(*"+,-%./ %*%$ ())* +,-. (5* )/65 (5* )/65 (6.* -0)) (60* 5/6/ (6+* --57 (6)* 0,,, (6-* ),06 (66* 6,++ (67* 0+,/ 56%78+%$ 9":%*#$ +/ 7/ 56 6. 76 )0 60 60 .,0 6+ ;+"$$%$ 0 0 + / 0 0 + 0 ) lundi 24 mars 2008 73 Résultats d’apprentissage sur ces bases [Díaz-Uriarte,2006] lundi 24 mars 2008 74 75 Problématique pour l’apprentissage Peu d’exemple (50-100 biopuces) Nombreux d’attributs (2,000-40,000 gènes) Une majorité d’attributs non pertinents « Malédiction de la dimension » Performances des classeurs dégradées Modèles très complexes Temps de calcul importants Interprétation biologique difficile Réduction de dimension nécessaire ( (ROC [Mamitzuka, 2006, Pattern Recognition], Incremental Wrapper [Ruiz et al. 2006], Revue [Guyon & Elisseeff, JMLR2003]) 3 types de méthodes dans le contexte des biopuces (Filter, Wrapper, Reformulation) Probleme des estimateurs... lundi 24 mars 2008 75 Plan 76 I. A) Généralités B) petite intro à la bioinformatique II. Une source de données: les BioPuces III. La fouille de données BioPuces • Clustering • Classification/Prediction • Feature Selection IV. Conclusion... Master 2007 lundi 24 mars 2008 76 77 Génomique Fonctionnelle/transcriptomique • Une hypothèse: l’approche «!pangénomique!» plutot que «!gène candidat!» • Le défis biotechnologique: mesurer simultanément l’expression de milliers de genes (ou tous les gènes) —> les puces à ADN • Les défis biologiques et médicaux: " • Découvrir les fonctions des gènes d’après l’expressions. " • Elucider les voies métabolique à partir de l’expression des gènes. " • … aider au diagnostique • Les directions de recherche en bioinformatique du transcriptome: " • Analyse de données différentielles. Tests multiples (FDR) " " • Représentation des données d’expression et normalisation. • Outils de visualisation. • Fouille de données. Analyse de données exploratoires. • Intégration de bases de données, de connaissances, d’ontologies, … Master 2007 lundi 24 mars 2008 77 78 Master 2007 lundi 24 mars 2008 78 79 Conclusions: un long et lourd processus d’analyse • Technologie dans une ère de maturité • Variabilité expérimentale très forte mais force du parallélisme. Importance des réplications biologiques. • Nécessité de stocker (standard) tous les résultats intermédiaires. • Problématiques de recherche: statistique (multiplicité), réduction de dim. (sélection de gènes), prédiction (algorithmes adaptées), modélisation des réseaux de régulations, visualisation, BD, … • Interprétation des listes de gènes requiert des connaissances. • Prédiction requiert toujours plus de biopuces. • Validations biologiques restent indispensables (ex: RT-PCR) • Complémentaire de toutes les autres méthodes d!investigation http://videolectures.net/mlsb07_evry/ Master 2007 lundi 24 mars 2008 79