Séminaire IN’Tech - Octobre 2003 - Lyon Annotation de génomes complets Anne Morgat Fondation Rhône-Alpes Futur Après le séquençage … Séquençage = « décryptage » du support physique de l’information génétique Après le séquençage… l’annotation séquence ADN brute • Annotation syntaxique Eléments génétiques (features) • CDSs, ARNs • Signaux de régulation • Répétitions... etc • Annotation fonctionelle •• Similarité de séquences détection par contenu Attribution de « fonction(s) » • produits des gènes • familles d ’opérateurs •• Annotation contextuelle / relationnelle • analyse des relations entre les entités Objets « individuels » BD Annotation contextuelle/relationnelle relation • Génomique comparative • Réseaux de régulation • Assemblages moléculaires • Voies métaboliques Synton Genome B ABC tranporters Fichant et al. Genome A Annotation syntaxique : Recherche de gènes (1) • Biologie : usage du code génétique phase 1 ............ ............CGACTAGGATGGCGG........ CGA CTA GGA TGG CGG ........ ............ A L G W A ........ . code génétique + usage des acides-aminés . usage des codons synonymes (biais d’usage du code) . ARNt disponibles, taux d’expressions des gènes Annotation syntaxique : Recherche de gènes (1) • Biologie : usage du code génétique ............ CGA CTA GGA TGG CGG ........ ............ A L G W A ........ phase 1 . code génétique + usage des acides-aminés . usage des codons synonymes (biais d’usage du code) . ARNt disponibles, taux d’expressions des gènes P(G/CG(1)) ≠ P(G/TG(1)) ≠ P(G) • Modèle mathématique : Chaînes de Markov A,C,G,T P(X/X1...Xk) Matrice(s) de transitions k • Utilisations start i Apprentissage phase 1 stop Pcodant phase 2 w phase 3 Annotation syntaxique : Recherche de gènes (2) • Procaryotes GenMark (Borodovski) Glimmer (Salzberg) Problèmes en suspens • assertion des starts (non-ATG / alternatifs) • protéines « atypiques » (membranaires) • gènes « atypiques » (transfert horizontal) Annotation syntaxique : Recherche de gènes (3) E. coli +3 +2 +1 C. jejuni Modèle des gènes «natifs» de E. coli +3 +2 +1 -1 Importance de la matrice de référence utilisée… Usage des codons et Analyse Factorielle des Correspondances -1- tableau des effectifs en codons Codons AAA AAC AAT ... Gènes gene1 -2- distance entre les distributions gene2 (distance du chi2) gene3 etc... profil moyen axe 2 -3- « meilleure » représentation plane axe 1 Usage des codons et Analyse Factorielle des Correspondances Table de contingence Usage des codons et Analyse Factorielle des Correspondances Table de contingence AFC Visualisation Manipulation Usage des codons et Analyse Factorielle des Correspondances Table de contingence AFC Visualisation Manipulation localisation des gènes sur le chromosome Annotation fonctionnelle • rôle biochimique • rôle physiologique • mécanisme « FONCTION » ? • expérimental (gène rapporteur; expression différentielle...) • par similarité de séquence (criblage de banques) • par contexte (voisinage) • « synténies » • métabolisme .… ? Annotation fonctionnelle : similarité de séquences (2) ? Similarités de séquence : • Alignement de séquences (prog. dynamique) • Recherche de patterns, profils NCBI NR, SwissProt, … Bases «généralistes» Analyse de séquences (aa) : • peptides signaux, régions transmembranaires • structures 3D (PDB) PFAM, SMART, COGs, EcoGene Bases «spécialisées» - domaines conservés - familles d’homologues - génomes de « référence » Annotation fonctionnelle : similarité de séquences (1) 2549 2552 2550 2551 ACIAD2549 : « Conserved hypothetical protein » - propagation des « erreurs » - « orphelins » Utilisation du contexte : Synténies bactériennes Annotation fonctionnelle : utilisation du contexte (2) Principe: recherche de synténies bactériennes Genome A Etape 1 homologues Etape 2 distribution chromosomique Genome B Blast + Prog. Dyn. « synton » Genome A Genome B Synténies bactériennes B. subtilis (168) E. coli (K12) Quelles sont les fonctions associées à ces gènes? B. subtilis (168) E. coli (K12) Voie de biosynthèse de la ménaquinone B. subtilis (168) menC E. coli (K12) ytfD: First identified as an N-acylamino acid racemase (by similarity) Using genomic context, ytfD was expected to be an o-succinyl-CoA synthase (menC) (enzymatic activity confirmed experimentally, Palmer et al; 1999) ytfD Low similarity menC Annotation fonctionnelle : intégration de données hétérogènes métabolite données protéiques bases de séquences … complexe moléculaire EC enzyme réaction biochimique EC polypeptide signal gène pathway données métaboliques chromosome opéron données génomiques Annotation fonctionnelle : intégration de données hétérogènes organism gene ? protein enzyme problèmes de représentation - des objets - des relations - n-aires - requêtes Environnement d’expertise Environnement logiciel d’annotation Environnement logiciel intégré pour : l’exécution de méthodes (production de nouvelles données) l’accès aux données (propriétés, relations) la visualisation des données (visualiseurs specialisés) l’exploration des données (requêtes, navigation) bases de séquences … complexe moléculaire gene EC enzyme réaction biochimique EC polypeptide pathway données métaboliques chromosome opéron données génomiques protein enzyme signal gène organism métabolite données protéiques