PowerPoint, 2.5 Mo

publicité
Séminaire IN’Tech - Octobre 2003 - Lyon
Annotation de génomes complets
Anne Morgat
Fondation
Rhône-Alpes
Futur
Après le séquençage …
Séquençage
= « décryptage » du support physique de l’information génétique
Après le séquençage… l’annotation
séquence ADN brute
• Annotation syntaxique
Eléments génétiques (features)
• CDSs, ARNs
• Signaux de régulation
• Répétitions... etc
• Annotation fonctionelle
•• Similarité de séquences
détection par contenu
Attribution de « fonction(s) »
• produits des gènes
• familles d ’opérateurs
•• Annotation contextuelle / relationnelle
• analyse des relations entre les entités
Objets
« individuels »
BD
Annotation contextuelle/relationnelle
relation
• Génomique comparative
• Réseaux de régulation
• Assemblages moléculaires
• Voies métaboliques
Synton
Genome B
ABC tranporters
Fichant et al.
Genome A
Annotation syntaxique : Recherche de gènes (1)
• Biologie : usage du code génétique
phase 1
............
............CGACTAGGATGGCGG........
CGA CTA GGA TGG CGG ........
............ A
L
G
W A ........
. code génétique + usage des acides-aminés
. usage des codons synonymes (biais d’usage du code)
. ARNt disponibles, taux d’expressions des gènes
Annotation syntaxique : Recherche de gènes (1)
• Biologie : usage du code génétique
............ CGA CTA GGA TGG CGG ........
............ A
L
G
W A ........
phase 1
. code génétique + usage des acides-aminés
. usage des codons synonymes (biais d’usage du code)
. ARNt disponibles, taux d’expressions des gènes
P(G/CG(1)) ≠ P(G/TG(1)) ≠ P(G)
• Modèle mathématique : Chaînes de Markov
A,C,G,T
P(X/X1...Xk)
Matrice(s) de transitions
k
• Utilisations
start
i
Apprentissage
phase 1
stop
Pcodant
phase 2
w
phase 3
Annotation syntaxique : Recherche de gènes (2)
• Procaryotes
GenMark (Borodovski)
Glimmer (Salzberg)
Problèmes en suspens
• assertion des starts (non-ATG / alternatifs)
• protéines « atypiques » (membranaires)
• gènes « atypiques » (transfert horizontal)
Annotation syntaxique : Recherche de gènes (3)
E. coli
+3
+2
+1
C. jejuni
Modèle des gènes
«natifs» de E. coli
+3
+2
+1
-1
Importance de la matrice de référence utilisée…
Usage des codons et Analyse Factorielle des Correspondances
-1- tableau des effectifs en codons
Codons
AAA
AAC
AAT
...
Gènes
gene1
-2- distance entre les
distributions
gene2
(distance du chi2)
gene3
etc...
profil moyen
axe 2
-3- « meilleure »
représentation plane
axe 1
Usage des codons et Analyse Factorielle des Correspondances
Table de contingence
Usage des codons et Analyse Factorielle des Correspondances
Table de contingence
AFC
Visualisation
Manipulation
Usage des codons et Analyse Factorielle des Correspondances
Table de contingence
AFC
Visualisation
Manipulation
localisation des gènes sur le
chromosome
Annotation fonctionnelle
• rôle biochimique
• rôle physiologique
• mécanisme
« FONCTION » ?
• expérimental
(gène rapporteur; expression différentielle...)
• par similarité de séquence
(criblage de banques)
• par contexte
(voisinage)
• « synténies »
• métabolisme
.…
?
Annotation fonctionnelle : similarité de séquences (2)
?
Similarités de séquence :
• Alignement de séquences
(prog. dynamique)
• Recherche de patterns, profils
NCBI NR,
SwissProt,
…
Bases
«généralistes»
Analyse de séquences (aa) :
• peptides signaux, régions transmembranaires
• structures 3D (PDB)
PFAM,
SMART,
COGs,
EcoGene
Bases
«spécialisées»
- domaines conservés
- familles d’homologues
- génomes de « référence »
Annotation fonctionnelle : similarité de séquences (1)
2549
2552
2550
2551
ACIAD2549 :
« Conserved hypothetical protein »

- propagation des « erreurs »
- « orphelins »
Utilisation du contexte :
Synténies bactériennes
Annotation fonctionnelle : utilisation du contexte (2)
Principe: recherche de synténies bactériennes
Genome A
Etape 1
homologues
Etape 2
distribution
chromosomique
Genome B
Blast
+
Prog. Dyn.
« synton »
Genome A
Genome B
Synténies bactériennes
B. subtilis (168)
E. coli (K12)
Quelles sont les fonctions
associées à ces gènes?
B. subtilis (168)
E. coli (K12)
Voie de biosynthèse de la ménaquinone
B. subtilis (168)
menC
E. coli (K12)
ytfD:
First identified as an N-acylamino acid racemase (by similarity)
Using genomic context, ytfD was expected to be an o-succinyl-CoA synthase (menC)
(enzymatic activity confirmed experimentally, Palmer et al; 1999)
ytfD
Low similarity
menC
Annotation fonctionnelle : intégration de données hétérogènes
métabolite
données protéiques
bases de
séquences
…
complexe
moléculaire
EC
enzyme
réaction
biochimique
EC
polypeptide
signal
gène
pathway
données métaboliques
chromosome
opéron
données
génomiques
Annotation fonctionnelle : intégration de données hétérogènes
organism
gene
?
protein
enzyme
problèmes de représentation
- des objets
- des relations
- n-aires
- requêtes
Environnement
d’expertise
Environnement
logiciel
d’annotation
Environnement logiciel intégré pour :
 l’exécution de méthodes (production de nouvelles données)
 l’accès aux données (propriétés, relations)
 la visualisation des données (visualiseurs specialisés)
 l’exploration des données (requêtes, navigation)
bases de
séquences
…
complexe
moléculaire
gene
EC
enzyme
réaction
biochimique
EC
polypeptide
pathway
données métaboliques
chromosome
opéron
données
génomiques
protein
enzyme
signal
gène
organism
métabolite
données protéiques
Téléchargement