II. Décryptage de séquences nucléotidiques chez les eucaryotes.
Une façon d’identifier les gènes présents dans un génome à partir de la séquence de
celui-ci est de rechercher des éléments de structure d’un gène.
Q1. Est-il possible d’identifier, d’après leur séquence, tous les éléments cités dans le tableau
précédent ?
Q2. Recherchez dans la séquence double brin de 199 paires de bases (pb) ci-dessous certains
des éléments du tableau que vous aurez choisis. Par convention, le brin 5’→3’ est celui du
dessus.
Pour étudier des génomes de plusieurs millions (voire milliards) de paire de bases, on
utilise des logiciels tels que Ape (gratuit sur internet) pour effectuer des recherches
systématiques. Une des fonctions de ce logiciel est la recherche de phases ouvertes de lecture
(ORF, Open Reading Frame). Cette fonction appelée ORFMAP consiste à lire la séquence
d’ADN fournie à la manière d’un ribosome. En prenant les nucléotides 3 par 3, elle va
transformer la séquence en une image où chaque codon 5’-ATG-3’ trouvé sera indiqué par un
petit trait et chaque codon 5’-TAA-3’, 5’-TGA-3’, et 5’-TAG-3’ trouvé sera indiqué par un grand
trait. Les autres codons ne sont représentés par rien.
Q3. Sur une molécule d’ADN double brin, combien y a-t-il de phases de lecture possibles ?
La figure suivante montre le résultat de cette fonction ORFMAP sur une séquence de
6100 pb d’un organisme procaryote.
Prenons les règles d’analyse suivantes :
1) une ORF correspond à une phase ouverte de lecture comprise entre deux codons stop
2) une CDS (CoDing Sequence) correspond à une phase ouverte de lecture comprise
entre un ATG et un codon stop
3) une CDS ne sera retenue comme gène potentiel que si elle n’est pas incluse dans une
plus grande CDS et fait au moins 300 pb de longueur.