MODULOME
MODULOME
Masses de données
2005
Ecogénomique des extrémophiles
Laboratoire de Microbiologie des Environnements Extrêmes – Brest
http://www.ifremer.fr/drvvpmbe/page/otrpagfr/accueil.htm
Contact : Marc Le Romancer (marc.leromancer@univ-brest.fr) Laboratoire d'Etude des Parasites Génétiques – Tours
http://lepg.univ-tours.fr/
Unité de Recherches en Génomique-Info - Evry
http://urgi.versailles.inra.fr/
Contact : Hadi Quesneville (Hadi.Quesneville@versailles.inra.fr)
Recherche de répétitions
http://www.irisa.fr/symbiose/projets/Modulome/
Recherche de modules dans les génomes
Recherche de modules dans les génomes
Transferts inter-espèces
Transferts intra-espèces Mécanismes de mobilité
Formalisation des répétitions
Institut de recherche en systèmes aléatoire – Rennes
www.irisa.fr/symbiose
Particularités des données génomiques
Le nombre de génomes séquencés croit exponentiellement (la taille des
banques génomiques double chaque année) : Aujourd'hui, 669 génomes sont
entièrement séquencés, ce qui représente plusieurs centaines de gigaoctets de
données (soit plusieurs milliards de caractères).
Les répétitions (ou copies) sont omniprésentes dans les génomes (par
exemple, elles constituent plus de la moitié du génome humain). On sait que
des variations du nombre d'occurrences de répétitions particulières sont des
facteurs importants de pathologies.
Nous nous intéressons aux notions biologiques associées à ces phénomènes
de récurrence :
- transferts de matériel génétique inter-espèces : recherche de génome
étranger (virus ou plasmide) dans un génome hôte (essentiellement bactéries
et archébactéries).
- transferts intra-espèces : on parle d'éléments transposables. Il s'agit de
séquences d'ADN capables de se déplacer et de se multiplier dans un
génome. Ils sont présents chez tous les organismes vivants.
Résultats attendus / retombées scientifiques
Les répétitions au sein des génomes ont un rôle majeur dans la structure, la fonction, la dynamique et l'évolution des génomes, leur étude permettra une meilleure connaissance de l'organisation des génomes
et de leur évolution. Les applications biologiques ciblées sont des sujets importants en biologie. La recherche et l’inventaire des modules CRISPR chez les microorganismes permettra d’en comprendre le
rôle biologique qui semble s’apparenter à un mécanisme de protection immunitaire primitif précurseur du système d’ARN interférence. Les mini transposons miHsmar1 ont récemment été montrés pouvoir
jouer un rôle important dans la régulation de plusieurs centaines de gènes par ARN interférence. L’expression de la transposase Hsmar1 (SETmar) doit donc pouvoir moduler l’expression de certains gènes
au cours du développement, de la différenciation et dans certains cas de cancérogenèse.
D'un point de vue théorique, les modules de répétitions biologiques renouvellent les problèmes génériques à traiter sur les chaînes. Ceux-ci ont un champ d'application très ouvert.
Technologies et moyens mis en oeuvre
Notre approche algorithmique sur la construction a
priori de l'ensemble des facteurs des séquences, permet
de garder une complexité linéaire pour les principaux
traitements.
Modélisation formelle de la structure des
génomes sous forme d'assemblage de
« modules » :
Nous nous appuyons sur les répétitions
maximales exactes.
Nous avons dû répondre à certaines questions
propres au traitement des données
biologiques pour affiner notre formalisation :
- Comment intégrer la notion de localité aux
répétitions ?
- Comment traiter les variation naturelles que
sont les mutations par insertion / déletion et
introduire une certaine flexibilité aux
modules répétés ?
Notre réflexion s'appuie sur deux approches :
une approche algorithmique (arbre des
suffixes) et une approche matérielle
(architecture FPGA).
Nous avons développé un outil permettant de visualiser
et d'explorer les répétitions ainsi extraites sous forme
pyramidale : PYGRAM. Chevauchements et inclusions
sont ainsi parfaitement visibles.
Equipe coordinatrice du projet.
Développe :
- les principaux modèles de répétitions
- l'algorithmique de recherche de ces modules
Le LEPG étudie les mécanismes de mobilité génomique
et s'intéresse à un transposon particulièrement important
chez les mammifères supérieurs : le Hsmar1. Les
transposons sont des fragments d’ADN capables de sauter
d’un site chromosomique à un autre. On en dénombre environ 16000
copies dans le génome des primates supérieurs, dont celui de l’homme.
Pour expliquer la distribution des
miHsmar1 dans le génome humain, il est
proposé de vérifier si leur mobilité
s’effectue en impliquant des modules
(aussi appelés pack-miHsmar1, schéma ci-
contre ). Ces modules sont des fragments
d’ADN dont la configuration peut changer
à chaque événement de transposition.
L’ADN du transposon doit être suffisamment
flexible (taille > 90 pb) pour permettre la
formation du complexe d’excision. Or, on
observe la présence paradoxale d’environ
15000 mini-éléments Hsmar1 (miHsmar1) de
80-pb dispersés dans le génome de l’homme.
Modèle de modules
recherchés dans les
banques de données
Un projet pluridisciplinaire
Modulome est un projet interdisciplinaire qui associe quatre équipes de recherche (deux équipes de bioinformatique et deux équipes de biologistes qui ont en commun l'étude des éléments
génétiques mobiles). En effet, longtemps considérés comme statiques, les génomes sont aujourd'hui étudiés d'un point de vue plus dynamique notamment par l'étude de nombreux évènements
de « copie » concernant aussi bien les gènes que les séquences non codantes.
Coordinateur Jaques Nicolas (jnicolas@irisa.fr), équipe symbiose – IRISA-INRIA Rennes Bretagne Atlantique
L’URGI étudie l’impact des répétitions génomiques
sur l’évolution et le fonctionnement des génomes.
En particulier nous nous intéressons à la Drosophile,
appelée plus communément la mouche du vinaigre.
Cette petite mouche qui vit sur les fruits en
décomposition intéresse les biologistes depuis le
début du siècle. C’est devenu une des espèces
modèles favorites des généticiens pour comprendre
le fonctionnement des gènes et du génome.
Nous étudions 12 génomes de 12 espèces
de Drosophiles récemment séquencés.
Ceux-ci nous permettent d’étudier
l’évolution des répétitions biologiques à
travers 12 espèces sœurs et cousines.
Nous développons au sein de ce projet des
outils efficaces permettant de rechercher
ces répétitions dans ces séquences
génomiques. L’enjeu est de rechercher
toutes les répétitions dans un texte
composé de plus de 2 milliards de
caractères composés uniquement des
lettres A, T, G et C, dont les répétitions
composent en moyenne 20% du texte.
Le LM2E étudie les communautés
microbiennes dans les environnements
extrêmes comme les sources hydrothermales
des grands fonds océaniques. Les génomes
microbiens évolueraient en grande partie
grâce à un flux de gènes (acquisition, perte
et réarrangements) dont les virus et les
plasmides sont à la fois l’immense réservoir
mais aussi les vecteurs naturels.
Une découverte récente montre que des portions de génomes viraux
(appelés spacers) sont capables de s’intégrer par un mécanisme inconnu
aux génomes des hôtes au sein de modules de séquences répétées
nommés CRISPR (Clustered Regularly Interspaced Short Palindromic
Repeat), qui semble constituer un système immunitaire primitif et qu’il
s’agit de modéliser.