Particularités des données génomiques Résultats attendus

publicité
MODULOME
http://www.irisa.fr/symbiose/projets/Modulome/
Masses de données
2005
Recherche de modules dans les génomes
Coordinateur Jaques Nicolas ([email protected]), équipe symbiose – IRISA­INRIA Rennes Bretagne Atlantique
Un projet pluridisciplinaire
Modulome est un projet interdisciplinaire qui associe quatre équipes de recherche (deux équipes de bioinformatique et deux équipes de biologistes qui ont en commun l'étude des éléments génétiques mobiles). En effet, longtemps considérés comme statiques, les génomes sont aujourd'hui étudiés d'un point de vue plus dynamique notamment par l'étude de nombreux évènements de « copie » concernant aussi bien les gènes que les séquences non codantes. Transferts inter-espèces
Ecogénomique des extrémophiles Transferts intra-espèces
Le LM2E étudie les communautés microbiennes dans les environnements extrêmes comme les sources hydrothermales des grands fonds océaniques. Les génomes microbiens évolueraient en grande partie grâce à un flux de gènes (acquisition, perte et réarrangements) dont les virus et les plasmides sont à la fois l’immense réservoir
mais aussi les vecteurs naturels. Recherche de répétitions
L’URGI étudie l’impact des répétitions génomiques sur l’évolution et le fonctionnement des génomes. En particulier nous nous intéressons à la Drosophile, appelée plus communément la mouche du vinaigre. Cette petite mouche qui vit sur les fruits en décomposition intéresse les biologistes depuis le début du siècle. C’est devenu une des espèces modèles favorites des généticiens pour comprendre le fonctionnement des gènes et du génome.
Nous étudions 12 génomes de 12 espèces de Drosophiles récemment séquencés. Ceux­ci nous permettent d’étudier l’évolution des répétitions biologiques à travers 12 espèces sœurs et cousines.
Nous développons au sein de ce projet des outils efficaces permettant de rechercher ces répétitions dans ces séquences génomiques. L’enjeu est de rechercher toutes les répétitions dans un texte composé de plus de 2 milliards de caractères composés uniquement des lettres A, T, G et C, dont les répétitions composent en moyenne 20% du texte.
Unité de Recherches en Génomique­Info ­ Evry
http://urgi.versailles.inra.fr/
Contact : Hadi Quesneville ([email protected])
Une découverte récente montre que des portions de génomes viraux (appelés spacers) sont capables de s’intégrer par un mécanisme inconnu aux génomes des hôtes au sein de modules de séquences répétées nommés CRISPR (Clustered Regularly Interspaced Short Palindromic Repeat), qui semble constituer un système immunitaire primitif et qu’il s’agit de modéliser. Laboratoire de Microbiologie des Environnements Extrêmes – Brest
http://www.ifremer.fr/drvvpmbe/page/otrpagfr/accueil.htm
Contact : Marc Le Romancer (marc.leromancer@univ­brest.fr)
Mécanismes de mobilité
Le LEPG étudie les mécanismes de mobilité génomique et s'intéresse à un transposon particulièrement important chez les mammifères supérieurs : le Hsmar1. Les transposons sont des fragments d’ADN capables de sauter d’un site chromosomique à un autre. On en dénombre environ 16000 copies dans le génome des primates supérieurs, dont celui de l’homme. L’ADN du transposon doit être suffisamment flexible (taille > 90 pb) pour permettre la formation du complexe d’excision. Or, on observe la présence paradoxale d’environ 15000 mini­éléments Hsmar1 (miHsmar1) de 80­pb dispersés dans le génome de l’homme.
Pour expliquer la distribution des miHsmar1 dans le génome humain, il est proposé de vérifier si leur mobilité s’effectue en impliquant des modules (aussi appelés pack­miHsmar1, schéma ci­
contre ). Ces modules sont des fragments d’ADN dont la configuration peut changer à chaque événement de transposition.
Modèle de modules recherchés dans les banques de données
Laboratoire d'Etude des Parasites Génétiques – Tours
http://lepg.univ­tours.fr/
Contact : Yves Bigot (yves.bigot@univ­tours.fr)
Formalisation des répétitions
Equipe coordinatrice du projet. Développe :
­ les principaux modèles de répétitions
­ l'algorithmique de recherche de ces modules
Institut de recherche en systèmes aléatoire – Rennes
www.irisa.fr/symbiose
Contact : Christine Rousseau ([email protected])
Particularités des données génomiques
Le nombre de génomes séquencés croit exponentiellement (la taille des banques génomiques double chaque année) : Aujourd'hui, 669 génomes sont entièrement séquencés, ce qui représente plusieurs centaines de gigaoctets de données (soit plusieurs milliards de caractères).
Les répétitions (ou copies) sont omniprésentes dans les génomes (par exemple, elles constituent plus de la moitié du génome humain). On sait que des variations du nombre d'occurrences de répétitions particulières sont des facteurs importants de pathologies.
Nous nous intéressons aux notions biologiques associées à ces phénomènes de récurrence :
­ transferts de matériel génétique inter­espèces : recherche de génome étranger (virus ou plasmide) dans un génome hôte (essentiellement bactéries et archébactéries).
­ transferts intra­espèces : on parle d'éléments transposables. Il s'agit de séquences d'ADN capables de se déplacer et de se multiplier dans un génome. Ils sont présents chez tous les organismes vivants. Technologies et moyens mis en oeuvre
Modélisation formelle de la structure des génomes sous forme d'assemblage de « modules » :
Nous nous appuyons sur les répétitions maximales exactes. Nous avons dû répondre à certaines questions propres au traitement des données biologiques pour affiner notre formalisation :
­ Comment intégrer la notion de localité aux répétitions ?
­ Comment traiter les variation naturelles que sont les mutations par insertion / déletion et introduire une certaine flexibilité aux modules répétés ?
Notre approche algorithmique sur la construction a priori de l'ensemble des facteurs des séquences, permet de garder une complexité linéaire pour les principaux traitements.
Nous avons développé un outil permettant de visualiser et d'explorer les répétitions ainsi extraites sous forme pyramidale : PYGRAM. Chevauchements et inclusions sont ainsi parfaitement visibles.
Notre réflexion s'appuie sur deux approches :
une approche algorithmique (arbre des suffixes) et une approche matérielle (architecture FPGA).
Résultats attendus / retombées scientifiques
Les répétitions au sein des génomes ont un rôle majeur dans la structure, la fonction, la dynamique et l'évolution des génomes, leur étude permettra une meilleure connaissance de l'organisation des génomes et de leur évolution. Les applications biologiques ciblées sont des sujets importants en biologie. La recherche et l’inventaire des modules CRISPR chez les microorganismes permettra d’en comprendre le rôle biologique qui semble s’apparenter à un mécanisme de protection immunitaire primitif précurseur du système d’ARN interférence. Les mini transposons miHsmar1 ont récemment été montrés pouvoir jouer un rôle important dans la régulation de plusieurs centaines de gènes par ARN interférence. L’expression de la transposase Hsmar1 (SETmar) doit donc pouvoir moduler l’expression de certains gènes au cours du développement, de la différenciation et dans certains cas de cancérogenèse.
D'un point de vue théorique, les modules de répétitions biologiques renouvellent les problèmes génériques à traiter sur les chaînes. Ceux­ci ont un champ d'application très ouvert.
Téléchargement