Conférence-Débat Séance Publique Mardi 7 février 2006 - 14h30-17h GÉNOMIQUE ANALYTIQUE ET COMPARATIVE Séance coordonnée par Piotr SLONIMSKI, de l’Académie des sciences Grande salle des séances de l’Académie des sciences Introduction Oscillations périodiques des génomes Piotr Slonimski, de l’Académie des sciences Lire l’évolution dans les génomes : l’exemple des levures Bernard Dujon, de l’Académie des sciences, professeur à l’Université Pierre et Marie Curie et à l’Institut Pasteur Métagénomes des eaux usées Jean Weissenbach, de l’Académie des sciences, Directeur de recherche au CNRS, Génoscope, Evry Discussion générale et conclusions Palais de l’Institut de France 23, quai de Conti 75006 Paris Contact : Académie des sciences de l’Institut de France Email : [email protected] Séance publique du 7 février 2006 Génomique analytique et comparative Conférence-débat coordonnée par Piotr Slonimski Résumés Oscillations périodiques des génomes Piotr Slonimski, Membre de l'Académie des sciences Centre de génétique moléculaire – CNRS 9061 On connaît, depuis une dizaine d’années, la séquence nucléotidique complète de plusieurs centaines de génomes, des bactéries aux hominidés. Sur cette pierre, est bâtie la génomique que l’on peut définir comme l’étude multidisciplinaire du génome. Elle montre, à la fois, l’unicité de tous les êtres vivants et la diversité foisonnante des espèces. Malgré l’accroissement constant des données (son rythme double tous les deux ans, grâce aux efforts de consortia regroupant de très nombreux chercheurs), nous ne connaissons que moins d’un millième de cette diversité. La méthode la plus utilisée pour comparer les génomes repose sur l’alignement des séquences (nucléotidiques ou protéiques, qui en sont déduites), nécessite le développement continuel d’outils informatiques, permet d’établir des relations de similitude, de dresser des arbres phylogénétiques et d’esquisser les chemins de l’évolution. Elle permet également des conjectures, parfois même des prédictions, sur la fonction des gènes, sur le rôle physiologique et la structure des protéines. Les méthodes sans alignement ("non-alignment methods") sont très peu utilisées. Elles visent à découvrir les propriétés de l’ensemble du génome ("le tout est plus que la somme de ses parts"). Je parlerai d’une d’elles : l’analyse des n-grames (n-tuples) pour n = 2. Nous l’avons introduite, il y a près de quarante ans, pour les quelques séquences protéiques disponibles à l’époque (1). Ce travail a été un succès d’estime : il est cité dans une histoire récente de la bioinformatique, parmi la première douzaine d’articles de la protohistoire de cette discipline (2). Il a aussi été un échec complet puisque, depuis, personne n’a utilisé cette approche. Libéré de mes obligations d’enseignant et de directeur, j’ai repris cette méthode et je l’ai appliquée à l’analyse de l’ADN de 80 génomes complètement séquencés, aussi bien de procaryotes que d’eucaryotes. La méthode est très simple : on compte le nombre de mots (bi- grames), de longueur de 2 à 200, commençant et se terminant par l’une des 4 lettres (A, G, T, C). Un programme, développé à l’aide du logiciel 4D par Joël Prince, permet de balayer un génome de quelques millions de paires de bases en quelques minutes. Les nombres observés sont comparés aux nombres calculés selon l’hypothèse nulle où les bi-grames résultent d’associations aléatoires. Des analyses statistiques permettent d’élaguer les données brutes. Je dégage ainsi de toutes les combinaisons de bi-grames possibles (2(4x4) –1) une propriété générale : la fréquence des bi-grames observés oscille périodiquement selon une sinusoïde amortie qui a un pas constant pour tous les génomes (10 liaisons phosphodiester) et une amplitude très différente d’une espèce à l’autre. Cette valeur suggère immédiatement le pas de la double hélice d'ADN. Il n'en est rien. Je montrerai que l’amplitude des oscillations n’est due ni à la teneur en (G+C) des génomes, ni à leur taille, ni à leur appartenance aux différents embranchements de l’arbre de la vie. Ce dernier point est capital : les génomes aux très fortes oscillations peuvent appartenir aux trois royaumes de l’évolution (archae, eubacteria, eucaria) ; il en est de même pour les génomes aux oscillations très faibles. De plus, des ensembles de gènes homologues peuvent présenter des oscillations très différentes. Je pense que les oscillations périodiques de l’ADN sont le résultat du "style génomique des protéines" (3), concept selon lequel les protéines d’une même origine et d’une même fonction auraient des structures différentes en raison des propriétés globales du génome. Ce concept hétérodoxe, s’il était démontré, réfuterait l’un des paradigmes de la biologie moléculaire et de la génomique structurale. (1) Krzywicki A, Slonimski PP. (Long-distance correlations in the amino acid sequences of proteins) (article in French). C R Acad Sci Hebd Seances Acad Sci D. 1966 Jan 24; 262 (4):515-8 Krzywicki A, Slonimski PP. Formal analysis of protein sequences. I. Specific long-range constraints in pair associations of amino acids. J Theor Biol. 1967 Oct 17 (1):136-58. (2) Ouzounis CA, Valencia A. Early bioinformatics: the birth of a discipline--a personal view. Bioinformatics. 2003 Nov 22;19 (17):2176-90 (3) Radomski JP, Slonimski PP. Genomic style of proteins: concepts, methods and analyses of ribosomal proteins from 16 microbial species. FEMS Microbiol Rev. 2001 Aug 25 (4):425-35 Lire l'évolution dans les génomes : l'exemple des levures Bernard Dujon, Membre de l'Académie des sciences Université Pierre et Marie Curie et Institut Pasteur Les génomes des organismes vivants contiennent l'intégralité des déterminants fonctionnels qui permettent la vie et la reproduction des cellules et des organismes, les gènes, et de nombreux autres éléments importants pour leur propagation et leur évolution et que l'on peut maintenant identifier à partir des séquences génomiques. Les traces laissées par l'évolution dans chaque génome sont souvent superposées, entremêlées et partiellement effacées, mais l'analyse et la comparaison de différents génomes permettent, en les identifiant, d'en déduire des informations précieuses sur les mécanismes moléculaires de cette évolution. Avec les progrès rapides du séquençage des génomes (les séquences des premiers organismes, dont la levure de boulangerie, Saccharomyces cerevisiae, ne datent que de dix ans), on peut maintenant reconstituer, avec une précision grandissante, l'évolution des génomes de différents groupes phylogénétiques d'organismes vivants. L'exemple des levures, champignons unicellulaires, illustrera les principaux mécanismes identifiés dans l'évolution des génomes eucaryotes. Duplications et pertes de gènes forment une dynamique intense dans chaque lignée évolutive et expliquent l'organisation des génomes, l'existence des familles de gènes et les propriétés de chaque espèce. Plusieurs types de duplications coexistent, laissant des traces reconnaissables et jouant des rôles distincts. Des échanges de gènes entre espèces (transferts horizontaux) ou la formation de nouveaux gènes par assemblage d'éléments préexistants ou par d'autres mécanismes encore mal connus peuvent jouer un rôle critique à l'origine de certaines branches évolutives. Les mécanismes de l'évolution, qui peuvent être soumis à l'expérience avec les levures, ont leurs équivalents dans les autres génomes eucaryotes dont celui de l'homme. Métagénomes des eaux usées Jean Weissenbach, Membre de l'Académie des sciences Genoscope – Centre national de séquençage - CNRS UMR8030 La diversité du monde microbien est probablement 100 fois plus importante que nous le soupçonnions il y a encore une dizaine d'années. Cette diversité se caractérise par un très grand nombre d'espèces, évolutivement plus ou moins proches de bactéries connues, mais de surcroît par de nouvelles divisions de l'arbre phylétique des bactéries qui ne contiennent, à ce jour, que des espèces non cultivées. Non seulement, nous sommes incapables de prédire les propriétés physiologiques et biochimiques des espèces apparentées aux espèces connues, mais, a fortiori, nous ignorons tout de la trentaine de divisions bactériennes sans représentants cultivés. Le monde bactérien est donc un réservoir pratiquement inexploité d'activités biochimiques plus ou moins connues ou totalement ignorées. À ce jour, la génomique représente la voie d'approche la plus directe de l'exploration du monde des procaryotes. Cette approche consiste à extraire l'ADN des communautés bactériennes –appelé métagénome – et, par le moyen du séquençage, à acquérir des informations sur le contenu en gènes des espèces constituant ces communautés. L'interprétation de ces informations sera d'autant plus aisée que la diversité de la communauté étudiée sera réduite. Très souvent cependant, les environnements naturels sont particulièrement riches en espèces distinctes. Le Génoscope a entrepris d'explorer le métagénome des communautés bactériennes de plusieurs bassins d'une station de traitement d'eaux urbaines. Ce projet, Cloaca maxima, vise en premier lieu à étendre l'inventaire des gènes bactériens. Le traitement des eaux passe par une succession d'étapes alternant entre l'aérobiose et l'anaérobiose dans des milieux riches en constituants organiques. On devrait donc y observer une très grande diversité d'espèces associée à une très grande variété d'activités métaboliques. L'inventaire des espèces s'appuie sur l'utilisation du gène de l'ARN ribosomique 16S, universellement présent dans toutes les cellules. Les arbres phylétiques obtenus à partir des comparaisons de séquence d'ARN 16S nous ont permis d'identifier de nouvelles lignées et de nouvelles divisions bactériennes. Les différentes approches d'analyse des séquences du métagénome bactérien ainsi que des résultats préliminaires seront décrits.