Conférence-Débat
Séance Publique
Mardi 7 février 2006 - 14h30-17h
GÉNOMIQUE ANALYTIQUE ET COMPARATIVE
Séance coordonnée par Piotr SLONIMSKI, de l’Académie des sciences
Introduction
Oscillations périodiques des génomes
Piotr Slonimski, de l’Académie des sciences
Lire l’évolution dans les génomes : l’exemple des levures
Bernard Dujon, de l’Académie des sciences, professeur à
l’Université Pierre et Marie Curie et à l’Institut Pasteur
Métagénomes des eaux usées
Jean Weissenbach, de l’Académie des sciences, Directeur
de recherche au CNRS, Génoscope, Evry
Discussion générale et conclusions
Contact : Académie des sciences de l’Institut de France
Email : fabienne.bonfils@academie-sciences.fr
Grande salle
des séances
de
l’Académie
des sciences
Palais de
l’Institut de France
23, quai de Conti
75006 Paris
Séance publique du 7 février 2006
Génomique analytique et comparative
Conférence-débat coordonnée par Piotr Slonimski
Résumés
Oscillations périodiques des génomes
Piotr Slonimski, Membre de l'Académie des sciences
Centre de génétique moléculaire – CNRS 9061
On connaît, depuis une dizaine d’années, la séquence nucléotidique complète de plusieurs
centaines de génomes, des bactéries aux hominidés. Sur cette pierre, est bâtie la génomique
que l’on peut définir comme l’étude multidisciplinaire du génome. Elle montre, à la fois,
l’unicité de tous les êtres vivants et la diversité foisonnante des espèces. Malgré
l’accroissement constant des données (son rythme double tous les deux ans, grâce aux efforts
de consortia regroupant de très nombreux chercheurs), nous ne connaissons que moins d’un
millième de cette diversité.
La méthode la plus utilisée pour comparer les génomes repose sur l’alignement des séquences
(nucléotidiques ou protéiques, qui en sont déduites), nécessite le développement continuel
d’outils informatiques, permet d’établir des relations de similitude, de dresser des arbres
phylogénétiques et d’esquisser les chemins de l’évolution. Elle permet également des
conjectures, parfois même des prédictions, sur la fonction des gènes, sur le rôle physiologique
et la structure des protéines.
Les méthodes sans alignement ("non-alignment methods") sont très peu utilisées. Elles visent
à découvrir les propriétés de l’ensemble du génome ("le tout est plus que la somme de ses
parts"). Je parlerai d’une d’elles : l’analyse des n-grames (n-tuples) pour n = 2. Nous l’avons
introduite, il y a près de quarante ans, pour les quelques séquences protéiques disponibles à
l’époque (1). Ce travail a été un succès d’estime : il est cité dans une histoire récente de la
bioinformatique, parmi la première douzaine d’articles de la protohistoire de cette discipline
(2). Il a aussi été un échec complet puisque, depuis, personne n’a utilisé cette approche.
Libéré de mes obligations d’enseignant et de directeur, j’ai repris cette méthode et je l’ai
appliquée à l’analyse de l’ADN de 80 génomes complètement séquencés, aussi bien de
procaryotes que d’eucaryotes. La méthode est très simple : on compte le nombre de mots (bi-
grames), de longueur de 2 à 200, commençant et se terminant par l’une des 4 lettres (A, G, T,
C). Un programme, développé à l’aide du logiciel 4D par Joël Prince, permet de balayer un
génome de quelques millions de paires de bases en quelques minutes. Les nombres observés
sont comparés aux nombres calculés selon l’hypothèse nulle où les bi-grames résultent
d’associations aléatoires. Des analyses statistiques permettent d’élaguer les données brutes. Je
dégage ainsi de toutes les combinaisons de bi-grames possibles (2(4x4) –1) une propriété
générale : la fréquence des bi-grames observés oscille périodiquement selon une sinusoïde
amortie qui a un pas constant pour tous les génomes (10 liaisons phosphodiester) et une
amplitude très différente d’une espèce à l’autre. Cette valeur suggère immédiatement le pas de
la double hélice d'ADN. Il n'en est rien.
Je montrerai que l’amplitude des oscillations n’est due ni à la teneur en (G+C) des génomes,
ni à leur taille, ni à leur appartenance aux différents embranchements de l’arbre de la vie. Ce
dernier point est capital : les génomes aux très fortes oscillations peuvent appartenir aux trois
royaumes de l’évolution (archae, eubacteria, eucaria) ; il en est de même pour les génomes
aux oscillations très faibles. De plus, des ensembles de gènes homologues peuvent présenter
des oscillations très différentes. Je pense que les oscillations périodiques de l’ADN sont le
résultat du "style génomique des protéines" (3), concept selon lequel les protéines d’une
même origine et d’une même fonction auraient des structures différentes en raison des
propriétés globales du génome. Ce concept hétérodoxe, s’il était démontré, réfuterait l’un des
paradigmes de la biologie moléculaire et de la génomique structurale.
(1) Krzywicki A, Slonimski PP. (Long-distance correlations in the amino acid sequences of proteins) (article in
French). C R Acad Sci Hebd Seances Acad Sci D. 1966 Jan 24; 262 (4):515-8
Krzywicki A, Slonimski PP. Formal analysis of protein sequences. I. Specific long-range constraints in pair
associations of amino acids. J Theor Biol. 1967 Oct 17 (1):136-58.
(2) Ouzounis CA, Valencia A. Early bioinformatics: the birth of a discipline--a personal view. Bioinformatics.
2003 Nov 22;19 (17):2176-90
(3) Radomski JP, Slonimski PP. Genomic style of proteins: concepts, methods and analyses of ribosomal
proteins from 16 microbial species. FEMS Microbiol Rev. 2001 Aug 25 (4):425-35
Lire l'évolution dans les génomes : l'exemple des levures
Bernard Dujon, Membre de l'Académie des sciences
Université Pierre et Marie Curie et Institut Pasteur
Les génomes des organismes vivants contiennent l'intégralité des déterminants fonctionnels
qui permettent la vie et la reproduction des cellules et des organismes, les gènes, et de
nombreux autres éléments importants pour leur propagation et leur évolution et que l'on peut
maintenant identifier à partir des séquences génomiques. Les traces laissées par l'évolution
dans chaque génome sont souvent superposées, entremêlées et partiellement effacées, mais
l'analyse et la comparaison de différents génomes permettent, en les identifiant, d'en déduire
des informations précieuses sur les mécanismes moléculaires de cette évolution.
Avec les progrès rapides du séquençage des génomes (les séquences des premiers organismes,
dont la levure de boulangerie, Saccharomyces cerevisiae, ne datent que de dix ans), on peut
maintenant reconstituer, avec une précision grandissante, l'évolution des génomes de
différents groupes phylogénétiques d'organismes vivants. L'exemple des levures,
champignons unicellulaires, illustrera les principaux mécanismes identifiés dans l'évolution
des génomes eucaryotes. Duplications et pertes de gènes forment une dynamique intense dans
chaque lignée évolutive et expliquent l'organisation des génomes, l'existence des familles de
gènes et les propriétés de chaque espèce. Plusieurs types de duplications coexistent, laissant
des traces reconnaissables et jouant des rôles distincts. Des échanges de gènes entre espèces
(transferts horizontaux) ou la formation de nouveaux gènes par assemblage d'éléments
préexistants ou par d'autres mécanismes encore mal connus peuvent jouer un rôle critique à
l'origine de certaines branches évolutives. Les mécanismes de l'évolution, qui peuvent être
soumis à l'expérience avec les levures, ont leurs équivalents dans les autres génomes
eucaryotes dont celui de l'homme.
Métagénomes des eaux usées
Jean Weissenbach, Membre de l'Académie des sciences
Genoscope – Centre national de séquençage - CNRS UMR8030
La diversité du monde microbien est probablement 100 fois plus importante que nous le
soupçonnions il y a encore une dizaine d'années. Cette diversité se caractérise par un très
grand nombre d'espèces, évolutivement plus ou moins proches de bactéries connues, mais de
surcroît par de nouvelles divisions de l'arbre phylétique des bactéries qui ne contiennent, à ce
jour, que des espèces non cultivées. Non seulement, nous sommes incapables de prédire les
propriétés physiologiques et biochimiques des espèces apparentées aux espèces connues,
mais, a fortiori, nous ignorons tout de la trentaine de divisions bactériennes sans représentants
cultivés. Le monde bactérien est donc un réservoir pratiquement inexploité d'activités
biochimiques plus ou moins connues ou totalement ignorées.
À ce jour, la génomique représente la voie d'approche la plus directe de l'exploration du
monde des procaryotes. Cette approche consiste à extraire l'ADN des communautés
bactériennes –appelé métagénome – et, par le moyen du séquençage, à acquérir des
informations sur le contenu en gènes des espèces constituant ces communautés.
L'interprétation de ces informations sera d'autant plus aisée que la diversité de la communauté
étudiée sera réduite. Très souvent cependant, les environnements naturels sont
particulièrement riches en espèces distinctes. Le Génoscope a entrepris d'explorer le
métagénome des communautés bactériennes de plusieurs bassins d'une station de traitement
d'eaux urbaines. Ce projet, Cloaca maxima, vise en premier lieu à étendre l'inventaire des
gènes bactériens. Le traitement des eaux passe par une succession d'étapes alternant entre
l'aérobiose et l'anaérobiose dans des milieux riches en constituants organiques. On devrait
donc y observer une très grande diversité d'espèces associée à une très grande variété
d'activités métaboliques.
L'inventaire des espèces s'appuie sur l'utilisation du gène de l'ARN ribosomique 16S,
universellement présent dans toutes les cellules. Les arbres phylétiques obtenus à partir des
comparaisons de séquence d'ARN 16S nous ont permis d'identifier de nouvelles lignées et de
nouvelles divisions bactériennes. Les différentes approches d'analyse des séquences du
métagénome bactérien ainsi que des résultats préliminaires seront décrits.
1 / 4 100%