Evolution des génomes de vertébrés Hugues Roest Crollius Groupe Dyogen - CNRS Ecole Normale Supérieure Ecole d’Eté de Lumigny 07 Septembre 2007 « Nothing makes sense in biology except in the light of evolution » (Theodosius Dobzhansky) Les processus biologiques que nous observons sont le produit de l’évolution. L’évolution est gouvernée par quatre forces: non adaptatif adaptatif •Les mutations •La recombinaison •La dérive génétique •La sélection naturelle Substitutions Insertions Délétions Réarrangements chromosomiques 1. 2. 3. 4. 5. PLAN 6. 7. 8. La «!paléogénomique?!» Classification des vertébrés Mécanismes gouvernant l’évolution des chromosomes Les techniques d’observation a. Cytogénétique b. Génomique comparative Les méthodes de reconstruction a. La parcimonie en cytogénétique b. E-painting c. Des algorithmes i. The reversal sorting problem ii. MGR d. Duplications complètes de génomes Quelques résultats: a. l’ancêtre des mammifères placentaires b. l’ancêtre des poissons Implications non-intuitives lors d’une reconstruction Conclusions La Paléogénomique -Séquençage et l’analyse d’ADN ancien (Mammouth, Homme de Neandertal, etc…). - extraction d’ADN à partir de tissus preservés - forte dégradation par oxydation - limite temporelle (< ~1 million d’années) -Etude des génomes ancestraux sur la base de reconstructions à partir des génomes contemporains - passe nécessairement par un processus d’abstraction - les résultats resteront des conjectures basées sur les données disponibles - selon le niveau de résolution visé, limite temporelle > 500 millions d’années La Paléogénomique Requin Chondrichthyes Tetraodon Tetraodontidae Fugu Percomorpha Actinopterigii Teleostei Euteleostei actinopterygii Epinoche ? Medaka Poisson zèbre Otocephala Crapaud Osteichthyes Poule ? Sarcopterigii Tetrapoda Ornithorynque Prototheria Amniota Mammalia Opossum Metatheria ? Tatou Xenarthra Tenrec Theria Elephant Hérisson Insectivora Eutheria Vache Chien Carnivora Boreoeutheria Macaque ? Catarrhini Humain Chimpanze Lapin Rat Souris Lagomorpha Rodentia Murinae 450 400 350 300 250 200 Millions d’années 150 sarcopterygii 100 50 0 Les processus biologiques que nous observons sont le produit de l’évolution. Problème: nous n’étudions que des processus contemporains. Prototheria Ornithorynque Metatheria Mammalia Xenarthra Opossum Tatou Tenrec Theria Eléphant Insectivora Eutheria Hérisson Vache Carnivora Chien Macaque Boreoeutheria Catarrhini Humain Chimpanzé Rodentia Lagomorpha Murinae Lapin Rat Souris La classification des vertébrés Requin Chondrichthyes Tetraodon Tetraodontidae Fugu Percomorpha Actinopterigii Teleostei Epinoche Euteleostei actinopterygii Medaka Poisson zèbre Otocephala Crapaud Osteichthyes Poule Sarcopterigii Tetrapoda Ornithorynque Prototheria Amniota Opossum Metatheria Mammalia Tatou Xenarthra Tenrec Theria Elephant Hérisson Insectivora Eutheria Vache Chien Carnivora Boreoeutheria Rodentia Macaque Catarrhini Humain Chimpanze Lapin Rat Souris Lagomorpha Murinae 450 400 350 300 250 200 Millions d’années 150 100 50 L’évolution des chromosomes: mécanismes Les génomes évoluent selon un nombre réduit de mécanismes: - substitutions nucléotidiques - Inversions - insertions et délétions - Translocations - Transpositions - Duplications - Fusions et Fissions 0 sarcopterygii Les techniques d’observation La cytogénétique comparée - comparer des préparations de chromosomes de 2 espèces ou - hybrider des chromosomes d’espèces différentes La génomique 1) cartographier et/ou séquencer des génomes 2) comparer l’ordre des marqueurs sur les cartes/séquences Chromosomes de tatou Chromosomes de fourmilier Prototheria Metatheria Xenarthra Mammalia Theria Eutheria Platypus Opossum Armadillo Tenrec Elephant Hedgehog Cow Dog Macaque Human Chimpanzee Rabbit Rat Mouse Svartman et al. 2006 Chromosomes de paresseux (Choloepus hoffmanii) Svartman et al. 2006 Prototheria Metatheria Xenarthra Mammalia Theria Eutheria Platypus Opossum Armadillo Tenrec Elephant Hedgehog Cow Dog Macaque Human Chimpanzee Rabbit Rat Mouse Ancêtre Eutherien HSA 3 HSA21 La Zoo-FISH FISH = Fluorescent in situ Hybridisation Avantages: • Facilité d'échantillonnage des espèces ( > 80 espèces de mammifères comparées à Homo sapiens) Limites: • peu résolutives (5-10 Millions de bases) • ne distinguent pas les réarrangements intrachromosomiques • aléas expérimentaux • couverture phylogénétique restreinte (< 100.106 années) La génomique et la bioinformatique Les métodes basées sur la séquence des génomes Différents points d’entrée possibles: • Les alignements de séquence ==> conservation de synténie • Les gènes orthologues ==> conservation de synténie • Les gènes paralogues ==> duplication de génomes Espèce ancestrale speciation orthologues B A duplication paralogues B’ Espèce 1 Espèce 2 Reconstruction d’une séquence de 1,1 Mb de l’ancêtre des mammifères au niveau du locus CFTR (Blanchette et al. 2004) Figure: 144 bases non-codantes (transposon MER20) 1) 2) Séquencage des régions orthologues au locus humain dans 19 espèces de mammifères Alignement multiple avec Threaded Block Aligner (TBA) • • 3) Alignement local « deux à deux » puis « chaînage » Projection sur la séquence humaine Reconstruction des bases ancestrales à chaque position par maximum de vraisemblance • • Identification des régions de l’alignement existant chez l’ancêtre Identification des bases ancestrales par maximum de vraisemblance E-painting Même principe général que la cytogénétique, mais les données sont issues du séquençage des génomes 1) identifier des régions de synténie conservée entre plusieurs génomes à l’aide de marqueurs (généralement des gènes). Ne tient pas compte de l’ordre des marqueurs. 2) Identifier les chromosomes apparentés 3) A partir de la relation phylogénétique entre les espèces, déduire la composition ancestrale selon un raisonnement parcimonieux. Pufferfish TET Chicken Human EUT Kohn et al. Trends in Genetics 2006 Les algorithmes et les données de séquences de génomes 1) « The reverseal sorting problem » et la notion de distance Soit deux génomes représentés par des symboles ordonnés et orientés. 123456789 1 2 3 -7 5 6 -4 8 9 G1 G2 On définit les « points de cassures » (breakpoints) entre les suites identiques 123456789 1 2 3 -7 5 6 -4 8 9 G1 G2 Distance = nombre de réarrangements pour transformer G1 en G2. 123456789 G1 1 2 3 -7 -6 -5 -4 8 9 1 2 3 -7 -6 -5 -4 8 9 1 2 -7 5 6 -4 8 9 G2 Les algorithmes et les données de séquences de génomes 2) MGR (Multiple Genome Rearrangements) A ? 123456789 1 2 3 -7 5 6 -4 8 9 G1 G2 L’ancêtre de G1 et G2 se trouve idéalement quelque part sur le chemin menant de G1 à G2 (ou vice versa) Ajout d’un troisième génome, qui a divergé avant l’ancêtre visé A Progression par étapes vers un état « à l’équilibre » Bourque & Pevzner (2002) G1 G2 G0 La Paléogénomique Requin Chondrichthyes Tetraodon Tetraodontidae Fugu Percomorpha Actinopterigii Teleostei Epinoche Euteleostei actinopterygii Medaka Poisson zèbre Otocephala Crapaud Osteichthyes Poule Sarcopterigii Tetrapoda Ornithorynque Prototheria Amniota Opossum Metatheria Mammalia Tatou Xenarthra Tenrec Theria Elephant Hérisson Insectivora Eutheria Vache Chien Carnivora Boreoeutheria Rodentia Macaque Catarrhini Humain Chimpanze Lapin Rat Souris Lagomorpha Murinae 450 400 350 300 250 200 Millions d’années 150 100 50 0 sarcopterygii La duplication complète d’un génome: tetraploïdie • Une puissante source d’innovation fonctionelle (voies métaboliques entières) • Comment évoluent les gènes dupliqués (redondance) ? • Comment la duplication se propage-t-elle dans une population ? • Comment réagit la cellule (cycle, regulation, nutriments)? Ancêtre commun duplication diploidisation Homo sapiens Tetraodon nigroviridis Génome ancestral Duplication Délétions Réarrangements intra-chromosomiques Fusions et cassures Temps (dizaines de millions d’années) Duplication complète du génome Duplication Diploïdisation Translocations Génome Tetraodon: syntenie avec le génome Humain Génome humain: syntenie avec le génome Tetraodon Un cas simple : pas de rearrangements inter-chromosomiques après la duplication Génome ancestral Homo sapiens Tetraodon nigroviridis Distribution de 6884 orthologues dans leurs génomes respectifs 2 22 0 Chromosomes Humain X 22 21 20 19 18 17 X 21 19 18 17 16 15 14 13 12 16 15 14 13 12 11 11 10 9 8 7 6 5 4 10 9 8 7 6 5 4 3 3 2 2 1 1 2 3 4 5 6 7 8 1 9 10 11 12 9 1 Chromosomes Tetraodon 1 Tetraodon chromosomes 13 15 14 17 16 19 21 18 20 Cas 2) : Fusion récente entre deux chromosomes Génome ancestral Homo sapiens Tetraodon nigroviridis Chromosomes Humain X 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 1 2 3 4 5 6 7 8 10 11 79 1 15 12 Chromosomes Tetraodon 13 15 14 17 16 19 21 18 20 Cas 3) : Fusion ancienne entre deux chromosomes Génome ancestral Homo sapiens Tetraodon nigroviridis Chromosomes Humain X 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 10 11 12 Chromosomes Tetraodon 13 15 14 17 16 19 21 18 20 5 13 19 Quelques résultats -L’ancêtre des mammifères placentaires : les boreoeutheriens (~100 millions d’années) - l’ancêtre des poissons téléostéens: ~300 million d’années Cytogénétique versus bioinformatique Modèle « cytogénétique » 2n=46 Modèle MGR 2n=48 9 différences importantes, représentant 50% des associations de chromosomes humains (Robinson et al. 2006) Quelques situations non-intuitives (1) Deux gènes (ou segments de génomes) peuvent se retrouver sur le même chromosome ancestral, mais ne jamais avoir été vus sur le même chromosome contemporain a b Raison: propriété de transitivité de la conservation de synténie a b S1 S2 S3 OG Quelques situations non-intuitives (2) Les génomes ancestraux les plus « récents » ne sont pas nécessairement les plus faciles à reconstruire. 2 Raison: la facilité de reconstruction dépend surtout de la quantité d’information disponible A 3 3 6 B 1 S1 S2 S3 S4 A: (3x3) + (3x2) + (3x2) = 21 ! B: (1x1) + (1x6) + (1x6) = 13 " 1 S5 S6 S7 S8 Quelques situations non-intuitives (3) Les topologies d’arbre phylogénétique « en étoile » sont plus intéressantes. A S1 S2 S3 A S4 " S5 S6 S7 S8 S1 S2 S3 S4 S5 ! Objectif: maximiser les branches de l’arbre où les espèces ont évolué de manière indépendante. Les branches partagées par deux espèces sont des zones non informatives de l’arbre. S6 S7 S8 Conclusions : Ou allons nous ? Séquencer le génome humain a coûté 2,7 milliard de dollars sur 13 ans Aujourd!hui, séquencer et assembler un génome de mammifère coûte entre 5 et 25 millions de dollars, selon la couverture en séquence (2X à 8 X) Le gouvernement US finance activement le développement de nouvelles technologies pour amener ce coût à 1000 $ (32 millions de $ en 2005, distribués par le NHGRI) Des technologies viables ont déjà vu le jour - MSSP de Lynx (USA) - 454 Life Science (USA) - Harvard Medical School (USA) - Solexa (Cambridge, G-B) 2008 2007 2006 C. familiaris 2005 R. norvegicus T. nigroviridis G. gallus 2004 P. troglodytes 2003 T. rubripes M. musculus 2002 H. sapiens 2001 A. taliana D. melanogaster 2000 1999 C. elegans 1998 1997 S. cerevisiae 1996 H. influenzae 1995 100 gigabases Genome sequencing in microfabricated highdensity picolitre reactors Margulies et al. Nature (2005) 437, 376-380 Genome sequencing in microfabricated high-density picolitre reactors Margulies et al. Nature (2005) 437, 376-380 Une «!lecture!» de 113 bases de Mycoplasma genitalium Séquençage par synthèse (SBS) On pourra…. Séquencer son génome Séquencer les virus d"un organisme malade Séquencer les génomes de différents type de cellules Séquencer les génomes d"une population