Introduction à l’étude de l’évolution transparents : Pierre Nicolas [email protected] Institut National de Recherche Agronomique, Centre de Jouy-en-Josas Unité Mathématique, Informatique et Génome 3I019 - 24 mars 2016 1 / 88 Nothing in biology makes sense except in the light of evolution Theodosius Dobzhansky. 1973. American Biology Teacher, volume 35, pp. 125–129. Arbres et séquences I- Bref historique de l’idée d’évolution II- La reconstruction d’arbre phylogénétique (échelle inter-spécifique) 2 / 88 Aristote (384-322 av. JC) Scala naturae : existence < vie < mouvement < âme 500 espèces décrites dans Historia Animalium 3 / 88 Deus creavit, Linnaeus disposuit Linné (1707-1778) nomenclature binomiale. taxonomie hierarchique : règne, classe, ordre, genre. Systema Naturae : 4400 animaux, 7700 plantes 4 / 88 Georges Cuvier (1769-1832) Fondateur de la paléontologie scientifique et de l’anatomie comparée. Démontre l’extinction d’espèces (1796). Opposant aux évolutionnistes (Jean-Baptiste Lamarck, 1744-1829). 5 / 88 Charles Darwin (1809-1882) Naturaliste à bord du Beagle (1831-1836). 6 / 88 L’arbre des espèces Darwin. Notebook B: Transmutation of species (1837-1838) I think [sketch] Case must be that one generation then should be as many living as now. To do this & to have many species in same genus (as is) requires extinction. Thus between A & B immense gap of relation. C & B the finest gradation, B & D rather greater distinction. Thus genera would be formed. — bearing relation 7 / 88 La sélection naturelle Malthus. An essay on the principle of population. (1798) "The power of population is indefinitely greater than the power in the earth to produce subsistence for man. Population, when unchecked, increases in a geometrical ratio. Subsistence increases only in an arithmetical ratio. A slight acquaintance with numbers will show the immensity of the first power in comparison with the second." 8 / 88 On the Origin of Species, 1859 Charles Darwin (1809-1882) Alfred Russel Wallace (1823-1913) Les espèces dérivent les unes des autres. La sélection naturelle est le moteur de l’évolution. 9 / 88 Les pinsons de Darwin 10 / 88 Chap. XII. Geographical Distribution. 11 / 88 Homologie 120 Salamander, 121 Schildkröte (tortue), 122 Krokodil, 123 Vogel (oiseau), 124 Fledermaus (chauve-souris), 125 Wal (baleine), 126 Maulwurf (taupe), 127 Mensch (Wilhelm Leche, 1909) 12 / 88 L’arbre du vivant Haeckel, 1866. One of the first attempts to draw an evolutionary tree that included all known life-forms. 13 / 88 Evolution vs. Sélection naturelle L’évolution des espèces est une idée rapidement acceptée C’est beaucoup moins vrai pour la sélection naturelle Les bases de l’hérédité restent inconnues (Pangenesis, hypothèse de Darwin). Popularité de l’idée de transmission des caractères acquis (“Lamarckisme”). La théorie de la sélection naturelle n’est largement acceptée qu’à partir des années 1930 lors de la “Synthèse” (néodarwinisme) théorie de l’hérédité mendélienne et de la génétique des populations la théorie darwinienne Fisher, Haldane, Wright, Huxley, Mayr, . . . 14 / 88 Gregor Mendel (1822-1884) Versuche über Pflanzen-Hybriden (1865). Annales de la société d’histoire naturelle de Brno. Cité 3 fois en 35 ans. Caractères phénotypiques chez le pois (Pisum sativum). 15 / 88 Hérédité mendélienne self 3:1 Support pour la théorie de la sélection naturelle pas d’influence directe de l’environnement sur la variation. les variations héritables sont préservées au cours des générations (6= mélange). 16 / 88 Synthèse néodarwienne L’adaptation n’est due qu’à la sélection naturelle dérive, migration, mutation sélection 17 / 88 ADN A structure for deoxyribose nucleic acids. Watson and Crick (1953) Séquençage de l’ADN - méthode de Sanger (1977) Premier génome Haemophilus influenza (1996) Homo sapiens (2001) Next Gen Sequencing (2007-) 1000 génomes humains, médecine personnalisée. métagénomique Les séquences d’ADN sont une source de données très riche pour l’étude de l’évolution. http://www.ncbi.nlm.nih.gov/Genbank/index.html 18 / 88 Séquençage de l’ADN par la méthode Sanger (1977-) La méthode proposée en 1977 a été rafinée et automatisée jusqu’au début des années 2000. 19 / 88 Le récent saut technologique bien résumé par les couts 20 / 88 High Throughput Sequencing (2007-) Une des plus populaires est le “sequencing by synthesis” sur des plateformes Illumina. On distingue trois étapes: la préparation de la librairie (pas illustrée ici), la génération des clusters et le séquençage. >1,000,000 lectures (sequence reads) produites simultanément: l’approche est massivement parallèle / Sanger. De nombreux champs d’application même en dehors de l’analyse de génome (ex. transcriptome sequencing; ChIP-Seq; chromosome conformation capture). 21 / 88 In the news: the Ebola outbreak 22 / 88 ... illustre l’utilisation des séquences génomiques. Genomic surveillance elucidates Ebola virus origin and transmission during the 2014 outbreak. Gire et al., Science 2014. 23 / 88 I- Historique de l’idée d’évolution II- La reconstruction d’arbre phylogénétique (échelle inter-spécifique) III- Expliquer le polymorphisme (échelle intra-spécifique) IV- Détecter la sélection naturelle (adaptative) 24 / 88 Reconstruction d’arbres phylogénétiques Données phénotypiques (morphologie, langues, . . .). génétiques (ADN, protéine, . . .) Hominidae Arbre phylogénétique topologie longueur des branches 25 / 88 Reconstruction d’un arbre Human Chimp Gorilla Orangutan mitochodrial COII genes From Ruvolo et al., 1993 H C H O H C O G C G G O Quel est le nombre minimum de changements nécessaires pour rendre compte des séquences selon chacune des 3 topologies ? 26 / 88 L’arbre obtenu n’est pas enraciné H O C G G O H H O C G C G C O H H G C O H C O G 27 / 88 Comment enraciner l’arbre ? Hypothèse d’horloge moléculaire. O H C G H G H G H C C C G O O O Utilisation d’un outgroup. O H C G Etude d’un processus d’évolution non réversible (hypermutabilité de CpG). 28 / 88 Reconstruction d’arbres phylogénétiques Trois classes de méthodes parcimonie distances vraisemblance (ML, Bayésien) 29 / 88 Parcimonie - L’algorithme de Sankoff (1975) A C G − 0 − T − A C G T A − 0 − − − C − G T A 0 − − C − G 0 T 2 Sk (x) = A C G T − − − 0 − 2 1 1 min[cxy + Sl(k ) (y )] + min[cxy + Sr (k ) (y )] y y 30 / 88 Dénombrement des topologies Nombre d’arbres enracinés à n feuilles 3 ⇥ 5 ⇥ 7 ⇥ . . . ⇥ (2n | {z sans racine 5) ⇥(2n } 3) 31 / 88 Le problème du nombre des topologies n 3 4 5 6 7 8 9 10 . . . 100 topologies d’arbres sans racine 1 3 15 105 945 10 395 135 135 2 027 025 . . . 182 ⇡ 1.7 ⇥ 10 L’explosion combinatoire interdit la recherche exhaustive quand le nombre de feuilles est un peu grand (n > 10). 32 / 88