2005-1 Licence BOP + TPV Biodiversité 1 - S5 - cours Henk van Dijk 2005 1. Chronologie des idées sur l'évolution et sur la biodiversité 2. L'origine de la vie 3. Les transitions majeures dans l'évolution 4. Evolution moléculaire et phylogénie 1. CHRONOLOGIE DES IDÉES SUR L'ÉVOLUTION ET SUR LA BIODIVERSITE 1.1. Les idées traditionnelles sur le monde vivant 1.2. Lamarck 1.3. Cuvier 1.4. Darwin 1.5. Soma et lignée germinale 1.6. La synthèse de génétique et évolution 1.7. La micro-évolution 1.8. La macro-évolution 1.9. L'évolution neutre 1.1. LES IDEES TRADITIONNELLES SUR LE MONDE VIVANT L'idée que le monde vivant actuel est le résultat d'une évolution, dont les mécanismes agissent toujours, est relativement nouvelle. Les conceptions traditionnelles étaient: Le monde vivant a toujours été comme il est aujourd'hui et ne change pas systématiquement (Aristote) La situation actuelle est le résultat d'une création qui était parfaite et qui a donc amené à une situation stable et immuable (la tradition judéo/chrétienne). Dans la culture européenne la dernière idée était la seule présente jusqu'au début du 19ème siècle. II existait une unité des idées de la théologie et de la biologie. Plusieurs catégories se distinguent dans la création: - les plantes - les animaux inférieurs - les animaux supérieurs Dans chacune des catégories il y a un grand nombre d'espèces. Hors catégorie l'espèce humaine est le couronnement de la création. L'espèce est l'unité de création; les membres actuels d'une espèce représentent la totalité des descendants d'un même couple créé par Dieu. Ils ont la même essence. La variabilité intraspécifique observée était interprétée comme des imperfections par rapport au "type idéal". Les deux biologistes les plus importants dans cette tradition étaient Linné et Buffon. Carl von Linné ou Linneaus (1707-1778) a placé la plupart des espèces connues alors dans un système hiérarchique (17531758). Ce système correspond en fait assez bien aux interprétations actuelles des relations évolutives entre espèces, ce qui a sans doute contribué au milieu conceptuel dans lequel les théories évolutionnistes ont pu se développer ultérieurement. Buffon (1707-1788) a eu à son époque une très grande influence. Son "Histoire Naturelle" (1749) a 2005-2 été imprimée en nombreux exemplaires. Il a mis l'accent sur l'unité dans la nature plutôt que de s'intéresser à la subdivision et à la classification. 1.2. LAMARCK Jean Baptiste Pierre Antoine de Monet, Chevalier de Lamarck (1744-1829), né à Bazentin, un village entre Albert et Bapaume, a été le premier vrai évolutionniste. On a pu suivre le développement de ses idées grâce à ses "Discours d'ouverture", qui commençaient chaque année sa série de cours, et qui, pour la plupart, ont été conservés. En 1800 il a formulé pour la première fois la notion d'évolution (en 1799 il n'en parlait pas encore). Lamarck avait la disposition, à partir de la fin des années 1790, d'une grande collection de mollusques, fossiles et vivants. II a remarqué des analogies entre espèces fossiles et espèces actuelles. II semblait même possible de définir des séries de fossiles selon la chronologie des strates où ils étaient trouvés. Certaines de ces séries allaient sans interruption de l'ère tertiaire au présent. La possibilité que tout cela soit le résultat de beaucoup d'extinctions et de nouvelles créations ne concordait pas avec les idées théologiques de l'époque: la création était unique, sans trop de "miracles" après. A cela Lamarck a opposé l'idée d'une évolution des espèces telle qu'elles restent bien adaptées à un environnement continuellement changeant. Ses idées: - il existe une "force" interne poussant à une plus grande complexité de l'organisme; - il y a des changements adaptatifs dus aux conditions particulières de l'environnement: les organes les plus utilisés s'agrandissent, les organes peu utilisés diminuent de taille; - cette adaptation est transmise aux descendants (-> l'hérédité des caractères acquis). Ces mécanismes amènent à une évolution de chaque espèce pour obtenir/maintenir une bonne adaptation à l'environnement et parallèlement à une augmentation en complexité, sans mettre en question l'espèce comme unité de création. 1.3. CUVIER George Cuvier (1769-1832), était le grand adversaire de Lamarck. II n'a jamais accepté l'évolution, bien qu'ayant apporté beaucoup de nouvelles connaissances qui ont finalement soutenu la théorie de l'évolution. Cuvier a développé l'anatomie comparée (vertébrés et invertébrés) et a fondé la paléontologie. Il a constaté que chacune des strates géologiques (trouvées dans le bassin de Paris) possédait ses propres espèces, parfois tout à fait différentes. N'acceptant pas l'évolution, il a dû expliquer ces différents ensembles d'espèces comme étant le résultat d'un grand nombre de catastrophes successives causant l'extinction d'une partie des espèces. Remarquez que selon Lamarck il n'y pas eu extinction mais transformation en d'autres formes (donc évolution). Une autre idée assez répandue était la persistance ailleurs sur la planète des espèces disparues en Europe, mais à l'époque de Cuvier il restaient encore peu de territoires inconnus qui pouvaient cacher, par exemple, des mammouths! 1.4. DARWIN Charles Darwin (1809-1882), Angleterre, est le père spirituel de deux théories qui ont changé radicalement la biologie bien que n'ayant pas été immédiatement acceptées par le monde scientifique. Comme Lamarck il a, à un certain moment, rejeté l'idée d'un monde vivant statique depuis la création, mais pour le reste il n'y a quasiment que des contrastes entre ces deux hommes. Les deux théories révolutionnaires de Darwin, développées en 1837 après son voyage sur le "Beagle" mais publiées seulement en 1859 ("On the origin of species by means of natural selection or the preservation of favoured races in the struggle for life") sont: 2005-3 - L'origine commune des espèces. Après avoir étudié des espèces animales sur les îles d'un même archipel, il a adopté l'idée que les nombreuses espèces voisines, parfois une espèce par île, sont nées d'un ancêtre commun. Ce concept de la spéciation comme origine des espèces implique que toutes les espèces sont finalement originaires d'un seul ou de peu d'êtres qui ont vécu il y a très longtemps. Une conséquence très choquante de cette théorie est que l'espèce humaine, faisant partie de ce système, a un ancêtre commun avec les singes. Darwin a, pour ainsi dire, détrôné l'homme comme créature unique. Bien que les différences entre espèces soient normalement bien nettes, l'évolution est, selon Darwin, graduelle. Pour résoudre cette contradiction apparente il faut concevoir qu'une espèce est subdivisée en populations géographiquement éloignées: celles-ci peuvent indépendamment accumuler des différences jusqu'à ce qu'elles ne soient plus interfertiles et soient donc devenues des espèces nouvelles. - La sélection naturelle. Cette théorie consiste en trois déductions basées sur quatre faits observés. Fait 1: Toutes les espèces montrent une grande fertilité potentielle. Leurs populations augmenteraient exponentiellement si tous les individus nés se reproduisaient à leur tour. Fait 2: En dehors de petites fluctuations entre années et des grandes fluctuations exceptionnelles, les populations sont normalement de taille stable. C'est sans doute une conséquence du fait que les ressources naturelles sont limitées et assez constantes dans un environnement stable. Déduction 1: Comme il y a beaucoup plus d'individus produits que les ressources disponibles ne le permettent, tandis que la taille de la population reste stable, il y a forcément une forte compétition entre individus d'une population. Il en résulte que ne survit qu'une partie, souvent très petite, des jeunes de chaque génération. Fait 3: Tous les individus sont différents; chaque population montre une variabilité énorme. Fait 4: Une bonne partie de cette variabilité est héritable (les mécanismes de cette hérédité étaient totalement inconnus à l'époque de Darwin) Déduction 2: La survie n'est pas aléatoire, mais dépend pour une part de la constitution héréditaire des individus. C'est cette survie inégale qui est à la base de la sélection naturelle. Déduction 3: Au cours des générations le processus de la sélection naturelle amènera à un changement graduel des populations, c'est à dire, à l'évolution (et sous certaines conditions à la naissance de nouvelles espèces). La "force interne" de Lamarck, qui pourrait être considérée comme faisant partie de la création, est remplacée par l'explication matérialiste de Darwin. Darwin n'a donc pas uniquement détrôné l'homme comme étant unique parmi les créatures mais il a aussi "détrôné Dieu comme créateur". 1.5. SOMA ET LIGNEE GERMINALE L'idée que les espèces existantes ont des ancêtres communs a été acceptée assez rapidement par les collègues biologistes de Darwin. C'était déjà moins le cas avec le concept des changements graduels; le "saltationisme" était très populaire à l'époque (l'évolution se déroule essentiellement par sauts d'une génération à une autre). La sélection naturelle, finalement, n'avait initialement quasiment pas de partisans. Le mécanisme proposé par Lamarck était apparemment plus logique et acceptable. Il y avait deux raisons à cela: premièrement, l'influence de l'environnement sur les individus est très nette. C'est ce que nous appelons actuellement la plasticité phénotypique. Deuxièmement, personne ne connaissait encore le mécanisme de l'hérédité. L'idée courante était celle de la "pangénèse": l'information vient de partout dans le corps et passe par les gamètes (en particulier les gamètes mâles) proportionnellement avec l'importance des organes. Plus un organe se développe, plus grande sera sa contribution à la transmission par les gamètes. C'est par les résultats de l'allemand August Weismann (1834-1914) que l'hérédité des caractères acquis de Lamarck a été démentie. Il a constaté que, chez les animaux, il existe des lignées de cellules qui restent essentiellement séparées du reste de l'organisme et qui servent à la reproduction (la lignée germinale ou le germen). Ces cellules sont capables de former des organismes complets, mais, par contre, l'ensemble des cellules spécialisées, le soma, n'a pas d'influence sur la lignée germinale autre que sa conservation. Cette séparation de soma et lignée germinale est visualisée par la figure 1.1A (G, la lignée germinale, passe de génération en génération; S, le soma, meurt avec l'individu). 2005-4 Fig. 1.1A: Soma et lignée germinale Les plantes n'ont pas de lignée germinale; en principe chaque cellule est "totipotente" et peut se développer en une plante entière. Néanmoins le principe de Weismann reste valable, mais il faut utiliser une formulation plus générale: l'information passe entre les générations sans que les structures codées par cette information puissent influencer ou modifier l'information à leur tour. Maintenant que l'on sait que l'ADN porte l'information génétique, et que ce sont en premier temps les protéines, codées par l'ADN, qui constituent le phénotype, une meilleure présentation est celle de la figure 1.113: il est évident que les modifications environnementales au niveau des protéines ne modifient pas la séquence des nucléotides dans l'ADN. L'information dans l'ADN ne décrit pas l'organisme comme le ferait une copie conforme (ce qui permettrait de répercuter dans l'ADN les modifications produites par l'environnement sur l'organisme: l'idée de la pangénèse). L'ADN forme, par contre, un ensemble d'instructions, nécessaire pour le développement de l'organisme du zygote à l'adulte et pour les processus biochimiques et physiologiques pendant toute la vie. Il n'y a pas de moyen de modifier les instructions par leurs résultats. La seule méthode pour changer les instructions au cours des générations est la sélection naturelle (et un mécanisme qui crée une variation dans les instructions): les instructions les moins efficaces sont moins transmises aux générations suivantes que celles qui marchent bien; les dernières augmentent donc en fréquence. Fig. 1.113: C'est l'information sous forme d'ADN qui est transmise et non pas le résultat de cette information P (protéines) 1.6. LA SYNTHESE DE GENETIQUE ET EVOLUTION Tout au début du 20ème siècle les lois de Mendel ont été redécouvertes. Pendant une période qui a duré jusqu'aux années 30, il y a eu une séparation en deux écoles: les "mendéliens" et les "biométriciens". Les mendéliens ont surtout étudié les mécanismes de l'hérédité des polymorphismes; les variations continues étaient pour eux des "bruits non-génétiques". Ils accentuaient le rôle des mutations, récemment découvertes, combiné avec une sélection purifiante qui élimine les mutations délétères. Ils pensaient que l'évolution se déroulait par "la pression de mutation". Même la spéciation serait le résultat de mutations avec un grand effet au niveau du génome entier. Les biométriciens s'occupaient principalement de la variation continue (les caractères quantitatifs), dont l'hérédité semblait être non-mendélienne. Pour eux, les caractères discontinus, obéissant aux lois de Mendel, étaient de peu d'importance pour l'évolution. Les caractères continus semblaient avoir une hérédité "mélangeante": les jeunes sont intermédiaires entre les deux parents. Comme mentionnée cidessus c'est l'influence apparente des facteurs environnementaux sur les caractères continus qui a fait que les idées lamarckiennes étaient partout acceptées dans ce milieu. II a encore fallu une série de découvertes pour concilier et intégrer les deux vues: • la distinction stricte de génotype (indépendant de l'environnement) et phénotype (variant avec l'environnement); • plusieurs gènes (à petit effet) ainsi que l'environnement peuvent influencer un même caractère quantitatif; (d'un autre côté: un gène peut influencer plusieurs caractères (pléiotropie); l'action d'un gène peut aussi dépendre • d'un autre (épistasie) ; la grande importance de la recombinaison comme source de variabilité. 2005-5 Le mécanisme génétique, maintenant donc bien connu, était en fait excellent pour expliquer d'un côté la ressemblance entre parents et enfants ("fait 4" de la sélection naturelle, voir 1.3.) et d'un autre côté la variabilité entre enfants ("fait 3" de la sélection naturelle). La génétique a ainsi donné une base solide à la théorie de l'évolution darwinienne, si bien qu'elle peut sans problèmes tenir tête aux attaques qu'elle doit toujours subir. Après la synthèse on parle de néo-darwinisme. En résumé elle dit que les gènes peuvent muter, se recombiner chez les descendants et créer ainsi de la variabilité. La sélection fait le tri dans cette variabilité. Le hasard joue également un rôle (voir 1.9). Les systématiciens ont pendant cette période de plus en plus développé la notion que les espèces ne sont pas des "types morphologiques", mais plutôt des ensembles de populations variables, ces ensembles étant reproductivement isolés les uns des autres. 1.7. LA MICRO-EVOLUTION Les changements à l'échelle des générations sont du domaine de la micro-évolution. La théorie des changements de la composition génétique d'une population à cette échelle est présentée par la génétique des populations, initiée par Hardy et Weinberg et développée dans toute sa richesse par Ronald A. Fisher (18901962) et John B. S. Haldane (1892-1964) en Angleterre et Sewall Wright (1889-1988) aux EtatsUnis. Bien qu'une partie des différences génétiques ne soit pas soumise à la sélection naturelle mais change principalement par des processus aléatoires (l'évolution neutre, voir 1.9.), l'adaptation aux conditions environnementales tend à s'améliorer au cours de l'évolution par la sélection naturelle. Cette tendance permanente peut expliquer les adaptations étonnantes que l'on rencontre dans la nature, mais elle n'implique cependant pas que l'adaptation augmente forcément tous le temps, car les conditions environnementales ne restent pas constantes. Ce sont surtout les relations interspécifiques qui changent continuellement du fait que les autres espèces (formant la partie biotique de l'environnement) évoluent également. Il faut donc s'améliorer tout le temps ne serait ce que pour maintenir le même niveau d'adaptation. 1.8. LA MACRO-EVOLUTION Bien qu'il y ait eu des grands débats sur les différences essentielles entre micro- et macro-évolution (les "saltationistes" contre les "gradualistes") on peut dire que il n' y a en principe pas de nouveaux mécanismes pendant la macro-évolution par rapport à la micro-évolution. La seule vraie différence est l'échelle de temps: pour la macro-évolution cette échelle est plutôt en millions d'années au lieu d'être en générations. Néanmoins il se manifeste de nouveaux phénomènes, notamment la spéciation et l'extinction des espèces. La spéciation est un processus graduel, avec beaucoup de phases successives d'une divergence de plus en plus grande, mais, sur une échelle paléontologique, c'est surtout la succession des espèces qui forme le bon niveau d'analyse. On peut ainsi distinguer deux aspects différents que l'on peut visualiser ensemble sous forme d'un arbre phylogénétique (voir figure 1.2): l'anagénèse (les changements dans une branche au cours du temps) et la cladogénèse (la formation de branchements). Un tel arbre peut également montrer les extinctions qui ont eu lieu. Les études de la macro-évolution visent à replacer les relations entre espèces dans une perspective historique: quelles espèces, ou groupes d'espèces, ont un ancêtre commun; quand vivait cet ancêtre commun; quelles espèces historiques sont éteintes? Un arbre phylogénétique qui est linéaire avec le temps en est la meilleure visualisation. Pour la (re)construction d'un tel arbre, il y a deux sources d'information: les espèces existantes et les fossiles. Il est en principe possible de construire un arbre seulement à partir des espèces existantes, mais il est évident que les espèces éteintes manqueront dans ce cas. Les fossiles sont en plus indispensables pour étalonner l'échelle de temps et peuvent fournir des points sûr dans une construction essentiellement hypothétique. Les données avec lesquelles on peut construire un arbre sont classiquement les caractères morphologiques et, plus récemment, les différences au niveau moléculaire. L'application de l'évolution moléculaire à la phylogénie sera développée dans le chapitre 4. 2005-6 Fig. 1.2: Exemple d'un arbre phylogénétique Les questions qui se posent en regardant un arbre phylogénétique, comme présenté dans la figure 1.2, sont. -- la vitesse de l'évolution anagénétique est-elle constante? -- les taux de spéciation et d'extinction sont-ils constants? Au début des années 70, les paléontologues Eldredge et Gould ont formulé une théorie à propos de la première question. Cette théorie, basée sur les résultats obtenus sur des séquences de fossiles, dit qu'il y a des périodes de stase (c'est à dire de peu de changements) pendant l'anagénèse, alternées avec des périodes de changements rapides associées avec la spéciation. Ils ont appelé cela l'équilibre ponctué et ont opposé cette théorie au "gradualisme phylétique": des changements anagénétiques continus. Ce dernier terme n'exprime pas bien le contraste entre ces deux points de vue car la théorie de l'équilibre ponctué accepte en fait également le gradualisme dans le sens que les changements sont petits entre les générations. Il ne faut donc pas confondre cette théorie avec le saltationisme qui sous-entend la possibilité de "grands sauts" entre deux générations. Pour les ponctualistes les changements "rapides" durent facilement des dizaines de milliers d'années, mais cela est relativement court par rapport à la durée des périodes de stase. Ils pensent que la spéciation se passe le plus souvent par des changement rapides dans des petites populations à la périphérie dé l'aire de répartition d'une espèce, la grande masse de populations centrales restant relativement inchangée. Leur théorie montre un point faible, qui fait que les observations chez les fossiles s'expliquent également sans leur théorie: des changements constants, mais dans des aires géographiquement isolées, peuvent amener à deux espèces différentes dont l'une pourrait remplacer l'autre par envahissement. On trouve alors une discontinuité dans la série de fossiles sur place. Quant à la deuxième question, il est de plus en plus évident qu'il y a eu plusieurs extinctions massives alternant avec des périodes de taux d'extinction et de spéciation assez constants et relativement modérés. La dernière extinction massive a eu lieu à la fin du Crétacée (il y a 65 millions d'années) et signifiait la fin des dinosaures. La cause la plus probable est un corps extra-terrestre qui a frappé la terre avec comme résultat une longue période de mauvaises conditions environnementales qui a été funeste pour un grand nombre d'espèces. Il n'est pas sûr que les autres (au moins quatre) extinctions massives aient la même cause; une autre possibilité est un changement climatique "rapide" dû à des événements géologiques. Actuellement c'est la grande influence de l'espèce humaine sur l'environnement qui fait craindre une nouvelle période inévitable d'extinctions. 2005-7 2005-8 Le tableau 1.1 résume les périodes paléontologiques. Chaque période d'extinction massive est suivie par une période d'un taux de spéciation élevé dite "radiation adaptative". C'est la conséquence du fait que le nombre d'espèces est moins grand que les conditions restaurées ne le permettent; autrement dit: les niches écologiques vides sont remplies de nouveau. Le grand succès des mammifères après la dernière extinction massive en est un exemple. Récemment (1996), Gould a rouvert le débat sur la "force interne poussant à une plus grande complexité des organismes", proposée par Lamarck (1.2), une idée encore assez répandue. Darwin ne l'a pas acceptée comme mécanisme de l'évolution, mais il est incontestable qu'il existe actuellement des formes de vie plus complexes qu'au Pré-cambrien. Une plus grande complexité pourrait être une conséquence logique des différentes pressions de sélection, surtout celles s'exerçant au niveau interspécifique. On peut penser à des prédateurs efficaces qui doivent être plus "sophistiqués" que leurs proies. Mais d'un autre côté, les parasites sont plus simples que leurs ancêtres: ils n'ont pas besoin de certaines fonctions puisqu'ils profitent de leur hôte. Le virus en est l'exemple le plus extrême. Gould suppose que les changements de complexité sont totalement aléatoires: les organismes ont la même probabilité de se simplifier que de se complexifier. La seule raison, selon lui, expliquant la présence de formes plus complexes actuellement qu'autrefois est l'effet "mur à gauche" (voir figure 1.3). Les premières formes de vie étaient très simples (type bactérie) et limitées dans leur possibilité de se simplifier encore par ce simple fait. Par contre, il n'y avait pas de contraintes dans l'autre sens. La conséquence théorique de sa proposition sur la forme de la distribution des organismes en fonction de leur degré de complexité est que la complexité moyenne augmente, ainsi que la complexité maximale, mais que les formes simples restent le mieux représentées. On observe, en effet, que les bactéries sont toujours les plus abondantes en termes de nombre de formes différentes (figure 1.3.A). Par contre, si une tendance générale existait pour une plus grande complexité, on observerait une distribution comme dans la figure 1.3.B. Fig. 1.3. Tendances passive (A) et active (B) pour la complexité des organismes au cours de la macro-évolution. Les deux commencent près du "mur à gauche" (une complexité nulle ou négative n'étant pas possible). La tendance passive (A) montre une expansion dans la seule direction possible; la complexité maximale ainsi que la moyenne augmentent, mais pas le minimum ni le mode. La tendance active (B) se manifeste à la fois par une augmentation du minimum, du maximum, de la moyenne et du mode. 2005-9 1.9. L'EVOLUTION NEUTRE Jusqu'aux années 60, une des grandes questions en génétique des populations était de savoir si la variabilité génétique intra-population était faible ou élevée. Maintenant on le sait: elle est considérable, sinon énorme. On le sait grâce à l'application de nouvelles techniques: l'électrophorèse des enzymes à partir de 1966 et les méthodes RFLP (restriction fragment length polymorphism) et RAPD (random amplified polymorphic DNA) depuis les années 1980. La nouvelle question est plutôt: quelle partie de cette variabilité est sélectivement neutre? Sélectivement neutre veut dire que, même s'il y a des très petites différences de valeurs sélectives entre allèles, l'évolution des fréquences alléliques est essentiellement déterminée par des processus aléatoires: la mutation, la dérive et les flux géniques entre populations. Une variabilité neutre au sein des populations implique également une évolution neutre au niveau interspécifique. Ce sont alors les processus aléatoires qui déterminent quels allèles neutres seront retrouvés dans les nouvelles espèces suite à la spéciation. Avant la découverte de la grande variabilité allozymatique, la sélection était considérée comme le seul facteur d'importance pour l'évolution. Surtout l'école du néo-darwinisme qui s'appelle le "sélectionnisme", pensait que la contribution d'autres facteurs était au plus mineure. Selon les sélectionnistes, les substitutions de gènes étaient la conséquence d'une sélection en faveur d'une mutation favorable. Les polymorphismes (sauf les rares en voie de fixation) étaient maintenus par une sélection balancée, et donc stables. Kimura, en 1968, a formulé une théorie alternative: la théorie neutraliste de l'évolution moléculaire. Selon cette théorie la majorité des substitutions est due a une fixation aléatoire de mutations neutres ou quasiment neutres. La majorité des polymorphismes est transitoire et conduit soit à la fixation soit à l'élimination de l'allèle mutant, dans les deux cas par la dérive uniquement. Maintenant que l'on étudie la variabilité génétique de plus en plus souvent au niveau de l'ADN, on trouve de plus en plus d'évidence que les processus aléatoires constituent au moins une part non-négligeable de l'évolution génomique. Dans le chapitre 4 on verra plus en détail quelles parties du génome sont neutres, et de quelle manière on peut tirer parti de la variabilité neutre dans la phylogénie moléculaire. 2. L'ORIGINE DE LA VIE 2.1. Qu'est-ce la vie ? 2.2. Idées anciennes sur l'origine de la vie 2.3. Métabolisme et réplication : hardware et software 2.4. Le monde ARN 2.5. Le code génétique 2.1. QU'EST-CE LA VIE ? Les caractéristiques d'une forme de vie sont : * un métabolisme (apport de matière et d'énergie libre ; sortie de déchets) * réplication (fabriquer des copies suffisamment exactes, avec une possibilité de variation qui permet une évolution Darwinienne : donc a fait a, b fait b etc. où a, b etc. sont des variants qui peuvent changer en fréquence relative selon leur performance) Une définition stricte de la vie est difficile, car des contre-exemples dans le non vivant sont facile à trouver : les cristaux, où il y a une réplication ; le feu où il y a à la fois métabolisme et réplication... 2.2. IDÉES ANCIENNES SUR L'ORIGINE DE LA VIE la génération spontanée depuis Aristote jusqu'à Pasteur et finalement l'invention de l'autoclave, Darwin : actuellement impossible, mais une fois ceci a dû se passer (maintenant il y a trop de compétition avec de formes de vie déjà très efficaces). 2005-10 * la panspermie. Arrhenius 1908 : la vie vient d'ailleurs dans l'univers et est partout présente. Ceci donne plus de temps pour la vie de se former, car l'univers existe plus longtemps que la terre (mais pas beaucoup plus). Pas satisfaisant, car c'est déplacer le problème. * le soupe primordiale (idée : Oparin & Haldane années 1920 ; expérience : Miller, 1953, vois figure 2.1). Formation de acides aminés à partir de méthane, ammonium, hydrogène et eau, avec des étincelles pour simuler le foudre. Aussi d'autres composantes étaient utilisées comme H2S, HCN etc. donnant les bases adénine, etc. Par contre, les sucres et acides gras n'apparaissent pas vraiment. Même molécules dans les météorites, surtout acides aminés. AA sont plus stables et plus faciles à être formés que nucléotides. Variante plus récente : la pizza primordiale. Fig. 2.1. Expérience de Miller (1953) 2.3. METABOLISME ET REPLICATION : HARDWARE ET SOFTWARE Von Neumann (1948). Ordinateur comme métaphore. (dans Freeman Dyson (1999) Origins of Life, 2nd edition) Hardware (surtout protéines) ; métabolisme Software (surtout nucléotides) ; réplication Le hard peut exister sans soft. Le soft ne peut pas exister sans hard, mais seulement parasiter (comme un virus) 2005-11 L'ADN est strictement soft, mais l'ARN montre des aspects des 2. Découverte des "ribozymes" (Cech, 1982) Dyson : les hôtes doivent être là avant les parasites. Deux possibilités pour le début de la vie. • Une combinaison des 2 aspects hard et soft (par exemple ribozymes) • Les 2 ont commencé séparément et le soft comme parasite du hard : l'hypothèse de la double origine. Le soft date peut-être de beaucoup plus tard ; les deux sont très improbables, donc carrément impossible de les avoir simultanément. Expériences par des chimistes • Eigen : monomères de de nucléotides donnent des polymères sans exemple à copier (matrice) (mais seulement en présence de polymérases) • Orgel : idem avec exemple mais sans polymérase Mais si l'ARN était le début de la vie, c'était avec ni exemple ni polymérase. 2.4. LE MONDE ARN Après la découverte de Cech : hypothèse populaire du "monde ARN". Expérience de Wright & Joyce (1997) Une RNA ribozyme efficace peut évoluer à partir d'une forme peu efficace en 5 jours (mais : avec polymérase) Dyson, inspiré par Lynn Margulis : protéines ou semblables d'abord et puis le système Eigen/Orgel forme des ribozymes qui parasitent sur ce système de protéine. Lynn Margulis : symbiose et parasitisme sont des forces poussant à la complexité cellulaire. (eucaryotes comme mutualisme à partir de parasitisme) Problème avec le modèle "métabolisme d'abord" est la réplication, même si celle-ci n'est pas très exacte. Le paradoxe de Eigen (1971). Sans enzyme il y a beaucoup d'erreurs. En soi, l'imperfection de la réplication est nécessaire pour avoir évolution, mais trop d'erreurs ne marche pas : il faut au moins une copie qui fonctionne. Avec enzyme il y a un taux d'erreur de 1 sur 1000 à 10000. Ceci permet une longueur d'ARN de 1000 à 10000 bases. Sans enzyme l'erreur pourrait être 1 sur 20. Une longueur de 20 bases est trop faible pour coder pour une enzyme qui pourrait réduire l'erreur à un niveau qui permet sa propre évolution ! La découverte des ribozymes pourrait contourner ce paradoxe... ? Expériences à faire Le problème c'est donc d'expliquer l'évolution d'un réplicateur qui code pour une fonction enzymatique qui lui permet de se répliquer. Il faut les substrats et la bonne précision. Plus généralement le réplicateur doit coder pour créer un (micro-)environnement favorable, comme une cellule avec des protéines ; en particulier des polymérases. Comment coder pour une protéine ? Actuellement ça se fait avec des triplets d'ARN et des t-ARN. Comment a cela pu évoluer ? Un scénario formulé par Szathmàry : les ribozymes fonctionnent probablement mieux avec des AA comme cofacteurs. Le site actif (catalytique) s'améliore. Avec des AA il y a plus de chance, car il y a une 20aine au lieu de 4 bases qui sont en outre plus divers au point de vue chimique. La présence de AA n'est pas improbable (expérience de Miller). Attacher le AA est fait par un code complémentaire d'ARN. Le lien entre triplet d'ARN et AA est catalysé par une autre ribozyme, et une troisième fait la liaison peptidique. Remarquez que c'est actuellement toujours des ARN (r-ARN) qui le font ! Au fur et à mesure les protéines ont repris le rôle des ribozymes et les enzymes se sont perfectionnées. 2005-12 2.5. LE CODE GENETIQUE Le code comme on le trouve actuellement est universel, avec seulement quelques petites modifications chez certains types d'organismes (voir tableau). Deux possibilités (avec une opposition très importante pour le reste du cours, notamment en phylogénie) : • "nécessité" : le code est le résultat d'une sélection naturelle (s'il y avait une variabilité au début, il y a eu "convergence") • "hasard" puis identité par descendance. Tous les descendants ont même système ; les modifications sont peu probables et dans ce cas spécial en principe même fortement contresélectionnées ("frozen accident") : les conséquences sont néfastes si dans beaucoup de protéines certains AA sont remplacés par d'autres. Néanmoins il semble que certains aspects du code ne sont pas entièrement arbitraires : • codons similaires codent pour le même AA • codons similaires codent pour des AA similaires (par exemple Asp et Glu) • AA plus abondants ont plus de codons (mais le raisonnement inverse est aussi plausible, avec une plus grande abondance si plus de codons... ) La pression de sélection est que ceci minimalise les erreurs et aussi l'effet des mutations. Questions qui restent : • pourquoi pas plus que 4 bases ? • pourquoi triplets et non pas duplets ou quadruplets ? • pourquoi 20 AA ? Apparemment il y a un trade-off entre minimiser les erreurs et la vulnérabilité aux mutations d'un côté et la performance et la précision de l'autre côté. 3. LES TRANSITIONS MAJEURES DANS L'EVOLUTION 3.1. L'origine des cellules 3.2. L'évolution des chromosomes 3.3. Le métabolisme 3.4. L'origine des eucaryotes 3.5. La multicellularité 3.6. La socialité 3.7. Résumé des transitions majeures 3.8. Phylogénies et classifications 3.1. L'ORIGINE DES CELLULES Avantage de la cellule. Si tous les molécules réplicateurs, et leurs substrats sont présents de façon très diluée (dans l'eau de mer ?) l'efficacité serait très faible. C'est pourquoi a été proposée la "pizza primordiale" au lieu de la "soupe primordiale" : la surface peut adsorber les molécules organiques qui restent alors potentiellement en interaction. Nous savons maintenant que les premières cellules existent déjà très depuis longtemps. Leurs existence pose néanmoins de nouveau un problème de "poule et oeuf'. L'appareil génétique n'est pas capable de synthétiser une membrane sans exemple ("matrice"). Une membrane de base est une double couche de molécules bipolaires comme des phospholipides (figure). Une fois ces molécules existent en masse, elles peuvent s'organiser spontanément en membranes sous forme de sphères. La membrane a probablement été inventée une fois et toutes les cellules actuelles descendent d'un 2005-13 seul exemplaire ancestral. Un problème déjà mentionné: les acides gras ne peuvent pas se former spontanément dans l'expérience de Miller, donc sans enzymes, et la longueur des chaînes hydrophobes a un minimum. Il semble pourtant qu'il y a des traces dans les météorites, et ils peuvent se former dans d'autres conditions de celles de son expérience. Pour avoir un métabolisme avec l'apport de substrats de l'extérieur, il faut qu'il y ait des "trous" dans la membrane qui le permettent sans perdre le principe d'éviter la concentration de molécules à l'intérieur. Au début c'était peut-être juste la différence entre grandes et petites molécules. Un autre problème est la division cellulaire. Sous certaines conditions de croissance il y a formation de "bourgeons" qui peuvent se séparer de la cellule mère. 3.2. L'EVOLUTION DES CHROMOSOMES La coopération entre réplicateurs peut être favorable. Nous avons déjà vu un exemple de ribozymes avec des taches différentes. Leur compétition, par contre, fait que par la sélection naturelle, les formes qui se multiplient le plus augmentent en fréquence relative et éliminent finalement les autres. Il y a deux solutions pour ce problème ("imposer" la coopération) • la formation de "hypercycles" : a catalyse la formation de b, b de c, c de d et d de a. Ainsi chaque réplicateur a un intérêt de coopérer et le résultat sera stable. • l'association à la cellule, et compétition entre cellules : celles qui contiennent la bonne composition de réplicateurs se multiplient plus rapidement et gagnent à long terme (figure). Avec plusieurs types de molécules, la chance que les proportions sont (parfois) bonnes diminue, mais il y a une autre solution : la formation de chromosomes. La coopération est maintenant plus ou moins "imposée", si seulement l'ensemble peut être multiplié. Reste encore un mécanisme nécessaire qui assure que chaque cellule fille reçoit un exemplaire d'un chromosome, c'est dire, division cellulaire et réplication des chromosomes doivent être synchrones et simultanées. L'individu est né, et on peut désormais aussi parler de génotype et phénotype, en supposant que l'information génétique ("parasite") influe sur son environnement cellulaire ("hôte"), ainsi amenant à un cas de "mutualisme". 3.3. LE METABOLISME La cellule d'origine ne connaissait pas encore la photosynthèse moderne : l'appareil catalytique est assez compliqué et s'est développé plus tard. Comment ont-ils trouver l'énergie nécessaire pour leur métabolisme (souvenons les lois de la thermodynamique : il faut de l'énergie libre, surtout pour la synthèse de macromolécules mais aussi pour l'accumulation de petites molécules de l'extérieur contre le sens du gradient) ? Deux possibilités : • hétérotrophie. Utilisation de l'énergie chimique présente dans les molécules organiques. mais il est dur à comprendre que ces relativement grandes molécules pouvaient entrer dans les cellules • autotrophie (ici chimiotrophie) avec par exemple H2S comme source d'énergie. Ce existe encore dans les fonds abyssaux. On suppose actuellement que le système primitif d'obtention d'énergie par une cellule est un système d'autotrophie associé aux membranes, soit chimio- soit photo-, et non pas une sorte de fermentation comme on a supposé autrefois. Plusieurs bactéries fermentatives descendent de bactéries photosynthétiques ou respiratoires par perte de la machinerie enzymatique. En plus, fermentation n'est pas un processus simple, mais nécessite une longue chaîne d'enzymes. Le transport d'électrons par la membrane était probablement basé sur des molécules simples comme quinone, porphyrines métalliques ou FeS, qui étaient abondantes dans la terre prébiotique anoxique. Ces molécules jouent maintenant le rôle d'unités fonctionnelles d'enzymes qui ont actuellement cette fonction. C'est proche du système actuel de la photosynthèse avec deux dérivés de porphyrine : proto- 2005-14 chlorophylle et cytochrome. Ces systèmes fournissent l'énergie pour la réduction de CO2. En premier temps ils accumulent des électrons à l'intérieur de la membrane, qui rentrent en formant de l'ATP. Les réactions biochimiques se font souvent en chaînes, par exemple la glycolyse, ou le cycle de Krebs. On peut penser à une origine qui commence par la disponibilité d'un substrat qui sera épuisé à un certain moment. Une autre molécule peut être converti en ce substrat, et puis une troisième en la deuxième, etc. Le sens peut être inversé sans trop de changements et dépend des concentrations de substrats et produits. Chez certaines bactéries le cycle de Krebs est inversé et sert ainsi comme manière d'assimiler le CO2. Assez universels sont les systèmes NAD+/NADH et ADP/ATP. Aussi les composantes du transport d'électrons sont quasi universelles. Tout cela a donc l'air d'être ancestral. En cas d'absence il y a souvent évidence d'une perte. La respiration semble être dérivé de la phototrophie par perte de chlorophylle. Spécialisation comme générateur de biodiversité peut être opposée à l'origine commune de toutes formes qui amène à l'uniformité. Chez les bactéries (eubactéries et archéobactéries) il existe toute une gamme de types de métabolisme, bien qu'ils soient basés sur les mêmes fondements. La spécialisation est la conséquence du fait que l'efficacité d'un spécialiste pour la fonction dont il est spécialiste est plus grande que l'efficacité d'un généraliste pour cette même fonction. Parfois les bactéries de différent type forment une sorte de chaîne alimentaire, où chacun se spécialise sur une étape. Ce fait penser au fonctionnement d'un écosystème où l'énergie et les éléments passent par une chaîne d'organismes. Photosynthèse et la production d'oxygène. La production d'oxygène a eu des conséquences pour le métabolisme, bien qu'il existe dans tous les groupes (eubactéries, archéobactéries et eucaryotes) encore des espèces anaerobes (mais parfois il s'agit d'une adaptation sécondaire) pour lesquels l'oxygène est extrêmement toxique. Aussi chez les organismes aerobes, pas mal d'enzymes sont très sensibles à l'oxygène, ce qui montre leur origine avant l'abondance de l'O2. Dangereux en général sont des produits intermédiaires associés à l'oxygène : des radicaux libres (superoxide) et peroxide. Il existe des enzymes très efficaces pour les immédiatement faire disparaître. 02 sert comme accepteur terminal d'électrons chez les organismes aerobes. Pour le reste il y a peu de réactions qui en ont besoin. 3.4. L'ORIGINE DES EUCARYOTES Saut de complexité, différent de la diversité graduelle que l'on rencontre parmi les procaryotes : les eucaryotes sont des cellules composées, résultant d'une symbiose entre différent types de constituants. Les eucaryotes diffèrent des procaryotes dans une série de caractéristiques Les bactéries ont une paroi cellulaire. Un scénario probable de l'origine des eucaryotes est la perte de cette paroi (et remplacement par une cytosquelette) qui permet la possibilité de phagocytose : l'inclusion de particules au lieu de seulement molécules. Probablement une fois une grande bactérie sans paroi a inclus une petite bactérie dans sa totalité qui a ensuite pu se maintenir à l'intérieur de la grande. Il est dur à dire si on peut l'appeler une forme de parasitisme de la petite ou dès le début une forme de mutualisme ou les deux ont eu un avantage. Le fait qu'un organisme vit entièrement dans une autre signifie en fait qu'il n'existe plus sous une forme indépendante. On pourrait plutôt l'appeler une forme d'esclavage ou servitude. On pense que la mitochondrie a une seule origine, qui date d'environ 1,5 à 2 milliards d'années. Les chloroplastes date d'environ 1 milliard d'années et sont très probablement d'origine multiple. Il est remarquable qu'il ait pris considérablement moins de temps pour arriver aux premières formes de vie que pour arriver à des eucaryotes à partir de procaryotes. Ceci s'explique par le fait que les procaryotes sont déjà très performants, contraire aux premières formes de vie de l'époque où il n'y avait rien encore. 2005-15 La relation entre les différents constituants de la cellule eucaryote : noyau et organites, est délicat. Nous avons déjà vu le conflit potentiel entre gènes avant d'être regroupés en chromosomes. Comme les organites ont gardé leur propre information génétique, il existe aussi un conflit potentiel entre ces différents réplicateurs de la cellule. Deux mécanismes se sont développés pour diminuer le conflit : • Le transfert d'une part considérable des gènes des organites vers le noyau, qui limite la multiplication indépendante des organites. • La transmission des organites chez les espèces de reproduction sexuée par un seul type de gamète, en général l'ovule. Exemple d'un conflit : la mutation "petite" chez la levure (Steams & Hoekstra p.202) 3.5. LA MULTICELLULARITE Expérience de Boraas (1998) avec Chorella vu/garis, une algue verte unicellulaire : avec prédateur se développent après quelques générations des agrégats de 8 cellules (identiques) connectées qui ne pouvait pas être mangés par les prédateurs. Le nombre est pourtant faible, ce qui permet encore une diffusion correcte de ressources à partir du medium. Le conflit dont on a parlé entre différents réplicateurs dans la cellule eucaryote est ici en principe évité (sauf mutations) par le fait qu'ils sont génétiquement identiques. En cas de non-identité la théorie des jeux nous montre que l'absence de coopération (l'égoïsme) est une stratégie stable et non pas la coopération (l'altruisme). La taille d'un individu donne un avantage dans pas mal de situations. Mais pour diminuer le risque d'égoïsme il faut mieux toujours passer via un stade unicellulaire (ce qui comme avantage aussi que ce permet la reproduction sexuée ainsi que la dispersion). En plus il y a une conséquence physiologique : si certains cellules ne sont plus (suffisamment) à la surface il a y des problèmes de diffusion des substrats, et en cas de respiration, d'oxygène. Quels sont les avantages ? Il ne faut pas mélanger complexité et taille. Selon le modèle de Gould (mur à gauche) sans tendance à un plus grande complexité la moyenne va augmenter mais pas le mode. En ce qui concerne la taille, il y a toujours une "niche" ouverte à un plus grand organisme. Ce peut être avantageux en termes de compétition (intra et interspécifique) ou pour manger des "proies" ou pour se défendre contre les prédateurs. Pourquoi y a-t-il un conflit potentiel et pourquoi est-il résolu si on passe par un stade unicellulaire ? Théorie des jeux. Valeur sélective, bénéfice et coût. Matrice des gains qui montre que l'égoïsme s'installe sans protection. II faut soit un bénéfice mutuel, soit un système juridique, soit une relation familiale entre joueurs. Problème de la surface : développer un système de transport. Les premiers organismes sans un tel système n'ont peut-être pas pu se développer sans beaucoup d'oxygène dans l'atmosphère (explosion des formes d'animaux à la fin du précambrien). Différenciation cellulaire : la contradiction avec l'identité génétique nécessaire pour éviter les conflits. Modèles de Weismann. Soma et lignée germinale Développement. Plan d'organisation ; gènes à homéobox (Hox) et MADS box. 2005-16 3.6. LA SOCIALITE Comme les cellules se différentient en réponse d'environnements légèrement différents (position par rapport aux cellules voisines ; gradients de substances, etc.) chez certains animaux les individus se différencient en réponse de stimulus externes : les différences entre reine et ouvrières chez les abeilles ; soldats etc. chez les fourmis et le rat taupe ; profession différentes chez les humains. Chez abeilles, fourmis, termites, rat taupes et encore d'autres organismes la société fonctionne de façon comparable à l'organisme multicellulaire. Il y a une spécialisation qui va jusqu'à renoncer à la reproduction, comme les cellules somatiques. Pourtant les individus d'une société ne sont pas génétiquement identiques.... Hamilton a mise en évidence que ces membres sont quand même apparentés, et que c'est une condition pour une telle coopération. 3.7. RESUME DES TRANSITIONS MAJEURES • • • • • • • • • • • • L'origine de la vie La coopération de différents gènes et l'évolution des chromosomes La cellule avec son milieu interne; le phénotype L'invention de la photosynthèse L'origine des eucaryotes L'invention du sexe La multicellularité L'invasion des milieux terrestres L'invention du vol chez les insectes La coévolution entre plantes et pollinisateurs La formation de sociétés L'invention du langage et de l'écriture 3.8. PHYLOGENIES ET CLASSIFICATIONS Jusqu'au 19ième siècle la diversité des êtres vivants étaient classée sur une échelle linéaire depuis le monde inanimé jusqu'à l'homme. Les mots inférieurs et supérieurs sont encore utilisés. Progressivement des ramifications sont acceptées. Cuvier (le père spirituel de l'anatomie comparée) distinguait Vertebrata, Mollusca, Articulata et Radiata, un système basé sur les notions de ressemblances par soit "homologie" soit "analogie" (Richard Owen, 1843). Homologie veut dire même organe chez différentes espèces (voir Solignac figure 10.1). Analogie signifie organes qui n'occupent pas la même place dans le plan d'organisation mais qui ont même fonction, par exemple aile d'un oiseau et aile d'un insecte. Depuis Darwin, l'homologie est plutôt la preuve d'une ascendance commune (ancêtre commun qui portait ce caractère ou organe). Haeckel (qui a introduit le mot "écologie") a aussi créé le terme "phylogenèse" pour désigner la reconstitution de l'histoire évolutive des lignées. Seules discontinuités dans un tel système sont les symbioses (comme l'origine des eucaryotes) et l'allopolyploïdie. Le but c'est donc d'arriver à une classification qui a un sens évolutif (comparez le système de Linné). Haeckel (1860's) avait des idées intéressantes mais pas très justes sur le rapport entre ontogenèse et phylogenèse qui selon lui étaient très liées : l'ontogenèse récapitule la phylogenèse (voir Solignac figure 10.2). II était Lamarckien et donc le transformisme était logique pour lui. Pourtant en 1828 Karl Ernst von Baer a constaté que c'était plutôt le développement des embryons des formes "supérieures" qui ressemblaient au développement des embryons des formes "inférieures". 2005-17 4. EVOLUTION MOLECULAIRE ET PHYLOGENIE 4.1. Variation de l'ADN 4.2. L'horloge moléculaire 4.3. Identité et distance génétiques de Nei 4.4. Homologie au niveau des nucléotides 4.5. La phylogénie 4.6. Méthodes basées sur une matrice de distances: la méthode UPGMA 4.7. Le principe de la parcimonie maximale 4.8. Arbre des molécules et arbre des espèces ; duplications 4.9. La phylogéographie 4.1. VARIATION DE L'ADN L'ADN chez les eucaryotes n'est pas entièrement constitué de gènes, comme on le croyait autrefois. Souvent plus des trois quarts du génome, est constitué d"'ADN répétitif'. La majorité des gènes se trouve dans la partie "ADN simple copie". Un gène désignait autrefois: un segment d'ADN qui code pour une protéine ou pour une molécule fonctionnelle d'ARN. Aujourd'hui la définition est plus vague: une séquence d'ADN qui est essentielle pour une fonction spécifique. On sait maintenant que certains morceaux d'un gène ne sont pas traduits ou même pas transcrits. La figure 4.1 montre la structure schématique d'un gène eucaryote typique codant pour une protéine. Deux questions étroitement liées se posent: 1) quel est le degré de polymorphisme dans les différentes régions d'un gène au niveau intra-population ou intra-spécifique; 2) quels sont les taux de substitutions dans ces différentes régions au cours de la macro-évolution? Ici on considère seulement les changements à petit effet, donc pas les grandes délétions, inversions, etc. 2005-18 Logiquement on peux attendre plus de variations et de substitutions dans les régions plus neutres, c'est à dire, les régions non codantes, non plus impliqués dans des fonctions régulatrices ou structurelles. Un exemple de la variabilité intra-spécifique d'un gène bien connu est présenté dans la figure 4.2. II s'agit du gène Adh chez Drosophila melanogaster (2659 paires de base). Premièrement on constate que le polymorphisme au niveau de l'ADN est très grande: parmi les 11 séquences analysées il y en a 9 différentes; les seules séquences identiques sont 8-F, 9-F et 10-F (quand on ne compte pas les délétions). Les polymorphismes se trouvent surtout dans la séquence flanquante 5', dans l'intron 3 et dans l'exon 4. La variabilité tend à être plus faible dans les exons, mais aussi dans les régions 3' pour des raisons inconnues. En ce qui concerne les régions codantes il est nécessaire de distinguer deux types de substitutions: les substitutions synonymes, donnant le même acide aminé, et les substitutions non synonymes qui causent le remplacement d'un acide aminé par un autre. Parmi les 14 sites polymorphes dans les 4 exons de l'Adh, un seul correspond avec un polymorphisme au niveau des acides aminés produits (Lys/Thr, voir ci-dessous). La troisième position d'un triplet est souvent entièrement ou partiellement "dégénérée", ce qui veut dire que les substitutions seront toutes ou pour une certaine partie synonymes. Un changement d'acide aminé peut avoir des conséquences pour le fonctionnement de la protéine (en particulier pour les enzymes quand la fonction catalytique est concernée). Il faut ici distinguer les remplacements conservateurs, par exemple Gly par Ala, Ser par Thr ou Lys par Arg, où les deux acides 2005-19 aminés ont une structure ou une charge semblable, et les remplacements non conservateurs. Même ces derniers peuvent être neutres. L'exemple de l'Adh dans la figure 4.2 montre le polymorphisme S (slow) et F (fast), dû à une substitution A (AAG = Lys -> slow) par C (ACG, = Thr -> fast). Ce polymorphisme n'est pas entièrement neutre: les deux allèles fonctionnent bien, mais ont des caractéristiques catalytiques différentes. La majorité des polymorphismes allozymatiques détectables, étant donc le résultat de remplacements non conservateurs d'acides aminés, est cependant neutre. Une vue générale sur les taux de substitution de nucléotides dans les différentes régions d'un gène, en comparant des gènes et des espèces différentes, est donnée en bas de la figure 4.1. Le relativement faible taux de substitution des sites non dégénérés est remarquable. Cette figure mentionne en outre le taux de substitution chez les pseudogènes, qui sont des séquences d'ADN dérivées de gènes fonctionnels mais devenus non fonctionnels par une mutation empêchant leur expression. Leur vitesse d'évolution est élevée due au fait qu'il n'y a plus de contraintes fonctionnelles. 4.2. L'HORLOGE MOLECULAIRE 2005-20 Au début des années 60, les premiers séquençages d'acides aminés ont été effectués. La comparaison des protéines homologues d'espèces différentes (plus précisément appelées orthologues), notamment l'hémoglobine et le cytochrome c, a donné un résultat remarquable: le taux de substitution des acides aminés est assez constant pour les différents groupes de mammifères étudiés. Cette observation a amené à l'idée qu'il existe une "horloge moléculaire", ce qui a stimulé beaucoup l'intérêt de l'utilisation de macromolécules dans les études évolutives. Si les protéines évoluent d'une manière constante au cours du temps, il y a une relation simple entre pourcentage de divergence moléculaire entre deux espèces et temps écoulé depuis leur séparation; l'analyse du pourcentage de divergence moléculaire constituerait un outil très performant pour retracer les relations phylogénétiques entre espèces. Différent types de protéines évoluent avec des vitesses différentes, comme le montre la figure 2.3: l'hémoglobine évolue plus vite que le cytochrome c, et les fibrinopeptides changent encore plus vite. Une quatrième protéine l'histone IV (qui n'est pas indiquée dans la figure) montre, par contre, un taux de changement qui est 50 fois moins rapide que celui du cytochrome c. Les fibrinopeptides sont utiles pour comparer des espèces proches; l'hémoglobine pour les différentes classes d'animaux; le cytochrome c pour tous les eucaryotes. Il semble exister une relation entre vitesse d'évolution et importance de la structure tridimensionnelle de la protéine. Chez les fibrinopeptides, il n'y a qu'une petite région de la molécule dont la structure est importante, tandis que l'histone IV doit s'ajuster exactement à la molécule d'ADN à laquelle elle est conjuguée, ce qui fait que la stabilité de sa structure tridimensionnelle est d'importance essentielle. Les droites de la figure 4.3 suggèrent que la linéarité des substitutions avec le temps est exacte. Comme cette idée a été fortement critiquée, il faut tout d'abord savoir dans quelle mesure l'horloge moléculaire est un concept valable. La théorie neutraliste (voir 1.9) prédit que la probabilité qu'une nouvelle mutation neutre soit fixée est égale au taux de mutation u. On peut ainsi s'attendre à une période moyenne de 1/u entre deux fixations. C'est un argument en faveur d'une horloge moléculaire pour les séquences neutres, mais seulement à condition que le taux de mutation soit constant (et que la neutralité persiste). Pour tester si l'horloge moléculaire est vraiment une idée acceptable on dispose d'une méthode de vérification dont le principe est illustré par la figure 4.4. On souhaite comparer deux espèces (A et B) qui ont un ancêtre commun (O). Le nombre de substitutions entre O et A doit être égale au nombre entre O et B (mais les deux ne sont pas mesurables parce que O n'existe plus). Pour le test on a donc besoin d'une troisième espèce (C) moins proche. Il faut maintenant que le nombre de substitutions entre C et A soit égal au nombre entre C et B. Quand on définit K;j comme le nombre de substitutions de nucléotides pour 100 sites entre les espèces i et j, il faut que KAC - Kec = 0 Fig. 4.4: Un arbre phylogénétique pour tester si le taux de substitution est constant (voir texte). Quelques résultats obtenus avec cette méthode: 1). II n'y a pas de taux de substitution différents pour la souris (A) et le rat (B), en prenant l'homme comme espèce C. Cela veut dire que, depuis la divergence des deux espèces, les deux taux de substitution n'ont pas été significativement différents: KAC - KBC = 0,4 ± 1,5. 2). Un autre exemple avec un résultat différent: l'homme (B) a eu un taux plus faible que les singes non anthropoïdes du vieux monde (A): KAC - KBC = 2,3 ± 0,6 ** (C = différents mammifères moins proches). 3). Les rongeurs ont eu un taux qui est 4 à 6 fois plus élevé que les primates depuis leur divergence. Il y a deux raisons possibles pour ces différences. Premièrement, la durée de génération peut jouer un rôle: les rongeurs ont une relativement courte durée, les singes une durée plus longue, et l'homme la durée la plus longue des espèces mentionnées. Les mutations se font le plus souvent pendant la réplication de l'ADN, 2005-21 et toutes les espèces ont à peu près le même nombre de réplications de la lignée germinale par génération. Les espèces à courte durée de génération accumuleront donc des mutations plus rapidement que les espèces à longue durée de génération. Une deuxième cause peut être une différence dans les mécanismes de réparation de l'ADN: ce mécanisme semble être moins efficace chez les rongeurs que chez l'homme. En conclusion on peut dire que l'horloge moléculaire ne va pas à la même vitesse dans tous les groupes d'espèces, et n'a par conséquent pas toujours eu la même vitesse partout dans l'histoire de l'évolution. Cependant, pour des groupes d'espèces ayant des durées de génération comparables, il y aura des horloges "locales". Indépendamment du génome nucléaire il y a les génomes des organites. Chez les mammifères, le génome mitochondrial montre un taux de substitution très élevé par rapport à celui du génome nucléaire: z 10 fois plus vite. La structure du génome mitochondrial est, par contre, très stable. Chez les végétaux, la situation est inversée: le génome mitochondrial a un taux de substitution relativement faible, mais la structure est très variable à cause de nombreux réarrangements, duplications et délétions. Le chloroplaste est de structure stable et a un taux de substitution nucléotidique intermédiaire. Les taux de substitutions synonymes pour mitochondries, chloroplastes et noyau chez les plantes montrent un ratio d'environ 1:3:12. 4.3. IDENTITE ET DISTANCE GENETIQUES DE NEI Afin d'obtenir une bonne estimation des distances évolutives entre espèces, on souhaite quantifier les différences entre espèces au niveau des nucléotides, des acides aminés ou des différences allozymatiques. Une première méthode, qui est développée pour les séquences d'acides aminés, mais qui s'applique également bien aux allozymes, est celle de Nei (1971). II part de l'idée que le taux de substitution d'un acide aminé par un autre est constant dans le temps: il y a~, substitutions par unité de temps. Comme la figure 4.5 le visualise, deux espèces Fig. 4.5: Illustration de la méthode de Nei A et B qui ont évolué séparément pendant t unités de temps ont, pendant cette période, chacune subies M substitutions. Elles sont donc séparées par 2kt substitutions. Une complication est la possibilité de deux (ou plusieurs) substitutions à la même position durant cette période, soit deux fois dans la branche CA ou CB, soit une fois dans chacune des branches. On n'enregistre qu'une seule différence quand on compare les deux séquences (la probabilité que deux substitutions donnent finalement le même résultat est négligée). Le problème est évident quand on regarde la figure 4.3: le nombre de substitutions par 100 positions dépasse à un certain moment 100, et va même jusqu'à 200. Le rapport entre le nombre de différences et le nombre de substitutions est donné par la loi de Poisson. Prenons l'exemple de '50 substitutions sur 100. II y aura des positions avec 0, avec 1, avec 2 ou avec encore plus de substitutions. La probabilité qu'un acide aminé reste inchangé est donnée par: Avec 2M = 50/100 = 0,5, cela vaut 0,61. On peut donc attendre 39 différences sur 100 quand il y a eu 50 substitutions. Nei a défini deux paramètres: I(l'identité génétique; ici 0,61) et D (la distance génétique). 2005-22 Ce dernier paramètre est linéaire avec le temps: D = - In I= 2~,t (ici on retrouve donc la valeur 0,5). Pour illustration, voir la figure 2.6, où deux séquences d'acides aminés sont comparées: I= 89/127; D = 0,36. La méthode de Nei peut tenir compte de polymorphismes. Elle s'applique ainsi très bien à la comparaison d'espèces proches, sous-espèces et même des populations où on est très souvent confronté avec des polymorphismes et beaucoup moins avec des substitutions complètes. 4.4. HOMOLOGIE AU NIVEAU DES NUCLEOTIDES Comme mentionné, la méthode de Nei néglige la possibilité que deux ou plusieurs substitutions sur une position amènent à un résultat identique. Cela peut être le cas quand survient dans les deux espèces, après leur divergence, une substitution identique (substitutions parallèles). Une autre possibilité est la substitution reverse: dans une des espèces il y a deux substitutions sur le même site, et la deuxième fois l'acide aminé original revient. Ces phénomènes de convergence, réversion et parallélisme, qui faussent l'information phylogénétique (car injustement suggérant une homologie), sont regroupées sous le terme homoplasie. En comparant des séquences de nucléotides ces possibilités sont considérablement plus grandes que chez les acides aminés ou chez les allozymes. C'est la conséquence du fait qu'il n'y a que 4 nucléotides différents, contre 20 acides aminés et un très grand nombre d'allozymes. Chez les nucléotides il faut donc corriger la distance calculée en tenant compte de l'homoplasie. La méthode la plus simple est celle de Jukes et Cantor (1969); voir la figure 4.7a. Le taux de substitution est 3a par unité de temps: a pour chaque possibilité (A peut changer en G, en C ou en T). Quand il y a un A à un certain site, la possibilité d'y trouver plus tard toujours un A diminue au cours du temps de 1 à%4 (au lieu de quasiment 0). Un modèle plus compliqué mais également plus réaliste (Kimura, 1980) distingue deux types de substitutions: les transitions (taux (x) et les transversions (taux f3); voir la figure 4.7b. La raison est que les transitions sont en général plus fréquentes que les transversions. 2005-23 Pour comparer deux séquences non codantes de nucléotides (pour les séquences codantes il faut distinguer sites synonymes et non synonymes, ce qui complique encore plus les choses) il nous faut une formule comme celle de Nei, qui transforme le nombre observé de différences en le nombre déduit de substitutions. Selon le modèle de Jukes et Cantor on a, avec une proportion p de différences, un nombre de substitutions par site depuis la divergence des deux séquences qui est: K = - 3/4ln(1 - 4/3p) La méthode de Nei aurait donné K=-In(1 - p). Pour le modèle de Kimura il faut compter séparément les transitions (proportion P) et les transversions (proportion Q). On obtient ici: K = -'/2 ln(a) - '/4ln(b) Avec a=1-2P-Q et b=1-2Q. Ces estimations sont illustrées à l'aide de la figure 4.8 qui donne deux séquences homologues d'ADN du gène 5S rARN: séquence (a) est de Drosophila melanogaster et séquence (b) du crustacée Artemia salina. Il y a 119 sites sur lesquels il y a 27 différences: 16 transitions (8 x A p G et 8 x C<--:> T) et 11 transversions (4 x G<~_:> C; 2 x G a T; 4 x A <=> C et 1 x A *> T). Remarquez que le nombre de transversions serait théoriquement 2 x le nombre de transitions, mais est considérablement plus faible! En appliquant les trois méthodes pour calculer K, on trouve avec la méthode de Nei: K= 0,257; avec la méthode de Jukes et Cantor: K = 0,270 et avec la méthode de Kimura: K = 0,275. Quand les différences entre espèces sont plus grandes, la méthode de Nei sous-estime K encore beaucoup plus fortement qu'ici. 2005-24 En comparant des séquences de nucléotides on ne tombe pas seulement sur des substitutions mais également sur des délétions ou des insertions. On ne peut pas toujours savoir s'il y a eu une délétion dans l'une, ou une insertion dans l'autre séquence. Il existe des méthodes d'alignement des séquences pour identifier l'endroit le plus probable où la délétion/insertion se trouve. Il y a d'autres méthodes que le séquençage des nucléotides qui peuvent donner une impression de l'homologie entre deux séquences. Tout d'abord il est possible d'estimer l'homologie à partir des profils de RFLP. On obtient par cette méthode une idée de la variabilité des sites de restriction, ce qui peut être traduit en une estimation de la variabilité générale. Une deuxième, plus ancienne, méthode est l'hybridation ADN-ADN. Cette méthode est basée sur le fait qu'il y a une différence de stabilité entre une molécule double brin d'ADN dont les deux brins ont la même origine et donc la même séquence (des molécules homoduplex) et une molécule double brin où les deux brins sont d'origine différente et donc moins homologues (des molécules hétéroduplex, moins stables). La stabilité est caractérisée par la température à laquelle la moitié des molécules est dissociée en simple brins. Pour les molécules mixtes (fabriquées par dissociation puis réassociation d'un mélange des deux types de molécules) il y aura ainsi une relation directe entre cette température et le degré d'homologie entre les deux brins. 4.5. LA PHYLOGENIE La phylogénie est l'histoire évolutive d'un groupe de taxons. Avant le développement de techniques moléculaires, la phylogénie était principalement basée sur les ressemblances morphologiques entre taxons. L'emploi de caractères morphologiques a plusieurs désavantages par rapport à l'utilisation de données moléculaires. Tout d'abord le nombre de caractères indépendants est limité, tandis que le nombre de positions d'acides aminés ou de nucléotides est quasiment illimité. Deuxièmement il est difficile de pondérer les différents caractères quand on souhaite avoir une seule valeur exprimant la ressemblance; un problème qui ne se pose pas au niveau moléculaire où toutes les substitutions ont le même poids. Finalement il y a le problème de la convergence de caractères: souvent dans l'évolution une fonction est "inventée" deux ou plusieurs fois, ce qui donne l'impression d'une relation plus étroite que justifiée par le temps de développement séparé. Cette convergence est parfois retrouvée au niveau des molécules d'enzymes: la structure tridimensionnelle peut être semblable afin d'arriver à une fonction catalytique déterminée par les substrats. La structure primaire (l'ordre des acides aminés et des nucléotides), par contre, ne montrera pas forcément une relation spéciale, et c'est à ce niveau-là que l'information moléculaire est utilisée. La visualisation d'une phylogénie est l'arbre phylogénétique. Les taxons étudiés (les unités taxinomiques opérationnelles; les OTU: souvent, mais pas obligatoirement, des espèces) sont les éléments de base de cet arbre. Les OTU se trouvent aux extrémités extérieures des branches, les "nœuds" internes représentent les unités ancestrales hypothétiques. L'ensemble des branchements de l'arbre (sa topologie) représente l'ordre des événements de cladogénèse; les longueurs des branches quantifient les divergences entre les unités taxinomiques. Un arbre peut posséder une racine, qui représente en fait l'ancêtre commun de toutes les OTU de l'arbre. Un arbre sans racine montre les relations entre les OTU mais pas les chemins évolutifs. Un grand nombre de méthodes de construction d'arbres a été développé. Les deux méthodes les plus utilisées seront traitées ici: 1) la méthode UPGMA (4.6), qui part d'une matrice de distances génétiques entre toutes les OTU, par exemple les distances génétiques de Nei (4.3) ou de Kimura (4.4). Il s'agit d'une méthode phénétique: un groupe d'organisme est étudié sur la base de leur degré de similarité. L'arbre qui en résulte est un "phénogramme". ) la méthode de parcimonie maximale (4.7), qui nous donne l'arbre obtenu avec le plus petit nombre de substitutions nécessaires pour arriver aux séquences observées. Cette méthode est de nature cladistique: ce qui est étudié ici sont les chemins évolutifs et la topologie de l'arbre (qui s'appelle cette fois un "cladogramme"). 4.6. METHODES BASEES SUR UNE MATRICE DE DISTANCES: LA METHODE UPGMA La méthode UPGMA (Unweighted Pair Group Method with Arithmetic mean) est la méthode la plus simple pour la construction d'un arbre. Dans la matrice de distances on cherche la distance la plus faible entre deux OTU. Ces OTU sont désormais considérés comme une seule OTU composée. La nouvelle distance entre 2005-25 l'OTU composée et une OTU simple est calculée comme la moyenne arithmétique des deux anciennes distances. La méthode est itérative: elle est appliquée jusqu'à ce qu'il ne reste que deux OTU. Fig. 4.9: Matrice des distances génétiques D (au-dessus de la diagonale) et des identités génétiques I(en-dessous de la diagonale) entre 7 espèces proches de drosophiles, basée sur des différences allozymatiques (Esses et al. 1979) La méthode sera illustrée à l'aide de la matrice de distances de la figure 4.9. On constate que les distances les plus faibles sont celles entre les trois espèces melanogaster, simulans et mauritiana. On les combine et puis on calcule la nouvelle matrice (Me = melanogaster; Si = simulans; Ma = mauritiana; Ya = yakuba; Te = teissieri; Er = erecta; Bu = burlai): Remarquez que 1,108 est la moyenne de 1,099; 0,945 et 1,281; etc. La nouvelle valeur la plus faible est la distance entre Ya et Te. On combine donc maintenant les deux. Cela donne: Remarquez ici que la valeur 1,030 est la moyenne de 3 x 2 = 6 valeurs originales! Puis on prend Er et Bu ensemble: 2005-26 Il reste encore à combiner les deux OTU composées MeSiMa et YaTe: La distance 1,116 n'est pas simplement la moyenne entre 1,056 et 1,207, mais la moyenne pondérée, car 1,056 est basé sur 6 valeurs et 1,207 sur 4 valeurs. Voilà le résultat final: On peut mettre en relation les positions des embranchements (noeuds) par rapport au temps de divergence en millions d'années (sous l'hypothèse d'une horloge moléculaire). Tout d'abord il faut corriger pour le fait qu'une partie seulement des substitutions d'acides aminés sont détectables par électrophorèse d'allozymes. Cette proportion est environ 0,4, donc il faut multiplier les valeurs de D par 2,5. Sur cette échelle de D, D = 1 correspond à peu près à une période de 18 millions d'années. L'utilisation des allozymes ne s'applique qu'à la comparaison d'espèces proches, parce qu'autrement on tombe facilement sur des identités génétiques égales à 0, ce qui empêche le calcul de D. Dans les arbres présentés, les intervalles de confiance ne sont pas indiqués. Les résultats sont basés sur seulement 18 locus; on ne peut pas être très sûr que cet arbre déduit correspond en topologie exactement au vrai arbre. Une autre méthode qui utilise une matrice de distances mais qui ne nécessite pas l'acceptation d'une horloge moléculaire est la méthode du "Neighbour Joining". Il n'y a pas de racine, et les longueurs des branches sont proportionnelles aux distances génétiques. 4.7. LE PRINCIPE DE LA PARCIMONIE MAXIMALE Le principe de la parcimonie maximale (ou évolution minimale) est l'identification de l'arbre qui est basé sur le plus petit nombre de substitutions pour expliquer les différences entre les OTU étudiées. 2005-27 Contrairement à la méthode UPGMA, basée sur l'étude des distances, la méthode de parcimonie considère les caractères et leur état. L'exemple présenté ici consiste en 4 séquences hypothétiques de nucléotides (cette méthode marche également avec des acides aminés ou des sites de restrictions). Quatre OTU (ou trois OTU et une racine connectée avec un groupe externe) est le nombre minimal pour avoir la possibilité de plusieurs arbres; dans ce cas il y a trois arbres différents: On commence avec la définition de sites informatifs et sites non informatifs. Un site informatif est site qui porte de l'information pour favoriser certains arbres sur d'autres arbres. Regardons les 4 séquences: Site Séquence 1 1 2 3 4 A A A A 2 A G G G 3 G C A A 4 A C T G 5 G G A A * 6 T T T T 7 G G C C * 8 C C C C 9 A G A G * Le site 1 n'est pas informatif, parce qu'il n'y a pas de variation. Au site 2, la première séquence a A, les autres ont G. Dans les trois arbres possibles, on peut expliquer les différences entre OTU par une seule substitution: dans la branche qui va vers 1 il y a eu une substitution G H A. Le site 2 n'est donc pas informatif. La situation pour les sites 3 à 5 est plus compliquée et est visualisée ci-dessous. Les différences sur le site 3 nécessitent au moins 2 substitutions dans chacun des trois arbres; ce site est non informatif. Pour site 4 la situation est la même, mais le nombre minimal de substitutions y est partout 3. Le site 5 finalement, est le premier qui est informatif: il est possible d'expliquer la situation de l'arbre I avec une seule substitution, tandis que les deux autres arbres ont besoin d'au moins deux substitutions. Deux autres sites informatifs sont le 7 (favorisant l'arbre 1) et le 9 (favorisant l'arbre II). En prenant en compte tous les sites informatifs, il est évident que l'arbre 1 est le plus favorisé(par 2 sites), puis l'arbre Il (par 1 site), puis l'arbre III 2005-28 (aucun site). Remarquez qu'un site est seulement informatif quand il y a deux états, chacun partagé par deux OTU. Pour 4 OTU, cela veut dire: 2 de l'un et 2 de l'autre type. La situation avec plus que 4 OTU se complique rapidement: il y a 15 arbres possibles avec 5 OTU; 105 avec 6 OTU et plus de 2 millions avec 10 OTU. Les arbres à 4 OTU présentés ci-dessus n'ont pas de racine. En principe, la racine peut s'embrancher sur n'importe laquelle des 5 branches de l'arbre. Pour trouver la racine, on a besoin de la séquence d'une OTU évolutivement assez éloignée (un "outgroup", ou groupe externe), dont on sait par d'autres informations (paléontologiques, ou ontogéniques) qu'elle a divergé bien avant la divergence entre les OTU étudiées. Par exemple: les poissons constituent un groupe externe pour les mammifères. 4.8. ARBRE DES MOLECULES ET ARBRE DES ESPECES ; DUPLICATIONS Il arrive fréquemment qu'un arbre phylogénétique est basé sur un seule gène. A part les problèmes de précision, ceci peut donner une vision erronée des relations chronologiques réelles entre les espèces (la topologie de l'arbre). La raison est que les différences entre espèces ont en principe commencé sous forme de polymorphismes intraspécifiques. Ces polymorphismes peuvent être conservés au sein des espèces ancestrales pendant une longue période, et peuvent même être transmis à une ou plusieurs espèces filles. Plus concrètement on peut penser aux formes alléliques de l'ADH (fig. 4.2). II est possible de construire un arbre basé sur ces allèles, qui montre la chronologie de leur naissance par mutation. Imaginons une période de spéciations qui va nous donner plusieurs espèces filles de drosophiles, chacune obtenant un allèle différent parmi les 11 actuellement identifiés. La figure 4.10 visualise comment on pourrait se tromper avec la topologie déduite des spéciations quand on se base uniquement sur l'ADH. Fig. 4.10: Arbre des molécules et arbre des espèces. Les deux spéciations se sont produites aux temps to et t, respectivement. L'origine des gènes est indiquée par des traits fins à l'intérieur des 'tuyaux'. II peut y avoir accord entre les deux phylogénies (en A et B, mais en B avec des anciennetés différentes) ou désaccord (C). 4.8.1. Duplications et familles de qènes Un gène peut être dupliqué, ce qui donne deux copies identiques, souvent "en tandem". Cette possibilité est de très grande importance pour expliquer l'existence d'organismes complexes, car une des deux copies peut changer de fonction ou de régulation de son expression, tandis que l'autre copie reste inchangée. Cela ouvre la possibilité d'obtenir de nouvelles fonctions en relativement peu de temps. Il est également possible qu'une des copies devienne non-fonctionnelle et forme donc un pseudogène. Une troisième possibilité est la multiplication du nombre de copies sans divergence: le résultat est une plus grande quantité du produit du gène. Cette possibilité sera discutée plus tard. On appelle un ensemble de gènes dans un individu, issu d'un même gène ancestral, une famille de gènes (ces gènes sont appelés paralogues pour les distinguer des gènes orthologues qui sont le résultat d'une spéciation). Quand il y a eu une diversification, on peut retracer, avec les méthodes de la phylogénie, l'histoire évolutive des membres de cette famille. On retrouve en fait les moments où les duplications ont eu lieu. Une famille très étudiée est celle des globines: l'hémoglobine (érythrocytes) et la myoglobine (muscles). Les deux sont impliquées dans le transport d'oxygène, mais les hémoglobines sont plus sophistiquées en termes de sensibilité pour d'autres facteurs du milieu interne; les différentes hémoglobines s'expriment dans différents stades ontogéniques. 2005-29 La figure 4.11 montre la phylogénie de cette famille, avec les positions des duplications. Fig. 4.11: La phylogénie des myoglobines (Mb) et des hémoglobines (Hb) chez un mollusque (Aplysia) et plusieurs vertébrés. Les embranchements munis d'un carreau représentent les duplications; les autres embranchements les ancêtres communs des différents taxons. Les temps de divergence des taxons sont basés sur des fossiles. Les nombres à côté des branches indiquent les nombres de substitutions de nucléotides. La divergence entre myoglobines et hémoglobines date de il y a~e 470 MY (millions d'années); la divergence entre hémoglobine oc et hémoglobine f3 de il y aet; 440 MY. C'était avant la divergence entre poissons et reptiles (voir la figure 4.3). Pour les deux types d'hémoglobine aussi bien que pour la myoglobine on peut retrouver dans la figure 2.11 le moment de la divergence entre mammifères et reptiles quand on compare homme et poule: l'ancêtre commun se trouve à~ 300 MY. 4.9. LA PHYLOGEOGRAPHIE 4.9.1. La phyloqéoqraphie intra-spécifique Le fait que les espèces se déplacent géographiquement, soit suite à des changements de l'environnement, soit en conséquence d'une évolution (changement ou élargissement de la niche), soit par une simple expansion, offre la possibilité de mettre en relation la distance géographique et la distance génétique. Les deux distances ont, sous certaines conditions, une relation avec le temps. Si la migration est très rapide par rapport à la différenciation génétique (par la dérive ou par la sélection différentielle), il n'y aura pas de concordance entre la phylogénie intraspécifique et la distribution géographique des populations. Si, par contre, la vitesse de migration est faible par rapport à la vitesse de la différenciation génétique, cette concordance peut être très nette. 2005-30 Un exemple d'une absence totale d'une telle concordance est l'espèce Drosophila melanogaster. La phylogénie basée sur les allèles de l'Adh (voir fig. 4.2) est présentée dans la figure 4.12. Le même clade contient des origines très différentes, et une même origine peut être retrouvée aux différentes positions dans l'arbre. Les drosophiles sont apparemment devenus cosmopolites en peu de temps, probablement sous l'influence de l'homme.. Fig. 4.12. L'arbre UPGMA des 11 allèles de Adh de Drosophila melanogaster de la figure 4.2. Ja = Japon; Af = Afrique; Wa = Seattle (Washington); FI = Floride; Fr = France (Stephens et Nei, 1985). Les deux allèles F et S sont bien séparés dans la phylogénie, sauf dans un cas de recombinaison à l'intérieur du gène (allèle 7F). Fig. 4.13. Distribution géographique des populations européennes d'ours brun (Ursus arctus) et relations génétiques entre les différentes lignées, calculées à partir de la variation de l'ADN mitochondrial, le groupe externe étant l'ours noir américain (Ursus americanus) (d'après Taberlet et Bouvet, 1994). Cette combinaison de phylogénie (qui dit quelque chose sur l'historique des taxons ou gènes) et biogéographie s'appelle la phylogéographie (Avise, 1987). La phylogéographie n'étudie pas uniquement quand l'ancêtre commun de deux OTU a vécu, mais aussi où cet ancêtre a vécu. Intéressants sont les cas où on peut suivre l'expansion d'une espèce à l'aide de la phylogénie de ses populations ou races géographiques. Dans la section précédente a déjà été mentionnée l'expansion vers le nord des espèces après la dernière période glaciaire. Beaucoup d'espèces que l'on trouve actuellement jusqu'au nord de l'Europe se sont maintenues dans des refuges pendant la glaciation. L'exemple de l'ours brun (figure 4.13) montre quelles populations actuelles sont issues de quels refuges. Très bien documenté est aussi le cas de l'espèce humaine moderne (Homo sapiens sapiens). Son origine est certainement l'Afrique et elle s'est répandue dans deux sens. Une vague de colonisation s'est effectuée vers l'Europe et l'Asie du Nord et plus tard en Amérique du Nord et du Sud. Une autre route était l'Asie du Sud et puis l'Australie 2005-31 (figure 4.14). Dans le Sud-Est de l'Asie il est relativement difficile de placer les peuples dans la phylogénie, ce qui est certainement la conséquence du fait que les deux grandes routes y sont en contact, et qu'il y a donc eu mélange des informations génétiques. Les temps estimés de l'arrivée de notre espèce sont également mis dans la figure; ces temps sont suffisamment longs pour mesurer avec précision la divergence génétique. Cependant, l'espèce humaine est une jeune espèce qui est génétiquement relativement homogène. Fig. 4.14. (a) Phylogénie de l'espèce humaine basée sur 110 gènes (groupes sanguins, enzymes, autres protéines, etc.); (b) Les chemins d'expansion de notre espèce dans sa forme moderne (Homo sapiens sapiens) à partir de son origine en Afrique. Les moments probables d'arrivée aux différents continents sont également indiqués (CavalliSforza et Cavalli-Sforza, 1994). 4.9.2. La phylogeoqraphie des taxons supérieurs La répartition macrogéographique est semblable pour beaucoup d'espèces. On peut aussi dire qu'il existe des régions qui sont caractérisées par les mêmes groupes d'espèces. De telles régions s'appellent des régions biogéographiques. Certains taxons supérieurs se trouvent dans plusieurs régions. La combinaison de données phylogénétiques et géographiques peut nous donner une idée de l'origine et la manière d'expansion à cette échelle, comme on l'a vu pour des espèces individuelles dans la section précédente. 2005-32 Fig. 4.15. Les familles vivantes d'oiseaux ratites (ne pas dessinées à l'échelle). (A) Struthionidae (autruche), Afrique. (B) Rheidae (rhéa), Amérique du Sud. (C) Dromiceiidae (émeu), Australie. (D) Casuaridae (casoar), Australie et Nouvelle Guinée. (E) Apterigydae (kiwi), Nouvelle Zélande. (F) Tinamidae (tinamou), Amérique tropique. Malgré leur distribution disjoncte, ces oiseaux, qui ne peuvent pas voler sauf le tinamou, forment un groupe monophylétique. Notre premier exemple est le groupe des oiseaux ratites. Ils sont présents sur plusieurs continents de l'hémisphère sud (voir figure 4.15). Il y a a priori deux possibilités d'expliquer cette distribution: convergence morphologique ou migration. Les données phylogénétiques ont montré qu'il s'agit d'un groupe monophylétique, donc on peut exclure la possibilité de convergence. A cette échelle de temps il y a cependant une autre possibilité qui est basée sur le fait que les continents se sont déplacés au cours du temps (figure 4.16; voir aussi Tableau 1.1). Ici il est très probable que l'ancêtre commun a vécu sur l'ancien continent Gondwana. Après la séparation de continents il y a eu diversification par isolement. Pour beaucoup de cas comparables (entre autres les marsupiaux, surtout quand on inclut les fossiles) on trouve le type de phylogénie de la figure 4.17, qui montre bien que l'Australie s'est séparée avant la séparation d'Amérique du Sud et l'Afrique. Pour les espèces nettement apparentées, mais se situant dans des régions très éloignées, il y a deux explications. La première possibilité est que l'ancêtre commun était, il y a très longtemps, très répandu (être "cosmopolite" était assez logique pour les espèces qui ont vécu sur Pangée). Puis, après la dérive des continents, l'espèce a disparu sauf dans quelques régions très éloignées. Il faut avoir une évidence paléontologique pour soutenir une telle hypothèse. C'est le cas des tapirs, que l'on trouve actuellement à la fois en Amérique tropicale et en Malaisie, mais dont des fossiles ont été trouvés sur tous les continents. 2005-33 2005-34 La deuxième possibilité est la dispersion (migration). Les Camelidae, actuellement présents en Amérique du Sud (les lamas) et en Asie/Afrique du Nord (les chameaux) en sont un exemple. L'ancêtre commun est trop jeune pour expliquer cette distribution par la dérive des continents. Il a vécu en Amérique du Nord pendant l'éocène. Depuis cette époque, ils sont arrivés par migration en Asie (via le détroit de Bering) et en Amérique du Sud (via l'isthme entre les deux Amériques). Puis il y a eu extinction en Amérique du Nord. La manière de distinguer entre les deux possibilités est illustrée par la figure 4.18. La situation de séparation sans dispersion, par exemple par la dérive des continents ou en général par la formation de barrières, est connue sous le nom vicariance. Fig. 4.18. Relations cladistiques comme indicateurs de l'histoire biogéographique. (Gauche) Si certains membres d'un taxon ont dispersés récemment à partir d'une région d'origine A vers des régions différentes B et C, ils seront cladistiquement apparentés à certaines espèces dans la région A (voir cladogramme à gauche). (Droite) Une histoire de 'vicariance' (de séparations successives des faunes) donnerait des relations cladistiques qui correspondent avec l'ordre des événements de séparation des régions. La migration entre continents a notamment joué un grand rôle après la mise en place de l'isthme entre les deux Amériques. Ces deux continents ont été séparés pendant très longtemps et contenait des flores et surtout des faunes entièrement différents. Après la formation de l'isthme de nombreuses espèces ont envahi l'autre continent. Il est remarquable que dans la plupart des cas les espèces de l'Amérique du Nord ont remplacées celles de l'Amérique du Sud. Cette asymétrie pourrait être expliquée par le fait que le continent "Laurasie" était plus grand que le continent "Gondwana", ce qui a permis une évolution plus rapide sur le premier. Ceci est la conséquence d'un plus grand nombre d"'expériences évolutives" sur une plus grande surface et par conséquent des formes de vie plus performants dans leur milieux. 2005-35 Traductions Français - Anglais : Français Anglais Acide aminé Aire de répartition Aléatoire Améliorer Arbre phylogénétique Brin Chevauchement Copie conforme, bleue Dérive des continents Hasard Horloge moléculaire Lignée germinale Milieux anthropisés Taux d'extinction Amino acid Distribution Random Improve Phylogenetic tree Strand Overlap Blue print Continental drift Chance Molecular clock Germ line Man-disturbed environments Extinction rate Littérature : Avise (2000) . Phylogeography : The History and Formation of Species Blondel (1995). Biogéographie. Approche écologique et évolutive Campbell (1995). Biologie Cavalli-Sforza & Cavalli-Sforza (1994). Qui sommes nous? Cox & Moore (1993). Biogeography. An ecological and evolutionary approach Darlu & Tassy (1993). Reconstruction Phylogénétique. Concepts et Méthodes Dyson (1999) Origins of life, 2"d edition Fenchel (2002) Origin & early evolution of life Futuyma (1986). Evolutionary Biology Gould (1997). L'éventail du vivant- Le mythe du progrès Gouyon, Henry, Arnould (1997). Les Avatars du Gène. La théorie néodarwinienne de l'évolution. Graur & Li (2000). Fundamentals of Molecular Evolution. Lévêque & Mounolou (2001). Biodiversité. Dynamique biologique et conservation. Maurel (2003) La naissance de la vie. De l'évolution prébiotique à l'évolution biologique Maynard Smith & Szathmary (1995) The major transitions in evolution Maynard Smith & Szathmary (1999) The origins of life: from birth of life to the origins of languages Mayr (1982). The Growth of Biological Thought: Diversity, Evolution, and Inheritance Page & Holmes (1998). Molecular Evolution. A phylogenetic approach Ridley (1997). Evolution Biologique Solignac, Periquet, Anxolabéhère & Petit (1995). Génétique et Evolution. Tome II. L'espèce, l'évolution moléculaire. Stearns & Hoekstra (2000). Evolution: an introduction.