biodiversité HenkVanDijk2005

publicité
2005-1
Licence BOP + TPV
Biodiversité 1 - S5
- cours Henk van Dijk 2005
1. Chronologie des idées sur l'évolution et sur la biodiversité
2. L'origine de la vie
3. Les transitions majeures dans l'évolution
4. Evolution moléculaire et phylogénie
1. CHRONOLOGIE DES IDÉES SUR L'ÉVOLUTION ET SUR LA BIODIVERSITE
1.1. Les idées traditionnelles sur le monde vivant
1.2. Lamarck
1.3. Cuvier
1.4. Darwin
1.5. Soma et lignée germinale
1.6. La synthèse de génétique et évolution
1.7. La micro-évolution
1.8. La macro-évolution
1.9. L'évolution neutre
1.1. LES IDEES TRADITIONNELLES SUR LE MONDE VIVANT
L'idée que le monde vivant actuel est le résultat d'une évolution, dont les mécanismes agissent
toujours, est relativement nouvelle. Les conceptions traditionnelles étaient:
Le monde vivant a toujours été comme il est aujourd'hui et ne change pas systématiquement (Aristote)
La situation actuelle est le résultat d'une création qui était parfaite et qui a donc amené à une situation
stable et immuable (la tradition judéo/chrétienne).
Dans la culture européenne la dernière idée était la seule présente jusqu'au début du 19ème siècle. II existait
une unité des idées de la théologie et de la biologie. Plusieurs catégories se distinguent dans la création:
- les plantes
- les animaux inférieurs
- les animaux supérieurs
Dans chacune des catégories il y a un grand nombre d'espèces. Hors catégorie l'espèce humaine est le
couronnement de la création. L'espèce est l'unité de création; les membres actuels d'une espèce représentent
la totalité des descendants d'un même couple créé par Dieu. Ils ont la même essence. La variabilité intraspécifique observée était interprétée comme des imperfections par rapport au "type idéal".
Les deux biologistes les plus importants dans cette tradition étaient Linné et Buffon. Carl von Linné ou
Linneaus (1707-1778) a placé la plupart des espèces connues alors dans un système hiérarchique (17531758). Ce système correspond en fait assez bien aux interprétations actuelles des relations évolutives entre
espèces, ce qui a sans doute contribué au milieu conceptuel dans lequel les théories évolutionnistes ont pu
se développer ultérieurement.
Buffon (1707-1788) a eu à son époque une très grande influence. Son "Histoire Naturelle" (1749) a
2005-2
été imprimée en nombreux exemplaires. Il a mis l'accent sur l'unité dans la nature plutôt que de s'intéresser à
la subdivision et à la classification.
1.2. LAMARCK
Jean Baptiste Pierre Antoine de Monet, Chevalier de Lamarck (1744-1829), né à Bazentin, un village entre
Albert et Bapaume, a été le premier vrai évolutionniste. On a pu suivre le développement de ses idées grâce à
ses "Discours d'ouverture", qui commençaient chaque année sa série de cours,
et qui, pour la plupart, ont été conservés.
En 1800 il a formulé pour la première fois la notion d'évolution (en 1799 il n'en
parlait pas encore). Lamarck avait la disposition, à partir de la fin des années
1790, d'une grande collection de mollusques, fossiles et vivants. II a remarqué
des analogies entre espèces fossiles et espèces actuelles. II semblait même
possible de définir des séries de fossiles selon la chronologie des strates où ils
étaient trouvés. Certaines de ces séries allaient sans interruption de l'ère
tertiaire au présent.
La possibilité que tout cela soit le résultat de beaucoup d'extinctions et de
nouvelles créations ne concordait pas avec les idées théologiques de l'époque:
la création était unique, sans trop de "miracles" après. A cela Lamarck a opposé
l'idée d'une évolution des espèces telle qu'elles restent bien adaptées à un
environnement continuellement changeant.
Ses idées:
- il existe une "force" interne poussant à une plus grande complexité de l'organisme;
- il y a des changements adaptatifs dus aux conditions particulières de l'environnement: les
organes les plus utilisés s'agrandissent, les organes peu utilisés diminuent de taille;
- cette adaptation est transmise aux descendants (-> l'hérédité des caractères acquis).
Ces mécanismes amènent à une évolution de chaque espèce pour obtenir/maintenir une bonne adaptation à
l'environnement et parallèlement à une augmentation en complexité, sans mettre en question l'espèce comme
unité de création.
1.3. CUVIER
George Cuvier (1769-1832), était le grand adversaire de Lamarck. II n'a jamais accepté l'évolution, bien
qu'ayant apporté beaucoup de nouvelles connaissances qui ont finalement soutenu la théorie de l'évolution.
Cuvier a développé l'anatomie comparée (vertébrés et invertébrés) et a fondé la paléontologie. Il a constaté que
chacune des strates géologiques (trouvées dans le bassin de Paris) possédait ses propres espèces, parfois
tout à fait différentes. N'acceptant pas l'évolution, il a dû expliquer ces différents ensembles d'espèces comme
étant le résultat d'un grand nombre de catastrophes successives causant l'extinction d'une partie des espèces.
Remarquez que selon Lamarck il n'y pas eu extinction mais transformation en d'autres formes (donc évolution).
Une autre idée assez répandue était la persistance ailleurs sur la planète des espèces disparues en Europe,
mais à l'époque de Cuvier il restaient encore peu de territoires inconnus qui pouvaient cacher, par exemple, des
mammouths!
1.4. DARWIN
Charles Darwin (1809-1882), Angleterre, est le père spirituel de deux
théories qui ont changé radicalement la biologie bien que n'ayant pas été
immédiatement acceptées par le monde scientifique. Comme Lamarck il a,
à un certain moment, rejeté l'idée d'un monde vivant statique depuis la
création, mais pour le reste il n'y a quasiment que des contrastes entre ces
deux hommes. Les deux théories révolutionnaires de Darwin, développées
en 1837 après son voyage sur le "Beagle" mais publiées seulement en 1859
("On the origin of species by means of natural selection or the preservation
of favoured races in the struggle for life") sont:
2005-3
- L'origine commune des espèces. Après avoir étudié des espèces animales sur les îles d'un même
archipel, il a adopté l'idée que les nombreuses espèces voisines, parfois une espèce par île, sont nées d'un
ancêtre commun. Ce concept de la spéciation comme origine des espèces implique que toutes les espèces
sont finalement originaires d'un seul ou de peu d'êtres qui ont vécu il y a très longtemps. Une conséquence très
choquante de cette théorie est que l'espèce humaine, faisant partie de ce système, a un ancêtre commun avec
les singes. Darwin a, pour ainsi dire, détrôné l'homme comme créature unique.
Bien que les différences entre espèces soient normalement bien nettes, l'évolution est, selon Darwin,
graduelle. Pour résoudre cette contradiction apparente il faut concevoir qu'une espèce est subdivisée en
populations géographiquement éloignées: celles-ci peuvent indépendamment accumuler des différences
jusqu'à ce qu'elles ne soient plus interfertiles et soient donc devenues des espèces nouvelles.
- La sélection naturelle. Cette théorie consiste en trois déductions basées sur quatre faits observés.
Fait 1: Toutes les espèces montrent une grande fertilité potentielle. Leurs populations augmenteraient
exponentiellement si tous les individus nés se reproduisaient à leur tour.
Fait 2: En dehors de petites fluctuations entre années et des grandes fluctuations exceptionnelles, les
populations sont normalement de taille stable. C'est sans doute une conséquence du fait que les ressources
naturelles sont limitées et assez constantes dans un environnement stable.
Déduction 1: Comme il y a beaucoup plus d'individus produits que les ressources disponibles ne le
permettent, tandis que la taille de la population reste stable, il y a forcément une forte compétition entre
individus d'une population. Il en résulte que ne survit qu'une partie, souvent très petite, des jeunes de chaque
génération.
Fait 3: Tous les individus sont différents; chaque population montre une variabilité énorme.
Fait 4: Une bonne partie de cette variabilité est héritable (les mécanismes de cette hérédité étaient
totalement inconnus à l'époque de Darwin)
Déduction 2: La survie n'est pas aléatoire, mais dépend pour une part de la constitution héréditaire des
individus. C'est cette survie inégale qui est à la base de la sélection naturelle.
Déduction 3: Au cours des générations le processus de la sélection naturelle amènera à un changement
graduel des populations, c'est à dire, à l'évolution (et sous certaines conditions à la naissance de nouvelles
espèces).
La "force interne" de Lamarck, qui pourrait être considérée comme faisant partie de la création, est
remplacée par l'explication matérialiste de Darwin. Darwin n'a donc pas uniquement détrôné l'homme comme
étant unique parmi les créatures mais il a aussi "détrôné Dieu comme créateur".
1.5. SOMA ET LIGNEE GERMINALE
L'idée que les espèces existantes ont des ancêtres communs a été acceptée assez rapidement par les
collègues biologistes de Darwin. C'était déjà moins le cas avec le concept des changements graduels; le
"saltationisme" était très populaire à l'époque (l'évolution se déroule essentiellement par sauts d'une génération
à une autre). La sélection naturelle, finalement, n'avait initialement quasiment pas de partisans. Le mécanisme
proposé par Lamarck était apparemment plus logique et acceptable. Il y avait deux raisons à cela:
premièrement, l'influence de l'environnement sur les individus est très nette. C'est ce que nous appelons
actuellement la plasticité phénotypique. Deuxièmement, personne ne connaissait encore le mécanisme de
l'hérédité. L'idée courante était celle de la "pangénèse": l'information vient de partout dans le corps et passe par
les gamètes (en particulier les gamètes mâles) proportionnellement avec l'importance des organes. Plus un
organe se développe, plus grande sera sa contribution à la transmission par les gamètes.
C'est par les résultats de l'allemand August Weismann (1834-1914) que l'hérédité des caractères acquis de
Lamarck a été démentie. Il a constaté que, chez les animaux, il existe des lignées de cellules qui restent
essentiellement séparées du reste de l'organisme et qui servent à la reproduction (la lignée germinale ou le
germen). Ces cellules sont capables de former des organismes complets, mais, par contre, l'ensemble des
cellules spécialisées, le soma, n'a pas d'influence sur la lignée germinale autre que sa conservation. Cette
séparation de soma et lignée germinale est visualisée par la figure 1.1A (G, la lignée germinale, passe de
génération en génération; S, le soma, meurt avec l'individu).
2005-4
Fig. 1.1A: Soma et lignée germinale
Les plantes n'ont pas de lignée germinale; en principe chaque cellule est "totipotente" et peut se développer en
une plante entière. Néanmoins le principe de Weismann reste valable, mais il faut utiliser une formulation plus
générale: l'information passe entre les générations sans que les structures codées par cette information puissent
influencer ou modifier l'information à leur tour. Maintenant que l'on sait que l'ADN porte l'information génétique, et que
ce sont en premier temps les protéines, codées par l'ADN, qui constituent le phénotype, une meilleure présentation
est celle de la figure 1.113: il est évident que les modifications environnementales au niveau des protéines ne
modifient pas la séquence des nucléotides dans l'ADN. L'information dans l'ADN ne décrit pas l'organisme comme le
ferait une copie conforme (ce qui permettrait de répercuter dans l'ADN les modifications produites par
l'environnement sur l'organisme: l'idée de la pangénèse). L'ADN forme, par contre, un ensemble d'instructions,
nécessaire pour le développement de l'organisme du zygote à l'adulte et pour les processus biochimiques et
physiologiques pendant toute la vie. Il n'y a pas de moyen de modifier les instructions par leurs résultats. La seule
méthode pour changer les instructions au cours des générations est la sélection naturelle (et un mécanisme qui crée
une variation dans les instructions): les instructions les moins efficaces sont moins transmises aux générations
suivantes que celles qui marchent bien; les dernières augmentent donc en fréquence.
Fig. 1.113: C'est l'information sous forme d'ADN qui est transmise et non pas le résultat de cette information P
(protéines)
1.6. LA SYNTHESE DE GENETIQUE ET EVOLUTION
Tout au début du 20ème siècle les lois de Mendel ont été redécouvertes. Pendant une période qui a duré
jusqu'aux années 30, il y a eu une séparation en deux écoles: les "mendéliens" et les "biométriciens". Les mendéliens
ont surtout étudié les mécanismes de l'hérédité des polymorphismes; les variations continues étaient pour eux des
"bruits non-génétiques". Ils accentuaient le rôle des mutations, récemment découvertes, combiné avec une sélection
purifiante qui élimine les mutations délétères. Ils pensaient que l'évolution se déroulait par "la pression de mutation".
Même la spéciation serait le résultat de mutations avec un grand effet au niveau du génome entier.
Les biométriciens s'occupaient principalement de la variation continue (les caractères quantitatifs), dont l'hérédité
semblait être non-mendélienne. Pour eux, les caractères discontinus, obéissant aux lois de Mendel, étaient de peu
d'importance pour l'évolution. Les caractères continus semblaient avoir une hérédité "mélangeante": les jeunes sont
intermédiaires entre les deux parents. Comme mentionnée cidessus c'est l'influence apparente des facteurs
environnementaux sur les caractères continus qui a fait que les idées lamarckiennes étaient partout acceptées dans
ce milieu.
II a encore fallu une série de découvertes pour concilier et intégrer les deux vues:
•
la distinction stricte de génotype (indépendant de l'environnement) et phénotype (variant avec l'environnement);
•
plusieurs gènes (à petit effet) ainsi que l'environnement peuvent influencer un même caractère quantitatif; (d'un
autre côté: un gène peut influencer plusieurs caractères (pléiotropie); l'action d'un gène peut aussi dépendre
•
d'un autre (épistasie) ;
la grande importance de la recombinaison comme source de variabilité.
2005-5
Le mécanisme génétique, maintenant donc bien connu, était en fait excellent pour expliquer d'un côté la
ressemblance entre parents et enfants ("fait 4" de la sélection naturelle, voir 1.3.) et d'un autre côté la variabilité
entre enfants ("fait 3" de la sélection naturelle). La génétique a ainsi donné une base solide à la théorie de
l'évolution darwinienne, si bien qu'elle peut sans problèmes tenir tête aux attaques qu'elle doit toujours subir.
Après la synthèse on parle de néo-darwinisme. En résumé elle dit que les gènes peuvent muter, se
recombiner chez les descendants et créer ainsi de la variabilité. La sélection fait le tri dans cette variabilité. Le
hasard joue également un rôle (voir 1.9).
Les systématiciens ont pendant cette période de plus en plus développé la notion que les espèces ne sont
pas des "types morphologiques", mais plutôt des ensembles de populations variables, ces ensembles étant
reproductivement isolés les uns des autres.
1.7. LA MICRO-EVOLUTION
Les changements à l'échelle des générations sont du domaine de la micro-évolution. La théorie des
changements de la composition génétique d'une population à cette échelle est présentée par la génétique des
populations, initiée par Hardy et Weinberg et développée dans toute sa richesse par Ronald A. Fisher (18901962) et John B. S. Haldane (1892-1964) en Angleterre et Sewall Wright (1889-1988) aux EtatsUnis. Bien
qu'une partie des différences génétiques ne soit pas soumise à la sélection naturelle mais change
principalement par des processus aléatoires (l'évolution neutre, voir 1.9.), l'adaptation aux conditions
environnementales tend à s'améliorer au cours de l'évolution par la sélection naturelle. Cette tendance
permanente peut expliquer les adaptations étonnantes que l'on rencontre dans la nature, mais elle n'implique
cependant pas que l'adaptation augmente forcément tous le temps, car les conditions environnementales ne
restent pas constantes. Ce sont surtout les relations interspécifiques qui changent continuellement du fait que
les autres espèces (formant la partie biotique de l'environnement) évoluent également. Il faut donc s'améliorer
tout le temps ne serait ce que pour maintenir le même niveau d'adaptation.
1.8. LA MACRO-EVOLUTION
Bien qu'il y ait eu des grands débats sur les différences essentielles entre micro- et macro-évolution (les
"saltationistes" contre les "gradualistes") on peut dire que il n' y a en principe pas de nouveaux mécanismes
pendant la macro-évolution par rapport à la micro-évolution. La seule vraie différence est l'échelle de temps:
pour la macro-évolution cette échelle est plutôt en millions d'années au lieu d'être en générations. Néanmoins il
se manifeste de nouveaux phénomènes, notamment la spéciation et l'extinction des espèces. La spéciation est
un processus graduel, avec beaucoup de phases successives d'une divergence de plus en plus grande, mais,
sur une échelle paléontologique, c'est surtout la succession des espèces qui forme le bon niveau d'analyse. On
peut ainsi distinguer deux aspects différents que l'on peut visualiser ensemble sous forme d'un arbre
phylogénétique (voir figure 1.2): l'anagénèse (les changements dans une branche au cours du temps) et la
cladogénèse (la formation de branchements). Un tel arbre peut également montrer les extinctions qui ont eu
lieu.
Les études de la macro-évolution visent à replacer les relations entre espèces dans une perspective
historique: quelles espèces, ou groupes d'espèces, ont un ancêtre commun; quand vivait cet ancêtre commun;
quelles espèces historiques sont éteintes? Un arbre phylogénétique qui est linéaire avec le temps en est la
meilleure visualisation. Pour la (re)construction d'un tel arbre, il y a deux sources d'information: les espèces
existantes et les fossiles. Il est en principe possible de construire un arbre seulement à partir des espèces
existantes, mais il est évident que les espèces éteintes manqueront dans ce cas. Les fossiles sont en plus
indispensables pour étalonner l'échelle de temps et peuvent fournir des points sûr dans une construction
essentiellement hypothétique.
Les données avec lesquelles on peut construire un arbre sont classiquement les caractères
morphologiques et, plus récemment, les différences au niveau moléculaire. L'application de l'évolution
moléculaire à la phylogénie sera développée dans le chapitre 4.
2005-6
Fig. 1.2: Exemple d'un arbre phylogénétique
Les questions qui se posent en regardant un arbre phylogénétique, comme présenté dans la figure 1.2,
sont.
-- la vitesse de l'évolution anagénétique est-elle constante?
-- les taux de spéciation et d'extinction sont-ils constants?
Au début des années 70, les paléontologues Eldredge et Gould ont formulé une théorie à propos de la première
question. Cette théorie, basée sur les résultats obtenus sur des séquences de fossiles, dit qu'il y a des périodes
de stase (c'est à dire de peu de changements) pendant l'anagénèse, alternées avec des périodes de
changements rapides associées avec la spéciation. Ils ont appelé cela l'équilibre ponctué et ont opposé cette
théorie au "gradualisme phylétique": des changements anagénétiques continus. Ce dernier terme n'exprime
pas bien le contraste entre ces deux points de vue car la théorie de l'équilibre ponctué accepte en fait
également le gradualisme dans le sens que les changements sont petits entre les générations. Il ne faut donc
pas confondre cette théorie avec le saltationisme qui sous-entend la possibilité de "grands sauts" entre deux
générations. Pour les ponctualistes les changements "rapides" durent facilement des dizaines de milliers
d'années, mais cela est relativement court par rapport à la durée des périodes de stase. Ils pensent que la
spéciation se passe le plus souvent par des changement rapides dans des petites populations à la périphérie
dé l'aire de répartition d'une espèce, la grande masse de populations centrales restant relativement inchangée.
Leur théorie montre un point faible, qui fait que les observations chez les fossiles s'expliquent également sans
leur théorie: des changements constants, mais dans des aires géographiquement isolées, peuvent amener à
deux espèces différentes dont l'une pourrait remplacer l'autre par envahissement. On trouve alors une
discontinuité dans la série de fossiles sur place.
Quant à la deuxième question, il est de plus en plus évident qu'il y a eu plusieurs extinctions massives
alternant avec des périodes de taux d'extinction et de spéciation assez constants et relativement modérés. La
dernière extinction massive a eu lieu à la fin du Crétacée (il y a 65 millions d'années) et signifiait la fin des
dinosaures. La cause la plus probable est un corps extra-terrestre qui a frappé la terre avec comme résultat
une longue période de mauvaises conditions environnementales qui a été funeste pour un grand nombre
d'espèces. Il n'est pas sûr que les autres (au moins quatre) extinctions massives aient la même cause; une
autre possibilité est un changement climatique "rapide" dû à des événements géologiques. Actuellement c'est la
grande influence de l'espèce humaine sur l'environnement qui fait craindre une nouvelle période inévitable
d'extinctions.
2005-7
2005-8
Le tableau 1.1 résume les périodes paléontologiques. Chaque période d'extinction massive est suivie par une
période d'un taux de spéciation élevé dite "radiation adaptative". C'est la conséquence du fait que le nombre
d'espèces est moins grand que les conditions restaurées ne le permettent; autrement dit: les niches écologiques
vides sont remplies de nouveau. Le grand succès des mammifères après la dernière extinction massive en est un
exemple.
Récemment (1996), Gould a rouvert le débat sur la "force interne poussant à une plus grande complexité des
organismes", proposée par Lamarck (1.2), une idée encore assez répandue. Darwin ne l'a pas acceptée comme
mécanisme de l'évolution, mais il est incontestable qu'il existe actuellement des formes de vie plus complexes qu'au
Pré-cambrien. Une plus grande complexité pourrait être une conséquence logique des différentes pressions de
sélection, surtout celles s'exerçant au niveau interspécifique. On peut penser à des prédateurs efficaces qui doivent
être plus "sophistiqués" que leurs proies. Mais d'un autre côté, les parasites sont plus simples que leurs ancêtres: ils
n'ont pas besoin de certaines fonctions puisqu'ils profitent de leur hôte. Le virus en est l'exemple le plus extrême.
Gould suppose que les changements de complexité sont totalement aléatoires: les organismes ont la même
probabilité de se simplifier que de se complexifier. La seule raison, selon lui, expliquant la présence de formes plus
complexes actuellement qu'autrefois est l'effet "mur à gauche" (voir figure 1.3). Les premières formes de vie étaient
très simples (type bactérie) et limitées dans leur possibilité de se simplifier encore par ce simple fait. Par contre, il n'y
avait pas de contraintes dans l'autre sens. La conséquence théorique de sa proposition sur la forme de la distribution
des organismes en fonction de leur degré de complexité est que la complexité moyenne augmente, ainsi que la
complexité maximale, mais que les formes simples restent le mieux représentées. On observe, en effet, que les
bactéries sont toujours les plus abondantes en termes de nombre de formes différentes (figure 1.3.A). Par contre, si
une tendance générale existait pour une plus grande complexité, on observerait une distribution comme dans la figure
1.3.B.
Fig. 1.3. Tendances passive (A) et active (B) pour la complexité des organismes au cours de la macro-évolution. Les
deux commencent près du "mur à gauche" (une complexité nulle ou négative n'étant pas possible). La tendance
passive (A) montre une expansion dans la seule direction possible; la complexité maximale ainsi que la moyenne
augmentent, mais pas le minimum ni le mode. La tendance active (B) se manifeste à la fois par une augmentation du
minimum, du maximum, de la moyenne et du mode.
2005-9
1.9. L'EVOLUTION NEUTRE
Jusqu'aux années 60, une des grandes questions en génétique des populations était de savoir si la
variabilité génétique intra-population était faible ou élevée. Maintenant on le sait: elle est considérable, sinon
énorme. On le sait grâce à l'application de nouvelles techniques: l'électrophorèse des enzymes à partir de 1966
et les méthodes RFLP (restriction fragment length polymorphism) et RAPD (random amplified polymorphic
DNA) depuis les années 1980. La nouvelle question est plutôt: quelle partie de cette variabilité est
sélectivement neutre? Sélectivement neutre veut dire que, même s'il y a des très petites différences de valeurs
sélectives entre allèles, l'évolution des fréquences alléliques est essentiellement déterminée par des processus
aléatoires: la mutation, la dérive et les flux géniques entre populations. Une variabilité neutre au sein des
populations implique également une évolution neutre au niveau interspécifique. Ce sont alors les processus
aléatoires qui déterminent quels allèles neutres seront retrouvés dans les nouvelles espèces suite à la
spéciation.
Avant la découverte de la grande variabilité allozymatique, la sélection était considérée comme le seul
facteur d'importance pour l'évolution. Surtout l'école du néo-darwinisme qui s'appelle le "sélectionnisme",
pensait que la contribution d'autres facteurs était au plus mineure. Selon les sélectionnistes, les substitutions de
gènes étaient la conséquence d'une sélection en faveur d'une mutation favorable. Les polymorphismes (sauf
les rares en voie de fixation) étaient maintenus par une sélection balancée, et donc stables. Kimura, en 1968, a
formulé une théorie alternative: la théorie neutraliste de l'évolution moléculaire. Selon cette théorie la
majorité des substitutions est due a une fixation aléatoire de mutations neutres ou quasiment neutres. La
majorité des polymorphismes est transitoire et conduit soit à la fixation soit à l'élimination de l'allèle mutant,
dans les deux cas par la dérive uniquement. Maintenant que l'on étudie la variabilité génétique de plus en plus
souvent au niveau de l'ADN, on trouve de plus en plus d'évidence que les processus aléatoires constituent au
moins une part non-négligeable de l'évolution génomique. Dans le chapitre 4 on verra plus en détail quelles
parties du génome sont neutres, et de quelle manière on peut tirer parti de la variabilité neutre dans la
phylogénie moléculaire.
2. L'ORIGINE DE LA VIE
2.1. Qu'est-ce la vie ?
2.2. Idées anciennes sur l'origine de la vie
2.3. Métabolisme et réplication : hardware et software
2.4. Le monde ARN
2.5. Le code génétique
2.1. QU'EST-CE LA VIE ?
Les caractéristiques d'une forme de vie sont :
* un métabolisme (apport de matière et d'énergie libre ; sortie de déchets)
* réplication (fabriquer des copies suffisamment exactes, avec une possibilité de variation qui
permet une évolution Darwinienne : donc a fait a, b fait b etc. où a, b etc. sont des variants qui
peuvent changer en fréquence relative selon leur performance)
Une définition stricte de la vie est difficile, car des contre-exemples dans le non vivant sont facile à trouver
: les cristaux, où il y a une réplication ; le feu où il y a à la fois métabolisme et réplication...
2.2. IDÉES ANCIENNES SUR L'ORIGINE DE LA VIE
la génération spontanée depuis Aristote jusqu'à Pasteur et finalement l'invention de l'autoclave,
Darwin : actuellement impossible, mais une fois ceci a dû se passer (maintenant il y a trop de
compétition avec de formes de vie déjà très efficaces).
2005-10
*
la panspermie. Arrhenius 1908 : la vie vient d'ailleurs dans l'univers et est partout présente. Ceci
donne plus de temps pour la vie de se former, car l'univers existe plus longtemps que la terre (mais pas
beaucoup plus). Pas satisfaisant, car c'est déplacer le problème.
*
le soupe primordiale (idée : Oparin & Haldane années 1920 ; expérience : Miller, 1953, vois figure 2.1).
Formation de acides aminés à partir de méthane, ammonium, hydrogène et eau, avec des étincelles pour
simuler le foudre. Aussi d'autres composantes étaient utilisées comme H2S, HCN etc. donnant les bases
adénine, etc. Par contre, les sucres et acides gras n'apparaissent pas vraiment. Même molécules dans les
météorites, surtout acides aminés. AA sont plus stables et plus faciles à être formés que nucléotides.
Variante plus récente : la pizza primordiale.
Fig. 2.1. Expérience de Miller (1953)
2.3. METABOLISME ET REPLICATION : HARDWARE ET SOFTWARE
Von Neumann (1948). Ordinateur comme métaphore.
(dans Freeman Dyson (1999) Origins of Life, 2nd edition)
Hardware (surtout protéines) ; métabolisme
Software (surtout nucléotides) ; réplication
Le hard peut exister sans soft.
Le soft ne peut pas exister sans hard, mais seulement parasiter (comme un virus)
2005-11
L'ADN est strictement soft, mais l'ARN montre des aspects des 2. Découverte des "ribozymes" (Cech, 1982)
Dyson : les hôtes doivent être là avant les parasites.
Deux possibilités pour le début de la vie.
•
Une combinaison des 2 aspects hard et soft (par exemple ribozymes)
•
Les 2 ont commencé séparément et le soft comme parasite du hard : l'hypothèse de la double
origine. Le soft date peut-être de beaucoup plus tard ; les deux sont très improbables, donc
carrément impossible de les avoir simultanément.
Expériences par des chimistes
•
Eigen : monomères de de nucléotides donnent des polymères sans exemple à copier (matrice) (mais
seulement en présence de polymérases)
• Orgel : idem avec exemple mais sans polymérase
Mais si l'ARN était le début de la vie, c'était avec ni exemple ni polymérase.
2.4. LE MONDE ARN
Après la découverte de Cech : hypothèse populaire du "monde ARN".
Expérience de Wright & Joyce (1997) Une RNA ribozyme efficace peut évoluer à partir d'une forme peu
efficace en 5 jours (mais : avec polymérase)
Dyson, inspiré par Lynn Margulis : protéines ou semblables d'abord et puis le système Eigen/Orgel forme
des ribozymes qui parasitent sur ce système de protéine.
Lynn Margulis : symbiose et parasitisme sont des forces poussant à la complexité cellulaire.
(eucaryotes comme mutualisme à partir de parasitisme)
Problème avec le modèle "métabolisme d'abord" est la réplication, même si celle-ci n'est pas très exacte. Le
paradoxe de Eigen (1971). Sans enzyme il y a beaucoup d'erreurs. En soi, l'imperfection de la réplication est
nécessaire pour avoir évolution, mais trop d'erreurs ne marche pas : il faut au moins une copie qui fonctionne.
Avec enzyme il y a un taux d'erreur de 1 sur 1000 à 10000. Ceci permet une longueur d'ARN de 1000 à 10000
bases. Sans enzyme l'erreur pourrait être 1 sur 20. Une longueur de 20 bases est trop faible pour coder pour
une enzyme qui pourrait réduire l'erreur à un niveau qui permet sa propre évolution !
La découverte des ribozymes pourrait contourner ce paradoxe... ? Expériences à faire
Le problème c'est donc d'expliquer l'évolution d'un réplicateur qui code pour une fonction enzymatique qui lui
permet de se répliquer. Il faut les substrats et la bonne précision. Plus généralement le réplicateur doit coder
pour créer un (micro-)environnement favorable, comme une cellule avec des protéines ; en particulier des
polymérases.
Comment coder pour une protéine ? Actuellement ça se fait avec des triplets d'ARN et des t-ARN.
Comment a cela pu évoluer ?
Un scénario formulé par Szathmàry : les ribozymes fonctionnent probablement mieux avec des AA comme
cofacteurs. Le site actif (catalytique) s'améliore. Avec des AA il y a plus de chance, car il y a une 20aine au lieu
de 4 bases qui sont en outre plus divers au point de vue chimique. La présence de AA n'est pas improbable
(expérience de Miller).
Attacher le AA est fait par un code complémentaire d'ARN. Le lien entre triplet d'ARN et AA est catalysé
par une autre ribozyme, et une troisième fait la liaison peptidique. Remarquez que c'est actuellement
toujours des ARN (r-ARN) qui le font !
Au fur et à mesure les protéines ont repris le rôle des ribozymes et les enzymes se sont
perfectionnées.
2005-12
2.5. LE CODE GENETIQUE
Le code comme on le trouve actuellement est universel, avec seulement quelques petites
modifications chez certains types d'organismes (voir tableau).
Deux possibilités (avec une opposition très importante pour le reste du cours, notamment en
phylogénie) :
• "nécessité" : le code est le résultat d'une sélection naturelle (s'il y avait une variabilité au début, il y a eu
"convergence")
• "hasard" puis identité par descendance. Tous les descendants ont même système ; les modifications sont
peu probables et dans ce cas spécial en principe même fortement contresélectionnées ("frozen accident")
: les conséquences sont néfastes si dans beaucoup de protéines certains AA sont remplacés par d'autres.
Néanmoins il semble que certains aspects du code ne sont pas entièrement arbitraires :
• codons similaires codent pour le même AA
• codons similaires codent pour des AA similaires (par exemple Asp et Glu)
• AA plus abondants ont plus de codons (mais le raisonnement inverse est aussi plausible, avec une plus
grande abondance si plus de codons... )
La pression de sélection est que ceci minimalise les erreurs et aussi l'effet des mutations.
Questions qui restent :
• pourquoi pas plus que 4 bases ?
• pourquoi triplets et non pas duplets ou quadruplets ?
• pourquoi 20 AA ?
Apparemment il y a un trade-off entre minimiser les erreurs et la vulnérabilité aux mutations d'un côté et la
performance et la précision de l'autre côté.
3. LES TRANSITIONS MAJEURES DANS L'EVOLUTION
3.1. L'origine des cellules
3.2. L'évolution des chromosomes
3.3. Le métabolisme
3.4. L'origine des eucaryotes
3.5. La multicellularité
3.6. La socialité
3.7. Résumé des transitions majeures
3.8. Phylogénies et classifications
3.1. L'ORIGINE DES CELLULES
Avantage de la cellule.
Si tous les molécules réplicateurs, et leurs substrats sont présents de façon très diluée (dans l'eau de mer ?)
l'efficacité serait très faible. C'est pourquoi a été proposée la "pizza primordiale" au lieu de la "soupe
primordiale" : la surface peut adsorber les molécules organiques qui restent alors potentiellement en
interaction. Nous savons maintenant que les premières cellules existent déjà très depuis longtemps. Leurs
existence pose néanmoins de nouveau un problème de "poule et oeuf'. L'appareil génétique n'est pas capable
de synthétiser une membrane sans exemple ("matrice").
Une membrane de base est une double couche de molécules bipolaires comme des phospholipides (figure).
Une fois ces molécules existent en masse, elles peuvent s'organiser spontanément en membranes sous
forme de sphères.
La membrane a probablement été inventée une fois et toutes les cellules actuelles descendent d'un
2005-13
seul exemplaire ancestral. Un problème déjà mentionné: les acides gras ne peuvent pas se former
spontanément dans l'expérience de Miller, donc sans enzymes, et la longueur des chaînes hydrophobes a un
minimum. Il semble pourtant qu'il y a des traces dans les météorites, et ils peuvent se former dans d'autres
conditions de celles de son expérience.
Pour avoir un métabolisme avec l'apport de substrats de l'extérieur, il faut qu'il y ait des "trous" dans la
membrane qui le permettent sans perdre le principe d'éviter la concentration de molécules à l'intérieur. Au
début c'était peut-être juste la différence entre grandes et petites molécules. Un autre problème est la division
cellulaire. Sous certaines conditions de croissance il y a formation de "bourgeons" qui peuvent se séparer de la
cellule mère.
3.2. L'EVOLUTION DES CHROMOSOMES
La coopération entre réplicateurs peut être favorable. Nous avons déjà vu un exemple de ribozymes avec des
taches différentes. Leur compétition, par contre, fait que par la sélection naturelle, les formes qui se multiplient
le plus augmentent en fréquence relative et éliminent finalement les autres. Il y a deux solutions pour ce
problème ("imposer" la coopération)
•
la formation de "hypercycles" : a catalyse la formation de b, b de c, c de d et d de a. Ainsi chaque
réplicateur a un intérêt de coopérer et le résultat sera stable.
•
l'association à la cellule, et compétition entre cellules : celles qui contiennent la bonne composition de
réplicateurs se multiplient plus rapidement et gagnent à long terme (figure). Avec plusieurs types de
molécules, la chance que les proportions sont (parfois) bonnes diminue, mais il y a une autre solution : la
formation de chromosomes. La coopération est maintenant plus ou moins "imposée", si seulement l'ensemble
peut être multiplié.
Reste encore un mécanisme nécessaire qui assure que chaque cellule fille reçoit un exemplaire d'un
chromosome, c'est dire, division cellulaire et réplication des chromosomes doivent être synchrones et
simultanées.
L'individu est né, et on peut désormais aussi parler de génotype et phénotype, en supposant que l'information
génétique ("parasite") influe sur son environnement cellulaire ("hôte"), ainsi amenant à un cas de "mutualisme".
3.3. LE METABOLISME
La cellule d'origine ne connaissait pas encore la photosynthèse moderne : l'appareil catalytique est assez
compliqué et s'est développé plus tard. Comment ont-ils trouver l'énergie nécessaire pour leur métabolisme
(souvenons les lois de la thermodynamique : il faut de l'énergie libre, surtout pour la synthèse de
macromolécules mais aussi pour l'accumulation de petites molécules de l'extérieur contre le sens du gradient) ?
Deux possibilités :
•
hétérotrophie. Utilisation de l'énergie chimique présente dans les molécules organiques. mais il est dur à
comprendre que ces relativement grandes molécules pouvaient entrer dans les cellules
•
autotrophie (ici chimiotrophie) avec par exemple H2S comme source d'énergie. Ce existe encore dans
les fonds abyssaux.
On suppose actuellement que le système primitif d'obtention d'énergie par une cellule est un système
d'autotrophie associé aux membranes, soit chimio- soit photo-, et non pas une sorte de fermentation comme on
a supposé autrefois. Plusieurs bactéries fermentatives descendent de bactéries photosynthétiques ou
respiratoires par perte de la machinerie enzymatique. En plus, fermentation n'est pas un processus simple,
mais nécessite une longue chaîne d'enzymes.
Le transport d'électrons par la membrane était probablement basé sur des molécules simples comme quinone,
porphyrines métalliques ou FeS, qui étaient abondantes dans la terre prébiotique anoxique. Ces molécules
jouent maintenant le rôle d'unités fonctionnelles d'enzymes qui ont actuellement cette
fonction. C'est proche du système actuel de la photosynthèse avec deux dérivés de porphyrine : proto-
2005-14
chlorophylle et cytochrome.
Ces systèmes fournissent l'énergie pour la réduction de CO2. En premier temps ils accumulent des électrons
à l'intérieur de la membrane, qui rentrent en formant de l'ATP.
Les réactions biochimiques se font souvent en chaînes, par exemple la glycolyse, ou le cycle de Krebs. On peut
penser à une origine qui commence par la disponibilité d'un substrat qui sera épuisé à un certain moment. Une
autre molécule peut être converti en ce substrat, et puis une troisième en la deuxième, etc.
Le sens peut être inversé sans trop de changements et dépend des concentrations de substrats et produits.
Chez certaines bactéries le cycle de Krebs est inversé et sert ainsi comme manière d'assimiler le CO2.
Assez universels sont les systèmes NAD+/NADH et ADP/ATP. Aussi les composantes du transport
d'électrons sont quasi universelles. Tout cela a donc l'air d'être ancestral. En cas d'absence il y a souvent
évidence d'une perte. La respiration semble être dérivé de la phototrophie par perte de chlorophylle.
Spécialisation comme générateur de biodiversité peut être opposée à l'origine commune de toutes formes qui
amène à l'uniformité. Chez les bactéries (eubactéries et archéobactéries) il existe toute une gamme de types de
métabolisme, bien qu'ils soient basés sur les mêmes fondements. La spécialisation est la conséquence du fait
que l'efficacité d'un spécialiste pour la fonction dont il est spécialiste est plus grande que l'efficacité d'un
généraliste pour cette même fonction. Parfois les bactéries de différent type forment une sorte de chaîne
alimentaire, où chacun se spécialise sur une étape. Ce fait penser au fonctionnement d'un écosystème où
l'énergie et les éléments passent par une chaîne d'organismes.
Photosynthèse et la production d'oxygène. La production d'oxygène a eu des conséquences pour le
métabolisme, bien qu'il existe dans tous les groupes (eubactéries, archéobactéries et eucaryotes) encore des
espèces anaerobes (mais parfois il s'agit d'une adaptation sécondaire) pour lesquels l'oxygène est
extrêmement toxique. Aussi chez les organismes aerobes, pas mal d'enzymes sont très sensibles à l'oxygène,
ce qui montre leur origine avant l'abondance de l'O2. Dangereux en général sont des produits intermédiaires
associés à l'oxygène : des radicaux libres (superoxide) et peroxide. Il existe des enzymes très efficaces pour
les immédiatement faire disparaître. 02 sert comme accepteur terminal d'électrons chez les organismes
aerobes. Pour le reste il y a peu de réactions qui en ont besoin.
3.4. L'ORIGINE DES EUCARYOTES
Saut de complexité, différent de la diversité graduelle que l'on rencontre parmi les procaryotes : les
eucaryotes sont des cellules composées, résultant d'une symbiose entre différent types de constituants.
Les eucaryotes diffèrent des procaryotes dans une série de caractéristiques
Les bactéries ont une paroi cellulaire. Un scénario probable de l'origine des eucaryotes est la perte de cette
paroi (et remplacement par une cytosquelette) qui permet la possibilité de phagocytose : l'inclusion de
particules au lieu de seulement molécules. Probablement une fois une grande bactérie sans paroi a inclus une
petite bactérie dans sa totalité qui a ensuite pu se maintenir à l'intérieur de la grande. Il est dur à dire si on peut
l'appeler une forme de parasitisme de la petite ou dès le début une forme de mutualisme ou les deux ont eu un
avantage. Le fait qu'un organisme vit entièrement dans une autre signifie en fait qu'il n'existe plus sous une
forme indépendante. On pourrait plutôt l'appeler une forme d'esclavage ou servitude.
On pense que la mitochondrie a une seule origine, qui date d'environ 1,5 à 2 milliards d'années. Les
chloroplastes date d'environ 1 milliard d'années et sont très probablement d'origine multiple.
Il est remarquable qu'il ait pris considérablement moins de temps pour arriver aux premières formes de vie que
pour arriver à des eucaryotes à partir de procaryotes. Ceci s'explique par le fait que les procaryotes sont déjà
très performants, contraire aux premières formes de vie de l'époque où il n'y avait rien encore.
2005-15
La relation entre les différents constituants de la cellule eucaryote : noyau et organites, est délicat. Nous avons
déjà vu le conflit potentiel entre gènes avant d'être regroupés en chromosomes. Comme les organites ont
gardé leur propre information génétique, il existe aussi un conflit potentiel entre ces différents réplicateurs de la
cellule.
Deux mécanismes se sont développés pour diminuer le conflit :
•
Le transfert d'une part considérable des gènes des organites vers le noyau, qui limite la multiplication
indépendante des organites.
•
La transmission des organites chez les espèces de reproduction sexuée par un seul type de gamète, en
général l'ovule.
Exemple d'un conflit : la mutation "petite" chez la levure (Steams & Hoekstra p.202)
3.5. LA MULTICELLULARITE
Expérience de Boraas (1998) avec Chorella vu/garis, une algue verte unicellulaire : avec prédateur se
développent après quelques générations des agrégats de 8 cellules (identiques) connectées qui ne pouvait
pas être mangés par les prédateurs. Le nombre est pourtant faible, ce qui permet encore une diffusion
correcte de ressources à partir du medium.
Le conflit dont on a parlé entre différents réplicateurs dans la cellule eucaryote est ici en principe évité (sauf
mutations) par le fait qu'ils sont génétiquement identiques. En cas de non-identité la théorie des jeux nous
montre que l'absence de coopération (l'égoïsme) est une stratégie stable et non pas la coopération
(l'altruisme).
La taille d'un individu donne un avantage dans pas mal de situations. Mais pour diminuer le risque d'égoïsme
il faut mieux toujours passer via un stade unicellulaire (ce qui comme avantage aussi que ce permet la
reproduction sexuée ainsi que la dispersion). En plus il y a une conséquence physiologique : si certains
cellules ne sont plus (suffisamment) à la surface il a y des problèmes de diffusion des substrats, et en cas de
respiration, d'oxygène.
Quels sont les avantages ? Il ne faut pas mélanger complexité et taille. Selon le modèle de Gould (mur à
gauche) sans tendance à un plus grande complexité la moyenne va augmenter mais pas le mode. En ce qui
concerne la taille, il y a toujours une "niche" ouverte à un plus grand organisme. Ce peut être avantageux en
termes de compétition (intra et interspécifique) ou pour manger des "proies" ou pour se défendre contre les
prédateurs.
Pourquoi y a-t-il un conflit potentiel et pourquoi est-il résolu si on passe par un stade unicellulaire ? Théorie
des jeux. Valeur sélective, bénéfice et coût. Matrice des gains qui montre que l'égoïsme s'installe sans
protection. II faut soit un bénéfice mutuel, soit un système juridique, soit une relation familiale entre joueurs.
Problème de la surface : développer un système de transport. Les premiers organismes sans un tel système
n'ont peut-être pas pu se développer sans beaucoup d'oxygène dans l'atmosphère (explosion des formes
d'animaux à la fin du précambrien).
Différenciation cellulaire : la contradiction avec l'identité génétique nécessaire pour éviter les conflits. Modèles
de Weismann.
Soma et lignée germinale
Développement. Plan d'organisation ; gènes à homéobox (Hox) et MADS box.
2005-16
3.6. LA SOCIALITE
Comme les cellules se différentient en réponse d'environnements légèrement différents (position par rapport
aux cellules voisines ; gradients de substances, etc.) chez certains animaux les individus se différencient en
réponse de stimulus externes : les différences entre reine et ouvrières chez les abeilles ; soldats etc. chez les
fourmis et le rat taupe ; profession différentes chez les humains. Chez abeilles, fourmis, termites, rat taupes et
encore d'autres organismes la société fonctionne de façon comparable à l'organisme multicellulaire. Il y a une
spécialisation qui va jusqu'à renoncer à la reproduction, comme les cellules somatiques. Pourtant les individus
d'une société ne sont pas génétiquement identiques.... Hamilton a mise en évidence que ces membres sont
quand même apparentés, et que c'est une condition pour une telle coopération.
3.7. RESUME DES TRANSITIONS MAJEURES
•
•
•
•
•
•
•
•
•
•
•
•
L'origine de la vie
La coopération de différents gènes et l'évolution des chromosomes
La cellule avec son milieu interne; le phénotype
L'invention de la photosynthèse
L'origine des eucaryotes
L'invention du sexe
La multicellularité
L'invasion des milieux terrestres
L'invention du vol chez les insectes
La coévolution entre plantes et pollinisateurs
La formation de sociétés
L'invention du langage et de l'écriture
3.8. PHYLOGENIES ET CLASSIFICATIONS
Jusqu'au 19ième siècle la diversité des êtres vivants étaient classée sur une échelle linéaire depuis le monde
inanimé jusqu'à l'homme. Les mots inférieurs et supérieurs sont encore utilisés.
Progressivement des ramifications sont acceptées. Cuvier (le père spirituel de l'anatomie comparée) distinguait
Vertebrata, Mollusca, Articulata et Radiata, un système basé sur les notions de ressemblances par soit
"homologie" soit "analogie" (Richard Owen, 1843). Homologie veut dire même organe chez différentes espèces
(voir Solignac figure 10.1). Analogie signifie organes qui n'occupent pas la même place dans le plan
d'organisation mais qui ont même fonction, par exemple aile d'un oiseau et aile d'un insecte.
Depuis Darwin, l'homologie est plutôt la preuve d'une ascendance commune (ancêtre commun qui portait ce
caractère ou organe).
Haeckel (qui a introduit le mot "écologie") a aussi créé le terme "phylogenèse" pour désigner la
reconstitution de l'histoire évolutive des lignées. Seules discontinuités dans un tel système sont les
symbioses (comme l'origine des eucaryotes) et l'allopolyploïdie. Le but c'est donc d'arriver à une
classification qui a un sens évolutif (comparez le système de Linné).
Haeckel (1860's) avait des idées intéressantes mais pas très justes sur le rapport entre ontogenèse et
phylogenèse qui selon lui étaient très liées : l'ontogenèse récapitule la phylogenèse (voir Solignac figure 10.2).
II était Lamarckien et donc le transformisme était logique pour lui. Pourtant en 1828 Karl Ernst von Baer a
constaté que c'était plutôt le développement des embryons des formes "supérieures" qui ressemblaient au
développement des embryons des formes "inférieures".
2005-17
4. EVOLUTION MOLECULAIRE ET PHYLOGENIE
4.1. Variation de l'ADN
4.2. L'horloge moléculaire
4.3. Identité et distance génétiques de Nei
4.4. Homologie au niveau des nucléotides
4.5. La phylogénie
4.6. Méthodes basées sur une matrice de distances: la méthode UPGMA
4.7. Le principe de la parcimonie maximale
4.8. Arbre des molécules et arbre des espèces ; duplications
4.9. La phylogéographie
4.1. VARIATION DE L'ADN
L'ADN chez les eucaryotes n'est pas entièrement constitué de gènes, comme on le croyait autrefois.
Souvent plus des trois quarts du génome, est constitué d"'ADN répétitif'. La majorité des gènes se trouve dans
la partie "ADN simple copie". Un gène désignait autrefois: un segment d'ADN qui code pour une protéine ou
pour une molécule fonctionnelle d'ARN. Aujourd'hui la définition est plus vague: une séquence d'ADN qui est
essentielle pour une fonction spécifique. On sait maintenant que certains morceaux d'un gène ne sont pas
traduits ou même pas transcrits. La figure 4.1 montre la structure schématique d'un gène eucaryote typique
codant pour une protéine.
Deux questions étroitement liées se posent: 1) quel est le degré de polymorphisme dans les différentes
régions d'un gène au niveau intra-population ou intra-spécifique; 2) quels sont les taux de
substitutions dans ces différentes régions au cours de la macro-évolution? Ici on considère seulement les
changements à petit effet, donc pas les grandes délétions, inversions, etc.
2005-18
Logiquement on peux attendre plus de variations et de substitutions dans les régions plus neutres, c'est à dire,
les régions non codantes, non plus impliqués dans des fonctions régulatrices ou structurelles. Un exemple de la
variabilité intra-spécifique d'un gène bien connu est présenté dans la figure 4.2. II s'agit du gène Adh chez Drosophila
melanogaster (2659 paires de base). Premièrement on constate que le polymorphisme au niveau de l'ADN est très
grande: parmi les 11 séquences analysées il y en a 9 différentes; les seules séquences identiques sont 8-F, 9-F et
10-F (quand on ne compte pas les délétions). Les polymorphismes se trouvent surtout dans la séquence flanquante
5', dans l'intron 3 et dans l'exon 4. La variabilité tend à être plus faible dans les exons, mais aussi dans les régions 3'
pour des raisons inconnues.
En ce qui concerne les régions codantes il est nécessaire de distinguer deux types de substitutions: les
substitutions synonymes, donnant le même acide aminé, et les substitutions non synonymes qui causent le
remplacement d'un acide aminé par un autre. Parmi les 14 sites polymorphes dans les 4 exons de l'Adh, un seul
correspond avec un polymorphisme au niveau des acides aminés produits (Lys/Thr, voir ci-dessous). La troisième
position d'un triplet est souvent entièrement ou partiellement "dégénérée", ce qui veut dire que les substitutions seront
toutes ou pour une certaine partie synonymes. Un changement d'acide aminé peut avoir des conséquences pour le
fonctionnement de la protéine (en particulier pour les enzymes quand la fonction catalytique est concernée). Il faut ici
distinguer les remplacements conservateurs, par exemple Gly par Ala, Ser par Thr ou Lys par Arg, où les deux acides
2005-19
aminés ont une structure ou une charge semblable, et les remplacements non conservateurs. Même ces
derniers peuvent être neutres. L'exemple de l'Adh dans la figure 4.2 montre le polymorphisme S (slow) et F
(fast), dû à une substitution A (AAG = Lys -> slow) par C (ACG, = Thr -> fast). Ce polymorphisme n'est pas
entièrement neutre: les deux allèles fonctionnent bien, mais ont des caractéristiques catalytiques différentes. La
majorité des polymorphismes allozymatiques détectables, étant donc le résultat de remplacements non
conservateurs d'acides aminés, est cependant neutre.
Une vue générale sur les taux de substitution de nucléotides dans les différentes régions d'un gène, en
comparant des gènes et des espèces différentes, est donnée en bas de la figure 4.1. Le relativement faible taux
de substitution des sites non dégénérés est remarquable. Cette figure mentionne en outre le taux de
substitution chez les pseudogènes, qui sont des séquences d'ADN dérivées de gènes fonctionnels mais
devenus non fonctionnels par une mutation empêchant leur expression. Leur vitesse d'évolution est élevée due
au fait qu'il n'y a plus de contraintes fonctionnelles.
4.2. L'HORLOGE MOLECULAIRE
2005-20
Au début des années 60, les premiers séquençages d'acides aminés ont été effectués. La comparaison
des protéines homologues d'espèces différentes (plus précisément appelées orthologues), notamment
l'hémoglobine et le cytochrome c, a donné un résultat remarquable: le taux de substitution des acides aminés
est assez constant pour les différents groupes de mammifères étudiés. Cette observation a amené à l'idée qu'il
existe une "horloge moléculaire", ce qui a stimulé beaucoup l'intérêt de l'utilisation de macromolécules dans
les études évolutives. Si les protéines évoluent d'une manière constante au cours du temps, il y a une relation
simple entre pourcentage de divergence moléculaire entre deux espèces et temps écoulé depuis leur
séparation; l'analyse du pourcentage de divergence moléculaire constituerait un outil très performant pour
retracer les relations phylogénétiques entre espèces.
Différent types de protéines évoluent avec des vitesses différentes, comme le montre la figure 2.3:
l'hémoglobine évolue plus vite que le cytochrome c, et les fibrinopeptides changent encore plus vite. Une
quatrième protéine l'histone IV (qui n'est pas indiquée dans la figure) montre, par contre, un taux de
changement qui est 50 fois moins rapide que celui du cytochrome c. Les fibrinopeptides sont utiles pour
comparer des espèces proches; l'hémoglobine pour les différentes classes d'animaux; le cytochrome c pour
tous les eucaryotes. Il semble exister une relation entre vitesse d'évolution et importance de la structure
tridimensionnelle de la protéine. Chez les fibrinopeptides, il n'y a qu'une petite région de la molécule dont la
structure est importante, tandis que l'histone IV doit s'ajuster exactement à la molécule d'ADN à laquelle elle est
conjuguée, ce qui fait que la stabilité de sa structure tridimensionnelle est d'importance essentielle.
Les droites de la figure 4.3 suggèrent que la linéarité des substitutions avec le temps est exacte. Comme
cette idée a été fortement critiquée, il faut tout d'abord savoir dans quelle mesure l'horloge moléculaire est un
concept valable. La théorie neutraliste (voir 1.9) prédit que la probabilité qu'une nouvelle mutation neutre soit
fixée est égale au taux de mutation u. On peut ainsi s'attendre à une période moyenne de 1/u entre deux
fixations. C'est un argument en faveur d'une horloge moléculaire pour les séquences neutres, mais seulement à
condition que le taux de mutation soit constant (et que la neutralité persiste). Pour tester si l'horloge moléculaire
est vraiment une idée acceptable on dispose d'une méthode de vérification dont le principe est illustré par la
figure 4.4. On souhaite comparer deux espèces (A et B) qui ont un ancêtre commun (O). Le nombre de
substitutions entre O et A doit être égale au nombre entre O et B (mais les deux ne sont pas mesurables parce
que O n'existe plus). Pour le test on a donc besoin d'une troisième espèce (C) moins proche. Il faut maintenant
que le nombre de substitutions entre C et A soit égal au nombre entre C et B. Quand on définit K;j comme le
nombre de substitutions de nucléotides pour 100 sites entre les espèces i et j, il faut que KAC - Kec = 0
Fig. 4.4: Un arbre phylogénétique pour tester si le taux de substitution est constant (voir texte).
Quelques résultats obtenus avec cette méthode:
1). II n'y a pas de taux de substitution différents pour la souris (A) et le rat (B), en prenant l'homme comme
espèce C. Cela veut dire que, depuis la divergence des deux espèces, les deux taux de substitution n'ont pas
été significativement différents: KAC - KBC = 0,4 ± 1,5.
2). Un autre exemple avec un résultat différent: l'homme (B) a eu un taux plus faible que les singes non
anthropoïdes du vieux monde (A): KAC - KBC = 2,3 ± 0,6 ** (C = différents mammifères moins proches).
3). Les rongeurs ont eu un taux qui est 4 à 6 fois plus élevé que les primates depuis leur divergence.
Il y a deux raisons possibles pour ces différences. Premièrement, la durée de génération peut jouer un
rôle: les rongeurs ont une relativement courte durée, les singes une durée plus longue, et l'homme la durée la
plus longue des espèces mentionnées. Les mutations se font le plus souvent pendant la réplication de l'ADN,
2005-21
et toutes les espèces ont à peu près le même nombre de réplications de la lignée germinale par génération.
Les espèces à courte durée de génération accumuleront donc des mutations plus rapidement que les espèces
à longue durée de génération. Une deuxième cause peut être une différence dans les mécanismes de
réparation de l'ADN: ce mécanisme semble être moins efficace chez les rongeurs que chez l'homme.
En conclusion on peut dire que l'horloge moléculaire ne va pas à la même vitesse dans tous les groupes
d'espèces, et n'a par conséquent pas toujours eu la même vitesse partout dans l'histoire de l'évolution.
Cependant, pour des groupes d'espèces ayant des durées de génération comparables, il y aura des horloges
"locales".
Indépendamment du génome nucléaire il y a les génomes des organites. Chez les mammifères, le génome
mitochondrial montre un taux de substitution très élevé par rapport à celui du génome nucléaire: z 10 fois plus
vite. La structure du génome mitochondrial est, par contre, très stable. Chez les végétaux, la situation est
inversée: le génome mitochondrial a un taux de substitution relativement faible, mais la structure est très
variable à cause de nombreux réarrangements, duplications et délétions. Le chloroplaste est de structure stable
et a un taux de substitution nucléotidique intermédiaire. Les taux de substitutions synonymes pour
mitochondries, chloroplastes et noyau chez les plantes montrent un ratio d'environ 1:3:12.
4.3. IDENTITE ET DISTANCE GENETIQUES DE NEI
Afin d'obtenir une bonne estimation des distances évolutives entre espèces, on souhaite quantifier les
différences entre espèces au niveau des nucléotides, des acides aminés ou des différences allozymatiques.
Une première méthode, qui est développée pour les séquences d'acides aminés, mais qui s'applique
également bien aux allozymes, est celle de Nei (1971). II part de l'idée que le taux de substitution d'un acide
aminé par un autre est constant dans le temps: il y a~, substitutions par unité de temps. Comme la figure 4.5 le
visualise, deux espèces
Fig. 4.5: Illustration de la méthode de Nei
A et B qui ont évolué séparément pendant t unités de temps ont, pendant cette période, chacune subies M
substitutions. Elles sont donc séparées par 2kt substitutions. Une complication est la possibilité de deux (ou
plusieurs) substitutions à la même position durant cette période, soit deux fois dans la branche CA ou CB, soit
une fois dans chacune des branches. On n'enregistre qu'une seule différence quand on compare les deux
séquences (la probabilité que deux substitutions donnent finalement le même résultat est négligée). Le
problème est évident quand on regarde la figure 4.3: le nombre de substitutions par 100 positions dépasse à un
certain moment 100, et va même jusqu'à 200. Le rapport entre le nombre de différences et le nombre de
substitutions est donné par la loi de Poisson. Prenons l'exemple de '50 substitutions sur 100. II y aura des
positions avec 0, avec 1, avec 2 ou avec encore plus de substitutions. La probabilité qu'un acide aminé reste
inchangé est donnée par:
Avec 2M = 50/100 = 0,5, cela vaut 0,61. On peut donc attendre 39 différences sur 100 quand il y a eu 50
substitutions. Nei a défini deux paramètres: I(l'identité génétique; ici 0,61) et D (la distance génétique).
2005-22
Ce dernier paramètre est linéaire avec le temps: D = - In I= 2~,t (ici on retrouve donc la valeur 0,5). Pour
illustration, voir la figure 2.6, où deux séquences d'acides aminés sont comparées: I= 89/127; D = 0,36.
La méthode de Nei peut tenir compte de polymorphismes. Elle s'applique ainsi très bien à la comparaison
d'espèces proches, sous-espèces et même des populations où on est très souvent confronté avec des
polymorphismes et beaucoup moins avec des substitutions complètes.
4.4. HOMOLOGIE AU NIVEAU DES NUCLEOTIDES
Comme mentionné, la méthode de Nei néglige la possibilité que deux ou plusieurs substitutions sur une
position amènent à un résultat identique. Cela peut être le cas quand survient dans les deux espèces, après
leur divergence, une substitution identique (substitutions parallèles). Une autre possibilité est la substitution
reverse: dans une des espèces il y a deux substitutions sur le même site, et la deuxième fois l'acide aminé
original revient. Ces phénomènes de convergence, réversion et parallélisme, qui faussent l'information
phylogénétique (car injustement suggérant une homologie), sont regroupées sous le terme homoplasie. En
comparant des séquences de nucléotides ces possibilités sont considérablement plus grandes que chez les
acides aminés ou chez les allozymes. C'est la conséquence du fait qu'il n'y a que 4 nucléotides différents,
contre 20 acides aminés et un très grand nombre d'allozymes. Chez les nucléotides il faut donc corriger la
distance calculée en tenant compte de l'homoplasie.
La méthode la plus simple est celle de Jukes et Cantor (1969); voir la figure 4.7a. Le taux de substitution
est 3a par unité de temps: a pour chaque possibilité (A peut changer en G, en C ou en T). Quand il y a un A à
un certain site, la possibilité d'y trouver plus tard toujours un A diminue au cours du temps de 1 à%4 (au lieu de
quasiment 0). Un modèle plus compliqué mais également plus réaliste (Kimura, 1980) distingue deux types de
substitutions: les transitions (taux (x) et les transversions (taux f3); voir la figure 4.7b. La raison est que les
transitions sont en général plus fréquentes que les transversions.
2005-23
Pour comparer deux séquences non codantes de nucléotides (pour les séquences codantes il faut
distinguer sites synonymes et non synonymes, ce qui complique encore plus les choses) il nous faut une
formule comme celle de Nei, qui transforme le nombre observé de différences en le nombre déduit de
substitutions. Selon le modèle de Jukes et Cantor on a, avec une proportion p de différences, un nombre de
substitutions par site depuis la divergence
des deux séquences qui est:
K = - 3/4ln(1 - 4/3p)
La méthode de Nei aurait donné K=-In(1 - p).
Pour le modèle de Kimura il faut compter séparément les transitions (proportion P) et les transversions
(proportion Q). On obtient ici:
K = -'/2 ln(a) - '/4ln(b)
Avec a=1-2P-Q et b=1-2Q.
Ces estimations sont illustrées à l'aide de la figure 4.8 qui donne deux séquences homologues d'ADN du
gène 5S rARN: séquence (a) est de Drosophila melanogaster et séquence (b) du crustacée Artemia salina. Il y
a 119 sites sur lesquels il y a 27 différences: 16 transitions (8 x A p G et 8 x C<--:> T) et 11 transversions (4 x
G<~_:> C; 2 x G a T; 4 x A <=> C et 1 x A *> T). Remarquez que le nombre de transversions serait
théoriquement 2 x le nombre de transitions, mais est considérablement plus faible! En appliquant les trois
méthodes pour calculer K, on trouve avec la méthode de Nei: K= 0,257; avec la méthode de Jukes et Cantor: K
= 0,270 et avec la méthode de Kimura: K = 0,275. Quand les différences entre espèces sont plus grandes, la
méthode de Nei sous-estime K encore beaucoup plus fortement qu'ici.
2005-24
En comparant des séquences de nucléotides on ne tombe pas seulement sur des substitutions mais
également sur des délétions ou des insertions. On ne peut pas toujours savoir s'il y a eu une délétion dans
l'une, ou une insertion dans l'autre séquence. Il existe des méthodes d'alignement des séquences pour
identifier l'endroit le plus probable où la délétion/insertion se trouve.
Il y a d'autres méthodes que le séquençage des nucléotides qui peuvent donner une impression de
l'homologie entre deux séquences. Tout d'abord il est possible d'estimer l'homologie à partir des profils de
RFLP. On obtient par cette méthode une idée de la variabilité des sites de restriction, ce qui peut être traduit en
une estimation de la variabilité générale. Une deuxième, plus ancienne, méthode est l'hybridation ADN-ADN.
Cette méthode est basée sur le fait qu'il y a une différence de stabilité entre une molécule double brin d'ADN
dont les deux brins ont la même origine et donc la même séquence (des molécules homoduplex) et une
molécule double brin où les deux brins sont d'origine différente et donc moins homologues (des molécules
hétéroduplex, moins stables). La stabilité est caractérisée par la température à laquelle la moitié des
molécules est dissociée en simple brins. Pour les molécules mixtes (fabriquées par dissociation puis
réassociation d'un mélange des deux types de molécules) il y aura ainsi une relation directe entre cette
température et le degré d'homologie entre les deux brins.
4.5. LA PHYLOGENIE
La phylogénie est l'histoire évolutive d'un groupe de taxons. Avant le développement de techniques
moléculaires, la phylogénie était principalement basée sur les ressemblances morphologiques entre taxons.
L'emploi de caractères morphologiques a plusieurs désavantages par rapport à l'utilisation de données
moléculaires. Tout d'abord le nombre de caractères indépendants est limité, tandis que le nombre de positions
d'acides aminés ou de nucléotides est quasiment illimité. Deuxièmement il est difficile de pondérer les différents
caractères quand on souhaite avoir une seule valeur exprimant la ressemblance; un problème qui ne se pose
pas au niveau moléculaire où toutes les substitutions ont le même poids. Finalement il y a le problème de la
convergence de caractères: souvent dans l'évolution une fonction est "inventée" deux ou plusieurs fois, ce qui
donne l'impression d'une relation plus étroite que justifiée par le temps de développement séparé. Cette
convergence est parfois retrouvée au niveau des molécules d'enzymes: la structure tridimensionnelle peut être
semblable afin d'arriver à une fonction catalytique déterminée par les substrats. La structure primaire (l'ordre
des acides aminés et des nucléotides), par contre, ne montrera pas forcément une relation spéciale, et c'est à
ce niveau-là que l'information moléculaire est utilisée.
La visualisation d'une phylogénie est l'arbre phylogénétique. Les taxons étudiés (les unités taxinomiques
opérationnelles; les OTU: souvent, mais pas obligatoirement, des espèces) sont les éléments de base de cet
arbre. Les OTU se trouvent aux extrémités extérieures des branches, les "nœuds" internes représentent les
unités ancestrales hypothétiques. L'ensemble des branchements de l'arbre (sa topologie) représente l'ordre des
événements de cladogénèse; les longueurs des branches quantifient les divergences entre les unités
taxinomiques. Un arbre peut posséder une racine, qui représente en fait l'ancêtre commun de toutes les OTU
de l'arbre. Un arbre sans racine montre les relations entre les OTU mais pas les chemins évolutifs.
Un grand nombre de méthodes de construction d'arbres a été développé. Les deux méthodes les plus
utilisées seront traitées ici:
1) la méthode UPGMA (4.6), qui part d'une matrice de distances génétiques entre toutes les OTU, par exemple
les distances génétiques de Nei (4.3) ou de Kimura (4.4). Il s'agit d'une méthode phénétique: un groupe
d'organisme est étudié sur la base de leur degré de similarité. L'arbre qui en résulte est un "phénogramme".
) la méthode de parcimonie maximale (4.7), qui nous donne l'arbre obtenu avec le plus petit nombre de
substitutions nécessaires pour arriver aux séquences observées. Cette méthode est de nature cladistique:
ce qui est étudié ici sont les chemins évolutifs et la topologie de l'arbre (qui s'appelle cette fois un
"cladogramme").
4.6. METHODES BASEES SUR UNE MATRICE DE DISTANCES: LA METHODE UPGMA
La méthode UPGMA (Unweighted Pair Group Method with Arithmetic mean) est la méthode la plus simple
pour la construction d'un arbre. Dans la matrice de distances on cherche la distance la plus faible entre deux
OTU. Ces OTU sont désormais considérés comme une seule OTU composée. La nouvelle distance entre
2005-25
l'OTU composée et une OTU simple est calculée comme la moyenne arithmétique des deux anciennes
distances. La méthode est itérative: elle est appliquée jusqu'à ce qu'il ne reste que deux OTU.
Fig. 4.9: Matrice des distances génétiques D (au-dessus de la diagonale) et des identités génétiques I(en-dessous de la
diagonale) entre 7 espèces proches de drosophiles, basée sur des différences allozymatiques (Esses et al. 1979)
La méthode sera illustrée à l'aide de la matrice de distances de la figure 4.9. On constate que les distances
les plus faibles sont celles entre les trois espèces melanogaster, simulans et mauritiana. On les combine et puis on
calcule la nouvelle matrice (Me = melanogaster; Si = simulans; Ma = mauritiana; Ya = yakuba; Te = teissieri; Er
= erecta; Bu = burlai):
Remarquez que 1,108 est la moyenne de 1,099; 0,945 et 1,281; etc. La nouvelle valeur la plus faible est la
distance entre Ya et Te. On combine donc maintenant les deux. Cela donne:
Remarquez ici que la valeur 1,030 est la moyenne de 3 x 2 = 6 valeurs originales! Puis on prend Er et Bu
ensemble:
2005-26
Il reste encore à combiner les deux OTU composées MeSiMa et YaTe:
La distance 1,116 n'est pas simplement la moyenne entre 1,056 et 1,207, mais la moyenne pondérée, car
1,056 est basé sur 6 valeurs et 1,207 sur 4 valeurs. Voilà le résultat final:
On peut mettre en relation les positions des embranchements (noeuds) par rapport au temps de
divergence en millions d'années (sous l'hypothèse d'une horloge moléculaire). Tout d'abord il faut corriger pour
le fait qu'une partie seulement des substitutions d'acides aminés sont détectables par électrophorèse
d'allozymes. Cette proportion est environ 0,4, donc il faut multiplier les valeurs de D par 2,5. Sur cette échelle
de D, D = 1 correspond à peu près à une période de 18 millions d'années. L'utilisation des allozymes ne
s'applique qu'à la comparaison d'espèces proches, parce qu'autrement on tombe facilement sur des identités
génétiques égales à 0, ce qui empêche le calcul de D. Dans les arbres présentés, les intervalles de confiance
ne sont pas indiqués. Les résultats sont basés sur seulement 18 locus; on ne peut pas être très sûr que cet
arbre déduit correspond en topologie exactement au vrai arbre.
Une autre méthode qui utilise une matrice de distances mais qui ne nécessite pas l'acceptation d'une
horloge moléculaire est la méthode du "Neighbour Joining". Il n'y a pas de racine, et les longueurs des
branches sont proportionnelles aux distances génétiques.
4.7. LE PRINCIPE DE LA PARCIMONIE MAXIMALE
Le principe de la parcimonie maximale (ou évolution minimale) est l'identification de l'arbre qui est basé sur
le plus petit nombre de substitutions pour expliquer les différences entre les OTU étudiées.
2005-27
Contrairement à la méthode UPGMA, basée sur l'étude des distances, la méthode de parcimonie considère les
caractères et leur état. L'exemple présenté ici consiste en 4 séquences hypothétiques de nucléotides (cette
méthode marche également avec des acides aminés ou des sites de restrictions). Quatre OTU (ou trois OTU et
une racine connectée avec un groupe externe) est le nombre minimal pour avoir la possibilité de plusieurs
arbres; dans ce cas il y a trois arbres différents:
On commence avec la définition de sites informatifs et sites non informatifs. Un site informatif est site qui
porte de l'information pour favoriser certains arbres sur d'autres arbres. Regardons les 4 séquences:
Site
Séquence 1
1
2
3
4
A
A
A
A
2
A
G
G
G
3
G
C
A
A
4
A
C
T
G
5
G
G
A
A
*
6
T
T
T
T
7
G
G
C
C
*
8
C
C
C
C
9
A
G
A
G
*
Le site 1 n'est pas informatif, parce qu'il n'y a pas de variation. Au site 2, la première séquence a A, les autres
ont G. Dans les trois arbres possibles, on peut expliquer les différences entre OTU par une seule substitution:
dans la branche qui va vers 1 il y a eu une substitution G H A. Le site 2 n'est donc pas informatif. La situation
pour les sites 3 à 5 est plus compliquée et est visualisée ci-dessous.
Les différences sur le site 3 nécessitent au moins 2 substitutions dans chacun des trois arbres; ce site est
non informatif. Pour site 4 la situation est la même, mais le nombre minimal de substitutions y est partout 3. Le
site 5 finalement, est le premier qui est informatif: il est possible d'expliquer la situation de l'arbre I avec une
seule substitution, tandis que les deux autres arbres ont besoin d'au moins deux substitutions. Deux autres
sites informatifs sont le 7 (favorisant l'arbre 1) et le 9 (favorisant l'arbre II). En prenant en compte tous les sites
informatifs, il est évident que l'arbre 1 est le plus favorisé(par 2 sites), puis l'arbre Il (par 1 site), puis l'arbre III
2005-28
(aucun site). Remarquez qu'un site est seulement informatif quand il y a deux états, chacun partagé par deux OTU.
Pour 4 OTU, cela veut dire: 2 de l'un et 2 de l'autre type. La situation avec plus que 4 OTU se complique rapidement:
il y a 15 arbres possibles avec 5 OTU; 105 avec 6 OTU et plus de 2 millions avec 10 OTU.
Les arbres à 4 OTU présentés ci-dessus n'ont pas de racine. En principe, la racine peut s'embrancher sur
n'importe laquelle des 5 branches de l'arbre. Pour trouver la racine, on a besoin de la séquence d'une OTU
évolutivement assez éloignée (un "outgroup", ou groupe externe), dont on sait par d'autres informations
(paléontologiques, ou ontogéniques) qu'elle a divergé bien avant la divergence entre les OTU étudiées. Par exemple:
les poissons constituent un groupe externe pour les mammifères.
4.8. ARBRE DES MOLECULES ET ARBRE DES ESPECES ; DUPLICATIONS
Il arrive fréquemment qu'un arbre phylogénétique est basé sur un seule gène. A part les problèmes de précision,
ceci peut donner une vision erronée des relations chronologiques réelles entre les espèces (la topologie de l'arbre).
La raison est que les différences entre espèces ont en principe commencé sous forme de polymorphismes intraspécifiques. Ces polymorphismes peuvent être conservés au sein des espèces ancestrales pendant une longue
période, et peuvent même être transmis à une ou plusieurs espèces filles. Plus concrètement on peut penser aux
formes alléliques de l'ADH (fig. 4.2). II est possible de construire un arbre basé sur ces allèles, qui montre la
chronologie de leur naissance par mutation. Imaginons une période de spéciations qui va nous donner plusieurs
espèces filles de drosophiles, chacune obtenant un allèle différent parmi les 11 actuellement identifiés. La figure 4.10
visualise comment on pourrait se tromper avec la topologie déduite des spéciations quand on se base uniquement
sur l'ADH.
Fig. 4.10: Arbre des molécules et arbre des espèces. Les deux spéciations se sont produites aux temps to et t,
respectivement. L'origine des gènes est indiquée par des traits fins à l'intérieur des 'tuyaux'. II peut y avoir accord
entre les deux phylogénies (en A et B, mais en B avec des anciennetés différentes) ou désaccord (C).
4.8.1. Duplications et familles de qènes
Un gène peut être dupliqué, ce qui donne deux copies identiques, souvent "en tandem". Cette possibilité est de
très grande importance pour expliquer l'existence d'organismes complexes, car une des deux copies peut changer
de fonction ou de régulation de son expression, tandis que l'autre copie reste inchangée. Cela ouvre la possibilité
d'obtenir de nouvelles fonctions en relativement peu de temps. Il est également possible qu'une des copies
devienne non-fonctionnelle et forme donc un pseudogène. Une troisième possibilité est la multiplication du nombre
de copies sans divergence: le résultat est une plus grande quantité du produit du gène. Cette possibilité sera
discutée plus tard.
On appelle un ensemble de gènes dans un individu, issu d'un même gène ancestral, une famille de gènes (ces
gènes sont appelés paralogues pour les distinguer des gènes orthologues qui sont le résultat d'une spéciation).
Quand il y a eu une diversification, on peut retracer, avec les méthodes de la phylogénie, l'histoire évolutive des
membres de cette famille. On retrouve en fait les moments où les duplications ont eu lieu. Une famille très étudiée
est celle des globines: l'hémoglobine (érythrocytes) et la myoglobine (muscles). Les deux sont impliquées dans le
transport d'oxygène, mais les hémoglobines sont plus sophistiquées en termes de sensibilité pour d'autres facteurs
du milieu interne; les différentes hémoglobines s'expriment dans différents stades ontogéniques.
2005-29
La figure 4.11 montre la phylogénie de cette famille, avec les positions des duplications.
Fig. 4.11: La phylogénie des myoglobines (Mb) et des hémoglobines (Hb) chez un mollusque (Aplysia) et plusieurs
vertébrés. Les embranchements munis d'un carreau représentent les duplications; les autres embranchements les
ancêtres communs des différents taxons. Les temps de divergence des taxons sont basés sur des fossiles. Les
nombres à côté des branches indiquent les nombres de substitutions de nucléotides.
La divergence entre myoglobines et hémoglobines date de il y a~e 470 MY (millions d'années); la divergence
entre hémoglobine oc et hémoglobine f3 de il y aet; 440 MY. C'était avant la divergence entre poissons et reptiles
(voir la figure 4.3). Pour les deux types d'hémoglobine aussi bien que pour la myoglobine on peut retrouver dans la
figure 2.11 le moment de la divergence entre mammifères et reptiles quand on compare homme et poule: l'ancêtre
commun se trouve à~ 300 MY.
4.9. LA PHYLOGEOGRAPHIE
4.9.1. La phyloqéoqraphie intra-spécifique
Le fait que les espèces se déplacent géographiquement, soit suite à des changements de l'environnement, soit
en conséquence d'une évolution (changement ou élargissement de la niche), soit par une simple expansion, offre la
possibilité de mettre en relation la distance géographique et la distance génétique. Les deux distances ont, sous
certaines conditions, une relation avec le temps. Si la migration est très rapide par rapport à la différenciation
génétique (par la dérive ou par la sélection différentielle), il n'y aura pas de concordance entre la phylogénie intraspécifique et la distribution géographique des populations. Si, par contre, la vitesse de migration est faible par rapport
à la vitesse de la différenciation génétique, cette concordance peut être très nette.
2005-30
Un exemple d'une absence totale d'une telle concordance est l'espèce Drosophila melanogaster. La phylogénie basée sur
les allèles de l'Adh (voir fig. 4.2) est présentée dans la figure 4.12. Le même clade contient des origines très différentes,
et une même origine peut être retrouvée aux différentes positions dans l'arbre. Les drosophiles sont apparemment
devenus cosmopolites en peu de temps, probablement sous l'influence de l'homme..
Fig. 4.12. L'arbre UPGMA des 11 allèles de Adh de Drosophila melanogaster de la figure 4.2. Ja = Japon; Af = Afrique; Wa =
Seattle (Washington); FI = Floride; Fr = France (Stephens et Nei, 1985). Les deux allèles F et S sont bien séparés
dans la phylogénie, sauf dans un cas de recombinaison à l'intérieur du gène (allèle 7F).
Fig. 4.13. Distribution géographique des populations européennes d'ours brun (Ursus arctus) et relations génétiques entre les
différentes lignées, calculées à partir de la variation de l'ADN mitochondrial, le groupe externe étant l'ours noir
américain (Ursus americanus) (d'après Taberlet et Bouvet, 1994).
Cette combinaison de phylogénie (qui dit quelque chose sur l'historique des taxons ou gènes) et biogéographie
s'appelle la phylogéographie (Avise, 1987). La phylogéographie n'étudie pas uniquement quand l'ancêtre commun
de deux OTU a vécu, mais aussi où cet ancêtre a vécu. Intéressants sont les cas où on peut suivre l'expansion d'une
espèce à l'aide de la phylogénie de ses populations ou races géographiques. Dans la section précédente a déjà été
mentionnée l'expansion vers le nord des espèces après la dernière période glaciaire. Beaucoup d'espèces que l'on
trouve actuellement jusqu'au nord de l'Europe se sont maintenues dans des refuges pendant la glaciation. L'exemple
de l'ours brun (figure 4.13) montre quelles populations actuelles sont issues de quels refuges.
Très bien documenté est aussi le cas de l'espèce humaine moderne (Homo sapiens sapiens). Son origine est
certainement l'Afrique et elle s'est répandue dans deux sens. Une vague de colonisation s'est effectuée vers l'Europe
et l'Asie du Nord et plus tard en Amérique du Nord et du Sud. Une autre route était l'Asie du Sud et puis l'Australie
2005-31
(figure 4.14). Dans le Sud-Est de l'Asie il est relativement difficile de placer les peuples dans la phylogénie, ce qui est
certainement la conséquence du fait que les deux grandes routes y sont en contact, et qu'il y a donc eu mélange des
informations génétiques. Les temps estimés de l'arrivée de notre espèce sont également mis dans la figure; ces
temps sont suffisamment longs pour mesurer avec précision la divergence génétique. Cependant, l'espèce humaine
est une jeune espèce qui est génétiquement relativement homogène.
Fig. 4.14. (a) Phylogénie de l'espèce humaine basée sur 110 gènes (groupes sanguins, enzymes, autres protéines,
etc.); (b) Les chemins d'expansion de notre espèce dans sa forme moderne (Homo sapiens sapiens) à partir de son
origine en Afrique. Les moments probables d'arrivée aux différents continents sont également indiqués (CavalliSforza et Cavalli-Sforza, 1994).
4.9.2. La phylogeoqraphie des taxons supérieurs
La répartition macrogéographique est semblable pour beaucoup d'espèces. On peut aussi dire qu'il existe des
régions qui sont caractérisées par les mêmes groupes d'espèces. De telles régions s'appellent des régions
biogéographiques. Certains taxons supérieurs se trouvent dans plusieurs régions. La combinaison de données
phylogénétiques et géographiques peut nous donner une idée de l'origine et la manière d'expansion à cette échelle,
comme on l'a vu pour des espèces individuelles dans la section
précédente.
2005-32
Fig. 4.15. Les familles vivantes d'oiseaux ratites (ne pas dessinées à l'échelle). (A) Struthionidae (autruche), Afrique. (B)
Rheidae (rhéa), Amérique du Sud. (C) Dromiceiidae (émeu), Australie. (D) Casuaridae (casoar), Australie et Nouvelle
Guinée. (E) Apterigydae (kiwi), Nouvelle Zélande. (F) Tinamidae (tinamou), Amérique tropique. Malgré leur
distribution disjoncte, ces oiseaux, qui ne peuvent pas voler sauf le tinamou, forment un groupe monophylétique.
Notre premier exemple est le groupe des oiseaux ratites. Ils sont présents sur plusieurs continents de
l'hémisphère sud (voir figure 4.15). Il y a a priori deux possibilités d'expliquer cette distribution: convergence
morphologique ou migration. Les données phylogénétiques ont montré qu'il s'agit d'un groupe monophylétique,
donc on peut exclure la possibilité de convergence. A cette échelle de temps il y a cependant une autre
possibilité qui est basée sur le fait que les continents se sont déplacés au cours du temps (figure 4.16; voir
aussi Tableau 1.1). Ici il est très probable que l'ancêtre commun a vécu sur l'ancien continent Gondwana. Après
la séparation de continents il y a eu diversification par isolement. Pour beaucoup de cas comparables (entre
autres les marsupiaux, surtout quand on inclut les fossiles) on trouve le type de phylogénie de la figure 4.17, qui
montre bien que l'Australie s'est séparée avant la séparation d'Amérique du Sud et l'Afrique.
Pour les espèces nettement apparentées, mais se situant dans des régions très éloignées, il y a deux
explications. La première possibilité est que l'ancêtre commun était, il y a très longtemps, très répandu (être
"cosmopolite" était assez logique pour les espèces qui ont vécu sur Pangée). Puis, après la dérive des
continents, l'espèce a disparu sauf dans quelques régions très éloignées. Il faut avoir une évidence
paléontologique pour soutenir une telle hypothèse. C'est le cas des tapirs, que l'on trouve actuellement à la fois
en Amérique tropicale et en Malaisie, mais dont des fossiles ont été trouvés sur tous les continents.
2005-33
2005-34
La deuxième possibilité est la dispersion (migration). Les Camelidae, actuellement présents en Amérique du
Sud (les lamas) et en Asie/Afrique du Nord (les chameaux) en sont un exemple. L'ancêtre commun est trop jeune
pour expliquer cette distribution par la dérive des continents. Il a vécu en Amérique du Nord pendant l'éocène.
Depuis cette époque, ils sont arrivés par migration en Asie (via le détroit de Bering) et en Amérique du Sud (via
l'isthme entre les deux Amériques). Puis il y a eu extinction en Amérique du Nord. La manière de distinguer entre
les deux possibilités est illustrée par la figure 4.18. La situation de séparation sans dispersion, par exemple par la
dérive des continents ou en général par la formation de barrières, est connue sous le nom vicariance.
Fig. 4.18. Relations cladistiques comme indicateurs de l'histoire biogéographique. (Gauche) Si certains membres
d'un taxon ont dispersés récemment à partir d'une région d'origine A vers des régions différentes B et C, ils seront
cladistiquement apparentés à certaines espèces dans la région A (voir cladogramme à gauche). (Droite) Une
histoire de 'vicariance' (de séparations successives des faunes) donnerait des relations cladistiques qui
correspondent avec l'ordre des événements de séparation des régions.
La migration entre continents a notamment joué un grand rôle après la mise en place de l'isthme entre les
deux Amériques. Ces deux continents ont été séparés pendant très longtemps et contenait des flores et surtout des
faunes entièrement différents. Après la formation de l'isthme de nombreuses espèces ont envahi l'autre continent. Il
est remarquable que dans la plupart des cas les espèces de l'Amérique du Nord ont remplacées celles de
l'Amérique du Sud. Cette asymétrie pourrait être expliquée par le fait que le continent "Laurasie" était plus grand
que le continent "Gondwana", ce qui a permis une évolution plus rapide sur le premier. Ceci est la conséquence
d'un plus grand nombre d"'expériences évolutives" sur une plus grande surface et par conséquent des formes de vie
plus performants dans leur milieux.
2005-35
Traductions Français - Anglais :
Français
Anglais
Acide aminé
Aire de répartition
Aléatoire
Améliorer
Arbre phylogénétique
Brin
Chevauchement
Copie conforme, bleue
Dérive des continents
Hasard
Horloge moléculaire
Lignée germinale
Milieux anthropisés
Taux d'extinction
Amino acid
Distribution
Random
Improve
Phylogenetic tree
Strand
Overlap
Blue print
Continental drift
Chance
Molecular clock
Germ line
Man-disturbed environments
Extinction rate
Littérature :
Avise (2000) . Phylogeography : The History and Formation of Species
Blondel (1995). Biogéographie. Approche écologique et évolutive
Campbell (1995). Biologie
Cavalli-Sforza & Cavalli-Sforza (1994). Qui sommes nous?
Cox & Moore (1993). Biogeography. An ecological and evolutionary approach Darlu
& Tassy (1993). Reconstruction Phylogénétique. Concepts et Méthodes Dyson
(1999) Origins of life, 2"d edition
Fenchel (2002) Origin & early evolution of life
Futuyma (1986). Evolutionary Biology
Gould (1997). L'éventail du vivant- Le mythe du progrès
Gouyon, Henry, Arnould (1997). Les Avatars du Gène. La théorie néodarwinienne de l'évolution.
Graur & Li (2000). Fundamentals of Molecular Evolution.
Lévêque & Mounolou (2001). Biodiversité. Dynamique biologique et conservation. Maurel
(2003) La naissance de la vie. De l'évolution prébiotique à l'évolution biologique Maynard
Smith & Szathmary (1995) The major transitions in evolution
Maynard Smith & Szathmary (1999) The origins of life: from birth of life to the origins of languages Mayr
(1982). The Growth of Biological Thought: Diversity, Evolution, and Inheritance Page & Holmes (1998).
Molecular Evolution. A phylogenetic approach
Ridley (1997). Evolution Biologique
Solignac, Periquet, Anxolabéhère & Petit (1995). Génétique et Evolution. Tome II. L'espèce, l'évolution
moléculaire.
Stearns & Hoekstra (2000). Evolution: an introduction.
Téléchargement