Evolution 2011 a

publicité
PHYLOGENESE et EVOLUTION
I- Les programmes
A- Collège
B- Lycée
C- CPGE (BCPST)
II- Introduction à la théorie de l’évolution
A- Qu’est-ce qu’une théorie?
B- Histoire de la pensée évolutionnaire
1. La philosophie post-platonicienne
2. La théorie chrétienne
3. Un contexte proto évolutionniste
4. La théorie darwinienne
C-La théorie de l’évolution depuis Darwin
D- L’évolution: un fait et une théorie
E- Les recherche actuelles en évolution
F- La théorie de l’évolution: ni sens, ni but, ni direction
III- La construction d’arbres phylogénétiques: Établissement de parenté
A- La cladistique (W. Henning)
1. Quelques définitions
2. L’hypothèse d’homologie : l’homologie primaire
2.1 Le caractère:
2.1.1 Les caractères morpho-anatomiques
2.1.2 Les caractères embryologiques
(2.1.3 Les caractères moléculaires)
2.2 Homologie détectée par les connexions
2.3 Homologie révélée par le développement embryonnaire
3. La polarisation des caractères
3.1 Le critère ontogénique
3.2 Le critère extra groupe
4. Codage des caractères et matrice taxon de caractères
5. Principe de construction des arbres phylogénétiques
6. Appliquer un critère de cohérence: le principe de parcimonie
7. L’homologie secondaire
8. L’Homoplasie
8.1 Convergence/parallélisme
8.2 Réversion
9. Arbre phylogénétique et clade
10. Le dernier ancêtre commun hypothétique
13. La place des fossiles
B- La phylogénie moléculaire
1. Les molécules utilisées
2. Un indicateur l’universel
3. La notion d’horloge
4. Les méthodes
4.1 L’alignement des séquences
4.2 Approche phénétique (Méthode des distances)
4.2.1 UPGMA
4.2.2 Fitch et Margoliash
4.2.3 Neighbor-joining
4.2.4 Distance observée/distance évolutive
4.2.5 Enraciner l’arbre
4.2.6 Avantages et désavantages des méthodes de distances
4.2.7 Le phénogramme: une signification phylogénétique?
4.3 Méthode de parcimonie
4.3.1 Procédure d'analyse par la méthode de parcimonie
4.3.2 Arbre consensus
4.3.3 Mesure de l'homoplasie
4.3.4 Avantages et inconvénients
4.4 Méthodes probabilistes
4.4.1 Maximum de vraisemblance
4.4.2 Inférence bayesienne
4.5 La recherche du meilleur arbre
4.6 LA robustesse de l’arbre
IV- Des bouleversement dans la classification du monde vivant
Conclusion
I- Les programmes
A.1
Classe de 6ème
I- Les programmes
A.2
Classe de 5ème
I- Les programmes
A.4
Classe de 3ème
I- Les programmes
B.1
Classe de 2nde
I- Les programmes
B.2 Classe de 1ère ES
I- Les programmes
B.3 Classe de 1ère L
I- Les programmes (actuels)
B.4.1 Classe de TaleS
I.2 Parenté entre êtres vivants actuels et fossiles - Phylogenèse – Évolution (3 semaines)
A partir d’un réinvestissement de la classe de seconde (les plans d’organisation, l’unité des constituants cellulaires et génétiques, l’origine commune des
espèces) on aborde la biodiversité et la recherche de la parenté entre espèces (phylogenèse). L’Homme, avec ses caractéristiques particulières, est situé au
sein du règne animal. On montre ensuite que les êtres humains actuels appartiennent à une même espèce. On date l’émergence de cette espèce en la
resituant dans l’histoire de la Terre.
I- Les programmes (rentrée 2012)
B.4.2 Classe de TaleS
I- Les programmes
C
Classe de BCPST 1 et 2
III- La construction d’arbres phylogénétiques: Établissement de parenté
Introduction
Phylogénie (phylogenèse) est une reconstruction de l’histoire évolutive des êtres vivants. Le terme
phylogenèse a été introduit par Haeckel en 1866. Les fondements de la systématique phylogénétique ou
cladistique ont été formulés par Willy Hennig, en 1950.
L’analyse phylogénétique a pour objectif de reconstruire des liens de parenté entre les organismes et
d'estimer leurs temps de divergence
Un arbre phylogénétique est une représentation graphique de la phylogenèse d’un groupe de taxons. Les
sommets représentent les taxons ou les unités évolutives (OTU – operational taxonomic units). Les nœuds
internes représentent des ancêtres hypothétiques. Les branches définissent les relations entre les taxons
en terme de descendance.
III- La construction d’arbres phylogénétiques: Établissement de parenté
A- La cladistique (W. Henning)
1. Quelques définitions
. Arbre: dendrogramme, cladogramme, phénogramme
. Taxon: Ensemble des organismes reconnus et définis dans chacune des catégories* de la
classification biologique hiérarchisée. En d'autres termes : contenu concret d'une catégorie.
Exemple : Canis lupus, le Loup, est un taxon de rang spécifique (catégorie : espèce) ; les canidés
(Chien, Loup, Renard .) constituent un taxon de rang familial (catégorie : famille).
. Nœud: Point de rencontre de trois branches ou segments de branches dans un arbre. Si l'arbre
est raciné, le noeud est constitué d'un segment-racine en amont et de deux branches-filles, ou
taxons-frères, en aval. Si la classification est phylogénétique, c'est-à-dire si l'arbre est un
cladogramme, le noeud représente un taxon (un groupe) comprenant les taxons frères en aval de
ce noeud. Le noeud est défini par des apomorphies. Ceux-ci constituent la seule connaissance
(fragmentaire) que l'on puisse avoir du dernier ancêtre commun aux deux taxons-frères
composant le noeud. Un noeud peut contenir plusieurs branches-filles. C'est dans ce cas une
multifurcation qui signifie que les relations phylogénétiques des différentes branches (taxons)
n'ont pas été résolues.
. Plésiomorphe: Se dit de l'état ancestral d'un caractère. Les adjectifs ancestral ou primitif sont
synonymes.
. Symplésiomorphie: Caractère plésiomorphe présent chez deux ou plusieurs taxons
. Apomorphe: qualifie, dans une séquence de transformations évolutives d'un caractère, l'état
dérivé d'un état ancestral. On dit aussi état apomorphe, ou, par extension caractère apomorphe ou
encore caractère dérivé.
. Synapomorphie: Caractère apomorphe partagé par deux ou plusieurs taxons.
. Autapomorphie : lors d'une comparaison de caractères entre groupes-frères, l’adjectif
autapomorphe désigne l'état dérivé (ou apomorphe*) d'un caractère propre à l'un de ces deux
groupes. Par extension, on parle de caractère autapomorphe ou d'une autapomorphie.
Figure 1 : Levels of detail in genetic history, from individuals
to a branch on the phylogenetic tree.
III- La construction d’arbres phylogénétiques: Établissement de parenté
A- La cladistique (W. Henning)
1. L’hypothèse d’homologie : l’homologie primaire
1.1 Le caractère
On appelle (en première
observable d’un individu.
approche)
caractère tout attribut
Dans le contexte cladistique, un caractère est une collection
d’attributs sur laquelle on fait un pari d’homologie.
III- La construction d’arbres phylogénétiques: Établissement de parenté
A- La cladistique (W. Henning)
1. L’hypothèse d’homologie : l’homologie primaire
1.1 Le caractère
1.2 Homologie détectée par les connexions (homologie de position)
« principe de connexions » énoncé par E. Geoffroy Saint-Hilaire dès 1818 dans philosophie anatomique qui
contient les fondements de l’homologie de position puisqu’il dit que les mêmes organes, quelle que soit leur
taille ou leur forme, occupe la même position car ils sont unis par les mêmes connexions anatomiques. Mais il
prolonge son analyse jusqu’au niveau embryologique, et établit une corrélation entre la topologie des
structures anatomiques et leur origine embryonnaire. Il conclût alors à une unité de plan d’organisation des
Invertébrés aux Vertébrés.
En réalité, E. Geoffroy Saint Hilaire parlait d’analogies.
Des structures sont homologues lorsqu’elles occupent la même position et
qu’elles ont les mêmes connexions avec les structures voisines au sein
d’organismes partageant un même plan d’organisation, et ceci quelles que
soient leur forme et leur fonction - R. Owen (1843).
III- La construction d’arbres phylogénétiques: Établissement de parenté
A- La cladistique (W. Henning)
1. L’hypothèse d’homologie : l’homologie primaire
1.1 Le caractère
1.2 Homologie détectée par les connexions
1.3 Homologie révélée par le développement embryonnaire
Il revêt une importance capitale puisqu’il permet de trancher entre analogie et
homologie.
L’étude de caractères embryonnaires permet de montrer que 2 structures de formes
et de fonctions différentes ont la même origine embryonnaire, elles doivent avoir une
origine phylogénétique commune ce qui peut aboutir à une hypothèse d’homologie.
III- La construction d’arbres phylogénétiques: Établissement de parenté
A- La cladistique (W. Henning)
2. La polarisation des caractères
L’observation de structures dites homologues permet de définir plusieurs états pour
un même caractère (ex: nombre de doigts des membres chez les Tétrapodes).
Il est essentiel de déterminer quel est l’état primitif et quel est l’état dérivé de
chaque caractère étudié.
On dit que l’on polarise les caractères.
Il existe un événement évolutif (innovation) permettant le passage d’un
état ancestral (plésiomorphe) à un état dérivé (apomorphe).
plesio, en grec = voisin
apo, en grec = s’éloignant de
L’état dérivé a été transmis par un ancêtre commun exclusif à un ensemble d’espèces au
sein de l’échantillon.
III- La construction d’arbres phylogénétiques: Établissement de parenté
A- La cladistique de Henning
2. La polarisation des caractères
Il est essentiel de déterminer quel est l’état primitif et quel est
l’état dérivé de chaque caractère étudié.
On dit que l’on polarise les caractères.
2.1 Le critère ontogénique
S’appuie sur la loi biogénétique fondamentale de E. Haeckel résumée par
« l’ontogenèse récapitule la phylogenèse » :
Les caractères généraux du groupe apparaissent au cours du
développement embryonnaire avant les caractères propres de
l’espèce ; pour un caractère donné, l’état qui apparaît le 1er
est considéré comme le plus ancestral, l’état qui apparaît
dans un 2nd temps est l’état dérivé.
. Dans le temps embryologique, la colonne vertébrale apparaît avant les membres, qui
apparaissent eux-mêmes avant la régression de la queue qui caractérise les primates
hominoïdes (voir Lecointre et Le Guyader, 2001).
Celui des deux états qui donne naissance à l’autre est donc l’état primitif, celui qui en
découle est l’état dérivé.
. Le bourgeon épidermique préfigure déjà l’écaille mais se transforme en plume. On
peut même, expérimentalement, transformer les écailles des tarses des poulets en
plumes en ayant injecté de l’acide rétinoïque dans l’embryon à un certain stade de son
développement.
Tout semble donc indiquer que la plume est une écaille dérivée.
III- La construction d’arbres phylogénétiques: Établissement de parenté
A- La cladistique (W. Henning)
1. L’hypothèse d’homologie : l’homologie primaire
1.1 Le caractère:
1.1.1 Les caractères morpho-anatomiques
1.1.2 Les caractères embryologiques
(1.1.3 Les caractères moléculaires)
1.2 Homologie détectée par les connexions
1.3 Homologie révélée par le développement embryonnaire
1.4 L’homologie secondaire
2. La polarisation des caractères
2.1 Le critère ontogénique
2.2 Le critère extra-groupe
Le critère extra-groupe consiste à choisir une espèce extérieure à l’échantillon
à classer
référence chez qui on postule (hypothèse de travail) que tous les caractères
étudiés sont à l’état primitif.
choisie de manière à ce que son point de branchement dans l’arbre
phylogénétique soit antérieur au dernier ancêtre commun à toutes les espèces
de l’échantillon à classer.
III- La construction d’arbres phylogénétiques: Établissement de parenté
A- La cladistique (W. Henning)
3. Codage des caractères et matrice taxon de caractères
> Les caractères sont codés.
On réalise une matrice de caractères
qui présente pour chaque groupe
l’état de chaque caractère utilisé
0 : état trouvé dans l’extra-groupe;
1 : état dérivé.
> Seuls les caractères informatifs sont conservés.
Les caractères 1 et 6 ne permettent pas
de discriminer 2 espèces parmi les 3
espèces de l’échantillon.
Le
caractère
5
ne
semble
pas
discriminant: il permet de regrouper le
Pigeon avec lui-même
Ces caractères ne sont pas informatifs.
A retenir
III- La construction d’arbres phylogénétiques: Établissement de parenté
A- La cladistique (W. Henning)
4. Principe de construction des arbres phylogénétiques
Le principe de la méthode cladistique consiste à
regrouper les organismes présentant le même état
dérivé pour un caractère. Deux organismes ont
d’autant plus proches qu’ils partagent un grand
nombre de caractères à l’état dérivé.
Exemple :
L’ancêtre hypothétique commun à ces 3 espèces (connaissance extérieure à
l’expérience) est l’ancêtre commun hypothétique de tous les Amniotes (développement
embryonnaire dans un sac – amnios – contenant un liquide – liquide amniotique).
On choisit une espèce non amniote pour l’extra-groupe :
III- La construction d’arbres phylogénétiques: Établissement de parenté
A- La cladistique (W. Henning)
5. Appliquer un critère de cohérence: le principe de parcimonie
Comment choisir parmi les 3 arbres possibles une fois que l’on a reporté les hypothèses de transformation
dans chacun d’eux ?
> Appliquer le principe de parcimonie.
Quand plusieurs arbres sont possibles, on retient
l’arbre qui est le plus économique, le moins coûteux
en hypothèses de transformation.
L’arbre a implique (« coûte ») 6 hypothèses de transformation, l’arbre b en nécessite
7 et l’arbre c, 8.
C’est donc l’arbre a qui est le plus
parcimonieux ⇒ retenu !
Remarque : Cette démarche est utilisée par les chercheurs pour établir des classifications.
Mais comme ils analysent un nombre élevé d’espèces et de caractères, ils utilisent des
algorithmes et des ordinateurs, indispensables car le nombre d’arbres possibles augmente
rapidement avec le nombre d’espèces à classer :
- 10 espèces nécessitent la comparaison de 34459425 arbres ;
- 20 espèces nécessitent la comparaison de 8.1021 arbres…
III- La construction d’arbres phylogénétiques: Établissement de parenté
A- La cladistique (W. Henning)
6. L’homologie secondaire
L’homologie secondaire est une homologie par ascendance commune (= une synapomorphie),
confirmée par l’arbre phylogénétique le plus parcimonieux. Seul ce dernier, permet de vérifier si
deux structures sur lesquelles on a posé une hypothèse d’homologie (homologie primaire) sont bien
hérités d’un ancêtre commun hypothétique exclusif, ou si elles sont apparues plusieurs fois de
manière indépendante (homoplasie).
III- La construction d’arbres phylogénétiques: Établissement de parenté
A- La cladistique (W. Henning)
7. L’homoplasie
L’homoplasie est une ressemblance non héritée d’un ancêtre commun:
. Convergence : Ressemblance apparue indépendamment dans différents taxons, par conséquent
non héritée de l'espèce ancestrale à ces taxons. Une convergence apparue chez des taxons
proches parents est appelée parallélisme.
. Parallélisme : Ressemblance apparue indépendamment dans différents taxons proches parents :
un même état apomorphe est atteint à plusieurs reprises, et par différents taxons, à partir d'un
même caractère ancestral. Le parallélisme est un cas particulier de la convergence.
. Réversion : Un état dérivé d'un caractère revient à un état semblable à l'état primitif (ou
plésiomorphe). Plus généralement, dans une série de transformations d'un caractère (d'un état
primitif à des états dérivés), la réversion est un retour à un état morphologique ou moléculaire
semblable à celui d'un stade précédent (ou antérieur).
III- La construction d’arbres phylogénétiques: Établissement de parenté
A- La cladistique (W. Henning)
7. L’Homoplasie
7.1 Convergence évolutive
Les Taupes du genre Talpa et
Notorycte ont une morphologie
externe
commune:
membre
fouisseur puissant et court,
orienté
latéralement,
mains
carrés aux ongles puissants,
tête grosse proportionnellement
au corps, yeux régressés, corps
cylindrique, pas de pavillon
auditif…
On pourrait donc croire que le
dernier ancêtre commun à ces
deux
taupes
avait
une
morphologie de Taupe donc que
cette forte similarité est
héritée, donc exprime de
homologie.
En fait cette morphologie est
apparue deux fois, sur deux
continent différents et isolés
l’un de l’autre.
III- La construction d’arbres phylogénétiques: Établissement de parenté
A- La cladistique (W. Henning)
7. L’Homoplasie
7.2 Réversion
Presque tous les archosaures
actuels et fossiles ont un
orifice latéral entre l’orbite
et la narine. C’est la fenêtre
anté-orbitaire. Le reste des
amniotes actuels (Tortues,
Lépidosauriens, Mammifères)
et fossiles n’ont pas cette
fenêtre. L’absence de cette
fenêtre est un état primitif
au sein des amniotes puisque
cet état est présent en
dehors des amniotes (chez les
amphibiens).
On la trouve chez tous les
Dinosaures dont les Oiseaux,
ainsi que chez les membres
des
Thécodontes
(groupe
paraphylétique)
du
Trias.
Cette fenêtre a donc été
acquise très tôt.
Cette fenêtre disparaît dans
la
Seule
lignée
des
Crocodiliens:
on
retrouve
l’état primitif (l’état général
des autres amniotes)
III- La construction d’arbres phylogénétiques: Établissement de parenté
A- La cladistique (W. Henning)
8. Arbre phylogénétique et clade
L’arbre permet de définir des groupes ayant une signification phylogénétique, càd des groupes
dont tous les membres partagent au moins un attribut exclusif (caractère dérivé propre = une
synapomorphie) qui leur a été légué par un ancêtre commun hypothétique.
Ces groupes sont monophylétiques ; ce sont des clades (ancêtre commun + tous les
descendants).
Ex:
. Des groupes-frères sont des ensembles de
même niveau hiérarchique (rang), càd de même
niveau d’emboîtement (Crocodiliens et Oiseaux
ont le même rang : Crocodile du Nil et Pigeon sont
2 groupes-frères).
. Crocodile et Pigeon sont inclus dans un clade,
celui des Archosaures. Pigeon, Crocodile et
Tortue appartiennent à un clade plus inclusif,
comprenant Tortue et Archosaures, et donc de
rang supérieur, celui des Amniotes.
Un groupe paraphylétique: les Reptiles
Un groupe paraphylétique: les Poissons
Paraphylétique: se dit d’un groupe qui comprend une espèce ancestrale, et une
partie seulement de ses descendants. Un groupe paraphylétique est défini par
au moins une symplésiomorphie ou une absence de caractère. Les grades sont
en général des groupes paraphylétiques.
Un groupe polyphylétique: les Pachydermes
Polyphylétique: Se dit d’un groupe qui contient un certain nombre
d'espèces ou de taxons, mais ne contient pas l'ancêtre commun à
tous. En d'autres termes, un groupe polyphylétique dérive de deux
ou plusieurs espèces ancestrales. Un groupe polyphylétique est
défini par au moins une homoplasie.
L’arbre obtenu permet de mettre en évidence 3 types de ressemblances au sein d’une
collection d’organismes :
1. partage trop général d’un caractère primitif
Ex: Cistude d’Europe, Crocodile du Nil et Pigeon biset possèdent une colonne vertébrale.
Cela ne nous dit pas « qui est plus proche de qui ? » , puisque l’extra-groupe en possède déjà une.
2. partage de caractères à l’état dérivé / hérités d’un ancêtre commun exclusif :
Ces ressemblances permettent de définir des clades et ne peuvent être repérées qu’une fois l’arbre
le plus parcimonieux obtenu.
Ex: nous faisions le pari que la mandibule fenêtrée avait été acquise d’un ancêtre commun exclusif
au Crocodile du Nil et au Pigeon biset (homologie primaire). L’arbre retenu montre que nous avons
gagné ce pari (l’homologie est confirmée, c’est une synapomorphie).
Elles donnent la réponse aux paris d’homologie.
3. partage de caractères à l’état dérivé non hérités d’un ancêtre commun exclusif :
Ex 1: Partage du bec par la Tortue et le Pigeon
Ex 2: Ailes acquises au moins 3 fois au cours de l’évolution des Vertébrés : Ptérosaures, Oiseaux et
Chauve-souris.
Au cours du déroulement de l’évolution, des caractères se ressemblant fortement peuvent
apparaître plusieurs fois indépendamment chez des organismes différents
Convergences évolutives (résultat d’une sélection de solutions semblables face à des contraintes
du milieu identiques pour différentes espèces) ou réversions.
Si l’arbre phylogénétique final montre qu’une ressemblance est expliquée par une convergence
évolutive, cela veut dire que le pari sur l’homologie est perdu
Il s’agit d’homoplasie
III- La construction d’arbres phylogénétiques:
Établissement de parenté
A- La cladistique
9. Le dernier ancêtre commun hypothétique
2
4
7
1
6
8
25
3
24
26
1.
- Cladogramme des Crâniates actuels fondé sur les
caractères morpho-anatomiques
1 :
2:
3 :
4 :
5 :
6 :
Craniata (43173) : animaux pourvus d'un crâne;
Myxini (Mixiniformes = Hyperotreti : Myxines, 32);
Vertebrata : animaux pourvus de vertèbres ;
Petromyzontiformes = Hyperoartii (Lamproies, 41);
Gnathostomata : animaux pourvus de mâchoires;
Chondrichthyes (793) : animaux dont le squelette est constitué d'un
cartilage spécial;
7 : Holocephali (Chimères, 30) ;
8 : Elasmobranchii (Requins, Squales, Guitares de mer, Requins-scies,
Torpilles, Raies,763);
9 : Osteichthyes : animaux pourvus d'os ;
10 : Sarcopterygii : animaux à appendices pairs charnus (appendices =
nageoires paires ou membres) ;
11 : Actinistia (Coelacanthe, 1);
12 : Choanata : animaux à poumons alvéolés fonctionnels et deux
oreillettes au cœur;
13 : Dipnoi (Dipneustes, 6) ;
14 : Tetrapoda (21450) : animaux pourvus de membres marcheurs
« pattes », et d'un cou différencié;
15 : Lissamphibia (Grenouilles, Crapauds, Salamandres, Tritons, Cécilies,
3200) ;
22
20
21
18
5
23
19
16
17
14
15
12
13
10
11
28
9
31
30
32
34
36
33
35
37
16 : Amniota : animaux pourvus d'un amnios ;
17 : Synapsida (sans les fossiles : Mammalia : Mammifères, 4206) ;
18 : Sauropsida : animaux dont l'iris de l'oeil implique des muscles
striés, et dotés d'une quille ventrale sur les vertèbres
cervicales;
19 : Testudines (Tortues, 250) ;
20 : Diapsida : animaux dont le squelette du crâne présente deux
fosses temporales ;
21 Lepidosauromorpha (sans les fossiles : Lepidosauria, 6000) : animaux
dont le tympan est sous-tendu par l'os carré ;
22 : Squamata (Serpents, Lézards, Amphisbènes) ;
23 : Sphenodontida = Rhynchocephalia (Sphénodon) ;
24 : Archosauromorpha : animaux à gésier, membrane protectrice
supplémentaire sur l’œil, et dont le squelette de la mâchoire
est pourvu d'une fenêtre;
25 : Aves (Oiseaux : 10228) ;
26 : Crocodylia (Crocodiles, Alligators, 22) ;
27 : Actinopterygii : animaux à nageoires rayonnées;
28 : Cladistia (Polyptères, Poisson-roseau, 11) ;
29 : Actinopteri ;
30 : Chondrostei ;
29 : Actinopteri ;
30 : Chondrostei ;
31 : Acipenseroidei (Esturgeons, 23) ;
32 : Polyodontoidei (Spatules, 2) ;
33 : Neopterygü ;
34 : Ginglymodi (Lépisostées, 7) ;
35 : Halecostomi
36 : Halecomorpha (Amie chauve, 1) ;
37 : Teleostei (20812).
III- La construction d’arbres phylogénétiques: Établissement de parenté
A- La cladistique (W. Henning)
10. La place des fossiles
Dans la mesure ou il est impossible de dé
déterminer « de qui »
les fossiles sont les ancêtres au sens gé
génétique ou
généalogique du terme, ils sont classé
classés comme les êtres
vivants actuels et placé
placés au bout des branches en
fonction des innovations évolutives qui les caracté
caractérisent.
Néanmoins:
1.
Ils sont le té
témoignage d’
d’une époque ré
révolue. Ils peuvent
donc attester l’l’existence d’
d’un groupe donné
donné à une époque
donné
donnée, voire fournir la plus ancienne date d’
d’existence du
groupe.
2.
Ils pré
présentent des combinaisons de caractè
caractères qui ont
souvent disparus de la biodiversité
biodiversité actuelle.
B- La phylogénie moléculaire
1. Les molécules utilisées
La comparaison de séquences d'ADN.
1. Dans les régions codantes, et pour des objets proches, les changements synonymes possible
facilement peuvent apporter beaucoup d'informations.
2. On peut utiliser soit les régions codantes soit les régions non codantes, suivant la profondeur
des arbres recherchés.
. Les séquence des gènes des d'ARN ribosomiques (ARNr).
. Les séquences IGS (grands espaceurs intergéniques) et ITS (petits espaceurs transcrits) des
ARNr.
. Les même séquences dans la mitochondries.
. Des régions hyper variables du génome mitochondrial.
. Les séquences de cytochrome C
. Les séquences de la ribulose 1,5-bisphosphate carboxylase
. Les séquences du facteur d'élongation alpha (tuf).
La comparaison des séquences de protéines.
Un code à 20 caractères qui augmente le rapport signal sur bruit (homoplasies).
Il existe des ambiguïtés liées à la dégénérescence du code génétique.
Marqueurs moléculaires:
phylogénie de bactéries (16S rDNA)
phylogénie d’eucaryotes (18S rDNA, actine, EF1, RPB1)
phylogénie de plantes (rbcL, 18S rDNA)
phylogénie d’animaux
o niveau phylum, classe, ordre (18S rDNA, génome mt)
o niveau famille (RAG2, 12S, 16S mt)
o niveau genre (ITS, protéines mt)
o niveau intra-spécifique (D-Loop, introns)
Critères du choix d'un marqueur:
universalité
structure conservée
absence de transfert génétique entre les espèces
taux d’évolution approprié
B- La phylogénie moléculaire
2. L’indicateur universel
Les ARN ribosomiques sont devenus les index phylogénétiques retenus par une majorité de
laboratoire:
. Présence universelle
. Fonction conservée chez tous les organismes
. Alternances de domaines dont les vitesses d’évolution sont divers
. Abondance permettant un séquençage direct sans clonage
. Dans la petite sous-unité du ribosome: . Bactéries: 16S, 1550 nucléotides environ
. Eucaryotes: 18S, sensiblement plus long
. Dans la grande sous-unité du ribosome: . Bactéries: 23S, 2900 nucléotides environ
. Eucaryotes: 28S, sensiblement plus long
Le choix universel a permis la construction d’une banque de séquences. Des représentants de tous
les grands phylum animaux ont été séquencés; plantes, protistes et champignons sont très
représentés; plus de 400 séquences bactériennes d’ARNr 16S quasi complètes sont disponibles.
B- La phylogénie moléculaire
3. La notion d’horloge
En résumé, on constate que le taux d'accumulation des mutations dans le génome d'organismes différents est du
même ordre de grandeur dans des régions homologues (régions soumises à la même pression de sélection).
L'accumulation sera maximale pour des régions qui ne sont pas soumises à la pression de sélection naturelle
(ne codant pas pour des gènes) et minimale dans les parties du génome soumises à une forte pression (c'est à
dire les régions codant pour des fonctions essentielles à la survie de l'organisme).
Chaque séquence accumule les mutations à un rythme qui lui est propre et qui est dicté par l'intensité de la
pression de sélection à laquelle elle est soumise. Pour reconstituer des phylogénies (dater la divergence entre
deux espèces), on peut utiliser différentes molécules comme on utilise les aiguilles d'une montre pour calibrer
l'horloge :
- - la trotteuse des secondes (taux de mutation important, par exemple un pseudogène) pour des évènements
récents (études des sous populations au sein d'une espèce).
- l'aiguille des minutes (taux de mutation moyen, par exemple le cytochrome C) pour l'analyse d'un passé
proche.
- l'aiguille des heures (taux de mutations faible : les histones) pour l'étude d'un passé lointain.
La vitesse d'évolution de la séquence est du même ordre de grandeur au sein d'une même classe fonctionnelle
de protéines et elle est différente pour des protéines qui ont des fonctions différentes : la vitesse
d'évolution de la sérum albumine est toujours plus importante que celle du cytochrome C. Ces différences de
vitesse dépendent à la fois de la probabilité qu'une substitution apparaisse et de sa compatibilité avec la
survie de l'organisme.
Si l'on admet cette théorie, et que l'on connaît le taux d'accumulation des mutations, il est possible d'estimer
le temps de divergences d'espèces en comparant leur diversité moléculaire.
La théorie de l'horloge moléculaire est remise en cause et plusieurs arguments ont été développés :
-L'horloge moléculaire ne serait pas constante (Goodman): les mutations avantageuses se fixeraient plus
rapidement lors de la formation de nouvelles espèces.
- L'horloge moléculaire serait épisodique (Gillepsie) et les mutations ne se produiraient pas de façon
indépendante au cours de l'évolution: il y aurait des épisodes d'accumulation suivis d'arrêts évolutifs.
Dans la réalité les taux d'accumulation des mutations :
1. Peuvent être différents d'un organisme à un autre.
2. Peuvent varier au cours du temps dans une lignée
3. Ne sont pas identiques d'un résidu à un autre
B- La phylogénie moléculaire
4. Les méthodes
Deux caté
catégories de mé
méthodes:
-Méthodes fondé
fondées sur les distances:
Une matrice des distances est élaboré
laborée en comparant les sé
séquences deux à deux et en calculant le
nombre total de diffé
différences (de substitutions), pour tous les couples possibles d’
d’espè
espèces. On
construit ensuite un arbre phylogé
phylogénétique dont les longueurs de branches sont aussi proches
possibles des nombres contenus dans la matrice.
-Méthodes fondé
fondées sur les caractè
caractères:
-On s’
s’inté
intéressent au nombre de mutations (substitutions / insertions /dé
/délétions) qui affectent
chacun des sites (positions) de la sé
séquence on cherche les relations phylogé
phylogénétiques qui minimisent
les mutations né
nécessaires pour expliquer les diffé
différences observé
observées entre toutes les sé
séquences.
Méthodes dé
dérivé
rivées des mé
méthodes pré
précédemment utilisé
utilisées pour analyser les caractè
caractères
morphologiques.
Enfin toutes les méthodes reposent sur les hypothèses suivantes :
· Pas de transfert latéral ou de recombinaison
· Les séquences sont homologues
· Chaque position de l'alignement comporte des résidus homologues
· L'échantillonnage est correctement effectué
· Les positions évoluent indépendamment les unes des autres
B- La phylogénie moléculaire
4. Les méthodes
4.1 L’alignement des séquences
C’est une opération qui consiste à disposer les unes en dessous des autres des portions de séquences
similaires en minimisant leurs différences. Les séquences d’ADN se composent des caractères discontinus
qui peuvent avoir 5 états différents:
. soit une adénine,
. soit une guanine,
. soit une cytosine,
. soit une thymine
. soit une insertion ou une délétion (indel).
Les sites qui ont les mêmes états dans chaque séquence s’appellent des sites conservés. Un changement
d’état dans un site s’appelle une substitution.
Taxon 1
ACCAG-TCGTACTGCCAGTAC-CTGACATGCCAGTCAGA
Taxon 2
ACCAG-TCGTGCTGCC-CAT--CTGACATGACA-TCAGA
Taxon 3
ACCTG-TCGTGCAGCCGCGT--CTGTCCTGCCAGTCGGA
Taxon 4
ACCTGGTCGTACTGCC-CATA-CTGGCCTGTCAGTCAGA
Taxon 5
ACTTG-TCGTACTGCCGTCGAACTGGCCTGTCAGTCAG
B- La phylogénie moléculaire
4. Les méthodes
4.2 Approche phénétique (Méthode des distances)
Les méthodes des distances se proposent de reconstruire des arbres en partant des ressemblances
observées entre chaque paire d'unités évolutives. On parle de la ressemblance globale établie à partir
du maximum d'observations disponibles.
Deux étapes d'analyse des séquences par méthodes
• Calcul des distances
• Construction d'arbre phylogénétique
Ce sont des méthodes de reconstruction d'arbre phylogénétique sans racine basée sur la recherche
d'OTU (operationnal taxonomic units, le plus souvent équivalent à une séquence) les plus proches et ceci
à chaque étape de regroupement.
Ces méthodes sont rapides et donnent de bons résultats pour des séquences ayant une forte similarité.
Programmes DNADIST et PROTDIST de Phylip
4.2.1 UPGMA (Unweight Pair Group Method with Arithmetic mean)
Cette méthode est utilisée pour reconstruire des arbres phylogénétiques si les séquences ne sont pas trop
divergentes.
UPGMA utilise un algorithme de clusterisation séquentiel dans lequel les relations sont identifiées dans
l'ordre de leur similarité et la reconstruction de l'arbre se fait pas à pas grâce à cet ordre.
Il y a d'abord identification des deux séquences les plus proches et ce groupe est ensuite traité comme un
tout, puis on recherche la séquence la plus proche et ainsi de suite jusqu'à ce qu'il n'y ait plus que deux
groupes.
Exemple:
Si on considère la matrice de distances associé à un groupe de 6 OTUs et que l'on veuille
obtenir l'arbre associé:
A
B
C
D
B
2
C
4
4
D
6
6
6
E
6
6
6
4
F
8
8
8
8
E
8
On clusterise tout d'abord les deux OTUs avec la distance la plus faible (A et B). Le point de branchement est positionné à la
distance 2/2=1.
On peut alors construire le sous arbre suivant :
Dans la suite, le cluster (A,B) est considéré comme un tout et on peut calculer une nouvelle matrice de distance:
dist(A,B),C = (distAC + distBC) / 2 = 4
dist(A,B),D = (distAD + distBD) / 2 = 6
dist(A,B),E = (distAE + distBE) / 2 = 6
dist(A,B),F = (distAF + distBF) / 2 = 8
C'est
une
méthode
agglomérative (cluster analysis)
qui regroupe ensemble les
séquences les plus proches.
C'est une méthode très simple,
développée originalement pour
construire des phénogrammes
taxonomiques.
Elle impose que les distances soient ultra-métriques, donc que les séquences
évoluent à une vitesse constante (hypothèse d'horloge moléculaire).
Etant donnée que cette hypothèse est rarement confirmée, la méthode UPGMA
n'est pratiquement plus utilisée.
B- La phylogénie moléculaire
4. Les méthodes
4.2 Approche phénétique (Méthode des distances)
4.2.2 Fitch et Margoliash
Elle ne nécessite pas d'hypothèse particulière quant à la vitesse d'évolution des molécules. Compte tenu de
l'homoplasie présente dans tous les jeux de données biologiques, il n'est pas possible de construire un
arbre dont chaque distance entre deux espèces, obtenue par addition des longueurs de branches joignant
les deux espèces dans l'arbre, soit strictement égale à la distance figurant dans la matrice de départ. Par
conséquent, les distances dans l'arbre sont toujours plus ou moins déviées (plus grandes ou plus petites)
par rapport aux distances de la matrice initiale. Le critère de choix de l'arbre est la minimisation de cette
déviation : on choisit l'arbre dont les distances entre espèces sont les plus proches possibles des
distances de la matrice initiale.
B- La phylogénie moléculaire
4. Les méthodes
4.2 Approche phénétique (Méthode des distances)
4.2.3 Neighbor-joining:
Cette méthode introduit un critère de minimisation de la longueur total de l’arbre. Elle conduit à un seul
arbre, mais ne choisit pas d’agglomérer nécessairement au départ les espèces les plus proches.
C'est la méthode de distances la plus souvent utilisée. Elle assume que les distances sont proches de
l’additivité, mais pas ultramétrique, donc elle n’implique pas l’hypothèse d’horloge moléculaire.
La méthode NJ consiste à calculer les longueurs des branches, telles que les distances déduites de
l’arbre soient les plus proches de distances mesurées entre les séquences; et ensuite à calculer la
longueur de l’arbre, égale à la somme des longueurs de ses branches.
Cette méthode développée par Saitou et Nei (1987) tente de corriger la méthode
UPGMA afin d'autoriser un taux de mutation différent sur les branches.
. Les données initiales permettent de construire une matrice qui donne un arbre en
étoile.
. Cette matrice de distances est ensuite corrigée afin de prendre en compte la
divergence
moyenne
de
chacune
des
séquences
avec
les
autres.
. L'arbre est alors reconstruit en reliant les séquences les plus proches dans cette
nouvelle matrice.
. Lorsque deux séquences sont liées, le nœud représentant leur ancêtre commun est
ajouté à l'arbre tandis que les deux feuilles sont enlevées. Ce processus convertit
l'ancêtre commun en un nœud terminal dans un arbre de taille réduite.
Programme NEIGHBOR de Phylip
La matrice de distance associée à cet arbre est la suivante :
A
B
C
D
B
5
C
4
7
D
7
10
7
E
6
9
6
5
F
8
11
8
9
E
8
Etape 1 : calcul de la divergence de chacun des N OTUs par
rapport aux autres (N= 6)
r (A) = 5+4+7+6+8 = 30
r(B) = 42
r(C) = 32
r(D) = 38
r (E) =34
r(F) = 44
Etape 2 : calcul de la nouvelle matrice en utilisant la formule
M(i,j) = d(ij) -[r(i) + r(j)] / (N-2) ce qui donne pour la paire AB : M(AB) = 5 - [30 + 42] / 4 = -13
A
B
C
B
-13
C
-11.5
-11.5
D
-10
-10
-10.5
E
-10
-10
-10.5
F
-10.5
-10.5
-11
D
E
-13
-11.5
-11.5
Ceci permet de construire l'arbre en étoile
suivant :
A
F
|
B
\
|
/
\ | /
\ |/
/|\
/ | \
/
|
\
E
|
C
D
Etape 3 : Choix des plus proches voisins, c'est à dire des deux OTUs ayant le M(i,j) le plus petit, donc
soit A et B soit D et E.
On prend A et B et on forme un nouveau nœud U et on calcule la longueur de la branche entre U et A
ainsi qu'entre U et B :
S (AU) = d (AB) / 2 + [r(A) - r(B)] / 2 (N-2) = 5/2 + [30-42] /2(6-4) = 1
S(BU) = d (AB) - S(AU) = 5 - 1 = 4
Etape 4 : on définit les nouvelles distances entre U et les autres OTUs
d (CU) = d(AC) + d (BC) - d(AB) / 2 = 3
d (DU) = d(AD) + d(BD) -d(AB) /2 = 6
d (EU) = d(AE) + d (BE) - d(AB) / 2 = 5
d (DU) = d(AF) + d(BF) -d(AB) /2 = 7
création d'une nouvelle matrice :
U
C
D
C
3
D
6
7
E
5
6
5
F
7
8
9
E
Et d'un arbre en étoile :
C
D
|
\
|
A
\__| ____1/
/ |
\
/
|
\4
E
F
\
B
La procédure complète repart de l'étape 1 avec N = N-1 = 5.
8
B- La phylogénie moléculaire
4. Les méthodes
4.2 Approche phénétique (Méthode des distances)
4.2.4 Distance observé/distance évolutive:
La distance évolutive entre 2 séquences est égal au nombre de substitutions qui se sont produites sur les 2
lignées évolutives depuis l’ancêtre commun / nombre de sites.
La distance évolutive est égale à la distance observée uniquement si les séquences sont très proches et le
nombre de substitutions observées correspond au nombre de substitutions qui se sont réellement
produites. En effet, la distance observée est presque toujours une sous-estimation de la distance évolutive.
Plusieurs événements, qui ont pu éventuellement se produire, ne sont pas pris en considération dans son
calcul. Pour en tenir compte, plusieurs modèles ont été développés afin de corriger les distances observées.
Si le temps de divergence entre deux séquences augmente, la probabilité d'avoir une seconde mutation a
un site augmente également. Ceci fait que le simple comptage des différences entre deux séquences n'est
pas le reflet exact de la réalité mais sous-estime le nombre d'évènements mutationnels. On tente de
corriger ce biais en faisant des hypothèses sur la façon dont les bases ou acides aminés se sont substitués
à un locus donné. Les premiers à avoir proposés une solution à ce problème sont Jukes et Cantor en 1969.
Types de substitutions
On distingue différents types de substitution suivant les bases impliquées.
Transitions :
A <-> G, C <-> T
Transversions :
A <-> C, A <-> T,
G <-> C, G <-> T
Lorsque l'on compare deux séquences, on différencie aussi les substitutions selon leur ordre et leurs
conséquences.
Séquence
1
Séquence
2
Nb de
substitutions
observées
Nb réel de
substitutions
Substitution unique
C
C -> A
1
1
Substitutions multiples
A
A -> C > T
1
2
Substitutions coïncidentes au même
site
C -> A
C-> G
1
2
Substitutions parallèles
T -> A
T -> A
0
1
Substitutions convergentes
C -> T > A
C -> A
0
3
Substitutions reverses
C -> T > C
C
0
1
Modèles d’évolution
Modèle de Jukes-Cantor (JC) : 1 paramètre
• les 4 bases ont les mêmes fréquences (πA = πT = πG = πC)
• les transitions (α) et les transversions sont équiprobables (α = β)
Formule: d xy = -3/4 ln (1-4/3 D)
où D est la distance observée, les termes 3/4 et 4/3 correspondent aux quatre types de nucléotides et aux trois possibilités
que le deuxième nucléotide peut être différent du premier.
Modèle de Kimura (K2P) : 2 paramètres
• les 4 bases ont les mêmes fréquences (πA = πT = πG = πC)
• les transitions (α) et les transversions (β) ne sont pas équiprobables (α ≠ β)
Modèle de Tajima-Nei (TN) = Felsenstein (F81) : 6 paramètres
• les 4 bases ont les fréquences différentes (πA ≠ πT ≠ πG ≠ πC)
• les transitions et les transversions sont équiprobables (α = β)
Modèle de Hasegawa, Kishino et Yano (HKY 85) : 6 paramètres
• les 4 bases n’ont pas les mêmes fréquences (πA ≠ πT ≠ πG ≠ πC)
• les transitions (α) et les transversions (β) ne sont pas équiprobables (α ≠ β)
Modèle GTR (General Time Reversible) : 10 paramètres
• les 4 bases ont des fréquences différentes (πA ≠ πT ≠ πG ≠ πC)
• il existe 6 types de substitutions (AC, AT, AG, CT, CG, TG)
Paramètres additionnels : distribution gamma (Γ) et proportion de sites invariables (I)
La distribution gamma est utilisée pour corriger les variations de substitutions entre les différents
sites. Le paramètre α est évalué à partir des données et correspond à l'intervalle de variations. Plus
α est petite, plus l'intervalle des variations est grand. On peut décider qu’une certaine fraction de
sites est invariable (ce qui correspond à un paramètre supplémentaire I), auquel cas la distribution
gamma ne s’appliquera qu’aux sites libres de varier. On peut inclure les paramètres α et I dans
différents modèles de changements évolutifs, p. ex. : GTR + Γ + I (12 paramètres)
B- La phylogénie moléculaire
4. Les méthodes
4.2 Approche phénétique (Méthode des distances)
4.2.5 Enraciner l’arbre:
B- La phylogénie moléculaire
4. Les méthodes
4.2 Approche phénétique (Méthode des distances)
4.2.5 Enraciner l’arbre:
On peut positionner la racine grâce à un groupe externe : sachant (par d'autres données) que les
mammifères sont apparus après les oiseaux, l'inclusion d'un oiseau dans la phylogénie permet de mettre
en évidence un clade Ane-Lion, avec le Lapin comme taxon externe à ce clade
Quand on n'a aucune possibilité de décider quel taxon peut servir de groupe externe, on place souvent
la racine au milieu de l'arbre ; ceci fait implicitement usage de la notion d'horloge moléculaire.
B- La phylogénie moléculaire
4. Les méthodes
4.2 Approche phénétique (Méthode des distances)
4.2.6 Avantages et désavantages des méthodes de distances:
Avantages:
. Les méthodes de distance sont les seules disponibles pour analyser certain type
de données: distances immunologiques, distances d’hybridation d’acides
nucléiques.
. Elles sont rapides et permettent d’analyser de grandes bases de données et de
tester un grand nombre d’hypothèses alternatives.
. Elles permettent aussi d’intégrer des modèles de changements évolutifs, pour
corriger les estimations de distances, qui ne sont pas intégrables dans d’autres
méthodes.
Désavantages:
. Le fait de réduire la matrice de caractères à une matrice de distance
(traitement global) induit la perte d’une certaine quantité d’information.
Elles confondent homologie et homoplasie
. En plus, les méthodes de distance ne permettent pas de combiner dans une
même matrice des caractères de nature différente (par exemple caractères
morphologiques et séquences d’ADN).
B- La phylogénie moléculaire
4. Les méthodes
4.2 Approche phénétique (Méthode des distances)
4.2.7 Le phénogramme: une signification phylogénétique?
Ces arbres expriment un degré relatif de similitude. Si le degré d’apparentement
est proportionnel au degré de ressemblance, l’arbre construit par une méthode
phénétique peut-être identique à celui construit par la méthode de Henning.
Mais la ressemblance n’est pas toujours proportionnelle à la parenté.
B- La phylogénie moléculaire
4. Les méthodes
4.3 Méthode de parcimonie
Les méthodes de parcimonie reposent directement sur les principes de la cladistique qui ont été
créées pour analyser des données morphologiques.
Le postulat de base est que l’évolution est parcimonieuse; c’est à dire que, pour un groupe d'espèces, la
phylogénie la plus vraisemblable est celle qui nécessite le plus petit nombre de changements évolutifs.
L'arbre phylogénétique est conçu de manière à impliquer le minimum d'événements évolutifs. La
longueur de l'arbre L est égale à la somme du nombre de changements l pour chacun des k sites
informatifs.
La parcimonie consiste à minimiser le nombre de "pas" (mutations / substitutions) nécessaires pour passer
d'une séquence à une autre dans une topologie de l'arbre.
Pour cela, cette méthode s'appuie sur les hypothèses suivantes :
- les sites évoluent indépendamment les uns des autres (la séquence peut être considérée comme une suite
de caractères non ordonnés)
- la vitesse d'évolution est lente et constante au cours du temps.
Cette méthode, quand elle est appliquée à des séquences protéiques, utilise le code génétique pour
comptabiliser le nombre de substitutions nécessaires (changements de bases) pour passer d'un site à l'autre
d'une séquence à l'autre.
La méthode de maximum de parcimonie recherche toutes les topologies possibles afin de trouver l'arbre
optimal (minimum) et le temps nécessaire pour cette exploration croit rapidement avec le nombre de
séquences:
. le nombre d'arbres enracinés possibles pour n OTUs : Nr = (2n - 3)! / (2exp(n-2))(n-2)!
. le nombre d'arbres non enracinés possibles pour n OTUs : Nu = (2n -5)! / (2exp(n-3))(n-3)!
Programme DNAPARS et PROTPARS de Phylip
4.3.1 Procédure d'analyse par la méthode de parcimonie
Identifier les sites informatifs
Un site est informatif uniquement s’il y a au
moins deux types de nucléotides présents dans ce
site et si chacun d’eux est représenté dans au
moins deux séquences comparées. Les sites
parcimonieusement informatifs sont les seuls qui
influencent le choix de l’arbre.
Inférer toutes les topologies d'arbres possibles pour les séquences données.
Calculer le nombre minimum de substitutions pour chaque site informatif.
Calculer la somme de changements pour chaque arbre.
Choisir la topologie de l'arbre qui nécessite le moins de changements – l’arbre le plus court.
Prenons le jeu de départ :
Séquence 1
A A A A A
Séquence 2
A A A A G
Séquence 3
A A C G C
Séquence 4
A T G G T
L'objectif va maintenant être parmi tous les arbres possibles de sélectionner celui qui explique le plus simplement,
le plus parcimonieux, les séquences observées.
On va donc chercher à passer d'une séquence à une autres avec le moins possible de mutations. Les arbres possibles
sont les suivants :
La première colonne ne fournit aucune information phylogénétique :
La seconde non plus car une seule mutation explique chacun des trois arbres :
La troisième position n'est plus plus informative :
tous les arbres s'expliquent avec deux mutations:
Par contre la 4ème position permet de trancher :
Seul le premier arbre s'explique avec une seule mutation, alors qu'il en faut deux pour les autres. Si la position
ancestrale était un A, alors une mutation de A vers G dans la branche centrale permet d'expliquer les
observations expérimentales
Pour les espèces 1 & 2 le nucléotide est une plésiomorphie (caractère identique à celui présent chez l'ancêtre).
Pour les espèces 3 & 4 le nucléotide observé est une apomorphie (un nouveau caractère dérivé, spécifique au
clade).La parcimonie donne la même topologie que la méthode de distance, mais en utilisant vraiment unmodèle
basé sur la théorie de l'évolution !
Les colonnes non informatives, peuvent être utilisée pour affiner le calcul de la longueur des branches. Quand
de nombreux sites sont informatifs on cherche l'arbre qui en moyenne contient le moins d'étapes. Si beaucoup
de caractères informatifs sont présents on obtient généralement de nombreux (parfois de très nombreux)
arbres. Le spécialiste les étudiera soigneusement, les autres se contentent généralement de calculer un
consensus.
Pour 4 séquences, il y a 3 arbres non enracinés possibles.
Ces trois arbres sont analysés (recherche de la séquence
ancestrale et comptage du nombre de mutations)
(1) AAGAGTGCA
AGATATCCA (3)
\ 4
/ 2
\
4 /
AGCCGTGCG --- AGAGATCCG
Nombre de mutations : 10
/
\
/ 0
\ 0
(2) AGCCGTGCG
AGAGATCCG (4)
Séquence
1
2
3
4
5
6
7
8
9
1
A
A
G
A
G
T
G
C
A
2
A
G
C
C
G
T
G
C
G
3
A
G
A
T
A
T
C
C
A
4
A
G
A
G
A
T
C
C
G
(1) AAGAGTGCA
AGCCGTGCG (2)
\ 1
/3
\
5
/
AGGAGTGCA --- AGAGGTCCG
Nombre de mutations : 14
/
\
/ 4
\1
(3) AGATATCCA
AGAGATCCG (4)
(1) AAGAGTGCA
AGCCGTGCG (2)
\ 1
/3
\
5
/
AGGAGTGCA --- AGATGTCCG
Nombre de mutations : 16
/
\
/ 5
\2
(4) AGAGATCCG
AGATATCCA (3)
L'arbre I est celui nécessitant le moins de mutations, c'est donc le plus parcimonieux.
L'analyse peut également se faire uniquement sur les sites informatifs, c'est à
dire quant à cette position il y a au moins 2 nucléotides différents, représentés
chacun dans au moins deux séquences.
(1) GGA
ACA (3)
/1
/
\1
\
2
GGG - - - ACG
/0
\0
/
\
(2) GGG
ACG (4)
(1) GGA
ACA (2)
\2
/1
\
0
/
GGG - - - ACG
/1
\2
/
\
(4) ACG
ACA (3)
G
G
A
2
G
G
G
3
A
C
A
4
A
C
G
*
*
*
Nombre de mutations : 4
GGG (2)
/1
/
\1
\
1
GGG - - - ACG
/1
\1
/
\
(3) ACA
ACG (4)
1
Nombre de mutations : 5
(1) GGA
Nombre de mutations : 6
Dans le cas de 4 séquences, un site informatif favorise seulement un arbre : le site 5 favorise l'arbre I plus que les arbres
II et III (il supporte l'arbre I). L'arbre le plus parcimonieux est celui qui est supporté par le plus grand nombre de sites
informatifs.
Le maximum de parcimonie recherche l'arbre optimal et dans ce processus, il est possible de trouver plusieurs arbres
optimaux (= arbres ex aequo = configuration comptabilisant le même nombre minimal de substitutions nécessaires pour passer
d'une séquence à l'autre dans l'ensemble de l'arbre).
Afin de garantir de trouver l'arbre le meilleur possible, il faut faire une évaluation de toutes les topologies possibles mais
cela devient impossible lorsque l'on a plus de 12 séquences.
4.3.2 Arbre consensus
comme la méthode du maximum de parcimonie peut conduire à trouver plusieurs arbres équivalents, on
peut créer un arbre consensus (avec utilisation du bootstraping). Cet arbre consensus est construit à
partir des nœuds les plus fréquemment rencontrés sur l'ensemble des arbres possibles.
4.3.3 Mesure de l'homoplasie
Plusieurs indices ont été développés afin de mesurer le taux d'homoplasie et ainsi d'évaluer la confiance
que l'on peut avoir dans un arbre.
• consistency index (CI) - indice de cohérence CI = M / S
où M est égal au nombre de changements possibles et S est égal au nombre de changements observés
pour tous les caractères.
• homoplasy index (HI) - indice des homoplasies HI = 1 -CI
4.3.4 Avantages et inconvénients
La parcimonie est une méthode de caractères qui fournit l'information sur les séquences ancestrales et
qui permet l'évaluation des différents arbres. Cependant, seulement une partie d'information (sites
informatifs) est utilisée. En plus, la méthode ne corrige pas les substitutions multiples et ne calcule pas
les longueurs de branches.
B- La phylogénie moléculaire
4. Les méthodes
4.4 Méthode probabilistes
4.4.1 Méthode de Maximum de vraisemblance (Maximum Likelihood)
Les méthodes de maximum de vraisemblance évaluent les arbres possibles en terme de probabilité
qu'un modèle d'évolution des résidus permette d'expliquer avec une meilleure probabilité une
topologie plutôt que les autres. L'arbre trouvé est renvoyé avec une probabilité que sa topologie
explique les données observées.
Pour les nucléotides, on aura par exemple une probabilité différente entre l'obtention d'une transition
et d'une transversion ; pour les acides aminés les probabilités peuvent soit être plus fréquentes dans
le 3ème codon, soit résultant d'une transition, soit à des remplacements d'acides aminés équivalents.
La démarche consiste donc à rechercher la vraisemblance des données D sous différentes hypothèses
évolutives H d'un modèle M et à retenir les hypothèses qui rendent cette vraisemblance maximale. Dans
le cas d'analyse des séquences, les données D sont des séquences comparées et l'hypothèse H est l'arbre
phylogénétique. Nous cherchons à trouver l'arbre dont la vraisemblance, étant donné les séquences
observées et le modèle d'évolution choisi, est maximale.
Les méthodes probabilistes assument explicitement la connaissance des modalités d’évolution des
caractères. En effet, en plus de la matrice et de l’arbre, elles utilisent un modèle constitué d'un
ensemble de paramètres dont le réglage formule différentes hypothèses d’évolution connues a priori.
Ces hypothèses concernent surtout l'évolution des états de caractères et sont exprimées en termes
de probabilités.
Par exemple, le modèle va stipuler que la probabilité de passer d'une adénine à une cytosine sera de
0,3 tandis que la probabilité de passer d'une adénine à une guanine sera de 0,5. Comme tout arbre
implique des changements d'états de caractères le long de ses branches, toutes les probabilités
associées aux transformations impliquées par un arbre donné vont se multiplier et fournir une valeur
globale de vraisemblance des données associées à cet arbre.
Parmi les arbres possibles, l'arbre choisi est celui dont la vraisemblance des données au vu du modèle
est maximale. Cette méthode fonctionne sur les caractères moléculaires, pour lesquels on peut
établir des modèles d'évolution des protéines ou des acides nucléiques. Pour les caractères
morphologiques, cette méthode est très difficile à appliquer, car, compte tenu de leur nature
hautement intégrée, on n'a aucune idée des probabilités de transformation d'un état à un autre, ou
plus généralement des modèles à construire.
4.4.2 Inférence bayesienne
C'est une méthode qui fait appel au concept des probabilités postérieures (le théorème de Bayes),
où la probabilité est estimée sur la base d'un modèle et d'une certaine connaissance des données.
En pratique, la probabilité postérieure d’une topologie est impossible à calculer, mais elle peut être
approximée en utilisant la méthode de Monte Carlo par chaînes de Markov (MCMC), qui échantillonne
des arbres en proportion de leur PP.
Avantages : La méthode bayesienne est beaucoup plus rapide que le maximum de vraisemblance.
Défauts : Les probabilités postérieures ont tendance à surestimer la fiabilité des noeuds internes
des phylogénies ; cette méthode n’a pas encore été suffisamment testée sur des jeux de données
réels et complexes.
4.5 La recherche du meilleur arbre:
méthodes agglomératives (UPGMA, Neighbor Joining)
méthodes d’optimisation (Minimum Evolution, Maximum Parsimony, Maximum Likelihood)
Les méthodes d’optimisation explorent toutes les différentes topologies d’arbres possibles et choisissent
la meilleure en fonction d’un critère donné.
Recherche exhaustive
L'analyse exhaustive consiste à évaluer tous les arbres possibles, c'est-à-dire à calculer la longueur de
tous les arbres de topologie différente et choisir l'arbre dont la longueur est minimale. C'est une méthode
qui garantit de trouver un ou plusieurs arbres optimaux. Cependant, une telle recherche n'est possible
qu'au-dessous d'une dizaine de taxons.
Technique du branch and bound
Cette technique emploie un algorithme exact qui garantit la solution optimale sans nécessiter une
recherche exhaustive. La recherche de l'arbre optimal se fait par rapport à un arbre de référence obtenu
par une méthode heuristique; la longueur L de cet arbre est comparée avec celle des autres arbres au fur
et mesure de leur construction. Si l'on rencontre un arbre plus court que L, cet arbre est le meilleur
obtenu et devient la nouvelle référence. Quand l'ensemble des chemins a été exploré, tous les arbres de
longueur minimale ont été identifiés.
Méthodes heuristiques
Les méthodes heuristiques sont utilisées lorsque la matrice des données est trop importante pour l'usage
d'algorithmes exacts (nombre élevé de taxa et de caractères). Ces méthodes ne garantissent pas la
découverte de l'arbre optimal. La méthode générale consiste à construire un arbre initial qui est ensuite
réarrangé de manière à diminuer sa longueur.
Attractions artéfactuelles de branches
Toutes les méthodes sont sujettes à l'artéfact dit d’attraction des branches longues. Cet
artéfact provient des inégalités du taux d'évolution des caractères entre les lignées
analysées. Les espèces qui évoluent plus vite que les autres pour les caractères utilisés se
traduisent dans un arbre par une branche propre plus longue. On a pu montrer
théoriquement et expérimentalement qu'au-delà d'un certain écart de vitesse d'évolution
entre les espèces, les espèces qui évoluent plus vite ont plus de chance d'avoir des
états de caractères communs par hasard que par ascendance commune, et que le
nombre de caractères communs ainsi acquis devenait supérieur aux caractères qui
auraient dû les séparer. Par conséquent, elles sont regroupées ensemble dans l'arbre
indépendamment des parentés. En somme, cet artéfact regroupe les espèces aux taux
d’évolution les plus proches. Moins l’arbre contient de branches, et plus il est propice à
cet artéfact.
Lorsque certaines espèces présentent des branches très longues, elles sont attirées par
la branche "naturellement longue" qu’est la branche de l’extra-groupe (l’extra-groupe est
l’espèce la plus éloignée de toutes les autres, sorte de référent extérieur nécessaire
pour enraciner l’arbre). Certains auteurs ont étudié ce phénomène et l’ont généralisé,
concluant que tout empilement successif de branches à la base de l’arbre n’était pas
fiable, car probablement dû à un extra-groupe attirant toutes les branches longues du
jeu de données.
B- La phylogénie moléculaire
4. Les méthodes
4.6 La robustesse de l’arbre
Le bootstrap est une procédure permettant d'estimer la robustesse d'une phylogénie. En fait on va tester
comment la phylogénie retrouvée est sensible à des augmentations de bruit de fond dans les séquences.
Dans la pratique, considérons que nous avons un jeu de séquences avec 1 000 résidus. Dire qu'on va faire n
réplications de boostrap implique qu'on va générer n jeu aléatoires de séquences. Pour chaque jeu, on va
tirer 1 000 une colonne au hasard afin de générer un jeu de séquences alignées contenant bien 1000
résidus. Dans chaque jeu, certaines colonnes sont donc représentées plusieurs fois, tandis que d'autres ne
sont pas présentes. On utilise ces 1 000 jeux de données pour générer 1 000 matrices de distances puis
1000 arbres.
On calcule ensuite un arbre consensus de ces 1 000 arbres et on reporte sur chaque branche combien de
fois elle a été retrouvée au sein des 1 000 arbres.
Seules les branches avec un fort % sont considérées robustes.
5. CONCLUSION
L'étude de la phylogénie est un vaste domaine et quelque soit la méthode utilisée, des hypothèses très
simplificatrices sont faites sur l'évolution biologique des séquences. Actuellement, pour reconstruire une
bonne phylogénie, la qualité et le nombre des données provoquent plus de variations au sein d'un arbre qu'un
changement de méthode.
Pour construire de bons arbres, il faut :
- Avoir le plus grand nombre de gènes homologues possibles
- Aligner les séquences très soigneusement
-Eliminer les régions ambiguës, les régions hypervariables, les gaps
des alignements
- Utiliser si possibles plusieurs méthodes de reconstruction, prendre NJ plutôt que UPGMA (le neighborjoining autorise des taux de mutations différents sur les branches) et incorporer des biais dans les taux de
mutations / substitutions.
- Evaluer l'arbre statistiquement : bootstrapping.
Souvent les arbres obtenus sont différents selon le gène considéré. Cela est du à plusieurs causes :
- Tous les gènes n'ont pas la même vitesse d'évolution
- L'évolution convergente
- Les phénomènes de recombinaison
- Les transferts de gènes
- La confusion gènes paralogues (duplication au sein d'une espèce) / gènes orthologues (même gène dans des
espèces différentes):
IV- Des bouleversement dans la classification du monde vivant
Avant les phylogé
phylogénies molé
moléculaires
On enseignait encore il y a peu que les vertébrés sont constitués de cinq classes : poissons, amphibiens,
reptiles, oiseaux, mammifères.
. Les oiseaux et les mammifères sont monophylétiques;
. Les poissons sont paraphylétiques:
1. parce que les actinoptérygiens (truite) sont plus proches de non-poissons que sont les
tétrapodes qu’ils ne le sont des chondrichthyens (actinoptérygiens et tétrapodes sont
tous des ostéichthyens) ;
2. parce que les dipneustes sont plus proches
des tétrapodes (vache) qu’ils ne le sont
des actinoptérygiens .
3. Parce que le coelacanthe est plus proche des tétrapodes qu’il ne l’est de tout autre
poisson excepté les dipneustes.
. Les amphibiens sont paraphylétiques parce que les fossiles des groupes des anthracosaures et des
seymouriamorphes sont plus proches des amniotes qu’ils ne le sont de tout autre amphibien actuel ou
fossile.
Si l’on exclut les fossiles, les trois groupes d’amphibiens actuels (anoures, urodèles, gymnophiones)
constituent bien un groupe monophylétique, les lissamphibiens.
. Les reptiles sont paraphylétiques:
1. parce que de nombreuses lignées thérapsides du Permien et du Trias sont plus
apparentées aux non-reptiles que sont les mammifères (ce que l’on reconnaissait
auparavant sous le terme de “reptiles mammaliens”) ;
2. parce que les crocodiles et de nombreuses lignées de dinosaures sont plus apparentés à
des non-reptiles que sont les oiseaux qu’ils ne le sont à des lézards et à des tortues.
Avant même l’arrivée des phylogénies moléculaires, on savait que les échinodermes étaient plus
apparentés aux chordés qu’aux autres invertébrés (tout en conservant l’usage du nom "invertébrés").
IV- Des bouleversement dans la classification du monde vivant
Des changements lié
liés aux phylogé
phylogénies molé
moléculaires
. Le monde vivant ne se divise pas en procaryotes et eucaryotes mais en trois super-règnes:
- archaebactéries,
- eubactéries,
- eucaryotes.
Le gouffre génétique entre eucaryotes et archaebactéries est aussi large que celui qui sépare eubactéries
et eucaryotes.
. A la fin des années 1980 eut lieu une polémique sur la paraphylie des archaebactéries, l’arbre
du vivant s’enracinant sur les eubactéries.
Actuellement, la discussion sur la position de la racine du vivant est encore parfois vive et
brasse même des arguments en faveur d’un enracinement eucaryote. Enfin, des amplifications
géniques effectuées sur des micro-organismes non identifiés de divers milieux suggèrent des
divergences génétiques affolantes.
Le monde bactérien ne nous montrerait que la partie émergée de son iceberg génétique : il
existerait de nombreuses espèces dont la divergence avec les espèces actuellement connues est
comparable aux divergences maximales des espèces connues entre elles.
. les séquences homologues 16S mitochondriales et chloroplastiques ne viennent pas se placer dans
l’arbre à proximité de la séquence homologue nucléaire de leur hôte eucaryote, mais bien à l’intérieur
des eubactéries.
Beaucoup voient dans cet arbre la preuve définitive de l’origine endosymbiotique des mitochondries
et des chloroplastes.
. Les lignées eucaryotes dépourvues de mitochondries comme les microsporidies ne sont plus
considérées comme basales (n’ayant pas encore connu l’événement d’endosymbiose), mais au
contraire comme des lignées très tardives ayant perdu secondairement leurs mitochondries.
. Ces dernières années, plusieurs phylogénies moléculaires indépendantes attestent une parenté
champignons-métazoaires à l’exclusion des “végétaux”. Plus exactement, les champignons sont
groupe-frère des microsporidies, et le tout est groupe-frère d’un clade composé des
choanoflagellés et des métazoaires. Les quatre groupes forment le clade des opisthokontes.
Champignons
Microsporidies
Choanoflagé
Choanoflagélés
Métazoaï
tazoaïres
opisthokontes.
Le terme d'algues ne recouvre aucune unité historique particulière: algues brunes, rouges et vertes ne
sont pas nécessairement apparentées, sans qu’on sache toutefois comment les relier au reste des lignées
d’eucaryotes sur la base de caractères dérivés partagés. Il devint vite clair que les algues vertes sont
paraphylétiques : de nombreux groupes de petites algues vertes ainsi que les charales étant plus
proches des embryophytes que des ulvobiontes.
. Au sein du clade des chlorobiontes, les bryophytes, les gymnospermes et les dicotylédones perdront
leur unité dès le milieu des années1980.
. Les gymnospermes sont paraphylétiques.
Téléchargement