Phylogénie - Université de Montréal

publicité
Introduction à la
phylogénie*
Tree of Life web project:
http://tolweb.org/tree/phylogeny.html
* Notes basées en partie sur les notes de cours de Nadia El-Mabrouk
PLAN
*
*
*
1. Théorie de l’évolution
2. Arbres de phylogénie
*
*
Arbres enracinés et non enracinés
La donnée du problème
3. Construction d’arbres de phylogénie
*
*
*
*
Présentation des méthodes
Méthodes de distance:
*
*
distances ultramétriques
distances additives
Méthodes de parcimonie:
*
*
*
phylogénie parfaite
phylogénie parfaite généralisée
phylogénie maximale
Méthodes de maximum de vraisemblance
IFT6291, A2006, Sylvie Hamel
Université de Montréal
Phylogénie
1
1. Théorie de l’évolution
Tous les organismes vivants dérivent d’un ancêtre commun.
La diversité est due à la spéciation i.e à la séparation d’une espèce en deux
espèces différentes.
Idée de base: Les caractères sont transmis d’une génération à l’autre et, au
cours de l’évolution, ces caractères subissent une série de mutations
Nous allons parler d’arbres de phylogénie même si un des grands débat, en
phylogénétique, est de savoir si l’évolution peut être vu comme un arbre.
Plusieurs aspects de l’évolution moléculaires ne peuvent être
représentés par un arbre. Ex. Transferts horizontaux.
IFT6291, A2006, Sylvie Hamel
Université de Montréal
Phylogénie
2
2. Arbres de phylogénie
Arbres racinés
ancêtre commun
Les noeuds internes peuvent être
étiquettés par les séquences les plus
probables des ancêtres
Taille: peut représenter le nombre de
mutations ou le temps d’évolution
ancêtre commun ou point dans
l’histoire où les espèces ont divergé
Espèces actuelles
Noeud de degré > 3: Noeud non résolu. Ordre de speciation non
déterminé
IFT6291, A2006, Sylvie Hamel
Université de Montréal
Phylogénie
3
Noeud de degré > 3: Noeud non résolu. Ordre de speciation non
déterminé
IFT6291, A2006, Sylvie Hamel
Université de Montréal
Phylogénie
4
Différentes représentations d’arbres enracinés:
1) Cladogram: indique simplement les relations d’ancêtre entre
les espèces
Les espèces A et B ont un ancêtre commun plus récent que les espèces A et C
IFT6291, A2006, Sylvie Hamel
Université de Montréal
Phylogénie
5
Différentes représentations d’arbres enracinés:
2) Arbres additifs: la taille des branches indique, par exemple, le
nombre de substitutions entre les deux séquences
IFT6291, A2006, Sylvie Hamel
Université de Montréal
Phylogénie
6
Différentes représentations d’arbres enracinés:
3) Arbres ultramétriques: Arbres additifs où les feuilles sont
équidistantes de la racine.
Hypothèse sous-jacente:
horoge molécule i.e taux de
mutation constant
IFT6291, A2006, Sylvie Hamel
Université de Montréal
Phylogénie
7
Arbres enracinés versus arbres non enracinés:
Arbres enracinés: Direction représentant le temps d’évolution: plus un noeud est
proche de la racine, plus il est vieux.
Arbres non enracinés: Ne permet pas de déduire des relations de descendance
Plusieurs méthodes de constructions d’arbres de phylogénie génèrent des arbres
non enracinés. Il faut ensuite trouver un “outgroup” pour enraciner l’arbre.
IFT6291, A2006, Sylvie Hamel
Université de Montréal
Phylogénie
8
La donnée du problème:
Étant donné n espèces, calculer un arbre qui retrace l’évolution de
ces espèces.
L’information sur les espèces peut prendre deux formes différentes:
2) caractères
1) distances
E1
...
Ej
...
...
tj
...
tn
E1
..
E1
..
Ei
..
t1
En
d(Ei, E j )
En
Ei
..
e(Ei,t j )
En
état du caractère t j pour l’espèce Ei
IFT6291, A2006, Sylvie Hamel
Université de Montréal
Phylogénie
9
3. Construction d’arbres de phylogénie
Trois méthodes principales:
1) Méthodes de distance:
- Entrée: ensemble de distances (ex: distance d’édition)
- Problème: Construire l’arbre de phylogénie en “accord” avec cet
ensemble de distances
- Distances ultramétriques ou additives -> problèmes faciles à traiter
- Distances générales -> heuristiques nous donne l’arbre qui fournit la
“meilleure approximation”
2) Méthodes de parsimonie: arbres qui explique l’évolution des espèces par un
nombre minimal de mutations.
- Calcul du score d’un arbre donné
- Recherche, parmi tous les arbres, de l’arbre de score minimal.
Parcimonie maximale = nombre minimal de mutations
3) Méthodes de maximun de vraisemblance: Méthode probabiliste permettant
de trouver la séquence de noeuds internes la plus probable
IFT6291, A2006, Sylvie Hamel
Université de Montréal
Phylogénie
10
Méthodes de distance
- n séquences; D(i,j) est la distance entre les deux séquences i et j
- Algorithme de clustering UPGMA (Unweight Pair Group Method with Arithmetic Means):
Procéder par regroupement des séquences les plus proches. À chaque étape,
les deux regroupements les plus “proches” sont fusionnés.
- di, j : Distance entre deux regroupements Ci et C j = moyenne des distances entre les
paires de séquences entre les deux regroupements
D(i,j)
IFT6291, A2006, Sylvie Hamel
Université de Montréal
Phylogénie
11
IFT6291, A2006, Sylvie Hamel
Université de Montréal
Phylogénie
12
Arbres et distances ultramétriques
La construction d’un arbre par UPGMA sous-entend un modèle d’évolution
faisant intervenir l’hypothèse de l’horloge moléculaire: taux de mutation constant
UPGMA trouve LE bon arbre ssi il existe un arbre ultramétrique pour D
Définition: Soit D une matrice symétrique n X n. Un arbre ultramétrique associé
à D est un arbre A tel que:
1) L’arbre A a n feuilles étiquettées par les lignes de la matrice D (les espèces)
2) Chaque noeud de A est étiquetté par une valeur D(i,j) et a au moins deux
enfants
3) Sur tout chemin de la racine à une feuille, les étiquettes sont strictement
décroissantes
4) L’étiquette du plus petit ancêtre commun de i et j est D(i,j)
IFT6291, A2006, Sylvie Hamel
Université de Montréal
Phylogénie
13
Arbres et distances ultramétriques (suite)
Remarque: A a au plus n-1 noeuds internes. Donc, si la matrice D à plus de n-1
valeurs, il n’existe pas d’arbres ultramétriques pour D
IFT6291, A2006, Sylvie Hamel
Université de Montréal
Phylogénie
14
Détection et construction d’arbres ultramétriques
Idée:
d(j,k)
d(i,j)
i
d(i,j) = d(i,k) = d(j,k)
d(i,j) = d(i,k)
d(i,k) = d(j,k)
j
k
i
j
k
i
j
k
Définition: Une matrice symétrique D est ultramétrique si pour tout i,j et k
max{ d(i,j), d(i,k), d(j,k) }
n’est pas unique.
Théorème: Une matrice symétrique admet un arbre ultramétrique ssi elle
est ultramétrique.
IFT6291, A2006, Sylvie Hamel
Université de Montréal
Phylogénie
15
Détection et construction d’arbres ultramétriques
Théorème 2: Si D est une matrice ultramétrique, alors l’arbre
ultramétrique est unique
Conséquence: Si D reflète la distance d’évolution entre les espèces,
alors on trouve nécessairement le vrai arbre
Théorème 3: Si D est ultramétrique, alors l’arbre ultramétrique peut
2
O(n
)
être construit en
IFT6291, A2006, Sylvie Hamel
Université de Montréal
Phylogénie
16
Comment obtenir des données ultramétriques
- Distances étiquettant les noeuds des arbres ultramétriques supposés refléter le
temps qui s’est écoulé depuis la séparation des deux espèces
- Théorie de l’horloge moléculaire (1960): Pour une protéine donnée, le taux de
mutations acceptées par intervalle de temps est constant. Ce taux de mutations
varie selon les protéines
- Avec cette théorie, si k mutations acceptés entre une protéine chez l’espèce A et
cette même protéine chez l’espèce B, alors on peut estimer à k/2 le nombre de
mutations survenues pour chaque espèces depuis la divergence. Cela permet
d’obtenir des données ultramétriques
- Si nos données réelles ne sont pas ultramétriques une possibilité est de les
modifier de façon minimale pour quelles le deviennent et construire l’arbre par la
suite
IFT6291, A2006, Sylvie Hamel
Université de Montréal
Phylogénie
17
Arbres et distances additives
- Matrice des distances D (n X n) additive:
- symétrique
- la diagonale ne contient que des 0
- toutes les autres entrées sont des nombres réels strictement positifs
- Arbre additif :
- contenant au moins n noeuds, en comptant les feuilles
- chaque ligne de D (espèces) correspond à une feuille
- les arcs sont étiquettés de sorte que pour chaque paire de feuille
(i,j), le poids total du chemin de i à j est D(i,j)
IFT6291, A2006, Sylvie Hamel
Université de Montréal
Phylogénie
18
Arbres et distances additives
Matrice additive
Arbre additive pour la matrice (a)
Problème: Étant donnée une matrice additive D, trouver un arbre additif pour
cette matrice ou déterminer qu’un tel arbre n’existe pas
Distances additives: contrainte moins forte que les distances ultramétriques. Par
contre, les données réelles sont très rarement additive.
Un vaste domaine de recherche: comment effectuer la plus petite “déviation”
possible pour que des distances deviennent additives.
IFT6291, A2006, Sylvie Hamel
Université de Montréal
Phylogénie
19
Test d’additivité des 4 points
Arbre additif pour D: Distance entre deux feuilles quelconques de l’arbre =
somme des poids des arcs du chemin joignant ces deux feuilles
Pour tout ensemble de 4 espèces i,j,k et l, deux des distances D(i,j)+D(k,l), D(i,k)
+D(j,l) et D(i,l)+D(j,k) sont égales et supérieures à la troisième
s
x
y
x
y
s
t
z
z
z
IFT6291, A2006, Sylvie Hamel
Université de Montréal
s
x
t
y
Phylogénie
z
t
20
Méthode de construction d’un arbre additif
Paire de feuilles voisines: Deux feuilles de l’arbre ayant le même père
- Choisir deux objets (espèces) garantis d’être voisins dans un arbre additif
- Supprimer i et j de la liste des objets et rajouter le noeud k correspondant
au père commun de i et j. Distance de k à un autre objet quelconque (feuille)
m: D(k,m) = 1/2 (D(i,m)+D(j,m)-D(i,j))
- De cette façon, le nombre d’objets à placer est réduit de 1 à chaque étape.
IFT6291, A2006, Sylvie Hamel
Université de Montréal
Phylogénie
21
Méthode de construction d’un arbre additif (suite)
Comment déterminer, à partir de D, deux feuilles qui sont nécessairement
voisines dans l’arbre additif pour D? Il ne suffit pas de choisir une paire d’objets
pour lesquels la distance est minimale.
IFT6291, A2006, Sylvie Hamel
Université de Montréal
Phylogénie
22
IFT6291, A2006, Sylvie Hamel
Université de Montréal
Phylogénie
23
Méthode de construction d’un arbre additif
Remarque: Pour une distance additive, il n’existe pas un seul arbre additif
Heuristique: Appliquer l’algorithme plusieurs fois en modifiant l’ordre des objets
dans L, ce qui entrainera des choix différents de voisins. Trouver un
consensus pour l’ensemble des arbres obtenus
Lorsque la distance n’est pas additive, on peut quand même employer
l’algorithme de Neighbour-Joining, mais on a pas de garantie sur la qualité de
l’arbre obtenu.
IFT6291, A2006, Sylvie Hamel
Université de Montréal
Phylogénie
24
Enraciner les arbres
Contrairement à l’algorithme UPGMA, Neighbour-Joining construit un arbre non
enraciné. Pour raciner l’arbre, il suffit d’ajouter une espèce très éloignée des
autres espèces considérées (outgroup)
Une autre statégie est de considérer comme racine le milieu d’un plus long
chemin dans l’arbre (Hypothèse de l’horloge moléculaire).
IFT6291, A2006, Sylvie Hamel
Université de Montréal
Phylogénie
25
Méthodes de parcimonie
Entrée: Ensemble de traits (caractères, attributs) qu’un objet peut posséder
La distribution des traits dans les objets permet de déduire des relations d’évolution
Version simplifiée du problème: Phylogénie parfaite avec caractères binaires
(présents ou absents)
Soit M une matrice n X m de 0 et de 1, où n est le nombre d’espèces et m le
nombre de traits. Cette matrice possède un arbre phylogénétique si
1) T a n feuilles correspondant à chacune des espèces
2) Chaque caractère ou trait est l’étiquette d’une arête
3) Les étiquettes de la racine à la feuille i énumèrent tous les caractères
présents dans l’espèce i
IFT6291, A2006, Sylvie Hamel
Université de Montréal
Phylogénie
26
Phylogénie parfaite
Ici un arbre de phylogénie détermine des relations d’évolution entre les espèces, en
terme de branchement et non de temps. Ces relations sont basées sur les
hypothèses suivantes:
1) La racine représente un ancêtre commun ne présentant aucun des
m traits
2) Un caractère acquis n’est jamais perdu. (C’est pourquoi un trait
étiquette un seul arc de l’arbre)
Exemple: Évolution des quadrilatère
fermé
aligné
convexe
symétrie
2D
1
0
1
0
fermé
convexe
1
0
1
1
0
1
0
0
IFT6291, A2006, Sylvie Hamel
Université de Montréal
Phylogénie
aligné
symétrie
27
Phylogénie parfaite (suite)
Définition: Si M est une matrice booléenne n X m, pour toute colonne j,
Θ j ⊆ {1, . . . , n}
est défini comme {i | M(i, j) = 1} i.e l’ensemble des espèces ayant
le caractère j
Théorème: M a un arbre de phylogénie parfaite ssi pour tout j, k on a
Θ j ∩ Θk = 0/
Θ j ⊆ Θk
ou
ou
Θk ⊆ Θ j
IFT6291, A2006, Sylvie Hamel
Université de Montréal
Phylogénie
28
Phylogénie parfaite (suite)
- Traits considérés
1) morphologiques (colonne vertébrale, aile...)
2) liés aux séquences d’AA ou de nucléotides (présence ou non d’un motif
particulier)
3) comportementaux (marcher sur les articulations, ...)
- Par contre, la considération de traits morphologiques peut être problématique. Sous
certaines conditions des traits similaires peuvent apparaître indépendamment.
- Les traits comportementaux sont également problématiques. Par exemple, “marcher
sur les articulations” est un trait commun aux chimpanzés et aux gorilles mais pas à
l’homme. Pourtant, l’arbre maintenant admis pour l’homme, le chimpanzé et le gorille
est:
http://www.nature.com/embor/journal/v3/n4/fig_tab/embor181_f3.html
IFT6291, A2006, Sylvie Hamel
Université de Montréal
Phylogénie
29
Phylogénie parfaite généralisée
- Le type de nucléotide ou d’AA à une position donnée d’un alignement constitue
également un trait mais ce trait n’est pas binaire. Dans le cas des nucléotides, 4 états
possibles, dans le cas des acides aminés, 20. (Par contre, on peut se ramener à des
états binaires dans le cas des nucléotides si on considère les purines et pyrimidines)
- Ici, une phylogénie parfaite pour M est un arbre tel que
- Chaque feuille représente une espèce
- Chaque arc est étiquetté par une transition particulière de l’état d’un trait i.e
par une triplet (t,x,y) indiquant que le caractère t change de l’état x à y.
- Tout chemin de la racine à une feuille p décrit exactement les états des traits
pour p
- Chaque transition (t,x,y) n’apparaît qu’une fois
- Le problème: Étant donné une matrice M telle que chaque caractère peut avoir au
plus r états, déterminer s’il existe une phylogénie parfaite pour M et si
oui, en construire une.
IFT6291, A2006, Sylvie Hamel
Université de Montréal
Phylogénie
30
Phylogénie maximale
Considérer l’ensemble T de toutes les topologies d’arbres possibles ayant les
séquences comme étiquette des feuilles.
Calculer un poids pour chaque arbre T de T
Sélectionner un arbre de T de poids minimal
Parcimonie maximale = nombre minimal de mutations
IFT6291, A2006, Sylvie Hamel
Université de Montréal
Phylogénie
31
Algorithme de Fitch
Étant donné un ensemble de séquences alignées, une topologie d’arbre et une
colonne j de l’alignement, on veut trouver le nombre minimal de substitutions
associées à cet arbre:
1) Ajouter une racine sur n’importe quel arête
IFT6291, A2006, Sylvie Hamel
Université de Montréal
Phylogénie
32
Algorithme de Fitch (suite)
2) Passage de bas en haut:
On traverse l’arbre des feuilles à la racine et on
assigne à chaque noeud interne n, un ensemble
de nucléotides possibles N de la façon suivante:
Soit u et v les fils de n et U, V les ensembles de
nucléotides correpondant à ces noeuds alors
!
U ∪V
N=
U ∩V
{C, G, A}
A
{C, G}
{A,C}
si U ∩V = 0/
sinon
C
2) Passage de haut en bas:
L’arbre est ensuite traversé de haut en bas et on
assigne des nucléotides aux noeuds internes selon
ces règles:
C
- on assigne à la racine, un nucléotides x de son
ensemble (n’importe lequel)
A
A
- On assigne à un enfant v de parent u le nucléotide
!
x
si x ∈ U
n’importe quel nuclotides deV sinon
IFT6291, A2006, Sylvie Hamel
Université de Montréal
Phylogénie
33
Algorithme de Fitch (suite)
C
Donc, ici étant donné cette topologie d’arbres et
ces données d’alignement, l’algorithme de Fitch
nous donne 3 mutations.
A
C
A
L’algorithme a une complexité linéaire en la taille
de l’arbre.
Le nombre de mutations ne dépend pas du choix
du nucléotide que l’on met à la racine dans la
phase de haut en bas:
G
A
A
C
IFT6291, A2006, Sylvie Hamel
Université de Montréal
G
A
Phylogénie
A
A
34
Énumération de tous les arbres possibles
L’identification de l’arbre de parcimonie maximale requière le calcul du nombre
minimal de mutations pour chaque topologie possible d’arbres.
Arbres binaires enracinés de n feuilles:
n feuilles => n-1 noeuds internes
=> nombre total de noeuds et de feuilles = 2n - 1
=> 2n - 2 arcs
Arbres sans racines: 2n -2 noeuds + feuilles et 2n - 3 arcs.
Étant donné un arbre sans racines pour n espèces, on obtient un arbre enraciné en
ajoutant une racine au milieu d’un des 2n - 3 arcs
=> Pour chaque arbre non enraciné, il y a 2n-3 arbres racinés.
IFT6291, A2006, Sylvie Hamel
Université de Montréal
Phylogénie
35
Énumération de tous les arbres possibles
Générer les 3 arbres non enracinés pour 4 espèces:
A
Pour chacun de ces arbres, on a 5 arbres avec racines donc: 3 * 5 = 15 arbres
racinés pour n= 4 espèces
IFT6291, A2006, Sylvie Hamel
Université de Montréal
Phylogénie
36
Énumération de tous les arbres possibles
Générer les 15 arbres non enracinés pour 5 espèces:
On fait la même chose pour les 2 autres arbres non enracinés pour 4 espèces
Pour chacun de ces arbres, on a 7 arbres avec racines donc: (3*5)*7= 105 arbres
racinés pour n= 5 espèces
IFT6291, A2006, Sylvie Hamel
Université de Montréal
Phylogénie
37
Énumération de tous les arbres possibles
Par récurrence, on a 3*5*...*(2n-5) arbres
sans racine de n feuilles
Donc, 3*5*...*(2n-5)*(2n-3) arbres enracinés
de n feuilles
n = 10 => 2 027 025 arbres non enracinés
34 495 425 arbres racinés
n = 20 => environ 2.2 × 1020 arbres non
enracinés et
8.2 × 1021 arbres racinés
IFT6291, A2006, Sylvie Hamel
Université de Montréal
Phylogénie
38
Stratégie “branch and bound” *
Comme on vient de la voir, le nombre de topologies d’arbres croît très rapidement
par rapport au nombre d’espèces considérés.
“Branch and bound” est une statégie exacte permettant de trouver l’arbre de phylogénie
maximal pour 20 espèces ou plus.
Méthode:
1) Obtenir une borne supérieure du nombres de mutations (par Neighbor
Joingning, par exemple)
2) Construire toutes les topologies d’arbres en ajoutant les espèces une à une
3) Si, pour une topologie donnée, le nombre de mutations est plus grand que la
borne supérieure, alors arrêter d’ajouter des espèces à cette topologie
*
Hendy, M.D. et Peeny, D., Branch an bound algorithms to determine minimal evolutionary trees, Mathematical
Biosciences, 60, pp.133-142, 1982.
IFT6291, A2006, Sylvie Hamel
Université de Montréal
Phylogénie
39
Stratégie “branch and bound”
IFT6291, A2006, Sylvie Hamel
Université de Montréal
Phylogénie
40
Inconsistance du modèle de parcimonie
Consistance d’une méthode d’estimation: Capacité de converger vers une bonne valeur
(ici un vrai arbre de phylogénie) avec
l’augmentation des données
Supposons que nous savons que l’arbre de phylogénie de 4 séquences a,b,c et d est le
suivant:
Le taux d’évolution de c et d est beaucoup plus
élevé que le taux d’évolution de a et b
Ici, les espèces a et c sont d’une côté et les
espèces b et d de l’autre pourtant le nombre de
mutations entre a et b est beaucoup moins élevé
que le nombre entre a et c ....
Ce phénomène est appelé l’attraction des longues
banches
IFT6291, A2006, Sylvie Hamel
Université de Montréal
Phylogénie
41
Maximum de vraisemblance
IFT6291, A2006, Sylvie Hamel
Université de Montréal
Phylogénie
42
Téléchargement