Phylogénie moléculaire

publicité
Phylogénie moléculaire
Thomas Gaillard
[email protected]
École Polytechnique
Sommaire
1
Introduction
2
Construction d’arbres
3
Exemples
4
Bibliographie
Introduction
Sommaire
1
Introduction
2
Construction d’arbres
3
Exemples
4
Bibliographie
Introduction
Phylogénie
Phylogénie
Définition :
Étude des relations évolutives entre êtres vivants.
Étymologie :
φυ̃λον = tribu, genre, espèce
γένεσις = origine, source, naissance
Intérêt :
origine de la vie
histoire évolutive des gènes et des organismes
classification et taxonomie
annotation fonctionnelle
épidémiologie
...
Introduction
Historique
Historique
phylogénie = taxonomie + évolution
Molecules as
Documents of
Evolutionary History
Zuckerlandl & Pauling,
1965
Darwin, 1837
Haeckel, 1866
Introduction
Données de départ
Données de départ
Approche morphologique :
matrice de caractères
Approche moléculaire :
alignement multiple de séquences homologues
goshawk
vulture
duck
alligator
lesser
giant
moose
axolotl
GALSKLSDLHAQKLRVDPVNFKLLGQCFLVVVAIHHPSVLTPEVHASLDKFLCAVGNVLTAKYR
GALSKLSDLHAQKLRVDPVNFKLLGQCFLVVVAIHHPSVLTPEVHASLDKFLCAVGNVLTAKYR
GALSKLSDLHAQKLRVDPVNFKFLGHCFLVVVAIHHPAALTPEVHASLDKFMCAVGAVLTAKYR
GALCRLSELHAHSLRVDPVNFKFLAHCVLVVFAIHHPSALSPEIHASLDKFLCAVSAVLTSKYR
GALSALSDLHAHKLRVDPVNFKLLSHCLLVTLACHHPAEFTPAVHASLDKFFSAVSTVLTSKYR
GALSALSDLHAHKLRVDPVNFKLLSHCLLVTLASHHPAEFTPAVHASLDKFFSAVSTVLTSKYR
GTLSDLSDLHAHKLRVDPVNFKLLSHTLLVTLAAHLPSDFTPAVHASLDKFLANVSTVLTSKYR
ATLVKLSDKHAHDLMVDPAEFPRLAEDILVVLGFHLPAKFTYAVQCSIDKFLHVTMRLCISKYR
Introduction
Données de départ
Homologie
Deux séquences sont dites
homologues lorsqu’elles
possèdent un ancêtre commun
gène ancestral
gène α
Les évènements de spéciation
donnent des orthologues
Les évènements de duplication
donnent des paralogues
gène α
rat
gène β
gène α
souris
orthologues
gène β
souris
gène β
rat
orthologues
paralogues
homologues
Introduction
Arbres
Arbres
vocabulaire
définition mathématique : graphe connexe acyclique
arbre binaire : chaque nœud possède au plus deux fils
arbre raciné
arbre non-raciné
racine
5
1
9
temps
8
8
7
7
6
2
1
6
3
2
4
feuilles
5
3
4
Introduction
Arbres
Arbres
comptage
1
non-racinés racinés
feuilles
n
n
nœuds internes n − 2
n−1
nœuds
2n − 2
2n − 1
branches
2n − 3
2n − 2
arbres
(2n − 5)!! (2n − 3)!!
Q[n/2]−1
avec n!! = i=0 (n − 2i)
3
2
1
4
3
1
2
3
1
3
2
2
1
1
3
2
1
il y a 2n − 3 arbres racinés pour un
arbre non-raciné
pour n = 10, ≈ 2 millions d’arbres
non-racinés
3
3
2
2
4
1
1
4
3
3
1
2
2
2
3
Introduction
Arbres
Arbres
codage et représentations
Codage :
correspondance entre arbres et parenthèses imbriquées
(Arthur Cayley, 1857)
format Newick :
((1,(2,3)),(4,5));
((1,(2,3)6)7,(4,5)8)9;
((1:3 ,(2:1 ,3:1.3 )6:1 )7:2 ,(4:3 ,5:3.5 )8:1 )9;
Représentations :
cladogramme
7
1
1
6 1.3
2
1
8
3.5
4
5
3
4
1
3
3
5
2
5
radiale
4
2
3
9
3
1
4
2
circulaire
1
2
3
5
phénogramme
1
Introduction
L’arbre de la vie
L’arbre de la vie
http://itol.embl.de
Construction d’arbres
Sommaire
1
Introduction
2
Construction d’arbres
3
Exemples
4
Bibliographie
Construction d’arbres
Construction d’arbres
Construction d’arbres phylogénétiques
1
alignement multiple des séquences
2
3
choix des séquences
sélection d’une partie de l’alignement
construction de l’arbre
modèle
de distance
4
maximum
de
parcimonie
UPGMA
NJ
5
évaluation de l’arbre
modèle
probabiliste
maximum
de
vraisemblance
Construction d’arbres
Alignement multiple des séquences
Alignement multiple des séquences
Toutes les approches phylogénétiques moléculaires commencent par
un alignement multiple des séquences
beta
delta
epsilon
gamma
theta
alpha
zeta
myoglobin
beta
delta
epsilon
gamma
theta
alpha
zeta
myoglobin
1
MVHLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLA
MVHLTPEEKTAVNALWGKVN--VDAVGGEALGRLLVVYPWTQRFFESFGDLSSPDAVMGNPKVKAHGKKVLGAFSDGLA
MVHFTAEEKAAVTSLWSKMN--VEEAGGEALGRLLVVYPWTQRFFDSFGNLSSPSAILGNPKVKAHGKKVLTSFGDAIK
MGHFTEEDKATITSLWGKVN--VEDAGGETLGRLLVVYPWTQRFFDSFGNLSSASAIMGNPKVKAHGKKVLTSLGDAIK
-MALSAEDRALVRALWKKLGSNVGVYTTEALERTFLAFPATKTYFSHL-DLSP-----GSSQVRAHGQKVADALSLAVE
-MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSH-----GSAQVKGHGKKVADALTNAVA
-MSLTKTERTIIVSMWAKISTQADTIGTETLERLFLSHPQTKTYFPHF-DLHP-----GSAQLRAHGSKVVAAVGDAVK
-MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVLTALGGILK
80
HLDNLKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH-----HLDNLKGTFSQLSELHCDKLHVDPENFRLLGNVLVCVLARNFGKEFTPQMQAAYQKVVAGVANALAHKYH-----NMDNLKPAFAKLSELHCDKLHVDPENFKLLGNVMVIILATHFGKEFTPEVQAAWQKLVSAVAIALAHKYH-----HLDDLKGTFAQLSELHCDKLHVDPENFKLLGNVLVTVLAIHFGKEFTPEVQASWQKMVTAVASALSSRYH-----RLDDLPHALSALSHLHACQLRVDPASFQLLGHCLLVTLARHYPGDFSPALQASLDKFLSHVISALVSEYR-----HVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR-----SIDDIGGALSKLSELHAYILRVDPVNFKLLSHCLLVTLAARFPADFTAEAHAAWDKFLSVVSSVLTEKYR-----KKGHHEAEIKPLAQSHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAQGAMNKALELFRKDMASNYKELGFQG
Les zones de faible similarité sont ignorées
Construction d’arbres
Modèles d’évolution
Distance évolutive
La p-distance est l’estimation la plus simple de la distance entre deux
séquences :
p = n/l
avec n le nombre de substitutions et l le nombre de sites
La distance évolutive d est supérieure à la distance observée p
substitution(s)
simple
multiples
coïncidentes
parallèles
convergentes
inverse
séquence 1
C
A
C→A
T→A
A→T
C
séquence 2
C→A
A→C→T
C→G
T→A
A→C→T
C→T→C
p
1
1
1
0
0
0
d
1
2
2
2
3
2
Avec un modèle d’évolution, on peut estimer d à partir de p
Soit λ le taux global de substitutions dans une séquence
On a d = λt
Construction d’arbres
Modèles d’évolution
Modèle de Jukes-Cantor
modèle à un seul paramètre
même taux de substitution α pour les quatre nucléotides
Jukes & Cantor, 1969
Matrice de taux de substitution :
A
C
G
T


A −3α
α
α
α
C α
−3α
α
α 

Q= 
G α
α
−3α
α 
T
α
α
α
−3α
Matrice de probabilité de substitution :
P(t) = e Qt donc P 0 (t) = QP(t)
A
C
G
T


A r (t) s(t) s(t) s(t)
C  s(t) r (t) s(t) s(t) 
 avec r (t) + 3s(t) = 1
On pose P(t) = 
G  s(t) s(t) r (t) s(t) 
T s(t) s(t) s(t) r (t)
Construction d’arbres
Modèles d’évolution
Modèle de Jukes-Cantor
On obtient le système d’équations différentielles :
r 0 = −3αr + 3αs
s 0 = αr − αs
Qui a pour solutions :
r (t) = 14 (1 + 3e −4αt )
s(t) = 14 (1 − e −4αt )
p
probabilité
1
0.75
0.5
0.25
0
0
temps
r (t)
s(t)
t
lorsque t → ∞, r = s = 14
(fréquences d’équilibre des nucléotides)
Construction d’arbres
Modèles d’évolution
Distance de Jukes-Cantor
Par définition, d = λt, et λ = 3α pour Jukes-Cantor
La probabilité de substitution est p = 3s(t)
4
On obtient : p = 43 (1 − e − 3 d )
Et la distance de Jukes-Cantor : d = − 43 ln(1 − 43 p)
distance observée
p
1
aléatoire
0.75
0.5
0.25
0
0
0.5
1
distance évolutive
1.5
lorsque p = 75%, d → ∞
d
Construction d’arbres
Modèles d’évolution
Autres modèles
ADN
K80 Kimura 1980
2 paramètres, distingue transition et transversion
d = − 12 ln(1 − 2p − q) − 14 ln(1 − 2q)
HKY85 Hasegawa, Kishino et Yano 1985
Kimura avec fréquences d’équilibre différentes
pour les quatre nucléotides
...
GTR « Generalised time-reversible », Tavaré 1986
le plus général avec la réversibilité
Protéines
PAM « Point Accepted Mutation »
Dayhoff, Schwartz & Orcutt, 1978
...
Construction d’arbres
Utilisation de matrices de distance
Matrices de distance
Une matrice de distance dij est calculée à partir de l’alignement de
séquences et d’un modèle de distance
beta
delta
epsilon
gamma
theta
alpha
zeta
myoglobin
beta
0.00
0.07
0.30
0.34
1.20
0.93
1.18
2.22
delta epsilon gamma
0.07
0.30
0.34
0.00
0.33
0.35
0.33
0.00
0.22
0.35
0.22
0.00
1.17
1.21
1.19
0.95
1.05
0.99
1.13
1.03
1.03
2.14
2.07
2.05
theta
1.20
1.17
1.21
1.19
0.00
0.51
0.77
1.87
alpha
0.93
0.95
1.05
0.99
0.51
0.00
0.56
1.88
(distances calculées avec modèle PAM)
zeta myoglobin
1.18
2.22
1.13
2.14
1.03
2.07
1.03
2.05
0.77
1.87
0.56
1.88
0.00
1.64
1.64
0.00
Construction d’arbres
Utilisation de matrices de distance
Méthode UPGMA
UPGMA =
« unweighted pair group method with arithmetic averages »
Sokal & Michener, 1958
méthode standard de clustering hiérarchique ascendant
but : regrouper progressivement les séquences p dans des clusters Ci
1
distance inter-cluster : dij = |Ci ||C
p∈Ci ,q∈Cj dpq
j|
avec |Ci | et |Cj | le nombre de séquences dans les clusters Ci et Cj , et
dpq la matrice de distance inter-séquences
P
variantes :
dij = minp∈Ci ,q∈Cj dpq (saut minimum ou « single linkage »)
dij = maxp∈Ci ,q∈Cj dpq (saut maximum ou « complete linkage »)
Construction d’arbres
Utilisation de matrices de distance
Méthode UPGMA : algorithme
Initialisation :
Attribuer à chaque séquence i son propre cluster Ci .
Définir une feuille pour chaque séquence, à hauteur zéro.
Itération :
Déterminer les deux clusters Ci et Cj pour lesquels dij est minimale.
Définir un nouveau cluster Ck = Ci ∪ Cj , et calculer dkl pour tout l.
Définir un nœud k avec pour descendants i et j,
et le placer à hauteur dij /2.
Ajouter Ck aux clusters courants et supprimer Ci et Cj .
Terminaison :
Lorsqu’il reste seulement deux clusters Ci et Cj ,
placer la racine à hauteur dij /2.
Construction d’arbres
Utilisation de matrices de distance
Méthode UPGMA : exemple
5 séquences, représentées comme des points du plan
•
1
•
2
9
8
•
3
•
4
1
d
2 68
7
6
•
5
1
2
4
5
3
Construction d’arbres
Utilisation de matrices de distance
Méthode UPGMA : exemple
5 séquences, représentées comme des points du plan
•
1
•
2
9
8
•
3
•
4
1
d
2 68
6
•
5
1
2
1
d
2 12
4
7
5
3
Construction d’arbres
Utilisation de matrices de distance
Méthode UPGMA : exemple
5 séquences, représentées comme des points du plan
•
1
•
2
9
8
•
3
•
4
1
d
2 68
7
6
•
5
1
2
4
1
d
2 45
5
3
Construction d’arbres
Utilisation de matrices de distance
Méthode UPGMA : exemple
5 séquences, représentées comme des points du plan
•
1
•
2
9
8
•
3
•
4
7
6
•
5
1
1
d
1
2 d68
2 37
2
4
5
3
Construction d’arbres
Utilisation de matrices de distance
Méthode UPGMA : exemple
5 séquences, représentées comme des points du plan
•
1
•
2
9
8
•
3
•
4
1
d
2 68
7
6
•
5
1
2
4
5
3
Construction d’arbres
Utilisation de matrices de distance
Hypothèse de l’horloge moléculaire
UPGMA produit des arbres dont les branches peuvent être vues comme des
temps mesurés par une « horloge moléculaire »
L’hypothèse de l’horloge moléculaire suppose que les mutations surviennent
à une vitesse constante
Les distances entre un nœud et ses feuilles sont identiques
2
3
4
1
arbre correct
1
4
2
3
arbre produit par UPGMA
Construction d’arbres
Utilisation de matrices de distance
Méthode Neighbor-joining
Ne requiert pas l’hypothèse de l’horloge moléculaire
mais seulement l’additivité des distances
Additivité des distances : la distance entre une paire
de feuilles est la somme des longueurs des branches le
long du chemin qui les relie
m
Pour trois feuilles i, j, et m, il y a un nœud k où les
branches vers ces feuilles se rejoignent.
Par additivité, on a :
dim = dik + dkm , djm = djk + dkm , et dij = dik + djk
La distance du nœud k à la feuille m est donc :
dkm = 21 (dim + djm − dij )
Produit un arbre non-raciné
k
i
j
Construction d’arbres
Utilisation de matrices de distance
Méthode Neighbor-joining
Les feuilles les plus proches ne sont pas forcément
voisines
1
0.1
Comment déterminer si des feuilles sont voisines à
partir des distances dij ?
On peut prouver que Dij est minimale lorsque i et
j sont voisines
0.1
0.4
Procédure proposée par Saitou & Nei (1987) et
modifiée par Studier & Keppler (1988)
On introduit Dij = dij − (ri + rj )
P
1
avec ri = (|L|−2)
k∈L dik
et |L| le nombre de feuilles
2
0.1
0.4
3
4
d13 > d12
(0.5 > 0.3)
mais
D13 < D12
(−1.2 < −1.1)
Construction d’arbres
Utilisation de matrices de distance
Méthode Neighbor-joining : algorithme
T est l’arbre courant
L est la liste courante des feuilles
Initialisation :
Définir T comme l’ensemble des nœuds feuilles, un pour chaque
séquence, et L = T .
Itération :
Choisir une paire i, j dans L pour laquelle Dij est minimale.
Définir un nouveau nœud k avec dkm = 12 (dim + djm − dij ),
pour tout m de L.
Ajouter k à T avec des branches vers i et j de longueur
dik = 12 (dij + ri − rj ) et djk = dij − dik .
Retirer i et j de L et ajouter k.
Terminaison :
Lorsque L contient deux nœuds i et j,
ajouter la dernière branche entre i et j, de longueur dij .
Construction d’arbres
Maximum de parcimonie
Maximum de parcimonie
Principe de parcimonie :
(lex parsimoniae, « principe de simplicité »,
ou encore « principe d’économie »)
« Les hypothèses suffisantes les plus simples
sont les plus vraisemblables »
rasoir d’Ockham :
Pluralitas non est ponenda sine necessitate
« Les multiples ne doivent pas être utilisés sans nécessité »
En phylogénie : trouver l’arbre qui peut expliquer les observations
avec le minimum de substitutions
Construction d’arbres
Maximum de parcimonie
Maximum de parcimonie
Deux composantes :
1
2
calcul du coût pour un arbre donné
exploration de l’espace des arbres pour identifier
l’arbre de coût minimal
Exemple :
quatre séquences alignées AAG, AAA, GGA, AGA
coût = 1 par substitution
trois exemples d’arbres possibles :
AAA
AAA
AGA
1
1
AAA
1
AGA
AAA
1
AAA
AAA
1
AAA
2
GGA
AAA
AAG
AGA
GGA
AAA
AAG
coût = 3
AAA
2
1
AGA
GGA
1
AAA
AAG
coût = 4
coût = 4
Construction d’arbres
Maximum de parcimonie
Maximum de parcimonie
Algorithme de parcimonie traditionnelle
minimise le coût total de l’arbre pour un site u (Fitch, 1971)
n séquences x 1 , . . . , x n
xui désigne le résidu de la séquence i au site u
Rk est une liste des résidus de coût minimal pour le nœud k
C est le coût courant de l’arbre
Initialisation :
Soit C = 0 et k = 2n − 1.
Récursion. Calcul de l’ensemble Rk :
Si k est un nœud feuille : Rk = xuk .
Si k n’est pas un nœud feuille :
calculer Ri et Rj pour les nœuds filles i et j, puis
Rk = Ri ∩ Rj si cette intersection n’est pas vide,
Rk = Ri ∪ Rj sinon et incrémenter C .
Terminaison :
Le coût minimal de l’arbre est C .
k
{Rk }
i
{Ri }
j
{Rj }
Construction d’arbres
Maximum de parcimonie
Maximum de parcimonie
Algorithme de parcimonie pondérée
minimise le coût total de l’arbre pour un site u
Sankoff & Cedergren, 1983
S(a, b) est le coût pour une substitution du résidu a vers b
Sk (a) est le coût minimal pour l’attribution du résidu a au nœud k
Initialisation :
Soit k = 2n − 1, le numéro du nœud racine.
k
{A:Sk (A),...}
i
{A:Si (A),...}
Récursion. Calculer Sk (a) pour tout a comme suit :
{A:Sj (A),...}
Si k est un nœud feuille :
Sk (a) = 0 si a = xuk , sinon Sk (a) = ∞.
Si k n’est pas un nœud feuille :
calculer Si (a) et Sj (a) pour tout a pour les nœuds filles i et j, et
obtenir Sk (a) = minb (Si (b) + S(a, b)) + minc (Sj (c) + S(a, c)).
Terminaison :
Le coût minimal de l’arbre est mina S2n−1 (a).
j
Construction d’arbres
Maximum de parcimonie
Maximum de parcimonie
Reconstitution de la séquence des ancêtres
Ajouter des pointeurs de chaque résidu a du nœud k vers les résidus
correspondants b et c des nœuds filles i et j, qui minimisaient Sk (a)
(les pointeurs peuvent avoir plusieurs cibles) :
lk (a) = argminb (Si (b) + S(a, b))
rk (a) = argminc (Sj (c) + S(a, c))
À la fin, choisir un résidu a à la racine donnant le coût minimal pour S2n−1 ,
puis remonter jusqu’aux feuilles en lisant les pointeurs, choisissant
arbitrairement lorsque le pointeur a plusieurs cibles.
{A:2,B:2}
B
{A:1,B:2}
B
{A:1,B:1}
x
B
{A:∞,B:0}
{A:∞,B:0}
{A:0,B:∞}
{A:0,B:∞}
x
B
B
A
A
Construction d’arbres
Maximum de vraisemblance
Maximum de vraisemblance
Terminologie
soit un modèle probabiliste de paramètres θ
P(x |θ) est la probabilité d’observer les résultats x étant donnés les
paramètres θ
L(θ|x ) = P(x |θ) est la vraisemblance des paramètres θ étant donnés
les résultats x
estimer les paramètres d’un modèle probabiliste à partir d’un jeu de
données fiable D
maximum de vraisemblance :
θML = argmax P(D|θ)
θ
si la quantité de données est limitée, risque de surajustement
(« overfitting »)
par exemple un tirage [pile,pile,pile] donnerait
P(pile) = 1, P(face) = 0
Construction d’arbres
Maximum de vraisemblance
Maximum de vraisemblance
En phylogénie
Soit un modèle probabiliste d’évolution, qui permet de calculer les
probabilités de substitution P(b|a, t)
Soit un ensemble de n séquences x 1 , . . . , x n
On cherche l’arbre T de longueurs de branches t1 , . . . , tn qui
maximise la vraisemblance P(x 1 , . . . , x n |T , t1 , . . . , tn )
Construction d’arbres
Maximum de vraisemblance
Maximum de vraisemblance
Deux séquences
arbre T avec branches de longueur t1 et t2
deux séquences x 1 et x 2
a
t1
t2
xu2
xu1
Pour un site u, probabilité d’avoir les résidus xu1 et xu2 aux feuilles :
P(xu1 , xu2 |T , t1 , t2 ) =
X
qa P(xu1 |a, t1 )P(xu2 |a, t2 )
a
Pour N sites, probabilité d’avoir les séquences x 1 et x 2 aux feuilles :
P(x 1 , x 2 |T , t1 , t2 ) =
N
Y
u=1
P(xu1 , xu2 |T , t1 , t2 )
Construction d’arbres
Maximum de vraisemblance
Maximum de vraisemblance
Nombre arbitraire de séquences
n séquences x 1 , . . . , x n
arbre T avec branches de longueur t1 , . . . , tn
les nœuds non-feuilles sont numérotés de n + 1 à 2n − 1
α(i) est l’ancêtre immédiat du nœud i
t6
a6
aα(6)
t3 aα(3)
xu3
Pour un site u, probabilité d’avoir les résidus xu1 , . . . , xun aux feuilles :
P(xu1 , . . . , xun |T , t1 , . . . , tn ) =
X
qa2n−1
an+1 ,an+2 ,...,a2n−1
2n−2
Y
i=n+1
P(ai |aα(i) , ti )
n
Y
P(xui |aα(i) , ti )
i=1
Pour N sites, probabilité d’avoir les séquences x 1 , . . . , x n aux feuilles :
P(x 1 , . . . , x n |T , t1 , . . . , tn ) =
N
Y
u=1
P(xu1 , . . . , xun |T , t1 , . . . , tn )
Construction d’arbres
Maximum de vraisemblance
Maximum de vraisemblance
Algorithme de Felsenstein
proposé par Felsenstein en 1981
calcule la probabilité d’avoir les résidus xu1 , . . . , xun aux feuilles
pour l’arbre T et les branches t1 , . . . , tn
P(Lk |a) est la probabilité de toutes les feuilles sous le nœud k
sachant que le résidu en k est a
ti
i
b
Initialisation :
Soit k = 2n − 1.
Récursion. Calculer P(Lk |a) pour tout a comme suit :
Si k est un nœud feuille :
P(Lk |a) = 1 si a = xuk , P(Lk |a) = 0 si a 6= xuk .
Si k n’est pas un nœud feuille :
Calculer P(Li |a) et P(Lj |a) pour tout a
pour les nœuds
P filles i et j, puis
P(Lk |a) = b,c P(b|a, ti )P(Li |b)P(c|a, tj )P(Lj |c).
Terminaison :
La vraisemblance pour le site P
u est
P(x 1 , . . . , x n |T , t1 , . . . , tn ) = a qa P(L2n−1 |a).
k
a
tj
j
c
Construction d’arbres
Enracinement
Enraciner un arbre non-raciné
Certains algorithmes produisent un arbre non-raciné
Utilisation d’un groupe extérieur :
séquence/espèce qui est plus distante des séquences/espèces étudiées
que celles-ci le sont entre elles
→ le nœud où part la branche vers le groupe extérieur est défini
comme la racine
axolotl
goshawk
vulture
duck
alligator
moose
lesser
giant
Autre méthode :
prendre le milieu de la plus longue chaîne de branches consécutives
(il s’agit de la racine si l’hypothèse de l’horloge moléculaire est
valable)
Construction d’arbres
Évaluation
Bootstrap
Le « bootstrap » est une méthode générale en statistiques qui permet
d’évaluer l’incertitude d’une estimation due à un échantillonnage incomplet
(Efron, 1979).
Cette méthode a été appliquée aux arbres phylogénétiques par Felsenstein
(1985).
L’idée est d’évaluer la robustesse d’un trait phylogénétique (par exemple, le
fait qu’un ensemble d’espèces soient dans une même branche) en perturbant
les données.
Construction d’arbres
Évaluation
Bootstrap
1
À partir du jeu de données initial (alignement de séquences), on génère des
jeux de données artificiels de même taille, en effectuant des tirages aléatoires
(typiquement, de 100 à 1000) avec remise (une colonne de l’alignement peut
apparaître plusieurs fois).
2
Pour chaque jeu de données artificiel, on construit un arbre phylogénétique
avec la même méthode.
3
La fréquence avec laquelle un trait phylogénétique est présent est une
mesure de sa robustesse.
90%
75%
1
3
2
...
...
Construction d’arbres
Comparaison des méthodes
Comparaison des méthodes
Méthodes utilisant les matrices de distance
+
+
−
−
rapide et simple
pas besoin d’explorer l’espace des arbres
utilisation d’une matrice de distance (perte d’information)
hypothèse de l’horloge moléculaire pour UPGMA
Maximum de parcimonie
+
+
−
−
−
simple
moins coûteux que le maximum de vraisemblance
plus coûteux que les matrices de distance
attraction des longues branches
impossible d’évaluer tous les arbres si beaucoup de séquences
Maximum de vraisemblance
+
+
−
−
−
justification théorique
meilleurs résultats en général
coûteux
nécessite un modèle probabiliste d’évolution
impossible d’évaluer tous les arbres si beaucoup de séquences
Construction d’arbres
Limitations
Limitations
limites des données, modèles, algorithmes, et
de l’échantillonnage des arbres
différence entre phylogénie de gènes et
d’espèces
taux variables de mutation
recombinaison génétique
hybridation
transferts horizontaux de gènes et xénologie
convergence évolutive et homoplasie
conservation de l’ADN ≈ 100000 ans
...
Smets & Barkay, Nature
Rev. Microbiol. 2005
Construction d’arbres
Logiciels
Logiciels (libres)
PHYLIP bibliothèque logicielle complète, par J. Felsenstein
fastDNAml maximum de vraisemblance
PAML maximum de vraisemblance et inférence bayésienne
TREE-PUZZLE maximum de vraisemblance
RAxML maximum de vraisemblance
PhyML maximum de vraisemblance
FastTree maximum de vraisemblance
MrBayes inférence bayésienne
SeaView interface graphique pour l’alignement de séquences et la
phylogénie
FigTree visualisation d’arbres
TreeView X visualisation d’arbres
...
Exemples
Sommaire
1
Introduction
2
Construction d’arbres
3
Exemples
4
Bibliographie
Exemples
Exemples
L’énigme du panda géant
Pendant longtemps, on ne savait pas dans
quelle famille classer les pandas géants.
Les pandas géants ressemblent aux ours mais
ont des caractéristiques inhabituelles pour les
ours et typiques des ratons laveurs (par exemple,
ils n’hibernent pas).
En 1985, Steven O’Brien et collègues ont résolu l’énigme de la
classification du panda géant en utilisant des séquences d’ADN et des
méthodes phylogénétiques.
Exemples
Exemples
L’énigme du panda géant
Arbre évolutif du panda géant
A molecular solution to the riddle of the giant panda’s phylogeny.
S. J. O’Brien et al., Nature 1985, 317, 140.
Exemples
Exemples
Preuve d’une contamination par le VIH
À Lafayette (Louisiane) en 1994, une femme prétend que son
ex-amant, le Dr Schmidt, lui a injecté du sang contaminé par le VIH.
Les archives montrent que le médecin avait prélevé du sang d’un
patient séropositif le même jour.
Comment prouver que c’est le sang de ce patient qui aurait été
injecté à la plaignante ?
Exemples
Exemples
Preuve d’une contamination par le VIH
Le VIH a un taux de mutation élevé, qui peut être utilisé pour reconstituer
des parcours de transmission.
Des prélèvements ont été réalisés sur le patient, la plaignante et d’autres
séropositifs contrôles.
L’arbre phylogénétique obtenu montre que le virus de la plaignante a pour
ancêtre le virus du patient.
Première utilisation judiciaire d’analyses phylogénétiques.
Molecular evidence of HIV-1 transmission in a criminal case.
M. L. Metzker et al., PNAS USA 2002, 99, 14292.
Exemples
Exemples
Combien de fois l’évolution a-t-elle inventé les ailes ?
Étude portant sur les phasmes, famille d’insectes ayant
ou non des ailes.
L’apparition des ailes semble un évènement évolutif compliqué.
Exemples
Exemples
Combien de fois l’évolution a-t-elle inventé les ailes ?
L’arbre le plus parcimonieux donne un
ancêtre sans ailes pour tous les phasmes.
Il y a eu plusieurs apparitions
indépendantes des ailes.
Loss and recovery of wings in stick insects.
M. F. Whiting et al., Nature 2003, 421, 264.
Exemples
Exemples
Origine de l’homme moderne
Hypothèse de l’origine africaine récente (« Out of Africa »)
formulée dès 1871 par Darwin
évolution vers l’homme moderne en Afrique il y a 200000–100000 ans
migration hors d’Afrique il y a 80000 ans
remplacement des humanoïdes antérieures
Hypothèse de l’origine multi-régionale
proposée par Wolpoff en 1984
migration hors d’Afrique il y a 2 millions d’années
Homo erectus et non Homo sapiens a effectué la migration
évolution vers Homo sapiens indépendante dans plusieurs régions
Exemples
Exemples
Origine de l’homme moderne
L’étude de l’ADN mitochondrial est en faveur de l’hypothèse
« Out of Africa »
Mitochondrial DNA and human evolution.
R. L. Cann et al., Nature 1987, 325, 31.
African Populations and the Evolution of Human Mitochondrial DNA.
L. Vigilant et al., Science 1991, 253, 1503.
Exemples
Exemples
Origine de l’homme moderne
Carte des premières migrations humaines
Bibliographie
Sommaire
1
Introduction
2
Construction d’arbres
3
Exemples
4
Bibliographie
Bibliographie
Bibliographie
Bibliographie
Livres
Biological Sequence Analysis, R. Durbin et al., 1998
An Introduction to Bioinformatics Algorithms,
N. Jones & P. Pevzner, 2004
Inferring Phylogenies, J. Felsenstein, 2004
Articles
JC Jukes & Cantor, 1969
UPGMA Sokal & Michener, 1958
NJ Saitou & Nei, 1987 ; Studier & Keppler, 1988
parcimonie traditionnelle Fitch, 1971
parcimonie pondérée Sankoff & Cedergren, 1983
algorithme de Felsenstein Felsenstein, 1981
Téléchargement