TripleML : une méthode de reconstruction phylogénétique améliorant les méthodes de distancesV. Ranwez et O. GascuelJOBIM 2002
TripleML : une amélioration des méthodes de distance pour
l’inférence phylogénétique, grâce à une approche locale du
maximum de vraisemblance basée sur les triplets
TripleML: an improvement of distance based phylogenetic
reconstruction methods thanks to a local maximum
likelihood approach using triplets
Vincent RANWEZ Olivier GASCUEL
LIRMM, 161 rue Ada, 34392 Montpellier Cedex 5 -FRANCE
Courriel : {ranwez,gascuel}@lirmm.fr
Résumé
Cet article décrit une nouvelle approche pour l’estimation de la distance évolutive entre deux séquences. Cette
approche utilise un arbre contenant trois feuilles. Deux de ces feuilles correspondent aux séquences étudiées, et
la troisième est choisie de manière à prendre en compte les problèmes liés à l’estimation des longues branches.
Les longueurs des branches de cet arbre sont ajustées de manière à optimiser sa vraisemblance, et sont ensuite
utilisées pour déduire la distance recherchée. Cette approche, que nous appelons TripleML, améliore
l’estimation des distances évolutives et donc la qualité des phylogénies reconstruites par les méthodes de
distances. Avec des méthodes telles que NJ, TripleML peut être utilisée à la fois pour calculer la matrice de
distances initiale et pour estimer les nouvelles distances après chaque agglomération. Des simulations
informatiques indiquent que TripleML permet d’augmenter de manière significative les performances de NJ,
BioNJ et Weighbor, tout en conservant des temps de calculs raisonnables. Sur des arbres à
24
taxons générés
aléatoirement à partir de paramètres réalistes, l’utilisation de TripleML réduit le nombre de branches mal
inférées par NJ d’environ
11%
(contre
3%
pour BioNJ et
6%
pour Weighbor). De plus, la méthode ainsi
obtenue traite un jeu de donnée de
96
séquences contenant chacune
1200
nucléotides en moins de deux minutes,
alors que sur la même machine (un PC 466Mhz), FastDNAml met plus de six heures pour traiter ces données.
Mots-clés : reconstruction phylogénétique, distance évolutive, maximum de vraisemblance, méthode de triplets.
Abstract
This article describes a new approach to estimate the evolutionary distance between two sequences. This
approach uses a tree with three leaves, two of them correspond to the studied sequences while the third is chosen
to handle long distance estimations. The branch lengths of this tree are obtained by likelihood maximization, and
then used to deduce the desired distance. This approach, called TripleML, improves the precision of
evolutionary distance estimates, and thus the topological accuracy of phylogenies inferred by distance based
methods. TripleML can be used with NJ-like methods not only to compute the initial distance matrix, but also to
estimate new distances encountered during the agglomeration process. Computer simulations indicate that using
TripleML significantly improves the performance of NJ, BioNJ and Weighbor, while conserving a reasonable
computation time. With randomly generated
24
-taxon trees and realistic parameter values, combining NJ with
TripleML reduces the number of wrongly inferred branches by about
11%
(against
3%
and
6%
for BioNJ and
Weighbor, respectively). Moreover, this combination requires only about one minute and a half to infer a
phylogeny of 96 sequences made of 1200 nucleotides, against six hours for FastDNAml on the same machine
(PC 466 Mhz).
Keywords: : phylogenetic reconstruction, evolutionary distance, maximum likelihood, triplet method.
1 Introduction
L’utilisation d’un modèle stochastique de l’évolution permet de définir la vraisemblance d’une histoire
évolutive. Lorsque l’on étudie un ensemble important de séquences, il n’est pas possible d’estimer en un temps
raisonnable la vraisemblance de toutes les histoires évolutives possibles. Pour contourner ce problème, on utilise
généralement une approche heuristique afin de n’étudier qu’un sous-ensemble prometteur de phylogénies.
Lorsque le nombre de séquences étudiées est faible, les méthodes de maximum de vraisemblance permettent
JOBIM 2002 37
d’ inférer en un temps raisonnable une phylogénie dont la topologie est fiable [9, 16]. Malheureusement, les
temps de calcul deviennent vite inacceptables lorsque la taille des données augmente. Ainsi, malgré de
nombreuses améliorations dont celle crite dans [12], les méthodes de maximum de vraisemblance restent si
lentes qu’elles peuvent seulement traiter des jeux de données de faible taille. Par contre, il est très rapide de
calculer (au sens du maximum de vraisemblance) l'ensemble des distances entre chaque couple de quences
contemporaines et il existe des algorithmes efficaces pour reconstruire un arbre phylogénétique à partir de ces
distances.
L'algorithme NJ introduit par Saitou et Nei [18] est la méthode la plus populaire pour reconstruire un arbre
phylogénétique à partir d'une matrice de distances évolutives. Cet algorithme suit le procédé agglomératif,
introduit par Sattah et Tversky [19], qui, à chaque étape, sélectionne une paire de taxons à agglomérer. Lors de
cette agglomération, le nouveau nœud créé remplace les deux nœuds sélectionnés, et la matrice de distances est
réduite en remplaçant les distances aux deux nœuds agglomérés par celles au nouveau nœud créé. NJ a une faible
complexité en temps de calcul, ce qui lui permet de traiter de très grands jeux de données. De nombreuses
simulations informatiques [9, 11, 13] ont montré que NJ est une méthode de reconstruction phylogénétique
relativement fiable.
Des variantes de NJ ont été développées, notamment BioNJ [5] et Weighbor [1]. D’ autres méthodes de distances,
utilisant une approche différente, ont été proposées. La plus connue est la méthode dite des moindres carrés
pondérés qui est implémentée dans le programme FITCH [2]. Néanmoins, la topologie des arbres inrés par ces
méthodes de distances est moins fiable que celle des arbres reconstruits par maximum de vraisemblance.
Il est donc capital de disposer de méthodes intermédiaires permettant d’obtenir des résultats plus fiables que
ceux de NJ, en un temps qui reste raisonnable, même pour des jeux de données de taille importante. Une
possibilité, proposée par Ota et Li [13], est d’ utiliser une méthode de distance pour restreindre l’espace dans
lequel on cherche l’arbre de vraisemblance maximal. Une autre approche largement explorée, notamment par
[20], est de combiner des arbres obtenus par maximum de vraisemblance sur des sous-ensembles ne contenant
que 4 taxons, pour inférer une phylogénie sur un ensemble plus large de taxons. Ces méthodes de quadruplets
semblent prometteuses, mais leurs performances actuelles restent décevantes [16].
Nous proposons une approche différente. Il est clair que pour toutes les méthodes de distances, lestimation des
distances évolutives est un point crucial. Comme nous allons le voir, ces distances peuvent être mieux estimées
grâce à l’ utilisation d’une approche locale du maximum de vraisemblance sur des triplets de taxons. Dans la
suite, nous rappelons le principe de NJ et de ses variantes, et nous expliquons comment l’ estimation des
distances utilisées par ces méthodes peut être améliorée. Des simulations informatiques sont ensuite utilisées
pour étudier la contribution de notre approche.
2 Méthodes
2.1 Calcul de la vraisemblance d’une phylogénie
Dans tout ce qui suit nous supposons que le modèle d’évolution utilisé est le "general time reversible model"
(GTR) [10], qui néralise les modèles les plus couramment utilisés tel que le modèle F84 [3] ou le modèle de
Kimura à deux paramètres [8]. Pour ce type de modèle, la vraisemblance d’une phylogénie
T
se calcule par
récurrence. Elle ne dépend pas de la place de la séquence ancestrale, et chaque site peut être traité de manière
indépendante [22]. La probabilité d’ observer les
n
séquences de longueur
l
associées aux feuilles de
T
est le
produit des probabilités d’observer chacun des
l
sites. En notant
S
a
la séquence ancestrale (que lon ne connaît
pas), π
b
la probabilité que le nucléotide
b
soit le nucléotide ancestral, et
S b T
a
s
( ;
)
= la probabilité que ce
nucléotide
b
ait évolué pour donner les
n
nucléotides observés aux sites
s
des feuilles de
T
, alors la probabilité
associée au site
s
par rapport au nucléotide
b
est le produit de π
b
et de
S b T
a
s
( ;
)
=. Ainsi la vraisemblance de
l’ arbre
T
, dont la topologie et les longueurs de branches sont connues, est obtenue par la formule suivante
L
T L S b T
b a
s
b A C G Ts
l
( ) ( ;
)
,
,
,
= =
=
π
1
. (1)
Le terme
S b T
a
s
;
)
= est calculé de manière récursive. Supposons que l’ arbre
T
est constitué de deux sous-
arbres
T
i
et
T
j
, dont les séquences ancestrales sont respectivement
S
i
et
S
j
. Dans ce cas, la vraisemblance de
T
se calcule à partir de celles de
T
i
et de
T
j
. Si, pour un taux d’évolution δ, on note
P
bc
( )
δ la probabilité
qu’ un nucléotide
b
devienne
c
, on a alors
L
S b T P L S c T
a
s
bc ax x
s
x
c A C G Tx i j
(
;
)
(
)
(
;
)
,
,
,
,
= = =
δ, (2)
V. Ranwez et O. Gascuel
JOBIM 200238
δ
ax
représente le taux d’évolution (i.e. la longueur de la branche) entre
S
a
et
S
x
, avec
x
i
= ou
x
j
=. De
manière similaire, la vraisemblance de
T
i
est calculée à partir de celles de ses sous-arbres. La récurrence s’ arrête
lorsque le sous-arbre est réduit à une seule feuille, notée
T
f
. Cette feuille est associée à une séquence
S
f
contemporaine connue qui finit la vraisemblance de
T
f
:
L S
b
T
S
b
L S
b
T
f
s
f
f
s
f
s
f
( ; )
( ; )
= = =
= =
1
0
si
sinon (3)
2.2 NJ et ses variantes
Dans ce qui suit, nous présentons la version simplifiée de NJ due à Studier et Keppler [21]. Gascuel [4, 5]
montre la validité et l’ équivalence de cette version et de la version originale de NJ.
À chaque étape, NJ utilise une matrice de distance (δ
ij
) où
i
(respectivement
j
) représente soit une des
séquences étudiées, soit un sous-arbre contenant plusieurs séquences. À partir de ces distances, deux sous-arbres
sont sélectionnés et sont regroupés dans un même ensemble. Ils perdent alors leur identité et constituent
désormais un seul et unique sous-arbre. Au départ, chaque sous-arbre est constit d’un seul taxon, et la
dimension de la matrice, notée
r
, est donc égale aux nombres
n
de taxons étudiés. A chaque agglomération,
deux sous-arbres sont fusionnés, réduisant ainsi le nombre de sous-arbres restant et la dimension de la matrice de
distance. Si lon note
Q
12
la valeur du critère correspondant à l'agglomération des sous-arbres
1
et
2
(éventuellement réduits à un seul taxon), alors la paire à agglomérer est celle qui minimise
Q
r
12
12
1
2
2
= −
(
)
δ avec x x
y
y
r
=
=
δ
1
. (4)
Une fois que la paire
{ ,2}1
à agglomérer est sélectionnée, NJ crée un nouveau nœ ud
i
qui représente la racine du
nouveau sous-arbre. Puis, NJ estime la longueur des branches
( , )1 i
et
( , )2 i
en utilisant les formules suivantes :
δ δ δ δ
1
12
1
2
2
12
2
1
1
2
2
1
2
2
i i
r
r
= +
= +
∆ ∆
et . (5)
Enfin, NJ réduit la matrice de distances en enlevant toutes les distances associées à 1 ou à 2, et en estimant les
distances entre le nouveau nœ ud
i
et tout autre ud
j
, en utilisant la formule suivante :
δ δ δ δ δ
ij j i j i
= − +
1
2
1
2
1 1 2 2
( ) (
)
. (6)
Le processus continue jusqu’ à ce que
r
=
2
, la longueur de la dernre branche étant alors égale à la dernière
valeur contenue dans la matrice de distance. Les variantes de NJ peuvent utiliser d’autres manières d’ estimer δ
1
i
,
δ
2
i
et δ
ij
, et elles peuvent même utiliser un critère d’agglomération différent. Toutes ces méthodes partagent
cependant le même schéma agglomératif décrit ci-dessus.
Quand les sous-arbres
1
et
2
sont agglomérés en un nouveau sous-arbre
i
, les nouvelles distances δ
ij
peuvent
être estimées par n’ importe quelle combinaison convexe de (δ δ
1
1
j
i
) et de (δ δ
2
2
j
i
). NJ suppose
implicitement que les deux estimations se valent et leur accorde le même poids (
1 2/
). BioNJ choisit ces poids de
manière à obtenir l’ estimateur de δ
ij
dont la variance est minimale. Les agglomérations suivantes se font donc
en s’appuyant sur de meilleures estimations des distances. BioNJ est aussi rapide que NJ et améliore les
performances de ce dernier. La difrence entre les deux méthodes est surtout sensible lorsque l’horloge
moléculaire n’ est pas respectée [5].
Weighbor utilise un critère d’ agglomération différent de celui de NJ. Ce crire prend en compte le fait que les
distances les plus grandes sont les moins bien estimées. Pour cela, les estimations des distances sont modélisées
par des variables normales. Cette modélisation est utilisée pour sélectionner la paire à agglomérer et pour réduire
la matrice de distances. Weighbor est moins sensible au phénomène d’ attraction des longues branches que NJ et
BioNJ [1].
2.3 TripleML
Pour toutes ces méthodes l’ estimation des distances joue un rôle capital. Dans une méthode agglomérative, il y a
deux types d’ estimation de distances. La première est l’estimation des distances initiales. La seconde est
l’ estimation des distances qui séparent un nouveau sous-arbre des sous-arbres existants, lors de l’ étape de
réduction. Comme nous allons le voir, notre approche permet d’améliorer ces deux types d’estimations.
L’estimation de la distance δ
ij
, qui sépare deux taxons contemporains
i
et
j
, est généralement obtenue en
optimisant la vraisemblance de « l’ arbre » qui contient ces deux taxons. Cet arbre très simple contient une seule
TripleML : une méthode de reconstruction phylogénétique améliorant les méthodes de distances
JOBIM 2002 39
branche qui relie les deux taxons considérés. La vraisemblance de cet arbre se calcule de manière beaucoup plus
simple que dans le cas néral d’un arbre à
n
taxons (un
n
-arbre), et l’ optimisation de sa vraisemblance est
aisée. Pour certains modèles d’évolution tels que le modèle de Kimura [8], il existe même une solution
analytique à ce problème d’ optimisation.
Au lieu d’ estimer la distance qui sépare le taxon
i
du taxon
j
en utilisant le
2
-arbre correspondant, nous
proposons d’estimer cette distance à partir d’ un
3
-arbre. Deux feuilles de cet arbre sont les taxons étudiés et la
troisième, que l’ on note
k
, est choisie de manière à prendre en compte les problèmes liés à l’ estimation des
longues branches. Les longueurs des trois branches de cet arbre sont fies de manière à maximiser sa
vraisemblance, et sont ensuite utilies pour affiner l’ estimation de δ
ij
. Ce
3
-arbre est obtenu en reliant les
taxons
i
,
j
et
k
à un ancêtre commun
a
grâce à trois branches dont les longueurs sont respectivement δ
ai
,δ
aj
et
δ
ak
. La distance δ
ij
est ensuite estimée par δ δ δ
ij ai a
j
= + . La qualité de cette estimation dépend du troisième
taxon que lon a choisi. Utiliser tous les 3-arbres contenant
i
et
j
est trop coûteux en temps de calcul. Il faut
donc choisir a priori un troisième taxon permettant d’obtenir un bon estimateur δ
ij
. Dans notre approche, les
distances initiales entre deux taxons
i
et
j
sont donc estimées en deux étapes : dans un premier temps, ces
distances sont estimées de manière classique en utilisant le maximum de vraisemblance sur le 2-arbre
correspondant. Ces premières estimations sont ensuite utilisées pour sélectionner pour chaque paire
{ , }
i j
un
troisième taxon permettant d’améliorer l’ estimation de δ
ij
. La distance δ
ij
est alors ré-estimée en utilisant le
maximum de vraisemblance sur le 3-arbre contenant ces trois taxons.
Utiliser un troisième taxon
k
permet de disposer de plus d’informations pour estimer la distance δ
ij
qui sépare
les taxons
i
et
j
. Ce phénomène est souligné par Swofford et al. [22]. Pour obtenir une phylogénie plus fiable
sur un ensemble de taxons, ils conseillent d’utiliser des taxons supplémentaires de manière à couper les longues
branches à peu près en leur milieu, de reconstruire la phylogénie de cet ensemble plus large de taxons, puis
d’ enlever les taxons supplémentaires de la phylogénie ainsi obtenue. En s’ appuyant sur cette remarque, nous
cherchons un taxon
k
qui coupe la branche
( , )
i j
en un point proche de son milieu, ce que nous mesurons par
(
)
δ δ
ik jk
2
en utilisant les premières estimations des distances. Lorsque l’ on coupe ainsi la branche
( , )
i j
, on
crée un nœ ud interne
a
et une nouvelle branche
( , )
a k
. Si l’ on coupe une longue branche en utilisant une autre
longue branche, il est peu probable que l’ estimation de δ
ij
soit réellement améliorée. On souhaite donc aussi que
le taxon
k
soit proche de
i
et de
j
, ce que nous mesurons par δ δ
ik
jk
. Ces deux mesures sont du même ordre,
puisqu’ elles correspondent toutes les deux à un produit de distances. Pour estimer δ
ij
, nous cherchons donc le
taxon
k
qui minimise
(
)
δ δ δ δ
ik jk ik
jk
− +
2
. Il est facile de voir que ce critère est minimal lorsque δ δ
ai
aj
= et
que δ
ak
=
0
. Ce critère est donc minimal dans le cas idéal il existe un taxon équidistant de
i
et
j
dont la
séquence est connue. D’ autres critères sont possibles, nous en avons testé de nombreux, mais nous nen avons
trouvé aucun qui permette d’ obtenir de meilleurs résultats que ceux obtenus avec le crire simple donné ci-
dessus.
Après chaque agglomération, de nouvelles distances δ
ij
sont estimées. NJ, BioNJ et Weighbor estiment ces
distances à partir de la formule (6), ou de formules analogues utilisant une moyenne pondérée de distances. Dans
TripleML, l’estimation de ces distances est faite d’une manière analogue à celle utilisée pour estimer les
distances initiales. Une agglomération induit un nouveau sous-arbre, et l’ on cherche à estimer les distances qui
séparent ce nouveau sous-arbre de ceux déjà existants. La distance qui sépare un sous-arbre
T
i
, ayant le noeud
i
pour racine, et le sous-arbre
T
j
, ayant
j
pour racine, peut être estimée à partir de la phylogénie
T
T
i
j
obtenue
à partir de
T
i
et de
T
j
en ajoutant la branche
( , )
i j
(Fig 1.a). Les longueurs des branches de
T
T
i
j
pourraient
être ajustées de manière à maximiser sa vraisemblance. On obtiendrait ainsi, non seulement l’ estimation de δ
ij
que l’ on cherche, mais aussi de nouvelles estimations des longueurs de branches de
T
i
et de
T
j
. Cependant,
pour conserver un temps de calcul raisonnable, nous avons choisi de ne pas remettre en question les estimations
des longueurs des branches de
T
i
et de
T
j
qui ont été obtenues lors des étapes précédentes. Au lieu d’optimiser
globalement la vraisemblance de
T
T
i
j
, nous optimisons localement cette vraisemblance uniquement par
rapport à δ
ij
.
V. Ranwez et O. Gascuel
JOBIM 200240
j
δa
j
k
a
T
k
δ
ak
T
j
T
j
j
i
δij
(
a)
(
b)
δ
ai
T
i
T
i
i
FIG. 1 – Estimation de la distance δ
ij
séparant
T
i
de
T
j
.
Une meilleure estimation de δ
ij
peut être obtenue en utilisant un troisième sous-arbre
T
k
dont la racine est le
nœ ud
k
. Dans ce cas on considère la phylogénie
T T
i j
k
∪ ∪ obtenue à partir de
T
i
,
T
j
et
T
k
en reliant les trois
nœ uds
i
,
j
et
k
à un nouveau nœ ud
a
grâce à trois branches de longueurs respectives δ
ai
,δ
aj
et δ
ak
(Fig 1.b).
Ces trois longueurs sont alors ajustées de manre à maximiser la vraisemblance de
T T
i j
k
∪ ∪ et la distance
δ
ij
est ré-estimée par δ δ δ
ij ai a
j
= + .
Ainsi, lors de la création par agglomération d’un nouveau sous-arbre
T
i
, les distances δ
ij
le séparant des autres
sous-arbres
T
j
sont estimées en deux étapes. Dans un premier temps, ces distances sont estimées en optimisant
localement la vraisemblance
T
T
i
j
. Ces premres estimations sont ensuite utilisées pour sélectionner pour
chaque paire T T
i j
,
un troisième sous-arbre
T
k
permettant d’améliorer ces premières estimations. Le sous-
arbre
T
k
est sélectionné en utilisant leme critère que pour choisir le taxon
k
lors de l’ estimation des
distances initiales, et la distance δ
ij
est alors ré-estimée en optimisant localement la vraisemblance de
T T
i j
k
∪ ∪ . On voit donc que l’ estimation de la distance entre deux taxons contemporains est un cas particulier
de lestimation de la distance entre deux sous-arbres
T
i
et
T
j
ayant respectivement comme racines les nœ uds
i
et
j
.
2.4 Optimisation locale de la vraisemblance
La première estimation de la distance δ
ij
qui pare les sous-arbres
T
i
et
T
j
(éventuellement réduits à une seule
feuille) se fait en optimisant localement la vraisemblance de
T
T
T
i
j
= (Figure 1.a). En supposant que
S
i
est la
séquence ancestrale, cette vraisemblance est définie à partir des équations (1), (2) et (3) par :
L
T L S b T P L S c T
b isi bc ij j
sj
c A C G Tb A C G Ts
l
( ) ( ; ) ( ) ( ;
)
,
,
,
,
,
,
= = =
=
π δ
1
. (11)
La seconde estimation se fait ensuite en optimisant localement la vraisemblance de
T
T T T
i j
k
= ∪ (Figure
1.b). En supposant que
S
a
est la séquence ancestrale, cette vraisemblance vaut :
L
T P L S c T
b bc ax x
sx
c A C G Tx i j kb A C G Ts
l
( )
(
)
(
;
)
,
,
,
,
,
,
,
,
= =
=
π δ
1
. (12)
Pour pouvoir calculer ces vraisemblances, il est donc nécessaire de connaître les valeurs
L
S c T
s
x
(
;
)
=.
L’ensemble de ces valeurs constitue le « vecteur de vraisemblance » de
T
x
que nous notons
L
V T
x
(
)
. Ce vecteur
TripleML : une méthode de reconstruction phylogénétique améliorant les méthodes de distances
JOBIM 2002 41
1 / 10 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !