TripleML : une amélioration des méthodes de distance pour l

publicité
TripleML : une amélioration des méthodes de distance pour
l’inférence phylogénétique, grâce à une approche locale du
maximum de vraisemblance basée sur les triplets
TripleML: an improvement of distance based phylogenetic
reconstruction methods thanks to a local maximum
likelihood approach using triplets
Vincent RANWEZ†
†
Olivier GASCUEL†
LIRMM, 161 rue Ada, 34392 Montpellier Cedex 5 -FRANCE
Courriel : {ranwez,gascuel}@lirmm.fr
Résumé
Cet article décrit une nouvelle approche pour l’estimation de la distance évolutive entre deux séquences. Cette
approche utilise un arbre contenant trois feuilles. Deux de ces feuilles correspondent aux séquences étudiées, et
la troisième est choisie de manière à prendre en compte les problèmes liés à l’estimation des longues branches.
Les longueurs des branches de cet arbre sont ajustées de manière à optimiser sa vraisemblance, et sont ensuite
utilisées pour déduire la distance recherchée. Cette approche, que nous appelons TripleML, améliore
l’estimation des distances évolutives et donc la qualité des phylogénies reconstruites par les méthodes de
distances. Avec des méthodes telles que NJ, TripleML peut être utilisée à la fois pour calculer la matrice de
distances initiale et pour estimer les nouvelles distances après chaque agglomération. Des simulations
informatiques indiquent que TripleML permet d’augmenter de manière significative les performances de NJ,
BioNJ et Weighbor, tout en conservant des temps de calculs raisonnables. Sur des arbres à 24 taxons générés
aléatoirement à partir de paramètres réalistes, l’utilisation de TripleML réduit le nombre de branches mal
inférées par NJ d’environ 11% (contre 3% pour BioNJ et 6% pour Weighbor). De plus, la méthode ainsi
obtenue traite un jeu de donnée de 96 séquences contenant chacune 1200 nucléotides en moins de deux minutes,
alors que sur la même machine (un PC 466Mhz), FastDNAml met plus de six heures pour traiter ces données.
Mots-clés : reconstruction phylogénétique, distance évolutive, maximum de vraisemblance, méthode de triplets.
Abstract
This article describes a new approach to estimate the evolutionary distance between two sequences. This
approach uses a tree with three leaves, two of them correspond to the studied sequences while the third is chosen
to handle long distance estimations. The branch lengths of this tree are obtained by likelihood maximization, and
then used to deduce the desired distance. This approach, called TripleML, improves the precision of
evolutionary distance estimates, and thus the topological accuracy of phylogenies inferred by distance based
methods. TripleML can be used with NJ-like methods not only to compute the initial distance matrix, but also to
estimate new distances encountered during the agglomeration process. Computer simulations indicate that using
TripleML significantly improves the performance of NJ, BioNJ and Weighbor, while conserving a reasonable
computation time. With randomly generated 24 -taxon trees and realistic parameter values, combining NJ with
TripleML reduces the number of wrongly inferred branches by about 11% (against 3% and 6% for BioNJ and
Weighbor, respectively). Moreover, this combination requires only about one minute and a half to infer a
phylogeny of 96 sequences made of 1200 nucleotides, against six hours for FastDNAml on the same machine
(PC 466 Mhz).
Keywords: : phylogenetic reconstruction, evolutionary distance, maximum likelihood, triplet method.
1
Introduction
L’utilisation d’un modèle stochastique de l’évolution permet de définir la vraisemblance d’une histoire
évolutive. Lorsque l’on étudie un ensemble important de séquences, il n’est pas possible d’estimer en un temps
raisonnable la vraisemblance de toutes les histoires évolutives possibles. Pour contourner ce problème, on utilise
généralement une approche heuristique afin de n’étudier qu’un sous-ensemble prometteur de phylogénies.
Lorsque le nombre de séquences étudiées est faible, les méthodes de maximum de vraisemblance permettent
JOBIM 2002
TripleML
V.
JOBIM
Ranwez
2002
: une
et O.
méthode
Gascuel
de reconstruction phylogénétique améliorant les méthodes de distances
37
V. Ranwez et O. Gascuel
d’ inférer en un temps raisonnable une phylogénie dont la topologie est fiable [9, 16]. Malheureusement, les
temps de calcul deviennent vite inacceptables lorsque la taille des données augmente. Ainsi, malgré de
nombreuses améliorations dont celle décrite dans [12], les méthodes de maximum de vraisemblance restent si
lentes qu’ elles peuvent seulement traiter des jeux de données de faible taille. Par contre, il est très rapide de
calculer (au sens du maximum de vraisemblance) l'
ensemble des distances entre chaque couple de séquences
contemporaines et il existe des algorithmes efficaces pour reconstruire un arbre phylogénétique à partir de ces
distances.
L'
algorithme NJ introduit par Saitou et Nei [18] est la méthode la plus populaire pour reconstruire un arbre
phylogénétique à partir d'
une matrice de distances évolutives. Cet algorithme suit le procédé agglomératif,
introduit par Sattah et Tversky [19], qui, à chaque étape, sélectionne une paire de taxons à agglomérer. Lors de
cette agglomération, le nouveau nœud créé remplace les deux nœuds sélectionnés, et la matrice de distances est
réduite en remplaçant les distances aux deux nœuds agglomérés par celles au nouveau nœud créé. NJ a une faible
complexité en temps de calcul, ce qui lui permet de traiter de très grands jeux de données. De nombreuses
simulations informatiques [9, 11, 13] ont montré que NJ est une méthode de reconstruction phylogénétique
relativement fiable.
Des variantes de NJ ont été développées, notamment BioNJ [5] et Weighbor [1]. D’ autres méthodes de distances,
utilisant une approche différente, ont été proposées. La plus connue est la méthode dite des moindres carrés
pondérés qui est implémentée dans le programme FITCH [2]. Néanmoins, la topologie des arbres inférés par ces
méthodes de distances est moins fiable que celle des arbres reconstruits par maximum de vraisemblance.
Il est donc capital de disposer de méthodes intermédiaires permettant d’ obtenir des résultats plus fiables que
ceux de NJ, en un temps qui reste raisonnable, même pour des jeux de données de taille importante. Une
possibilité, proposée par Ota et Li [13], est d’ utiliser une méthode de distance pour restreindre l’ espace dans
lequel on cherche l’ arbre de vraisemblance maximal. Une autre approche largement explorée, notamment par
[20], est de combiner des arbres obtenus par maximum de vraisemblance sur des sous-ensembles ne contenant
que 4 taxons, pour inférer une phylogénie sur un ensemble plus large de taxons. Ces méthodes de quadruplets
semblent prometteuses, mais leurs performances actuelles restent décevantes [16].
Nous proposons une approche différente. Il est clair que pour toutes les méthodes de distances, l’ estimation des
distances évolutives est un point crucial. Comme nous allons le voir, ces distances peuvent être mieux estimées
grâce à l’ utilisation d’ une approche locale du maximum de vraisemblance sur des triplets de taxons. Dans la
suite, nous rappelons le principe de NJ et de ses variantes, et nous expliquons comment l’ estimation des
distances utilisées par ces méthodes peut être améliorée. Des simulations informatiques sont ensuite utilisées
pour étudier la contribution de notre approche.
2
2.1
Méthodes
Calcul de la vraisemblance d’une phylogénie
Dans tout ce qui suit nous supposons que le modèle d’ évolution utilisé est le "general time reversible model"
(GTR) [10], qui généralise les modèles les plus couramment utilisés tel que le modèle F84 [3] ou le modèle de
Kimura à deux paramètres [8]. Pour ce type de modèle, la vraisemblance d’ une phylogénie T se calcule par
récurrence. Elle ne dépend pas de la place de la séquence ancestrale, et chaque site peut être traité de manière
indépendante [22]. La probabilité d’ observer les n séquences de longueur l associées aux feuilles de T est le
produit des probabilités d’ observer chacun des l sites. En notant Sa la séquence ancestrale (que l’ on ne connaît
pas), π b la probabilité que le nucléotide b soit le nucléotide ancestral, et L( Sas = b; T ) la probabilité que ce
nucléotide b ait évolué pour donner les n nucléotides observés aux sites s des feuilles de T , alors la probabilité
associée au site s par rapport au nucléotide b est le produit de π b et de L( Sas = b; T ) . Ainsi la vraisemblance de
l’ arbre T , dont la topologie et les longueurs de branches sont connues, est obtenue par la formule suivante
l
L( T ) = ∏
∑ π b L ( Sas = b; T ) .
(1)
s =1 b ∈ A,C,G ,T
Le terme L( Sas = b; T ) est calculé de manière récursive. Supposons que l’ arbre T est constitué de deux sousarbres Ti et Tj , dont les séquences ancestrales sont respectivement Si et S j . Dans ce cas, la vraisemblance de
T se calcule à partir de celles de Ti et de Tj . Si, pour un taux d’ évolution δ , on note Pbc (δ) la probabilité
qu’ un nucléotide b devienne c , on a alors
L( Sas = b; T ) =
38
∏
∑ Pbc (δ ax ) L(Sxs = c; Tx ) ,
(2)
x ∈ i, j c ∈ A,C,G ,T
JOBIM 2002
TripleML : une méthode de reconstruction phylogénétique améliorant les méthodes de distances
où δ ax représente le taux d’ évolution (i.e. la longueur de la branche) entre Sa et Sx , avec x = i ou x = j . De
manière similaire, la vraisemblance de Ti est calculée à partir de celles de ses sous-arbres. La récurrence s’ arrête
lorsque le sous-arbre est réduit à une seule feuille, notée T f . Cette feuille est associée à une séquence S f
contemporaine connue qui définit la vraisemblance de T f :
L( S
L(S
2.2
s
f
= b; T f ) = 1 si S sf = b
s
f
= b; T f ) = 0 sinon
(3)
NJ et ses variantes
Dans ce qui suit, nous présentons la version simplifiée de NJ due à Studier et Keppler [21]. Gascuel [4, 5]
montre la validité et l’ équivalence de cette version et de la version originale de NJ.
À chaque étape, NJ utilise une matrice de distance (δ ij ) où i (respectivement j ) représente soit une des
séquences étudiées, soit un sous-arbre contenant plusieurs séquences. À partir de ces distances, deux sous-arbres
sont sélectionnés et sont regroupés dans un même ensemble. Ils perdent alors leur identité et constituent
désormais un seul et unique sous-arbre. Au départ, chaque sous-arbre est constitué d’ un seul taxon, et la
dimension de la matrice, notée r , est donc égale aux nombres n de taxons étudiés. A chaque agglomération,
deux sous-arbres sont fusionnés, réduisant ainsi le nombre de sous-arbres restant et la dimension de la matrice de
agglomération des sous-arbres 1 et 2
distance. Si l’ on note Q12 la valeur du critère correspondant à l'
(éventuellement réduits à un seul taxon), alors la paire à agglomérer est celle qui minimise
Q12 = (r − 2)δ12 − ∆1 − ∆ 2
r
avec ∆ x = ∑ δ xy .
(4)
y =1
Une fois que la paire {1,2} à agglomérer est sélectionnée, NJ crée un nouveau nœ ud i qui représente la racine du
nouveau sous-arbre. Puis, NJ estime la longueur des branches (1, i ) et (2, i ) en utilisant les formules suivantes :
δ1i =
1
∆ − ∆2
δ12 + 1
2
r−2
et δ 2 i =
1
∆ − ∆1
.
δ12 + 2
2
r−2
(5)
Enfin, NJ réduit la matrice de distances en enlevant toutes les distances associées à 1 ou à 2, et en estimant les
distances entre le nouveau nœ ud i et tout autre nœ ud j , en utilisant la formule suivante :
1
1
(δ1 j − δ1i ) + (δ 2 j − δ 2i ) .
(6)
2
2
Le processus continue jusqu’ à ce que r = 2 , la longueur de la dernière branche étant alors égale à la dernière
valeur contenue dans la matrice de distance. Les variantes de NJ peuvent utiliser d’ autres manières d’ estimer δ1i ,
δ 2i et δ ij , et elles peuvent même utiliser un critère d’ agglomération différent. Toutes ces méthodes partagent
cependant le même schéma agglomératif décrit ci-dessus.
Quand les sous-arbres 1 et 2 sont agglomérés en un nouveau sous-arbre i , les nouvelles distances δ ij peuvent
être estimées par n’ importe quelle combinaison convexe de (δ1 j − δ1i ) et de (δ 2 j − δ 2i ). NJ suppose
implicitement que les deux estimations se valent et leur accorde le même poids (1 / 2 ). BioNJ choisit ces poids de
manière à obtenir l’ estimateur de δ ij dont la variance est minimale. Les agglomérations suivantes se font donc
en s’ appuyant sur de meilleures estimations des distances. BioNJ est aussi rapide que NJ et améliore les
performances de ce dernier. La différence entre les deux méthodes est surtout sensible lorsque l’ horloge
moléculaire n’ est pas respectée [5].
Weighbor utilise un critère d’ agglomération différent de celui de NJ. Ce critère prend en compte le fait que les
distances les plus grandes sont les moins bien estimées. Pour cela, les estimations des distances sont modélisées
par des variables normales. Cette modélisation est utilisée pour sélectionner la paire à agglomérer et pour réduire
la matrice de distances. Weighbor est moins sensible au phénomène d’ attraction des longues branches que NJ et
BioNJ [1].
δ ij =
2.3
TripleML
Pour toutes ces méthodes l’ estimation des distances joue un rôle capital. Dans une méthode agglomérative, il y a
deux types d’ estimation de distances. La première est l’ estimation des distances initiales. La seconde est
l’ estimation des distances qui séparent un nouveau sous-arbre des sous-arbres existants, lors de l’ étape de
réduction. Comme nous allons le voir, notre approche permet d’ améliorer ces deux types d’ estimations.
L’ estimation de la distance δ ij , qui sépare deux taxons contemporains i et j , est généralement obtenue en
optimisant la vraisemblance de « l’ arbre » qui contient ces deux taxons. Cet arbre très simple contient une seule
JOBIM 2002
39
V. Ranwez et O. Gascuel
branche qui relie les deux taxons considérés. La vraisemblance de cet arbre se calcule de manière beaucoup plus
simple que dans le cas général d’ un arbre à n taxons (un n -arbre), et l’ optimisation de sa vraisemblance est
aisée. Pour certains modèles d’ évolution tels que le modèle de Kimura [8], il existe même une solution
analytique à ce problème d’ optimisation.
Au lieu d’ estimer la distance qui sépare le taxon i du taxon j en utilisant le 2 -arbre correspondant, nous
proposons d’ estimer cette distance à partir d’ un 3-arbre. Deux feuilles de cet arbre sont les taxons étudiés et la
troisième, que l’ on note k , est choisie de manière à prendre en compte les problèmes liés à l’ estimation des
longues branches. Les longueurs des trois branches de cet arbre sont fixées de manière à maximiser sa
vraisemblance, et sont ensuite utilisées pour affiner l’ estimation de δ ij . Ce 3-arbre est obtenu en reliant les
taxons i , j et k à un ancêtre commun a grâce à trois branches dont les longueurs sont respectivement δ ai , δ aj et
δ ak . La distance δ ij est ensuite estimée par δ ij = δ ai + δ aj . La qualité de cette estimation dépend du troisième
taxon que l’ on a choisi. Utiliser tous les 3-arbres contenant i et j est trop coûteux en temps de calcul. Il faut
donc choisir a priori un troisième taxon permettant d’ obtenir un bon estimateur δ ij . Dans notre approche, les
distances initiales entre deux taxons i et j sont donc estimées en deux étapes : dans un premier temps, ces
distances sont estimées de manière classique en utilisant le maximum de vraisemblance sur le 2-arbre
correspondant. Ces premières estimations sont ensuite utilisées pour sélectionner pour chaque paire {i, j} un
troisième taxon permettant d’ améliorer l’ estimation de δ ij . La distance δ ij est alors ré-estimée en utilisant le
maximum de vraisemblance sur le 3-arbre contenant ces trois taxons.
Utiliser un troisième taxon k permet de disposer de plus d’ informations pour estimer la distance δ ij qui sépare
les taxons i et j . Ce phénomène est souligné par Swofford et al. [22]. Pour obtenir une phylogénie plus fiable
sur un ensemble de taxons, ils conseillent d’ utiliser des taxons supplémentaires de manière à couper les longues
branches à peu près en leur milieu, de reconstruire la phylogénie de cet ensemble plus large de taxons, puis
d’ enlever les taxons supplémentaires de la phylogénie ainsi obtenue. En s’ appuyant sur cette remarque, nous
cherchons un taxon k qui coupe la branche (i, j ) en un point proche de son milieu, ce que nous mesurons par
(δ ik − δ jk ) 2 en utilisant les premières estimations des distances. Lorsque l’ on coupe ainsi la branche (i, j ) , on
crée un nœ ud interne a et une nouvelle branche ( a, k ) . Si l’ on coupe une longue branche en utilisant une autre
longue branche, il est peu probable que l’ estimation de δ ij soit réellement améliorée. On souhaite donc aussi que
le taxon k soit proche de i et de j , ce que nous mesurons par δ ik δ jk . Ces deux mesures sont du même ordre,
puisqu’ elles correspondent toutes les deux à un produit de distances. Pour estimer δ ij , nous cherchons donc le
taxon k qui minimise (δ ik − δ jk ) 2 + δ ik δ jk . Il est facile de voir que ce critère est minimal lorsque δ ai = δ aj et
que δ ak = 0. Ce critère est donc minimal dans le cas idéal où il existe un taxon équidistant de i et j dont la
séquence est connue. D’ autres critères sont possibles, nous en avons testé de nombreux, mais nous n’ en avons
trouvé aucun qui permette d’ obtenir de meilleurs résultats que ceux obtenus avec le critère simple donné cidessus.
Après chaque agglomération, de nouvelles distances δ ij sont estimées. NJ, BioNJ et Weighbor estiment ces
distances à partir de la formule (6), ou de formules analogues utilisant une moyenne pondérée de distances. Dans
TripleML, l’ estimation de ces distances est faite d’ une manière analogue à celle utilisée pour estimer les
distances initiales. Une agglomération induit un nouveau sous-arbre, et l’ on cherche à estimer les distances qui
séparent ce nouveau sous-arbre de ceux déjà existants. La distance qui sépare un sous-arbre Ti , ayant le noeud i
pour racine, et le sous-arbre Tj , ayant j pour racine, peut être estimée à partir de la phylogénie Ti ∪ T j obtenue
à partir de Ti et de Tj en ajoutant la branche (i, j ) (Fig 1.a). Les longueurs des branches de Ti ∪ T j pourraient
être ajustées de manière à maximiser sa vraisemblance. On obtiendrait ainsi, non seulement l’ estimation de δ ij
que l’ on cherche, mais aussi de nouvelles estimations des longueurs de branches de Ti et de Tj . Cependant,
pour conserver un temps de calcul raisonnable, nous avons choisi de ne pas remettre en question les estimations
des longueurs des branches de Ti et de Tj qui ont été obtenues lors des étapes précédentes. Au lieu d’ optimiser
globalement la vraisemblance de Ti ∪ T j , nous optimisons localement cette vraisemblance uniquement par
rapport à δ ij .
40
JOBIM 2002
TripleML : une méthode de reconstruction phylogénétique améliorant les méthodes de distances
Tj
Tj
j
j
δ aj
δ ij
δ ai
i
a
δ ak
k Tk
i
Ti
Ti
(b)
(a)
FIG. 1 – Estimation de la distance δ ij séparant Ti de Tj .
Une meilleure estimation de δ ij peut être obtenue en utilisant un troisième sous-arbre Tk dont la racine est le
nœ ud k . Dans ce cas on considère la phylogénie Ti ∪ T j ∪ Tk obtenue à partir de Ti , Tj et Tk en reliant les trois
nœ uds i , j et k à un nouveau nœ ud a grâce à trois branches de longueurs respectives δ ai , δ aj et δ ak (Fig 1.b).
Ces trois longueurs sont alors ajustées de manière à maximiser la vraisemblance de Ti ∪ T j ∪ Tk et la distance
δ ij est ré-estimée par δ ij = δ ai + δ aj .
Ainsi, lors de la création par agglomération d’ un nouveau sous-arbre Ti , les distances δ ij le séparant des autres
sous-arbres Tj sont estimées en deux étapes. Dans un premier temps, ces distances sont estimées en optimisant
localement la vraisemblance Ti ∪ T j . Ces premières estimations sont ensuite utilisées pour sélectionner pour
chaque paire Ti , Tj un troisième sous-arbre Tk permettant d’ améliorer ces premières estimations. Le sousarbre Tk est sélectionné en utilisant le même critère que pour choisir le taxon k lors de l’ estimation des
distances initiales, et la distance δ ij est alors ré-estimée en optimisant localement la vraisemblance de
Ti ∪ T j ∪ Tk . On voit donc que l’ estimation de la distance entre deux taxons contemporains est un cas particulier
de l’ estimation de la distance entre deux sous-arbres Ti et Tj ayant respectivement comme racines les nœ uds i
et j .
2.4
Optimisation locale de la vraisemblance
La première estimation de la distance δ ij qui sépare les sous-arbres Ti et Tj (éventuellement réduits à une seule
feuille) se fait en optimisant localement la vraisemblance de T = Ti ∪ Tj (Figure 1.a). En supposant que Si est la
séquence ancestrale, cette vraisemblance est définie à partir des équations (1), (2) et (3) par :
l
L( T ) = ∏
∑
s =1 b ∈ A,C,G ,T
π L(S
s
i
b
= b; Ti )
∑ Pbc (δ ij ) L(S js = c; Tj ) .
c∈ A,C,G,T
(11)
La seconde estimation se fait ensuite en optimisant localement la vraisemblance de T = Ti ∪ T j ∪ Tk (Figure
1.b). En supposant que Sa est la séquence ancestrale, cette vraisemblance vaut :
l
L( T ) = ∏
∑
s =1 b ∈ A,C,G,T
π ∏
b
∑ Pbc (δ ax ) L(Sxs = c; Tx ) .
x ∈ i, j ,k c∈ A,C,G,T
(12)
Pour pouvoir calculer ces vraisemblances, il est donc nécessaire de connaître les valeurs L( Sxs = c; Tx ) .
L’ ensemble de ces valeurs constitue le « vecteur de vraisemblance » de Tx que nous notons LV (Tx ). Ce vecteur
JOBIM 2002
41
V. Ranwez et O. Gascuel
contient 4 valeurs (une par nucléotide) pour chacun des l sites. Dans les méthodes d’ agglomération, chaque
sous-arbre est initialement constitué d’ un seul taxon, et son vecteur de vraisemblance est donc complètement
défini par l’ équation (3). Après chaque agglomération, le vecteur de vraisemblance du nouveau sous-arbre Ti est
calculé grâce à l’ équation (2) en utilisant LV (T1 ) , LV (T2 ) et les longueurs δ1i et δ 2i obtenues à partir de
l’ équation (5). Après cette agglomération, LV (T1 ) et LV (T2 ) deviennent inutiles, l’ espace mémoire nécessaire
pour stocker les vecteurs de vraisemblance est donc du même ordre (O(nl )) que celui nécessaire pour stocker les
séquences étudiées.
Puisque nous supposons que les longueurs de branches de Ti et de Tj ne changent pas, la vraisemblance de
T = Ti ∪ Tj ne dépend que de δ ij . Pour optimiser (localement) cette vraisemblance, nous pouvons donc
directement utiliser la « méthode de Brent » d’ optimisation d’ une fonction à un seul paramètre telle qu’ elle est
décrite dans [14]. Cette méthode ne nécessite pas de calculer les dérivées. On peut donc facilement l’ utiliser
même lorsque le modèle évolutif est complexe. De même, si l’ on suppose que les longueurs des branches de Ti ,
Tj et Tk sont fixes, alors la vraisemblance de Ti ∪ Tj ∪ Tk ne dépend que de δ ai , δ aj et δ ak . En supposant que
deux de ces valeurs sont fixées, on se ramène au cas précédent. La troisième longueur est optimisée en utilisant
la « méthode de Brent » . On suppose ensuite que cette valeur est fixe, ce qui permet d’ optimiser la
vraisemblance en fonction d’ une des deux autres longueurs. Les branches sont ainsi successivement optimisées
tant que la vraisemblance augmente de manière significative. Dans cette approche locale, la vraisemblance est
optimisée uniquement en fonction de trois longueurs de branches, et le processus converge rapidement.
2.5
Complexité
Ce mode d’ estimation des distances peut être utilisé avec n’ importe quelle variante de NJ. Il suffit pour cela de
remplacer l’ estimation des distances utilisée par la méthode par celle obtenue avec TripleML. La seule
différence entre NJ et BioNJ est précisément la manière dont ces distances sont estimées. L’ utilisation de
TripleML avec NJ ou BioNJ produit donc le même algorithme que nous appelons NJ+TripleML. La méthode
obtenue en combinant TripleML avec Weighbor produit un algorithme que nous appelons Weighbor+TripleML.
La complexité en temps de calcul d’ un programme phylogénétique exprime le temps de calcul qu’ il requiert en
fonction du nombre n de séquences et de leur longueur l . Dans le cas de NJ, le calcul des distances initiales est
en O(n 2 l ) , et la reconstruction à partir de cette matrice est en O(n3 ) , la complexité totale est donc en
O(n 2 l + n 3 ) .
Dans TripleML, la vraisemblance est toujours optimisée de manière locale, et le coût de cette optimisation
dépend uniquement de la longueur des séquences. Le calcul des distances initiales avec TripleML est donc en
O(n 2 l ) . Lors de l’ étape de reconstruction, TripleML effectue les mêmes calculs que NJ, en O(n3 ) , et estime un
nombre de distances proportionnel à n 2 . Chaque estimation nécessite deux optimisations locales de la
vraisemblance. Le surcoût total de ces estimations est donc O(n 2 l ) . Ainsi, bien que l’ étape de reconstruction soit
plus coûteuse avec TripleML, la complexité totale de NJ et de NJ+TripleML est la même et vaut O(n 2 l + n 3 ) .
3
3.1
Simulations informatiques
Génération des jeux de tests
Nos jeux de tests sont obtenus à partir de 5000 arbres ayant chacun 24 feuilles. Chacun de ces arbres est généré
aléatoirement de la manière suivante. Dans un premier temps, sa topologie est générée en utilisant le processus
stochastique de spéciation décrit dans [9], avec un taux d’ évolution attendu par branche de 0.035 mutations par
site. Les arbres ainsi obtenus suivent la distribution de Yule-Harding [7, 23] et respectent l’ hypothèse de
l’ horloge moléculaire. Cette hypothèse est violée dans la plupart des jeux de données biologiques. Nous
modifions donc les longueurs des branches des arbres précédemment obtenus, de manière analogue à la méthode
employée dans [6], afin qu’ ils s’ écartent de l’ hypothèse de l’ horloge moléculaire. Chacune des branches est
multipliée par 1.0 + λX , où X suit la distribution exponentielle P X > η = e − η et λ est le facteur
d’ éloignement à l’ horloge moléculaire. Nous avons utilisé λ = 0.8 . Pour cette valeur de λ , le rapport entre le
taux d’ évolution de la lignée évoluant la plus rapidement et celui de la lignée la plus lente varie entre 1.2 et 5.0 ,
sa moyenne vaut environ 2.0 et son écart type est environ 0.5 . La distance maximale entre deux séquences d’ un
même jeu de données varie entre 0.15 et 1.2 et vaut en moyenne 0.4.
Les séquences sont obtenues en simulant, le long de ces arbres, un processus d'
évolution suivant le modèle de
Kimura avec un taux de transition/transversion égal à 2. Ces séquences ont été générées avec le logiciel SeqGen
[15] et sont disponibles sur notre page web http://www.lirmm.fr/~w3ifa/MAAS/.
42
JOBIM 2002
TripleML : une méthode de reconstruction phylogénétique améliorant les méthodes de distances
3.2
Amélioration de l’estimation des distances
Dans un premier temps nous mesurons l’ impact de l’ utilisation de TripleML sur l’ estimation des distances
évolutives. Ces premiers tests ont pour buts : 1) de vérifier que l’ utilisation d’ un troisième taxon permet
effectivement d’ améliorer l’ estimation des distances initiales ; 2) de s’ assurer que l’ utilisation du maximum de
vraisemblance lors du processus agglomératif de NJ présente un réel intérêt. Dans un arbre valué, la distance
entre deux taxons correspond à la somme des longueurs des branches appartenant au chemin reliant ces deux
taxons. On peut ainsi associer une matrice de distance à un arbre valué, et comparer la matrice de distance
associée à l’ arbre vrai avec celles des arbres inférés par différentes méthodes. On considère ici NJ et
NJ+TripleML, mais aussi les matrices sur lesquelles ces algorithmes sont appliqués, c’ est à dire l’ estimation
usuelle basée sur les paires de taxons, dans le cas de NJ, et l’ estimation utilisant les triplets dans le cas de
NJ+Triple. Pour mesurer la proximité entre une matrice de distance inférée (δ ij ) et une matrice vraie ( dij ) ,
nous calculons la variance résiduelle de l’ explication de ( dij ) par (δ ij ) , c’ est à dire :
∑ (dij − δ ij )2
i, j
∑ (dij − m)2
,
(13)
i, j
où m est égale à la moyenne des d ij . La variance résiduelle est d’ autant plus faible que (δ ij ) est proche
(explique bien) ( dij ) . Les résultats de cette comparaisons sont donnés dans le tableau ci-dessous.
Variance résiduelle
Distances initiales de NJ
Distances initiales de NJ+TripleML
Distances inférées par NJ
Distances inférées par NJ+TripleML
7.91%
7.83%
7.26%
6.97%
TAB. 1 – Comparaison de l’ estimation des distances à partir de 5000 arbres aléatoires de 24 taxons.
Ces résultats confirment que l’ utilisation d’ un troisième taxon permet d’ améliorer l’ estimation des distances
initiales, puisque le taux de variance résiduelle passe de 7.91% à 7.83%. Mais le gain est surtout sensible lors des
étapes suivantes, lorsque la matrice de distance est réduite itérativement par TipleML. On passe alors de 7.26% à
6.97%.
3.3
Méthodes testées
Nous avons testé les dernières versions des programmes disponibles sur le web. Tous les programmes sont
utilisés avec des options correspondant au modèle de Kimura à deux paramètres avec un ratio
transition/transversion égal à 2.0 .
– Nous avons testé trois méthodes de distances classiques : NJ [18], BioNJ [5] et Weighbor [1]. Les distances
fournies à ces trois programmes sont celles calculées par DNAdist, un programme du package PHYLIP [3].
Le calcul de ces distances est fait en sachant que les données suivent un modèle de Kimura à deux
paramètres avec un taux de transition/transversion égal à 2.0. Nous avons également fourni la longueur des
séquences à Weighbor qui est le seul de ces trois programmes à utiliser cette information.
– Nous avons testé une variante très simple de TripleML, que nous appelons 3Dist. Dans cette variante, seul le
calcul des distances initiales est modifié. Les distances ainsi calculées peuvent servir de données à n’ importe
quelle méthode de distances. En particulier, elles peuvent être utilisées avec NJ, BioNJ et Weighbor, et les
méthodes ainsi obtenues sont respectivement : NJ+3Dist, BioNJ+3Dist et Weighbor+3Dist.
– Nous avons testé NJ+TripleML et Weighbor+TripleML (NJ+TripleML et BioNJ+TripleML sont identiques
cf. ci-dessus).
– Nous avons également testé FastDNAml [12] qui est une méthode de maximum de vraisemblance dérivée
de DNAml [3]. Généralement les deux programmes reconstruisent le même arbre, mais FastDNAml est
beaucoup plus rapide.
Nous aurions aimé tester NJML [13], mais il n’ y a pour l’ instant pas de version de ce programme qui soit
disponible (communication personnelle des auteurs).
JOBIM 2002
43
V. Ranwez et O. Gascuel
3.4
Fiabilité de la topologie proposée
Les méthodes de reconstruction phylogénétique sont jugées sur leur aptitude à retrouver l'
arbre vrai T ayant
servi à générer les séquences. Pour cela, nous comparons la topologie de l’ arbre T inféré à la topologie de
l’ arbre vrai en utilisant une distance topologique d (T , T ) équivalente à celle de Robinson et Foulds [17]. Cette
distance est égale à la proportion de branches internes qui sont présentes dans un arbre et pas dans l’ autre. Elle
varie de 0.0 (les deux topologies sont identiques) à 1.0 (elles n’ ont aucune branche interne en commun). Afin de
comparer les performances des méthodes à celle de NJ, nous mesurons aussi l’ écart relatif qui existe entre les
performances de ces méthodes et celles de NJ. Si l’ on note PM les performances de la méthode M , l’ écart relatif
entre les performances de M et celle de NJ correspond au ratio ( PM − PNJ ) / PNJ .
Les résultats obtenus sont résumés dans le tableau ci-dessous.
d (T , T )
NJ
BioNJ
Weighbor
NJ+3Dist
BioNJ + 3Dist
Weighbor + 3Dist
NJ + TripleML
Weighbor + TripleML
FastDNAml
0.0829
0.0807 (-3%)
0.0781 (-6%)
0.0808 (-3%)
0.0787 (-5%)
0.0772 (-7%)
0.0738 (-11%)
0.0720 (-13%)
0.0616 (-26%)
TAB. 2 – Comparaison des méthodes à partir de 5000 arbres aléatoires de 24 taxons.
Les résultats obtenus par BioNJ et Weighbor sont meilleurs que ceux obtenus par NJ. En effet la différence
relative entre la proportion de branches mal inférées par BioNJ et NJ est de −3% , et cette différence est de −6%
pour Weighbor et NJ. L’ utilisation d’ un troisième taxon pour estimer les distances initiales permet d’ en
améliorer l’ estimation. Pour les trois méthodes, l’ utilisation des distances calculées par 3Dist permet de réduire
la proportion de branches mal inférées. Les performances de NJ+3Dist sont équivalente à celle de BioNJ, celles
de BioNJ+3Dist sont équivalentes à celle de Weighbor et l’ écart relatif entre Weighbor+3Dist et NJ atteint −7%
(contre −6% pour Weighbor sans 3Dist). Comme nous le détaillerons dans la section suivante, ces améliorations
sont obtenues avec une très faible augmentation des temps de calcul.
L’ utilisation de la version complète de TripleML permet d’ augmenter de manière plus importante les
performances de ces méthodes de distances. En effet, la différence relative entre la proportion de branches mal
inférées par NJ+TripleML et NJ est de −11% , et cette différence est de −13% pour Weighbor+TripleML. Ces
tests confirment aussi que FastDNAml est meilleur que NJ, puisque l’ écart relatif entre ces deux méthodes est de
−26% . Ainsi, TripleML combiné avec NJ ( −11% ) ou avec Weighbor (−13% ) fournit des méthodes de
reconstructions phylogénétiques dont les performances se situent à mi-chemin entre celles de NJ et celles de
FastDNAml (−26% ).
3.5
Temps de calculs
Afin d'
avoir un ordre de grandeur des temps de calcul des différentes méthodes étudiées, nous les avons testées
sur des jeux de données de tailles variables. Ces jeux de données contiennent 24 ou 96 séquences dont la
longueur est soit 600 soit 1200 nucléotides. Les temps de calcul obtenus par chacune des méthodes sur un PC
466Mhz ayant 128 Mb de RAM sont résumés dans le tableau ci-dessous. Ces temps de calcul sont en partie
spécifiques aux jeux de données testés, et doivent donc être uniquement considérés comme des indicateurs de la
taille des jeux de données qu'
une méthode est capable de traiter.
44
JOBIM 2002
TripleML : une méthode de reconstruction phylogénétique améliorant les méthodes de distances
l = 600…...
NJ/BioNJ
Weighbor
NJ/BioNJ + 3Dist
Weighbor + 3Dist
NJ + TripleML
Weighbor + TripleML
FastDNAml
l = 1,200…
NJ/BioNJ
Weighbor
NJ/BioNJ + 3Dist
Weighbor + 3Dist
NJ + TripleML
Weighbor +TripleML
FastDNAml
n=24
n=96
<1s
1s
1s
1s
3s
4s
4min 44s
1s
1s
1s
2s
5s
7s
7min 40s
5s
1min 2s
12s
1min10s
55s
2min 8s
157min
9s
1min 4s
16s
1min 11s
1min 37s
3min 12s
385min
TAB. 3 – Comparaison des temps de calcul.
NJ et BioNJ ont les mêmes temps de calculs. Ce sont les deux méthodes les plus rapides, et la majeure partie de
leur temps de calcul est liée à l’ estimation des distances initiales. Inversement, Weighbor passe davantage de
temps à estimer la phylogénie à partir de la matrice initiale, et ses temps de calcul sont nettement supérieurs à
ceux de NJ et de BioNJ. Par exemple, sur le plus gros jeu de données qui contient 96 séquences de 1200
nucléotides, Weighbor met environ 1 minute alors que NJ et BioNJ mettent seulement 9 secondes.
L’ utilisation de 3Dist n’ augmente que très faiblement les temps de calcul. Pour le plus gros jeu de données, NJ et
BioNJ utilisés avec 3Dist mettent environ 16 secondes (au lieu de 9 ) et l’ écart est à peine perceptible avec
Weighbor qui met environ 1 minutes que 3Dist soit ou non utilisé. L’ utilisation de TripleML augmente de
manière plus significative les temps de calculs. Sur le plus gros jeu de données, NJ+TripleML met environ 1.5
minute et Weighbor+TripleML environ 3 minutes. Cependant, sur le jeu contenant 96 séquences de 600
nucléotides, NJ+TripleML est plus rapide que Weighbor. Malgré les différences de temps de calcul qui existent
entre ces méthodes, toutes sont visiblement capables de traiter des jeux de données beaucoup plus importants, ce
qui n’ est pas le cas de FastDNAml qui met plus de six heures pour traiter le jeu contenant 96 séquences de 1200
nucléotides.
4
Conclusion
Nous avons décrit TripleML, une méthode qui permet une meilleure estimation des distances évolutives. Cette
approche utilise le même processus pour estimer les distances initiales et pour réduire la matrice de distances
utilisée par NJ et ses variantes. Dans les deux cas, les distances sont estimées à partir d’ une optimisation locale
de la vraisemblance basée sur les triplets de taxons (ou de groupes de taxons). La combinaison de TripleML avec
NJ ou Weighbor fournit des méthodes rapides dont la capacité à reconstruire la bonne phylogénie est bien
meilleure que celle des méthodes de distance usuelles. Les méthodes ainsi obtenues ont des performances
intermédiaires entre celles de NJ utilisé seul et celles de FastDNAml.
Nous avons également présenté une variante de TripleML, que nous appelons 3Dist, et qui n’ utilise notre mode
d’ estimation des distances que pour calculer les distances initiales. Nos tests indiquent que 3Dist augmente de
manière très sensible les performances des méthodes de distances. De plus l’ utilisation de 3Dist n’ augmente
quasiment pas les temps de calcul et ne nécessite pas de modifier la méthode de distance avec laquelle on la
combine. L’ augmentation des performances est moins spectaculaire qu’ avec TripleML, mais 3Dist est mieux
adapté lorsque l’ on traite de très grands jeux de données contenant plusieurs milliers de séquences.
Remerciements
Nous tenons à remercier Stéphane Guindon qui nous a fourni le programme permettant de générer les arbres
aléatoires utilisés au cours de nos simulations.
JOBIM 2002
45
V. Ranwez et O. Gascuel
Références
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
[14]
[15]
[16]
[17]
[18]
[19]
[20]
[21]
[22]
[23]
46
BRUNO (W.J.), SOCCI (N.D.), et HALPERN (A.L.), «Weighted neighbor joining: a likelihood-based
approach to distance-based phylogeny reconstruction», Mol. Biol. Evol., 17, n° 1, 2000, p. 189-97.
FELSENSTEIN (J.), «Evolutionary trees from DNA sequences: a maximum likelihood approach», J. Mol.
Evol. 17, n° 6, 1981, p. 368-76.
FELSENSTEIN (J.), «PHYLIP (phylogeny inference package) version 3.5c», 1993.
s, Saitou and Nei'
s, and Studier and Keppler'
s algorithms
GASCUEL (O.) «A note on Sattath and Tversky'
for inferring phylogenies from evolutionary distances», Mol. Biol. Evol., 11, n° 6, 1994, p. 961-3.
GASCUEL (O.), «BIONJ: an improved version of the NJ algorithm based on a simple model of sequence
data», Mol. Biol. Evol., 14, n° 7, 1997, p. 685-95.
GUINDON (S.) et GASCUEL (O.) «Efficient biased estimation of evolutionary distances when substitution
rates vary across sites », Mol. Biol. Evol., 19, n° 4, 2002, p. 534-43.
HARDING (E.F.), «The probabilities of rooted-tree shapes generated by random bifurcation», Advances in
Applied Probabilities, 3, 1971, p. 44-77.
KIMURA (M.), «Estimation of evolutionary distances between homologous nucleotide sequences.», Proc.
Nat. Acad. Sci., 78, 1981, p. 454-458.
KUHNER (M.K.) et FELSENSTEIN (J.), «A simulation comparison of phylogeny algorithms under equal and
unequal evolutionary rates», Mol. Biol. Evol., 11, n° 3, 1994, p. 459-68.
LANAVE (C.) et al., «A new method for calculating evolutionary substitution rates», J. Mol. Evol., 20, n°1,
1984, p. 86-93.
NEI (M.), «Relative efficiencies of different tree-making methods for molecular data. », dans
Phylogenetic analysis of DNA sequences, M.M. Miyamoto and J. Cracraft, Editors, Oxford Univ. Press,
1991.
OLSEN (G.J.) et al., «fastDNAmL: a tool for construction of phylogenetic trees of DNA sequences using
maximum likelihood», Comput. Appl. Biosci., 10, n° 1, 1994, p. 41-8.
OTA (S.) et LI (W.H.), «NJML: a hybrid algorithm for the neighbor-joining and maximum-likelihood
methods», Mol. Biol. Evol., 17, n° 9, 2000, p. 1401-9.
PRESS (W.H.) et al., «Numerical Recipies in C. The Art of scientific computing», Cambridge University
Press,1988.
RAMBAUT (A.) et GRASSLY (N.C.), «Seq-Gen: an application for the Monte Carlo simulation of DNA
sequence evolution along phylogenetic trees», Comput. Appl. Biosci., 13, n° 3, 1997, p. 235-8.
RANWEZ (V.) et GASCUEL (O.), «Quartet-based phylogenetic inference: improvements and limits», Mol.
Biol. Evol., 18, n° 6, 2001, p. 1103-16.
ROBINSON (D.F.) et FOULDS (L.R.), «Comparison of phylogenetic trees», Mathematical Biosciences, 53,
1981, p. 131-147.
SAITOU (N.) et NEI (M.), «The neighbor-joining method: a new method for reconstructing phylogenetic
trees», Mol Biol Evol, 4, n° 4, 1987, p. 406-25.
SATTAH (S.) et TVERSKY (A.), «Additive similarity trees», Psychom, 42, 1977, p. 319-45.
STRIMMER (K.) et VON HAESELER (A.), «Quartet puzzling: A quartet maximum-likelihood method for
reconstructing tree topologies.», Mol. Biol. Evol., 13, n° 7, 1996, p. 964-69.
STUDIER (J.A.) et KEPPLER (K.J.), «A note on the neighbor-joining algorithm of Saitou and Nei», Mol
Biol Evol., 5, n° 6, 1988, p. 729-31.
SWOFFORD (D.L.) et al., «Phylogenetic inference», dans Molecular Systematic, D. M. Hillis, C. Moritz,
and B.K. Mable, Editors. Sinauer Associates: Massachusetts 1996.
YULE (G.L.), «A mathematical theory of evolution based on the conclusions of Dr. J.C. Willis.», FRS
PTRSB, 213, 1924, p. 21-87.
JOBIM 2002
Téléchargement