TripleML : une amélioration des méthodes de distance pour l’inférence phylogénétique, grâce à une approche locale du maximum de vraisemblance basée sur les triplets TripleML: an improvement of distance based phylogenetic reconstruction methods thanks to a local maximum likelihood approach using triplets Vincent RANWEZ† † Olivier GASCUEL† LIRMM, 161 rue Ada, 34392 Montpellier Cedex 5 -FRANCE Courriel : {ranwez,gascuel}@lirmm.fr Résumé Cet article décrit une nouvelle approche pour l’estimation de la distance évolutive entre deux séquences. Cette approche utilise un arbre contenant trois feuilles. Deux de ces feuilles correspondent aux séquences étudiées, et la troisième est choisie de manière à prendre en compte les problèmes liés à l’estimation des longues branches. Les longueurs des branches de cet arbre sont ajustées de manière à optimiser sa vraisemblance, et sont ensuite utilisées pour déduire la distance recherchée. Cette approche, que nous appelons TripleML, améliore l’estimation des distances évolutives et donc la qualité des phylogénies reconstruites par les méthodes de distances. Avec des méthodes telles que NJ, TripleML peut être utilisée à la fois pour calculer la matrice de distances initiale et pour estimer les nouvelles distances après chaque agglomération. Des simulations informatiques indiquent que TripleML permet d’augmenter de manière significative les performances de NJ, BioNJ et Weighbor, tout en conservant des temps de calculs raisonnables. Sur des arbres à 24 taxons générés aléatoirement à partir de paramètres réalistes, l’utilisation de TripleML réduit le nombre de branches mal inférées par NJ d’environ 11% (contre 3% pour BioNJ et 6% pour Weighbor). De plus, la méthode ainsi obtenue traite un jeu de donnée de 96 séquences contenant chacune 1200 nucléotides en moins de deux minutes, alors que sur la même machine (un PC 466Mhz), FastDNAml met plus de six heures pour traiter ces données. Mots-clés : reconstruction phylogénétique, distance évolutive, maximum de vraisemblance, méthode de triplets. Abstract This article describes a new approach to estimate the evolutionary distance between two sequences. This approach uses a tree with three leaves, two of them correspond to the studied sequences while the third is chosen to handle long distance estimations. The branch lengths of this tree are obtained by likelihood maximization, and then used to deduce the desired distance. This approach, called TripleML, improves the precision of evolutionary distance estimates, and thus the topological accuracy of phylogenies inferred by distance based methods. TripleML can be used with NJ-like methods not only to compute the initial distance matrix, but also to estimate new distances encountered during the agglomeration process. Computer simulations indicate that using TripleML significantly improves the performance of NJ, BioNJ and Weighbor, while conserving a reasonable computation time. With randomly generated 24 -taxon trees and realistic parameter values, combining NJ with TripleML reduces the number of wrongly inferred branches by about 11% (against 3% and 6% for BioNJ and Weighbor, respectively). Moreover, this combination requires only about one minute and a half to infer a phylogeny of 96 sequences made of 1200 nucleotides, against six hours for FastDNAml on the same machine (PC 466 Mhz). Keywords: : phylogenetic reconstruction, evolutionary distance, maximum likelihood, triplet method. 1 Introduction L’utilisation d’un modèle stochastique de l’évolution permet de définir la vraisemblance d’une histoire évolutive. Lorsque l’on étudie un ensemble important de séquences, il n’est pas possible d’estimer en un temps raisonnable la vraisemblance de toutes les histoires évolutives possibles. Pour contourner ce problème, on utilise généralement une approche heuristique afin de n’étudier qu’un sous-ensemble prometteur de phylogénies. Lorsque le nombre de séquences étudiées est faible, les méthodes de maximum de vraisemblance permettent JOBIM 2002 TripleML V. JOBIM Ranwez 2002 : une et O. méthode Gascuel de reconstruction phylogénétique améliorant les méthodes de distances 37 V. Ranwez et O. Gascuel d’ inférer en un temps raisonnable une phylogénie dont la topologie est fiable [9, 16]. Malheureusement, les temps de calcul deviennent vite inacceptables lorsque la taille des données augmente. Ainsi, malgré de nombreuses améliorations dont celle décrite dans [12], les méthodes de maximum de vraisemblance restent si lentes qu’ elles peuvent seulement traiter des jeux de données de faible taille. Par contre, il est très rapide de calculer (au sens du maximum de vraisemblance) l' ensemble des distances entre chaque couple de séquences contemporaines et il existe des algorithmes efficaces pour reconstruire un arbre phylogénétique à partir de ces distances. L' algorithme NJ introduit par Saitou et Nei [18] est la méthode la plus populaire pour reconstruire un arbre phylogénétique à partir d' une matrice de distances évolutives. Cet algorithme suit le procédé agglomératif, introduit par Sattah et Tversky [19], qui, à chaque étape, sélectionne une paire de taxons à agglomérer. Lors de cette agglomération, le nouveau nœud créé remplace les deux nœuds sélectionnés, et la matrice de distances est réduite en remplaçant les distances aux deux nœuds agglomérés par celles au nouveau nœud créé. NJ a une faible complexité en temps de calcul, ce qui lui permet de traiter de très grands jeux de données. De nombreuses simulations informatiques [9, 11, 13] ont montré que NJ est une méthode de reconstruction phylogénétique relativement fiable. Des variantes de NJ ont été développées, notamment BioNJ [5] et Weighbor [1]. D’ autres méthodes de distances, utilisant une approche différente, ont été proposées. La plus connue est la méthode dite des moindres carrés pondérés qui est implémentée dans le programme FITCH [2]. Néanmoins, la topologie des arbres inférés par ces méthodes de distances est moins fiable que celle des arbres reconstruits par maximum de vraisemblance. Il est donc capital de disposer de méthodes intermédiaires permettant d’ obtenir des résultats plus fiables que ceux de NJ, en un temps qui reste raisonnable, même pour des jeux de données de taille importante. Une possibilité, proposée par Ota et Li [13], est d’ utiliser une méthode de distance pour restreindre l’ espace dans lequel on cherche l’ arbre de vraisemblance maximal. Une autre approche largement explorée, notamment par [20], est de combiner des arbres obtenus par maximum de vraisemblance sur des sous-ensembles ne contenant que 4 taxons, pour inférer une phylogénie sur un ensemble plus large de taxons. Ces méthodes de quadruplets semblent prometteuses, mais leurs performances actuelles restent décevantes [16]. Nous proposons une approche différente. Il est clair que pour toutes les méthodes de distances, l’ estimation des distances évolutives est un point crucial. Comme nous allons le voir, ces distances peuvent être mieux estimées grâce à l’ utilisation d’ une approche locale du maximum de vraisemblance sur des triplets de taxons. Dans la suite, nous rappelons le principe de NJ et de ses variantes, et nous expliquons comment l’ estimation des distances utilisées par ces méthodes peut être améliorée. Des simulations informatiques sont ensuite utilisées pour étudier la contribution de notre approche. 2 2.1 Méthodes Calcul de la vraisemblance d’une phylogénie Dans tout ce qui suit nous supposons que le modèle d’ évolution utilisé est le "general time reversible model" (GTR) [10], qui généralise les modèles les plus couramment utilisés tel que le modèle F84 [3] ou le modèle de Kimura à deux paramètres [8]. Pour ce type de modèle, la vraisemblance d’ une phylogénie T se calcule par récurrence. Elle ne dépend pas de la place de la séquence ancestrale, et chaque site peut être traité de manière indépendante [22]. La probabilité d’ observer les n séquences de longueur l associées aux feuilles de T est le produit des probabilités d’ observer chacun des l sites. En notant Sa la séquence ancestrale (que l’ on ne connaît pas), π b la probabilité que le nucléotide b soit le nucléotide ancestral, et L( Sas = b; T ) la probabilité que ce nucléotide b ait évolué pour donner les n nucléotides observés aux sites s des feuilles de T , alors la probabilité associée au site s par rapport au nucléotide b est le produit de π b et de L( Sas = b; T ) . Ainsi la vraisemblance de l’ arbre T , dont la topologie et les longueurs de branches sont connues, est obtenue par la formule suivante l L( T ) = ∏ ∑ π b L ( Sas = b; T ) . (1) s =1 b ∈ A,C,G ,T Le terme L( Sas = b; T ) est calculé de manière récursive. Supposons que l’ arbre T est constitué de deux sousarbres Ti et Tj , dont les séquences ancestrales sont respectivement Si et S j . Dans ce cas, la vraisemblance de T se calcule à partir de celles de Ti et de Tj . Si, pour un taux d’ évolution δ , on note Pbc (δ) la probabilité qu’ un nucléotide b devienne c , on a alors L( Sas = b; T ) = 38 ∏ ∑ Pbc (δ ax ) L(Sxs = c; Tx ) , (2) x ∈ i, j c ∈ A,C,G ,T JOBIM 2002 TripleML : une méthode de reconstruction phylogénétique améliorant les méthodes de distances où δ ax représente le taux d’ évolution (i.e. la longueur de la branche) entre Sa et Sx , avec x = i ou x = j . De manière similaire, la vraisemblance de Ti est calculée à partir de celles de ses sous-arbres. La récurrence s’ arrête lorsque le sous-arbre est réduit à une seule feuille, notée T f . Cette feuille est associée à une séquence S f contemporaine connue qui définit la vraisemblance de T f : L( S L(S 2.2 s f = b; T f ) = 1 si S sf = b s f = b; T f ) = 0 sinon (3) NJ et ses variantes Dans ce qui suit, nous présentons la version simplifiée de NJ due à Studier et Keppler [21]. Gascuel [4, 5] montre la validité et l’ équivalence de cette version et de la version originale de NJ. À chaque étape, NJ utilise une matrice de distance (δ ij ) où i (respectivement j ) représente soit une des séquences étudiées, soit un sous-arbre contenant plusieurs séquences. À partir de ces distances, deux sous-arbres sont sélectionnés et sont regroupés dans un même ensemble. Ils perdent alors leur identité et constituent désormais un seul et unique sous-arbre. Au départ, chaque sous-arbre est constitué d’ un seul taxon, et la dimension de la matrice, notée r , est donc égale aux nombres n de taxons étudiés. A chaque agglomération, deux sous-arbres sont fusionnés, réduisant ainsi le nombre de sous-arbres restant et la dimension de la matrice de agglomération des sous-arbres 1 et 2 distance. Si l’ on note Q12 la valeur du critère correspondant à l' (éventuellement réduits à un seul taxon), alors la paire à agglomérer est celle qui minimise Q12 = (r − 2)δ12 − ∆1 − ∆ 2 r avec ∆ x = ∑ δ xy . (4) y =1 Une fois que la paire {1,2} à agglomérer est sélectionnée, NJ crée un nouveau nœ ud i qui représente la racine du nouveau sous-arbre. Puis, NJ estime la longueur des branches (1, i ) et (2, i ) en utilisant les formules suivantes : δ1i = 1 ∆ − ∆2 δ12 + 1 2 r−2 et δ 2 i = 1 ∆ − ∆1 . δ12 + 2 2 r−2 (5) Enfin, NJ réduit la matrice de distances en enlevant toutes les distances associées à 1 ou à 2, et en estimant les distances entre le nouveau nœ ud i et tout autre nœ ud j , en utilisant la formule suivante : 1 1 (δ1 j − δ1i ) + (δ 2 j − δ 2i ) . (6) 2 2 Le processus continue jusqu’ à ce que r = 2 , la longueur de la dernière branche étant alors égale à la dernière valeur contenue dans la matrice de distance. Les variantes de NJ peuvent utiliser d’ autres manières d’ estimer δ1i , δ 2i et δ ij , et elles peuvent même utiliser un critère d’ agglomération différent. Toutes ces méthodes partagent cependant le même schéma agglomératif décrit ci-dessus. Quand les sous-arbres 1 et 2 sont agglomérés en un nouveau sous-arbre i , les nouvelles distances δ ij peuvent être estimées par n’ importe quelle combinaison convexe de (δ1 j − δ1i ) et de (δ 2 j − δ 2i ). NJ suppose implicitement que les deux estimations se valent et leur accorde le même poids (1 / 2 ). BioNJ choisit ces poids de manière à obtenir l’ estimateur de δ ij dont la variance est minimale. Les agglomérations suivantes se font donc en s’ appuyant sur de meilleures estimations des distances. BioNJ est aussi rapide que NJ et améliore les performances de ce dernier. La différence entre les deux méthodes est surtout sensible lorsque l’ horloge moléculaire n’ est pas respectée [5]. Weighbor utilise un critère d’ agglomération différent de celui de NJ. Ce critère prend en compte le fait que les distances les plus grandes sont les moins bien estimées. Pour cela, les estimations des distances sont modélisées par des variables normales. Cette modélisation est utilisée pour sélectionner la paire à agglomérer et pour réduire la matrice de distances. Weighbor est moins sensible au phénomène d’ attraction des longues branches que NJ et BioNJ [1]. δ ij = 2.3 TripleML Pour toutes ces méthodes l’ estimation des distances joue un rôle capital. Dans une méthode agglomérative, il y a deux types d’ estimation de distances. La première est l’ estimation des distances initiales. La seconde est l’ estimation des distances qui séparent un nouveau sous-arbre des sous-arbres existants, lors de l’ étape de réduction. Comme nous allons le voir, notre approche permet d’ améliorer ces deux types d’ estimations. L’ estimation de la distance δ ij , qui sépare deux taxons contemporains i et j , est généralement obtenue en optimisant la vraisemblance de « l’ arbre » qui contient ces deux taxons. Cet arbre très simple contient une seule JOBIM 2002 39 V. Ranwez et O. Gascuel branche qui relie les deux taxons considérés. La vraisemblance de cet arbre se calcule de manière beaucoup plus simple que dans le cas général d’ un arbre à n taxons (un n -arbre), et l’ optimisation de sa vraisemblance est aisée. Pour certains modèles d’ évolution tels que le modèle de Kimura [8], il existe même une solution analytique à ce problème d’ optimisation. Au lieu d’ estimer la distance qui sépare le taxon i du taxon j en utilisant le 2 -arbre correspondant, nous proposons d’ estimer cette distance à partir d’ un 3-arbre. Deux feuilles de cet arbre sont les taxons étudiés et la troisième, que l’ on note k , est choisie de manière à prendre en compte les problèmes liés à l’ estimation des longues branches. Les longueurs des trois branches de cet arbre sont fixées de manière à maximiser sa vraisemblance, et sont ensuite utilisées pour affiner l’ estimation de δ ij . Ce 3-arbre est obtenu en reliant les taxons i , j et k à un ancêtre commun a grâce à trois branches dont les longueurs sont respectivement δ ai , δ aj et δ ak . La distance δ ij est ensuite estimée par δ ij = δ ai + δ aj . La qualité de cette estimation dépend du troisième taxon que l’ on a choisi. Utiliser tous les 3-arbres contenant i et j est trop coûteux en temps de calcul. Il faut donc choisir a priori un troisième taxon permettant d’ obtenir un bon estimateur δ ij . Dans notre approche, les distances initiales entre deux taxons i et j sont donc estimées en deux étapes : dans un premier temps, ces distances sont estimées de manière classique en utilisant le maximum de vraisemblance sur le 2-arbre correspondant. Ces premières estimations sont ensuite utilisées pour sélectionner pour chaque paire {i, j} un troisième taxon permettant d’ améliorer l’ estimation de δ ij . La distance δ ij est alors ré-estimée en utilisant le maximum de vraisemblance sur le 3-arbre contenant ces trois taxons. Utiliser un troisième taxon k permet de disposer de plus d’ informations pour estimer la distance δ ij qui sépare les taxons i et j . Ce phénomène est souligné par Swofford et al. [22]. Pour obtenir une phylogénie plus fiable sur un ensemble de taxons, ils conseillent d’ utiliser des taxons supplémentaires de manière à couper les longues branches à peu près en leur milieu, de reconstruire la phylogénie de cet ensemble plus large de taxons, puis d’ enlever les taxons supplémentaires de la phylogénie ainsi obtenue. En s’ appuyant sur cette remarque, nous cherchons un taxon k qui coupe la branche (i, j ) en un point proche de son milieu, ce que nous mesurons par (δ ik − δ jk ) 2 en utilisant les premières estimations des distances. Lorsque l’ on coupe ainsi la branche (i, j ) , on crée un nœ ud interne a et une nouvelle branche ( a, k ) . Si l’ on coupe une longue branche en utilisant une autre longue branche, il est peu probable que l’ estimation de δ ij soit réellement améliorée. On souhaite donc aussi que le taxon k soit proche de i et de j , ce que nous mesurons par δ ik δ jk . Ces deux mesures sont du même ordre, puisqu’ elles correspondent toutes les deux à un produit de distances. Pour estimer δ ij , nous cherchons donc le taxon k qui minimise (δ ik − δ jk ) 2 + δ ik δ jk . Il est facile de voir que ce critère est minimal lorsque δ ai = δ aj et que δ ak = 0. Ce critère est donc minimal dans le cas idéal où il existe un taxon équidistant de i et j dont la séquence est connue. D’ autres critères sont possibles, nous en avons testé de nombreux, mais nous n’ en avons trouvé aucun qui permette d’ obtenir de meilleurs résultats que ceux obtenus avec le critère simple donné cidessus. Après chaque agglomération, de nouvelles distances δ ij sont estimées. NJ, BioNJ et Weighbor estiment ces distances à partir de la formule (6), ou de formules analogues utilisant une moyenne pondérée de distances. Dans TripleML, l’ estimation de ces distances est faite d’ une manière analogue à celle utilisée pour estimer les distances initiales. Une agglomération induit un nouveau sous-arbre, et l’ on cherche à estimer les distances qui séparent ce nouveau sous-arbre de ceux déjà existants. La distance qui sépare un sous-arbre Ti , ayant le noeud i pour racine, et le sous-arbre Tj , ayant j pour racine, peut être estimée à partir de la phylogénie Ti ∪ T j obtenue à partir de Ti et de Tj en ajoutant la branche (i, j ) (Fig 1.a). Les longueurs des branches de Ti ∪ T j pourraient être ajustées de manière à maximiser sa vraisemblance. On obtiendrait ainsi, non seulement l’ estimation de δ ij que l’ on cherche, mais aussi de nouvelles estimations des longueurs de branches de Ti et de Tj . Cependant, pour conserver un temps de calcul raisonnable, nous avons choisi de ne pas remettre en question les estimations des longueurs des branches de Ti et de Tj qui ont été obtenues lors des étapes précédentes. Au lieu d’ optimiser globalement la vraisemblance de Ti ∪ T j , nous optimisons localement cette vraisemblance uniquement par rapport à δ ij . 40 JOBIM 2002 TripleML : une méthode de reconstruction phylogénétique améliorant les méthodes de distances Tj Tj j j δ aj δ ij δ ai i a δ ak k Tk i Ti Ti (b) (a) FIG. 1 – Estimation de la distance δ ij séparant Ti de Tj . Une meilleure estimation de δ ij peut être obtenue en utilisant un troisième sous-arbre Tk dont la racine est le nœ ud k . Dans ce cas on considère la phylogénie Ti ∪ T j ∪ Tk obtenue à partir de Ti , Tj et Tk en reliant les trois nœ uds i , j et k à un nouveau nœ ud a grâce à trois branches de longueurs respectives δ ai , δ aj et δ ak (Fig 1.b). Ces trois longueurs sont alors ajustées de manière à maximiser la vraisemblance de Ti ∪ T j ∪ Tk et la distance δ ij est ré-estimée par δ ij = δ ai + δ aj . Ainsi, lors de la création par agglomération d’ un nouveau sous-arbre Ti , les distances δ ij le séparant des autres sous-arbres Tj sont estimées en deux étapes. Dans un premier temps, ces distances sont estimées en optimisant localement la vraisemblance Ti ∪ T j . Ces premières estimations sont ensuite utilisées pour sélectionner pour chaque paire Ti , Tj un troisième sous-arbre Tk permettant d’ améliorer ces premières estimations. Le sousarbre Tk est sélectionné en utilisant le même critère que pour choisir le taxon k lors de l’ estimation des distances initiales, et la distance δ ij est alors ré-estimée en optimisant localement la vraisemblance de Ti ∪ T j ∪ Tk . On voit donc que l’ estimation de la distance entre deux taxons contemporains est un cas particulier de l’ estimation de la distance entre deux sous-arbres Ti et Tj ayant respectivement comme racines les nœ uds i et j . 2.4 Optimisation locale de la vraisemblance La première estimation de la distance δ ij qui sépare les sous-arbres Ti et Tj (éventuellement réduits à une seule feuille) se fait en optimisant localement la vraisemblance de T = Ti ∪ Tj (Figure 1.a). En supposant que Si est la séquence ancestrale, cette vraisemblance est définie à partir des équations (1), (2) et (3) par : l L( T ) = ∏ ∑ s =1 b ∈ A,C,G ,T π L(S s i b = b; Ti ) ∑ Pbc (δ ij ) L(S js = c; Tj ) . c∈ A,C,G,T (11) La seconde estimation se fait ensuite en optimisant localement la vraisemblance de T = Ti ∪ T j ∪ Tk (Figure 1.b). En supposant que Sa est la séquence ancestrale, cette vraisemblance vaut : l L( T ) = ∏ ∑ s =1 b ∈ A,C,G,T π ∏ b ∑ Pbc (δ ax ) L(Sxs = c; Tx ) . x ∈ i, j ,k c∈ A,C,G,T (12) Pour pouvoir calculer ces vraisemblances, il est donc nécessaire de connaître les valeurs L( Sxs = c; Tx ) . L’ ensemble de ces valeurs constitue le « vecteur de vraisemblance » de Tx que nous notons LV (Tx ). Ce vecteur JOBIM 2002 41 V. Ranwez et O. Gascuel contient 4 valeurs (une par nucléotide) pour chacun des l sites. Dans les méthodes d’ agglomération, chaque sous-arbre est initialement constitué d’ un seul taxon, et son vecteur de vraisemblance est donc complètement défini par l’ équation (3). Après chaque agglomération, le vecteur de vraisemblance du nouveau sous-arbre Ti est calculé grâce à l’ équation (2) en utilisant LV (T1 ) , LV (T2 ) et les longueurs δ1i et δ 2i obtenues à partir de l’ équation (5). Après cette agglomération, LV (T1 ) et LV (T2 ) deviennent inutiles, l’ espace mémoire nécessaire pour stocker les vecteurs de vraisemblance est donc du même ordre (O(nl )) que celui nécessaire pour stocker les séquences étudiées. Puisque nous supposons que les longueurs de branches de Ti et de Tj ne changent pas, la vraisemblance de T = Ti ∪ Tj ne dépend que de δ ij . Pour optimiser (localement) cette vraisemblance, nous pouvons donc directement utiliser la « méthode de Brent » d’ optimisation d’ une fonction à un seul paramètre telle qu’ elle est décrite dans [14]. Cette méthode ne nécessite pas de calculer les dérivées. On peut donc facilement l’ utiliser même lorsque le modèle évolutif est complexe. De même, si l’ on suppose que les longueurs des branches de Ti , Tj et Tk sont fixes, alors la vraisemblance de Ti ∪ Tj ∪ Tk ne dépend que de δ ai , δ aj et δ ak . En supposant que deux de ces valeurs sont fixées, on se ramène au cas précédent. La troisième longueur est optimisée en utilisant la « méthode de Brent » . On suppose ensuite que cette valeur est fixe, ce qui permet d’ optimiser la vraisemblance en fonction d’ une des deux autres longueurs. Les branches sont ainsi successivement optimisées tant que la vraisemblance augmente de manière significative. Dans cette approche locale, la vraisemblance est optimisée uniquement en fonction de trois longueurs de branches, et le processus converge rapidement. 2.5 Complexité Ce mode d’ estimation des distances peut être utilisé avec n’ importe quelle variante de NJ. Il suffit pour cela de remplacer l’ estimation des distances utilisée par la méthode par celle obtenue avec TripleML. La seule différence entre NJ et BioNJ est précisément la manière dont ces distances sont estimées. L’ utilisation de TripleML avec NJ ou BioNJ produit donc le même algorithme que nous appelons NJ+TripleML. La méthode obtenue en combinant TripleML avec Weighbor produit un algorithme que nous appelons Weighbor+TripleML. La complexité en temps de calcul d’ un programme phylogénétique exprime le temps de calcul qu’ il requiert en fonction du nombre n de séquences et de leur longueur l . Dans le cas de NJ, le calcul des distances initiales est en O(n 2 l ) , et la reconstruction à partir de cette matrice est en O(n3 ) , la complexité totale est donc en O(n 2 l + n 3 ) . Dans TripleML, la vraisemblance est toujours optimisée de manière locale, et le coût de cette optimisation dépend uniquement de la longueur des séquences. Le calcul des distances initiales avec TripleML est donc en O(n 2 l ) . Lors de l’ étape de reconstruction, TripleML effectue les mêmes calculs que NJ, en O(n3 ) , et estime un nombre de distances proportionnel à n 2 . Chaque estimation nécessite deux optimisations locales de la vraisemblance. Le surcoût total de ces estimations est donc O(n 2 l ) . Ainsi, bien que l’ étape de reconstruction soit plus coûteuse avec TripleML, la complexité totale de NJ et de NJ+TripleML est la même et vaut O(n 2 l + n 3 ) . 3 3.1 Simulations informatiques Génération des jeux de tests Nos jeux de tests sont obtenus à partir de 5000 arbres ayant chacun 24 feuilles. Chacun de ces arbres est généré aléatoirement de la manière suivante. Dans un premier temps, sa topologie est générée en utilisant le processus stochastique de spéciation décrit dans [9], avec un taux d’ évolution attendu par branche de 0.035 mutations par site. Les arbres ainsi obtenus suivent la distribution de Yule-Harding [7, 23] et respectent l’ hypothèse de l’ horloge moléculaire. Cette hypothèse est violée dans la plupart des jeux de données biologiques. Nous modifions donc les longueurs des branches des arbres précédemment obtenus, de manière analogue à la méthode employée dans [6], afin qu’ ils s’ écartent de l’ hypothèse de l’ horloge moléculaire. Chacune des branches est multipliée par 1.0 + λX , où X suit la distribution exponentielle P X > η = e − η et λ est le facteur d’ éloignement à l’ horloge moléculaire. Nous avons utilisé λ = 0.8 . Pour cette valeur de λ , le rapport entre le taux d’ évolution de la lignée évoluant la plus rapidement et celui de la lignée la plus lente varie entre 1.2 et 5.0 , sa moyenne vaut environ 2.0 et son écart type est environ 0.5 . La distance maximale entre deux séquences d’ un même jeu de données varie entre 0.15 et 1.2 et vaut en moyenne 0.4. Les séquences sont obtenues en simulant, le long de ces arbres, un processus d' évolution suivant le modèle de Kimura avec un taux de transition/transversion égal à 2. Ces séquences ont été générées avec le logiciel SeqGen [15] et sont disponibles sur notre page web http://www.lirmm.fr/~w3ifa/MAAS/. 42 JOBIM 2002 TripleML : une méthode de reconstruction phylogénétique améliorant les méthodes de distances 3.2 Amélioration de l’estimation des distances Dans un premier temps nous mesurons l’ impact de l’ utilisation de TripleML sur l’ estimation des distances évolutives. Ces premiers tests ont pour buts : 1) de vérifier que l’ utilisation d’ un troisième taxon permet effectivement d’ améliorer l’ estimation des distances initiales ; 2) de s’ assurer que l’ utilisation du maximum de vraisemblance lors du processus agglomératif de NJ présente un réel intérêt. Dans un arbre valué, la distance entre deux taxons correspond à la somme des longueurs des branches appartenant au chemin reliant ces deux taxons. On peut ainsi associer une matrice de distance à un arbre valué, et comparer la matrice de distance associée à l’ arbre vrai avec celles des arbres inférés par différentes méthodes. On considère ici NJ et NJ+TripleML, mais aussi les matrices sur lesquelles ces algorithmes sont appliqués, c’ est à dire l’ estimation usuelle basée sur les paires de taxons, dans le cas de NJ, et l’ estimation utilisant les triplets dans le cas de NJ+Triple. Pour mesurer la proximité entre une matrice de distance inférée (δ ij ) et une matrice vraie ( dij ) , nous calculons la variance résiduelle de l’ explication de ( dij ) par (δ ij ) , c’ est à dire : ∑ (dij − δ ij )2 i, j ∑ (dij − m)2 , (13) i, j où m est égale à la moyenne des d ij . La variance résiduelle est d’ autant plus faible que (δ ij ) est proche (explique bien) ( dij ) . Les résultats de cette comparaisons sont donnés dans le tableau ci-dessous. Variance résiduelle Distances initiales de NJ Distances initiales de NJ+TripleML Distances inférées par NJ Distances inférées par NJ+TripleML 7.91% 7.83% 7.26% 6.97% TAB. 1 – Comparaison de l’ estimation des distances à partir de 5000 arbres aléatoires de 24 taxons. Ces résultats confirment que l’ utilisation d’ un troisième taxon permet d’ améliorer l’ estimation des distances initiales, puisque le taux de variance résiduelle passe de 7.91% à 7.83%. Mais le gain est surtout sensible lors des étapes suivantes, lorsque la matrice de distance est réduite itérativement par TipleML. On passe alors de 7.26% à 6.97%. 3.3 Méthodes testées Nous avons testé les dernières versions des programmes disponibles sur le web. Tous les programmes sont utilisés avec des options correspondant au modèle de Kimura à deux paramètres avec un ratio transition/transversion égal à 2.0 . – Nous avons testé trois méthodes de distances classiques : NJ [18], BioNJ [5] et Weighbor [1]. Les distances fournies à ces trois programmes sont celles calculées par DNAdist, un programme du package PHYLIP [3]. Le calcul de ces distances est fait en sachant que les données suivent un modèle de Kimura à deux paramètres avec un taux de transition/transversion égal à 2.0. Nous avons également fourni la longueur des séquences à Weighbor qui est le seul de ces trois programmes à utiliser cette information. – Nous avons testé une variante très simple de TripleML, que nous appelons 3Dist. Dans cette variante, seul le calcul des distances initiales est modifié. Les distances ainsi calculées peuvent servir de données à n’ importe quelle méthode de distances. En particulier, elles peuvent être utilisées avec NJ, BioNJ et Weighbor, et les méthodes ainsi obtenues sont respectivement : NJ+3Dist, BioNJ+3Dist et Weighbor+3Dist. – Nous avons testé NJ+TripleML et Weighbor+TripleML (NJ+TripleML et BioNJ+TripleML sont identiques cf. ci-dessus). – Nous avons également testé FastDNAml [12] qui est une méthode de maximum de vraisemblance dérivée de DNAml [3]. Généralement les deux programmes reconstruisent le même arbre, mais FastDNAml est beaucoup plus rapide. Nous aurions aimé tester NJML [13], mais il n’ y a pour l’ instant pas de version de ce programme qui soit disponible (communication personnelle des auteurs). JOBIM 2002 43 V. Ranwez et O. Gascuel 3.4 Fiabilité de la topologie proposée Les méthodes de reconstruction phylogénétique sont jugées sur leur aptitude à retrouver l' arbre vrai T ayant servi à générer les séquences. Pour cela, nous comparons la topologie de l’ arbre T inféré à la topologie de l’ arbre vrai en utilisant une distance topologique d (T , T ) équivalente à celle de Robinson et Foulds [17]. Cette distance est égale à la proportion de branches internes qui sont présentes dans un arbre et pas dans l’ autre. Elle varie de 0.0 (les deux topologies sont identiques) à 1.0 (elles n’ ont aucune branche interne en commun). Afin de comparer les performances des méthodes à celle de NJ, nous mesurons aussi l’ écart relatif qui existe entre les performances de ces méthodes et celles de NJ. Si l’ on note PM les performances de la méthode M , l’ écart relatif entre les performances de M et celle de NJ correspond au ratio ( PM − PNJ ) / PNJ . Les résultats obtenus sont résumés dans le tableau ci-dessous. d (T , T ) NJ BioNJ Weighbor NJ+3Dist BioNJ + 3Dist Weighbor + 3Dist NJ + TripleML Weighbor + TripleML FastDNAml 0.0829 0.0807 (-3%) 0.0781 (-6%) 0.0808 (-3%) 0.0787 (-5%) 0.0772 (-7%) 0.0738 (-11%) 0.0720 (-13%) 0.0616 (-26%) TAB. 2 – Comparaison des méthodes à partir de 5000 arbres aléatoires de 24 taxons. Les résultats obtenus par BioNJ et Weighbor sont meilleurs que ceux obtenus par NJ. En effet la différence relative entre la proportion de branches mal inférées par BioNJ et NJ est de −3% , et cette différence est de −6% pour Weighbor et NJ. L’ utilisation d’ un troisième taxon pour estimer les distances initiales permet d’ en améliorer l’ estimation. Pour les trois méthodes, l’ utilisation des distances calculées par 3Dist permet de réduire la proportion de branches mal inférées. Les performances de NJ+3Dist sont équivalente à celle de BioNJ, celles de BioNJ+3Dist sont équivalentes à celle de Weighbor et l’ écart relatif entre Weighbor+3Dist et NJ atteint −7% (contre −6% pour Weighbor sans 3Dist). Comme nous le détaillerons dans la section suivante, ces améliorations sont obtenues avec une très faible augmentation des temps de calcul. L’ utilisation de la version complète de TripleML permet d’ augmenter de manière plus importante les performances de ces méthodes de distances. En effet, la différence relative entre la proportion de branches mal inférées par NJ+TripleML et NJ est de −11% , et cette différence est de −13% pour Weighbor+TripleML. Ces tests confirment aussi que FastDNAml est meilleur que NJ, puisque l’ écart relatif entre ces deux méthodes est de −26% . Ainsi, TripleML combiné avec NJ ( −11% ) ou avec Weighbor (−13% ) fournit des méthodes de reconstructions phylogénétiques dont les performances se situent à mi-chemin entre celles de NJ et celles de FastDNAml (−26% ). 3.5 Temps de calculs Afin d' avoir un ordre de grandeur des temps de calcul des différentes méthodes étudiées, nous les avons testées sur des jeux de données de tailles variables. Ces jeux de données contiennent 24 ou 96 séquences dont la longueur est soit 600 soit 1200 nucléotides. Les temps de calcul obtenus par chacune des méthodes sur un PC 466Mhz ayant 128 Mb de RAM sont résumés dans le tableau ci-dessous. Ces temps de calcul sont en partie spécifiques aux jeux de données testés, et doivent donc être uniquement considérés comme des indicateurs de la taille des jeux de données qu' une méthode est capable de traiter. 44 JOBIM 2002 TripleML : une méthode de reconstruction phylogénétique améliorant les méthodes de distances l = 600…... NJ/BioNJ Weighbor NJ/BioNJ + 3Dist Weighbor + 3Dist NJ + TripleML Weighbor + TripleML FastDNAml l = 1,200… NJ/BioNJ Weighbor NJ/BioNJ + 3Dist Weighbor + 3Dist NJ + TripleML Weighbor +TripleML FastDNAml n=24 n=96 <1s 1s 1s 1s 3s 4s 4min 44s 1s 1s 1s 2s 5s 7s 7min 40s 5s 1min 2s 12s 1min10s 55s 2min 8s 157min 9s 1min 4s 16s 1min 11s 1min 37s 3min 12s 385min TAB. 3 – Comparaison des temps de calcul. NJ et BioNJ ont les mêmes temps de calculs. Ce sont les deux méthodes les plus rapides, et la majeure partie de leur temps de calcul est liée à l’ estimation des distances initiales. Inversement, Weighbor passe davantage de temps à estimer la phylogénie à partir de la matrice initiale, et ses temps de calcul sont nettement supérieurs à ceux de NJ et de BioNJ. Par exemple, sur le plus gros jeu de données qui contient 96 séquences de 1200 nucléotides, Weighbor met environ 1 minute alors que NJ et BioNJ mettent seulement 9 secondes. L’ utilisation de 3Dist n’ augmente que très faiblement les temps de calcul. Pour le plus gros jeu de données, NJ et BioNJ utilisés avec 3Dist mettent environ 16 secondes (au lieu de 9 ) et l’ écart est à peine perceptible avec Weighbor qui met environ 1 minutes que 3Dist soit ou non utilisé. L’ utilisation de TripleML augmente de manière plus significative les temps de calculs. Sur le plus gros jeu de données, NJ+TripleML met environ 1.5 minute et Weighbor+TripleML environ 3 minutes. Cependant, sur le jeu contenant 96 séquences de 600 nucléotides, NJ+TripleML est plus rapide que Weighbor. Malgré les différences de temps de calcul qui existent entre ces méthodes, toutes sont visiblement capables de traiter des jeux de données beaucoup plus importants, ce qui n’ est pas le cas de FastDNAml qui met plus de six heures pour traiter le jeu contenant 96 séquences de 1200 nucléotides. 4 Conclusion Nous avons décrit TripleML, une méthode qui permet une meilleure estimation des distances évolutives. Cette approche utilise le même processus pour estimer les distances initiales et pour réduire la matrice de distances utilisée par NJ et ses variantes. Dans les deux cas, les distances sont estimées à partir d’ une optimisation locale de la vraisemblance basée sur les triplets de taxons (ou de groupes de taxons). La combinaison de TripleML avec NJ ou Weighbor fournit des méthodes rapides dont la capacité à reconstruire la bonne phylogénie est bien meilleure que celle des méthodes de distance usuelles. Les méthodes ainsi obtenues ont des performances intermédiaires entre celles de NJ utilisé seul et celles de FastDNAml. Nous avons également présenté une variante de TripleML, que nous appelons 3Dist, et qui n’ utilise notre mode d’ estimation des distances que pour calculer les distances initiales. Nos tests indiquent que 3Dist augmente de manière très sensible les performances des méthodes de distances. De plus l’ utilisation de 3Dist n’ augmente quasiment pas les temps de calcul et ne nécessite pas de modifier la méthode de distance avec laquelle on la combine. L’ augmentation des performances est moins spectaculaire qu’ avec TripleML, mais 3Dist est mieux adapté lorsque l’ on traite de très grands jeux de données contenant plusieurs milliers de séquences. Remerciements Nous tenons à remercier Stéphane Guindon qui nous a fourni le programme permettant de générer les arbres aléatoires utilisés au cours de nos simulations. JOBIM 2002 45 V. Ranwez et O. Gascuel Références [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] 46 BRUNO (W.J.), SOCCI (N.D.), et HALPERN (A.L.), «Weighted neighbor joining: a likelihood-based approach to distance-based phylogeny reconstruction», Mol. Biol. Evol., 17, n° 1, 2000, p. 189-97. FELSENSTEIN (J.), «Evolutionary trees from DNA sequences: a maximum likelihood approach», J. Mol. Evol. 17, n° 6, 1981, p. 368-76. FELSENSTEIN (J.), «PHYLIP (phylogeny inference package) version 3.5c», 1993. s, Saitou and Nei' s, and Studier and Keppler' s algorithms GASCUEL (O.) «A note on Sattath and Tversky' for inferring phylogenies from evolutionary distances», Mol. Biol. Evol., 11, n° 6, 1994, p. 961-3. GASCUEL (O.), «BIONJ: an improved version of the NJ algorithm based on a simple model of sequence data», Mol. Biol. Evol., 14, n° 7, 1997, p. 685-95. GUINDON (S.) et GASCUEL (O.) «Efficient biased estimation of evolutionary distances when substitution rates vary across sites », Mol. Biol. Evol., 19, n° 4, 2002, p. 534-43. HARDING (E.F.), «The probabilities of rooted-tree shapes generated by random bifurcation», Advances in Applied Probabilities, 3, 1971, p. 44-77. KIMURA (M.), «Estimation of evolutionary distances between homologous nucleotide sequences.», Proc. Nat. Acad. Sci., 78, 1981, p. 454-458. KUHNER (M.K.) et FELSENSTEIN (J.), «A simulation comparison of phylogeny algorithms under equal and unequal evolutionary rates», Mol. Biol. Evol., 11, n° 3, 1994, p. 459-68. LANAVE (C.) et al., «A new method for calculating evolutionary substitution rates», J. Mol. Evol., 20, n°1, 1984, p. 86-93. NEI (M.), «Relative efficiencies of different tree-making methods for molecular data. », dans Phylogenetic analysis of DNA sequences, M.M. Miyamoto and J. Cracraft, Editors, Oxford Univ. Press, 1991. OLSEN (G.J.) et al., «fastDNAmL: a tool for construction of phylogenetic trees of DNA sequences using maximum likelihood», Comput. Appl. Biosci., 10, n° 1, 1994, p. 41-8. OTA (S.) et LI (W.H.), «NJML: a hybrid algorithm for the neighbor-joining and maximum-likelihood methods», Mol. Biol. Evol., 17, n° 9, 2000, p. 1401-9. PRESS (W.H.) et al., «Numerical Recipies in C. The Art of scientific computing», Cambridge University Press,1988. RAMBAUT (A.) et GRASSLY (N.C.), «Seq-Gen: an application for the Monte Carlo simulation of DNA sequence evolution along phylogenetic trees», Comput. Appl. Biosci., 13, n° 3, 1997, p. 235-8. RANWEZ (V.) et GASCUEL (O.), «Quartet-based phylogenetic inference: improvements and limits», Mol. Biol. Evol., 18, n° 6, 2001, p. 1103-16. ROBINSON (D.F.) et FOULDS (L.R.), «Comparison of phylogenetic trees», Mathematical Biosciences, 53, 1981, p. 131-147. SAITOU (N.) et NEI (M.), «The neighbor-joining method: a new method for reconstructing phylogenetic trees», Mol Biol Evol, 4, n° 4, 1987, p. 406-25. SATTAH (S.) et TVERSKY (A.), «Additive similarity trees», Psychom, 42, 1977, p. 319-45. STRIMMER (K.) et VON HAESELER (A.), «Quartet puzzling: A quartet maximum-likelihood method for reconstructing tree topologies.», Mol. Biol. Evol., 13, n° 7, 1996, p. 964-69. STUDIER (J.A.) et KEPPLER (K.J.), «A note on the neighbor-joining algorithm of Saitou and Nei», Mol Biol Evol., 5, n° 6, 1988, p. 729-31. SWOFFORD (D.L.) et al., «Phylogenetic inference», dans Molecular Systematic, D. M. Hillis, C. Moritz, and B.K. Mable, Editors. Sinauer Associates: Massachusetts 1996. YULE (G.L.), «A mathematical theory of evolution based on the conclusions of Dr. J.C. Willis.», FRS PTRSB, 213, 1924, p. 21-87. JOBIM 2002