TripleML : une amélioration des méthodes de distance pour l

TripleML : une méthode de reconstruction phylogénétique améliorant les méthodes de distancesV. Ranwez et O. GascuelJOBIM 2002

TripleML : une amélioration des méthodes de distance pour

l’inférence phylogénétique, grâce à une approche locale du

maximum de vraisemblance basée sur les triplets

TripleML: an improvement of distance based phylogenetic

reconstruction methods thanks to a local maximum

likelihood approach using triplets

Vincent RANWEZ† Olivier GASCUEL†

† LIRMM, 161 rue Ada, 34392 Montpellier Cedex 5 -FRANCE

Courriel : {ranwez,gascuel}@lirmm.fr

Résumé

Cet article décrit une nouvelle approche pour l’estimation de la distance évolutive entre deux séquences. Cette

approche utilise un arbre contenant trois feuilles. Deux de ces feuilles correspondent aux séquences étudiées, et

la troisième est choisie de manière à prendre en compte les problèmes liés à l’estimation des longues branches.

Les longueurs des branches de cet arbre sont ajustées de manière à optimiser sa vraisemblance, et sont ensuite

utilisées pour déduire la distance recherchée. Cette approche, que nous appelons TripleML, améliore

l’estimation des distances évolutives et donc la qualité des phylogénies reconstruites par les méthodes de

distances. Avec des méthodes telles que NJ, TripleML peut être utilisée à la fois pour calculer la matrice de

distances initiale et pour estimer les nouvelles distances après chaque agglomération. Des simulations

informatiques indiquent que TripleML permet d’augmenter de manière significative les performances de NJ,

BioNJ et Weighbor, tout en conservant des temps de calculs raisonnables. Sur des arbres à

taxons générés

aléatoirement à partir de paramètres réalistes, l’utilisation de TripleML réduit le nombre de branches mal

inférées par NJ d’environ

11%

(contre

pour BioNJ et

pour Weighbor). De plus, la méthode ainsi

obtenue traite un jeu de donnée de

séquences contenant chacune

1200

nucléotides en moins de deux minutes,

alors que sur la même machine (un PC 466Mhz), FastDNAml met plus de six heures pour traiter ces données.

Mots-clés : reconstruction phylogénétique, distance évolutive, maximum de vraisemblance, méthode de triplets.

Abstract

This article describes a new approach to estimate the evolutionary distance between two sequences. This

approach uses a tree with three leaves, two of them correspond to the studied sequences while the third is chosen

to handle long distance estimations. The branch lengths of this tree are obtained by likelihood maximization, and

then used to deduce the desired distance. This approach, called TripleML, improves the precision of

evolutionary distance estimates, and thus the topological accuracy of phylogenies inferred by distance based

methods. TripleML can be used with NJ-like methods not only to compute the initial distance matrix, but also to

estimate new distances encountered during the agglomeration process. Computer simulations indicate that using

TripleML significantly improves the performance of NJ, BioNJ and Weighbor, while conserving a reasonable

computation time. With randomly generated

-taxon trees and realistic parameter values, combining NJ with

TripleML reduces the number of wrongly inferred branches by about

11%

(against

and

for BioNJ and

Weighbor, respectively). Moreover, this combination requires only about one minute and a half to infer a

phylogeny of 96 sequences made of 1200 nucleotides, against six hours for FastDNAml on the same machine

(PC 466 Mhz).

Keywords: : phylogenetic reconstruction, evolutionary distance, maximum likelihood, triplet method.

1 Introduction

L’utilisation d’un modèle stochastique de l’évolution permet de définir la vraisemblance d’une histoire

évolutive. Lorsque l’on étudie un ensemble important de séquences, il n’est pas possible d’estimer en un temps

raisonnable la vraisemblance de toutes les histoires évolutives possibles. Pour contourner ce problème, on utilise

généralement une approche heuristique afin de n’étudier qu’un sous-ensemble prometteur de phylogénies.

Lorsque le nombre de séquences étudiées est faible, les méthodes de maximum de vraisemblance permettent

JOBIM 2002 37

d’ inférer en un temps raisonnable une phylogénie dont la topologie est fiable [9, 16]. Malheureusement, les

temps de calcul deviennent vite inacceptables lorsque la taille des données augmente. Ainsi, malgré de

nombreuses améliorations dont celle décrite dans [12], les méthodes de maximum de vraisemblance restent si

lentes qu’elles peuvent seulement traiter des jeux de données de faible taille. Par contre, il est très rapide de

calculer (au sens du maximum de vraisemblance) l'ensemble des distances entre chaque couple de séquences

contemporaines et il existe des algorithmes efficaces pour reconstruire un arbre phylogénétique à partir de ces

distances.

L'algorithme NJ introduit par Saitou et Nei [18] est la méthode la plus populaire pour reconstruire un arbre

phylogénétique à partir d'une matrice de distances évolutives. Cet algorithme suit le procédé agglomératif,

introduit par Sattah et Tversky [19], qui, à chaque étape, sélectionne une paire de taxons à agglomérer. Lors de

cette agglomération, le nouveau nœud créé remplace les deux nœuds sélectionnés, et la matrice de distances est

réduite en remplaçant les distances aux deux nœuds agglomérés par celles au nouveau nœud créé. NJ a une faible

complexité en temps de calcul, ce qui lui permet de traiter de très grands jeux de données. De nombreuses

simulations informatiques [9, 11, 13] ont montré que NJ est une méthode de reconstruction phylogénétique

relativement fiable.

Des variantes de NJ ont été développées, notamment BioNJ [5] et Weighbor [1]. D’ autres méthodes de distances,

utilisant une approche différente, ont été proposées. La plus connue est la méthode dite des moindres carrés

pondérés qui est implémentée dans le programme FITCH [2]. Néanmoins, la topologie des arbres inférés par ces

méthodes de distances est moins fiable que celle des arbres reconstruits par maximum de vraisemblance.

Il est donc capital de disposer de méthodes intermédiaires permettant d’obtenir des résultats plus fiables que

ceux de NJ, en un temps qui reste raisonnable, même pour des jeux de données de taille importante. Une

possibilité, proposée par Ota et Li [13], est d’ utiliser une méthode de distance pour restreindre l’espace dans

lequel on cherche l’arbre de vraisemblance maximal. Une autre approche largement explorée, notamment par

[20], est de combiner des arbres obtenus par maximum de vraisemblance sur des sous-ensembles ne contenant

que 4 taxons, pour inférer une phylogénie sur un ensemble plus large de taxons. Ces méthodes de quadruplets

semblent prometteuses, mais leurs performances actuelles restent décevantes [16].

Nous proposons une approche différente. Il est clair que pour toutes les méthodes de distances, l’estimation des

distances évolutives est un point crucial. Comme nous allons le voir, ces distances peuvent être mieux estimées

grâce à l’ utilisation d’une approche locale du maximum de vraisemblance sur des triplets de taxons. Dans la

suite, nous rappelons le principe de NJ et de ses variantes, et nous expliquons comment l’ estimation des

distances utilisées par ces méthodes peut être améliorée. Des simulations informatiques sont ensuite utilisées

pour étudier la contribution de notre approche.

2 Méthodes

2.1 Calcul de la vraisemblance d’une phylogénie

Dans tout ce qui suit nous supposons que le modèle d’évolution utilisé est le "general time reversible model"

(GTR) [10], qui généralise les modèles les plus couramment utilisés tel que le modèle F84 [3] ou le modèle de

Kimura à deux paramètres [8]. Pour ce type de modèle, la vraisemblance d’une phylogénie

se calcule par

récurrence. Elle ne dépend pas de la place de la séquence ancestrale, et chaque site peut être traité de manière

indépendante [22]. La probabilité d’ observer les

séquences de longueur

associées aux feuilles de

est le

produit des probabilités d’observer chacun des

sites. En notant

la séquence ancestrale (que l’on ne connaît

pas), π

la probabilité que le nucléotide

soit le nucléotide ancestral, et

S b T

( ;

)

= la probabilité que ce

nucléotide

ait évolué pour donner les

nucléotides observés aux sites

des feuilles de

, alors la probabilité

associée au site

par rapport au nucléotide

est le produit de π

et de

S b T

( ;

)

=. Ainsi la vraisemblance de

l’ arbre

, dont la topologie et les longueurs de branches sont connues, est obtenue par la formule suivante

T L S b T

b a

b A C G Ts

( ) ( ;

)

= =

∈=

∑∏ π

. (1)

Le terme

S b T

(

;

)

= est calculé de manière récursive. Supposons que l’ arbre

est constitué de deux sous-

arbres

, dont les séquences ancestrales sont respectivement

. Dans ce cas, la vraisemblance de

se calcule à partir de celles de

et de

. Si, pour un taux d’évolution δ, on note

( )

δ la probabilité

qu’ un nucléotide

devienne

, on a alors

S b T P L S c T

bc ax x

c A C G Tx i j

(

;

)

(

)

(

;

)

= = =

∈∈

∑∏ δ, (2)

V. Ranwez et O. Gascuel

JOBIM 200238

où δ

représente le taux d’évolution (i.e. la longueur de la branche) entre

, avec

= ou

=. De

manière similaire, la vraisemblance de

est calculée à partir de celles de ses sous-arbres. La récurrence s’ arrête

lorsque le sous-arbre est réduit à une seule feuille, notée

. Cette feuille est associée à une séquence

contemporaine connue qui définit la vraisemblance de

L S

( ; )

= = =

= =

sinon (3)

2.2 NJ et ses variantes

Dans ce qui suit, nous présentons la version simplifiée de NJ due à Studier et Keppler [21]. Gascuel [4, 5]

montre la validité et l’ équivalence de cette version et de la version originale de NJ.

À chaque étape, NJ utilise une matrice de distance (δ

) où

(respectivement

) représente soit une des

séquences étudiées, soit un sous-arbre contenant plusieurs séquences. À partir de ces distances, deux sous-arbres

sont sélectionnés et sont regroupés dans un même ensemble. Ils perdent alors leur identité et constituent

désormais un seul et unique sous-arbre. Au départ, chaque sous-arbre est constitué d’un seul taxon, et la

dimension de la matrice, notée

, est donc égale aux nombres

de taxons étudiés. A chaque agglomération,

deux sous-arbres sont fusionnés, réduisant ainsi le nombre de sous-arbres restant et la dimension de la matrice de

distance. Si l’on note

la valeur du critère correspondant à l'agglomération des sous-arbres

(éventuellement réduits à un seul taxon), alors la paire à agglomérer est celle qui minimise

= − − −

(

)

δ ∆ ∆ avec ∆x x

∑δ

. (4)

Une fois que la paire

{ ,2}1

à agglomérer est sélectionnée, NJ crée un nouveau nœ ud

qui représente la racine du

nouveau sous-arbre. Puis, NJ estime la longueur des branches

( , )1 i

( , )2 i

en utilisant les formules suivantes :

δ δ δ δ

i i

= + −

−





= + −

−







∆ ∆ ∆ ∆

et . (5)

Enfin, NJ réduit la matrice de distances en enlevant toutes les distances associées à 1 ou à 2, et en estimant les

distances entre le nouveau nœ ud

et tout autre nœ ud

, en utilisant la formule suivante :

δ δ δ δ δ

ij j i j i

= − + −

1 1 2 2

( ) (

)

. (6)

Le processus continue jusqu’ à ce que

, la longueur de la dernière branche étant alors égale à la dernière

valeur contenue dans la matrice de distance. Les variantes de NJ peuvent utiliser d’autres manières d’ estimer δ

et δ

, et elles peuvent même utiliser un critère d’agglomération différent. Toutes ces méthodes partagent

cependant le même schéma agglomératif décrit ci-dessus.

Quand les sous-arbres

sont agglomérés en un nouveau sous-arbre

, les nouvelles distances δ

peuvent

être estimées par n’ importe quelle combinaison convexe de (δ δ

−) et de (δ δ

−). NJ suppose

implicitement que les deux estimations se valent et leur accorde le même poids (

1 2/

). BioNJ choisit ces poids de

manière à obtenir l’ estimateur de δ

dont la variance est minimale. Les agglomérations suivantes se font donc

en s’appuyant sur de meilleures estimations des distances. BioNJ est aussi rapide que NJ et améliore les

performances de ce dernier. La différence entre les deux méthodes est surtout sensible lorsque l’horloge

moléculaire n’ est pas respectée [5].

Weighbor utilise un critère d’ agglomération différent de celui de NJ. Ce critère prend en compte le fait que les

distances les plus grandes sont les moins bien estimées. Pour cela, les estimations des distances sont modélisées

par des variables normales. Cette modélisation est utilisée pour sélectionner la paire à agglomérer et pour réduire

la matrice de distances. Weighbor est moins sensible au phénomène d’ attraction des longues branches que NJ et

BioNJ [1].

2.3 TripleML

Pour toutes ces méthodes l’ estimation des distances joue un rôle capital. Dans une méthode agglomérative, il y a

deux types d’ estimation de distances. La première est l’estimation des distances initiales. La seconde est

l’ estimation des distances qui séparent un nouveau sous-arbre des sous-arbres existants, lors de l’ étape de

réduction. Comme nous allons le voir, notre approche permet d’améliorer ces deux types d’estimations.

L’estimation de la distance δ

, qui sépare deux taxons contemporains

, est généralement obtenue en

optimisant la vraisemblance de « l’ arbre » qui contient ces deux taxons. Cet arbre très simple contient une seule

TripleML : une méthode de reconstruction phylogénétique améliorant les méthodes de distances

JOBIM 2002 39

branche qui relie les deux taxons considérés. La vraisemblance de cet arbre se calcule de manière beaucoup plus

simple que dans le cas général d’un arbre à

taxons (un

-arbre), et l’ optimisation de sa vraisemblance est

aisée. Pour certains modèles d’évolution tels que le modèle de Kimura [8], il existe même une solution

analytique à ce problème d’ optimisation.

Au lieu d’ estimer la distance qui sépare le taxon

du taxon

en utilisant le

-arbre correspondant, nous

proposons d’estimer cette distance à partir d’ un

-arbre. Deux feuilles de cet arbre sont les taxons étudiés et la

troisième, que l’ on note

, est choisie de manière à prendre en compte les problèmes liés à l’ estimation des

longues branches. Les longueurs des trois branches de cet arbre sont fixées de manière à maximiser sa

vraisemblance, et sont ensuite utilisées pour affiner l’ estimation de δ

. Ce

-arbre est obtenu en reliant les

taxons

à un ancêtre commun

grâce à trois branches dont les longueurs sont respectivement δ

,δ

. La distance δ

est ensuite estimée par δ δ δ

ij ai a

= + . La qualité de cette estimation dépend du troisième

taxon que l’on a choisi. Utiliser tous les 3-arbres contenant

est trop coûteux en temps de calcul. Il faut

donc choisir a priori un troisième taxon permettant d’obtenir un bon estimateur δ

. Dans notre approche, les

distances initiales entre deux taxons

sont donc estimées en deux étapes : dans un premier temps, ces

distances sont estimées de manière classique en utilisant le maximum de vraisemblance sur le 2-arbre

correspondant. Ces premières estimations sont ensuite utilisées pour sélectionner pour chaque paire

{ , }

i j

troisième taxon permettant d’améliorer l’ estimation de δ

. La distance δ

est alors ré-estimée en utilisant le

maximum de vraisemblance sur le 3-arbre contenant ces trois taxons.

Utiliser un troisième taxon

permet de disposer de plus d’informations pour estimer la distance δ

qui sépare

les taxons

. Ce phénomène est souligné par Swofford et al. [22]. Pour obtenir une phylogénie plus fiable

sur un ensemble de taxons, ils conseillent d’utiliser des taxons supplémentaires de manière à couper les longues

branches à peu près en leur milieu, de reconstruire la phylogénie de cet ensemble plus large de taxons, puis

d’ enlever les taxons supplémentaires de la phylogénie ainsi obtenue. En s’ appuyant sur cette remarque, nous

cherchons un taxon

qui coupe la branche

( , )

i j

en un point proche de son milieu, ce que nous mesurons par

(

)

δ δ

ik jk

−

en utilisant les premières estimations des distances. Lorsque l’ on coupe ainsi la branche

( , )

i j

, on

crée un nœ ud interne

et une nouvelle branche

( , )

a k

. Si l’ on coupe une longue branche en utilisant une autre

longue branche, il est peu probable que l’ estimation de δ

soit réellement améliorée. On souhaite donc aussi que

le taxon

soit proche de

et de

, ce que nous mesurons par δ δ

. Ces deux mesures sont du même ordre,

puisqu’ elles correspondent toutes les deux à un produit de distances. Pour estimer δ

, nous cherchons donc le

taxon

qui minimise

(

)

δ δ δ δ

ik jk ik

− +

. Il est facile de voir que ce critère est minimal lorsque δ δ

= et

que δ

. Ce critère est donc minimal dans le cas idéal où il existe un taxon équidistant de

dont la

séquence est connue. D’ autres critères sont possibles, nous en avons testé de nombreux, mais nous n’en avons

trouvé aucun qui permette d’ obtenir de meilleurs résultats que ceux obtenus avec le critère simple donné ci-

dessus.

Après chaque agglomération, de nouvelles distances δ

sont estimées. NJ, BioNJ et Weighbor estiment ces

distances à partir de la formule (6), ou de formules analogues utilisant une moyenne pondérée de distances. Dans

TripleML, l’estimation de ces distances est faite d’une manière analogue à celle utilisée pour estimer les

distances initiales. Une agglomération induit un nouveau sous-arbre, et l’ on cherche à estimer les distances qui

séparent ce nouveau sous-arbre de ceux déjà existants. La distance qui sépare un sous-arbre

, ayant le noeud

pour racine, et le sous-arbre

, ayant

pour racine, peut être estimée à partir de la phylogénie

∪ obtenue

à partir de

et de

en ajoutant la branche

( , )

i j

(Fig 1.a). Les longueurs des branches de

∪ pourraient

être ajustées de manière à maximiser sa vraisemblance. On obtiendrait ainsi, non seulement l’ estimation de δ

que l’ on cherche, mais aussi de nouvelles estimations des longueurs de branches de

et de

. Cependant,

pour conserver un temps de calcul raisonnable, nous avons choisi de ne pas remettre en question les estimations

des longueurs des branches de

et de

qui ont été obtenues lors des étapes précédentes. Au lieu d’optimiser

globalement la vraisemblance de

∪, nous optimisons localement cette vraisemblance uniquement par

rapport à δ

V. Ranwez et O. Gascuel

JOBIM 200240

δa

δij

(

FIG. 1 – Estimation de la distance δ

séparant

Une meilleure estimation de δ

peut être obtenue en utilisant un troisième sous-arbre

dont la racine est le

nœ ud

. Dans ce cas on considère la phylogénie

T T

i j

∪ ∪ obtenue à partir de

en reliant les trois

nœ uds

à un nouveau nœ ud

grâce à trois branches de longueurs respectives δ

,δ

et δ

(Fig 1.b).

Ces trois longueurs sont alors ajustées de manière à maximiser la vraisemblance de

T T

i j

∪ ∪ et la distance

est ré-estimée par δ δ δ

ij ai a

= + .

Ainsi, lors de la création par agglomération d’un nouveau sous-arbre

, les distances δ

le séparant des autres

sous-arbres

sont estimées en deux étapes. Dans un premier temps, ces distances sont estimées en optimisant

localement la vraisemblance

∪. Ces premières estimations sont ensuite utilisées pour sélectionner pour

chaque paire T T

i j

un troisième sous-arbre

permettant d’améliorer ces premières estimations. Le sous-

arbre

est sélectionné en utilisant le même critère que pour choisir le taxon

lors de l’ estimation des

distances initiales, et la distance δ

est alors ré-estimée en optimisant localement la vraisemblance de

T T

i j

∪ ∪ . On voit donc que l’ estimation de la distance entre deux taxons contemporains est un cas particulier

de l’estimation de la distance entre deux sous-arbres

ayant respectivement comme racines les nœ uds

2.4 Optimisation locale de la vraisemblance

La première estimation de la distance δ

qui sépare les sous-arbres

(éventuellement réduits à une seule

feuille) se fait en optimisant localement la vraisemblance de

= ∪ (Figure 1.a). En supposant que

est la

séquence ancestrale, cette vraisemblance est définie à partir des équations (1), (2) et (3) par :

T L S b T P L S c T

b isi bc ij j

c A C G Tb A C G Ts

( ) ( ; ) ( ) ( ;

)

= = =

∈∈=

∑∑∏ π δ

. (11)

La seconde estimation se fait ensuite en optimisant localement la vraisemblance de

T T T

i j

= ∪ ∪ (Figure

1.b). En supposant que

est la séquence ancestrale, cette vraisemblance vaut :

T P L S c T

b bc ax x

c A C G Tx i j kb A C G Ts

( )

(

)

(

;

)

= =

∈∈∈=

∑∏∑∏ π δ

. (12)

Pour pouvoir calculer ces vraisemblances, il est donc nécessaire de connaître les valeurs

S c T

(

;

)

L’ensemble de ces valeurs constitue le « vecteur de vraisemblance » de

que nous notons

V T

(

)

. Ce vecteur

TripleML : une méthode de reconstruction phylogénétique améliorant les méthodes de distances

JOBIM 2002 41

1 / 10 100%

Documents connexes

La vitesse - Commune de Tintigny

Fiche d`attendus

Les mouvements rectilignes uniformes

Règles du théâtre classique au XVIIe siècle

Respecter les distances de sécurité

resumé

Partie 1 : exploration de l`espace Chapitre 2 : Lumière et mesures de

Puissances de 10 et astronomie

Le réchauffement climatique vu par les CE2/CM1 de l`école d

LES DISTANCES AU SEIN DU SYSTÈME SOLAIRE Des unités pour

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

TripleML : une amélioration des méthodes de distance pour l

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

TripleML : une amélioration des méthodes de distance pour l

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib