branche qui relie les deux taxons considérés. La vraisemblance de cet arbre se calcule de manière beaucoup plus
simple que dans le cas général d’un arbre à
taxons (un
-arbre), et l’ optimisation de sa vraisemblance est
aisée. Pour certains modèles d’évolution tels que le modèle de Kimura [8], il existe même une solution
analytique à ce problème d’ optimisation.
Au lieu d’ estimer la distance qui sépare le taxon
du taxon
en utilisant le
-arbre correspondant, nous
proposons d’estimer cette distance à partir d’ un
-arbre. Deux feuilles de cet arbre sont les taxons étudiés et la
troisième, que l’ on note
, est choisie de manière à prendre en compte les problèmes liés à l’ estimation des
longues branches. Les longueurs des trois branches de cet arbre sont fixées de manière à maximiser sa
vraisemblance, et sont ensuite utilisées pour affiner l’ estimation de δ
. Ce
-arbre est obtenu en reliant les
taxons
,
et
à un ancêtre commun
grâce à trois branches dont les longueurs sont respectivement δ
,δ
et
δ
. La distance δ
est ensuite estimée par δ δ δ
ij ai a
= + . La qualité de cette estimation dépend du troisième
taxon que l’on a choisi. Utiliser tous les 3-arbres contenant
et
est trop coûteux en temps de calcul. Il faut
donc choisir a priori un troisième taxon permettant d’obtenir un bon estimateur δ
. Dans notre approche, les
distances initiales entre deux taxons
et
sont donc estimées en deux étapes : dans un premier temps, ces
distances sont estimées de manière classique en utilisant le maximum de vraisemblance sur le 2-arbre
correspondant. Ces premières estimations sont ensuite utilisées pour sélectionner pour chaque paire
un
troisième taxon permettant d’améliorer l’ estimation de δ
. La distance δ
est alors ré-estimée en utilisant le
maximum de vraisemblance sur le 3-arbre contenant ces trois taxons.
Utiliser un troisième taxon
permet de disposer de plus d’informations pour estimer la distance δ
qui sépare
les taxons
et
. Ce phénomène est souligné par Swofford et al. [22]. Pour obtenir une phylogénie plus fiable
sur un ensemble de taxons, ils conseillent d’utiliser des taxons supplémentaires de manière à couper les longues
branches à peu près en leur milieu, de reconstruire la phylogénie de cet ensemble plus large de taxons, puis
d’ enlever les taxons supplémentaires de la phylogénie ainsi obtenue. En s’ appuyant sur cette remarque, nous
cherchons un taxon
qui coupe la branche
en un point proche de son milieu, ce que nous mesurons par
δ δ
ik jk
−
en utilisant les premières estimations des distances. Lorsque l’ on coupe ainsi la branche
, on
crée un nœ ud interne
et une nouvelle branche
. Si l’ on coupe une longue branche en utilisant une autre
longue branche, il est peu probable que l’ estimation de δ
soit réellement améliorée. On souhaite donc aussi que
le taxon
soit proche de
et de
, ce que nous mesurons par δ δ
ik
. Ces deux mesures sont du même ordre,
puisqu’ elles correspondent toutes les deux à un produit de distances. Pour estimer δ
, nous cherchons donc le
taxon
qui minimise
)
δ δ δ δ
ik jk ik
− +
. Il est facile de voir que ce critère est minimal lorsque δ δ
ai
= et
que δ
=
. Ce critère est donc minimal dans le cas idéal où il existe un taxon équidistant de
et
dont la
séquence est connue. D’ autres critères sont possibles, nous en avons testé de nombreux, mais nous n’en avons
trouvé aucun qui permette d’ obtenir de meilleurs résultats que ceux obtenus avec le critère simple donné ci-
dessus.
Après chaque agglomération, de nouvelles distances δ
sont estimées. NJ, BioNJ et Weighbor estiment ces
distances à partir de la formule (6), ou de formules analogues utilisant une moyenne pondérée de distances. Dans
TripleML, l’estimation de ces distances est faite d’une manière analogue à celle utilisée pour estimer les
distances initiales. Une agglomération induit un nouveau sous-arbre, et l’ on cherche à estimer les distances qui
séparent ce nouveau sous-arbre de ceux déjà existants. La distance qui sépare un sous-arbre
, ayant le noeud
pour racine, et le sous-arbre
, ayant
pour racine, peut être estimée à partir de la phylogénie
i
∪ obtenue
à partir de
et de
en ajoutant la branche
(Fig 1.a). Les longueurs des branches de
i
∪ pourraient
être ajustées de manière à maximiser sa vraisemblance. On obtiendrait ainsi, non seulement l’ estimation de δ
que l’ on cherche, mais aussi de nouvelles estimations des longueurs de branches de
et de
. Cependant,
pour conserver un temps de calcul raisonnable, nous avons choisi de ne pas remettre en question les estimations
des longueurs des branches de
et de
qui ont été obtenues lors des étapes précédentes. Au lieu d’optimiser
globalement la vraisemblance de
i
∪, nous optimisons localement cette vraisemblance uniquement par
rapport à δ
.
V. Ranwez et O. Gascuel
JOBIM 200240