HGT-Simulator : logiciel pour simuler des transferts

publicité
HGT-Simulator : logiciel pour simuler des transferts horizontaux
de gènes
Dung Nguyen, Alix Boc et Vladimir Makarenkov
Département d'informatique,
Université du Québec à Montréal,
Case postale 8888, succursale Centre-ville
Montréal (Québec) Canada, H3C 3P8
RÉSUMÉ. Le problème de la détection et de la classification de transferts horizontaux de gènes (i.e. transferts
latéraux de gènes) est parmi les plus ardus en biologie moléculaire. Dans cet article nous présentons un logiciel,
appelé HGT-Simulator, permettant de simuler un modèle d’évolution comprenant les transferts horizontaux de
gènes. Des transferts aléatoires sont générés entre les branches d’un arbres phylogénétique donné tout en
respectant le modèle stochastique d’évolution choisi. Ce logiciel a été employé pour tester notre nouvelle méthode
de détection des transferts horizontaux.
MOTS-CLÉS : arbre phylogénétique, transfert horizontal de gène, modèle d’évolution stochastique, évolution
réticulée.
1
Introduction
L’évolution des êtres vivants a longtemps été modélisé uniquement à l’aide des arbres phylogénétiques
(i.e. arbres additifs). Dans un arbre phylogénétique deux espèces sont toujours reliées par un chemin
passant par leur ancêtre commun. Un tel modèle ne peut inclure des scénarios d’évolution réticulée
comprenant les transferts horizontaux de gènes et l’hybridation. La recombinaison homologue,
l’hybridation, le transfert latéral de gènes, la duplication d’un gène suivie de sa perte et l’évolution
convergente sont les principaux mécanismes d’évolution réticulée [LEG 02]. Les deux premiers
phénomènes peuvent être représentés seulement à l’aide des modèles en réseaux, tandis que les trois
derniers nécessitent plus d’un arbre phylogénétique pour leur représentation.
Le transfert horizontal consiste en un échange direct de matériel génétique d’une lignée à une autre
[DOO 99]. Il est très fréquent chez les procaryotes. Bactéries et Archéobactéries ont développé des
mécanismes sophistiqués pour acquérir rapidement de nouveaux gènes à l’aide du transfert latéral. Ces
mécanismes ont été favorisés par la sélection naturelle par rapport à l’évolution génétique par mutations.
Les trois principaux mécanismes de transfert de gènes sont les suivantes : la transformation par
acquisition d’ADN directement de l’environnement, la conjugaison qui est enclenchée par des plasmides
conjugaux ou par des transposons conjugaux et la transduction par transfert d’ADN par phage. Ces
mécanismes peuvent introduire des séquences d’ADN de l’espèces donneur ayant très peu de similarité
avec le reste de l’ADN de l’espèce hôte.
Plusieurs méthodes pour modéliser et détecter les transferts horizontaux sont disponibles : Page et
Charleston [PAG 98] ont décrit un ensemble de règles d’évolution qui doivent être prises en compte lors
de la modélisation des transferts, Mirkin, Muchnik et Smith [MIR 95] ont décrit une méthode de
réconciliation d’arbres permettant de combiner plusieurs phylogénies de gènes en arbre d’espèces
unique, Hallet et Lagergren [HAL 01] ont proposé un modèle de détection de transferts permettant
d’inscrire les phylogénies de gènes en phylogénie d’espèces. Par ailleurs, Boc et Makarenkov [BOC 03]
et Makarenkov, Boc et Diallo [MAK 04] ont introduit deux méthodes de détection impliquant des
scénarios unique et multiples des transferts horizontaux.
Dans cet article nous décrivons un outil de simulation des transferts latéraux de gènes permettant
aux chercheurs de générer les transferts à l’intérieur d’un arbre phylogénétique donné. Ce programme
incluant de nombreux modèles d’évolution connus peut être utilisé pour comparer les méthodes
d’inférence de transferts horizontaux. Les règles biologiques pertinentes spécifiées dans [PAG 98] et
[MAK 05] ont été incorporées dans le modèle implanté. Ce logiciel a premièrement été utilisé dans les
simulations statistiques [MAK 05] effectuées pour tester une nouvelle méthode de détection de transferts
latéraux.
2
Description du logiciel HGT-Simulator
Notre logiciel de génération des transferts horizontaux utilise les résultats du logiciel Seq-Gen [RAM
97]. Seq-Gen est un programme permettant de simuler l’évolution de séquences d’ADN le long d’une
phylogénie donnée. Seq-Gen inclut plusieurs modèles stochastiques d’évolution ayant faits leurs preuves
en analyse phylogénétique.
La nouvelle application HGT-Simulator étend la possibilité initiale de Seq-Gen de modéliser
l’évolution arborescente en se basant sur les principes de réseaux réticulés [LEG 02]. À son entrée HGTSimulator récupère les séquences associées aux nœuds de l’arbre initial qui ont été simulées par SeqGen. En fonction du nombre de transferts et du modèle d’évolution des séquences d’ADN choisis par
l’utilisateur, le programme génère les transferts en affichant à sa sortie la liste des transferts engendrés,
l’arbre modifié suite à ces transferts, de même que les nouvelles séquences d’ADN associées aux nœuds
de cet arbre modifié.
racine
0
5
1
6
2
7
01/10
TTTATGACCA
3
4
TTTATGATCA
8
transfert
T1
T2
T3
T4
T5
T6
T7
T8
T9
T10
TTTATGAACA
TTTATGATAA
Figure 1. Transfert horizontal entre les branches (3, T2) et (7, 8) a eu lieu. Ce transfert explique la
ressemblance entre les séquences associées aux nœuds 3 et T2 d’un côté et aux nœuds 8, T8 et T9 de l’autre.
Notre procédure algorithmique se divise en trois étapes principales :
Étape 1. Identifier un transfert (i.e. deux branches de l’arbre) en respectant les règles d’évolution.
Étape 2. Générer les séquences associées aux nœuds dans le sous-arbre affecté par le transfert. La figure
1 montre un transfert horizontal entre les branches (3, T2) et (7, 8). Ce transfert affecte tout d’abord le
nœud 8 (la séquence associée au nœud 8 a maintenant seulement une différence par rapport à la
séquence associée au nœud 3) ainsi que les feuilles T8 et T9. L’algorithme choisit arbitrairement
l’emplacement du départ du transfert sur la branche d’origine (3, T2) de même que l’emplacement de
son arrivée sur la branche cible (7, 8). Une nouvelle distance entre les nœuds 3 et 8 est calculée en
fonction de ces emplacements et du modèle d’évolution retenu. Ici une seule différence existe entre les
séquences d’ADN TTTATGACCA et TTTATGATCA associées respectivement aux nœuds 3 et 8. Dans
ce modèle, nous supposons que le gène de l’espèce donneur remplace complètement le gène homologue
de l’hôte en transformant la phylogénie de départ en un arbre phylogénétique différent (figure 2).
Étape 3. Reprendre Étape 1 tant qu’il reste des transferts à engendrer.
Racine
Racine
b
Transfert
complet
a
i
j
(a)
k
i
j
k
(b)
Figure 2. Modèle du transfert complet. Le gène de l’espèce donneur remplace le gène homologue de l’hôte ce
qui transforme la phylogénie initiale (a) en arbre phylogénétique différent (b).
De plus, l’introduction de quelques règles d’évolution de base est nécessaire afin de renforcer la
plausibilité biologique du modèle (voir [PAG 98] pour plus de détails sur ces règles). Par exemple, les
transferts impliquant des espèces appartenant à la même lignée doivent être interdits (figure 3).
Racine
Figure 3. Transferts horizontaux sur la même lignée sont interdits.
Finalement, HGT-Simulator préserve naturellement les caractéristiques de fluctuations stochastiques de
Seq-Gen, mais apporte en plus une nouvelle dimension permettant de simuler les transferts horizontaux.
Une seconde version du programme, indépendante de Seq-Gen, a aussi été développée. Cette version
permet de simuler les transferts horizontaux pour un ensemble de phylogénies aléatoires qui peuvent
être engendrées par le programme. Les séquences peuvent être générées selon 3 modèles d’évolution :
Jukes-Cantor [JUK 69], Kimura 2 paramètres [KIM 80] et Jin-Nei [JIN 90]. À l’entrée, ce programme
prend le nombre d’espèces, la taille des séquences, le nombre de transferts, le nombre d’arbres à
considérer et le modèle d’évolution. À la sortie, il fournit les matrices de distance entre les feuilles des
arbres modifiés par les transferts ainsi que la liste de transferts obtenue pour chaque arbre.
3
Utilisation du logiciel HGT-Simulator dans une étude Monte-Carlo
Une étude Monte-Carlo a été effectuée pour tester les performances d’une nouvelle méthode [MAK 05]
de détection de transferts latéraux. Nous avons examiné comment la procédure d’inférence des transferts
se comporte dépendamment du modèle d’évolution des séquences d’ADN et du nombre d’espèces. Les
résultats présentés sur la figure 4 ont été obtenus pour des arbres phylogénétiques binaires ayant 8, 16,
24, 32, 48 et 64 feuilles (i.e. espèces). Dans chaque cas, une vraie topologie d’arbre T, a été obtenue
aléatoirement en utilisant la procédure de génération d’arbres proposée par [KUH 94]. Les longueurs des
branches de T ont été calculées à l’aide d’une loi exponentielle. Suivant l’approche décrite dans [GUI
02], nous avons ajouté du bruit sur les branches des vraies phylogénies pour créer une déviation de
l’hypothèse de l’horloge moléculaire. Toutes les longueurs des branches de T ont été multipliées par le
coefficient 1+ax, où la variable x a été obtenue d’une distribution exponentielle standard (P(x>k) = exp(k)) et la valeur de la constante a a été fixée à 0.8. Les arbres générés par une telle procédure ont la
profondeur O(log (n)), où n est le nombre d’espèces. Chaque arbre phylogénétique enraciné a par la
suite été soumis à HGT-Simulator qui, à son tour, a simulé l’évolution des séquences d’ADN le long de
ses branches. Les modèles d’évolution de Jukes et Cantor [JUK 69], de Kimura 2 paramètres [KIM 80]
et de Jin-Nei Gamma [JIN 90] ont été considérés. Par la suite, la procédure de génération de transferts a
engendré des transferts horizontaux de gène tout en respectant les règles d’évolution spécifiées dans la
section précédente. Un seul transfert par arbre a été engendré dans cette étude. HGT-Simulator a
régénéré des séquences d’ADN pour chaque nœud de l’arbre situé sous la branche affectée par un
transfert (i.e. dans le sous-arbre qui a changé sa place dans la phylogénie à cause d’un transfert latéral).
Pour chaque taille de données, 500 phylogénies aléatoires différentes ont été examinées. La méthode NJ
[SAT 87] a été utilisée pour reconstruire les arbres de gène à partir des distances obtenues des séquences
terminales (i.e. séquences associées aux feuilles) ; les vraies phylogénies T, utilisées comme arbres
d’espèces, ont été supposées connues.
100
Pourcentage de détection
99
98
97
96
Kimura-2-p
95
Jin-Nei
94
Jukes-Cantor
93
92
91
90
8
16
24
32
48
64
Nombre d'espèces
Figure 4. Pourcentage de détection des transferts horizontaux obtenus en utilisant la distance topologique de
Robinson et Foulds (RF) comme critère d’optimisation pour réconcilier les topologies de gène et d’espèces
[MAK 05]. Tests ont été effectués avec des arbres ayant de 8 à 64 feuilles. Les modèles d’évolution de Jukes
et Cantor [JUK 69], Kimura 2 paramètres [KIM 80] et Jin-Nei Gamma [JIN 90] ont été comparés.
La figure 4 présente les résultats des simulations obtenus pour le modèle de transfert horizontal
complet [MAK 05]. Pour tous les trois modèles d’évolution considérés, la méthode de détection de
transferts a pu retrouver le transfert en question avec au moins 91.4% de succès. Les meilleurs résultats
ont été obtenus avec le modèle d’évolution Kimura 2 paramètres, suivi par ceux de Jin-Nei et JukesCantor. Pour les phylogénies avec 64 feuilles, le pourcentage de détection a atteint 98.5-99.1% avec les
modèles Kimura 2 paramètres et Jin-Nei. Le pourcentage de détection augmente quand le nombre
d’espèces augmente; cette tendance est certainement due au problème bien connu de reconstruction de
petites phylogénies. Les résultats de la méthode de détection [MAK 05] sont surtout très prometteurs
pour des larges phylogénies ou le pourcentage de détection tend vers 98 –99%.
4
Bibliographie
[DOO 99] DOOLITTLE W. F., “Phylogenetic classification and the universal tree”, Science, 284:21242129.
[GUI 02] GUINDON S., GASCUEL O., “Efficient biased estimation of evolutionary distances when
substitution rates vary across sites”, Mol. Biol. Evol., 19:534-543.
[HAL 01] HALLET M., LAGERGREN J., “Efficient algorithms for lateral gene transfer problems”, pp.
149-156, proceedings de RECOMB 2001, ACM Press, New-York.
[JIN 90] JIN L., NEI M., “Limitations of the evolutionary parsimony method of phylogenetic analysis”,
Mol. Biol. Evol., 7:82-102.
[JUK 69] JUKES T.H., CANTOR C., “Mammalian Protein Metabolism”, pp. 21-132 dans H. N.
Munro, editor, Evolution of protein molecules, Academic Press, New York.
[KIM 80] KIMURA M., “A simple method for estimating evolutionary rate of base substitutions
through comparative studies of nucleotide sequences”, J. Mol. Evol., 16:111-120.
[KUH 94] KUHNER M., FELSENSTEIN J., “A simulation comparison of phylogeny algorithms under
equal and unequal evolutionary rates”, Mol. Biol. Evol. 11:459-68.
[LEG 02] LEGENDRE P., MAKARENKOV V., “Reconstruction of biogeographic and evolutionary
networks using reticulograms”, Systematic Biology, 51:199-216.
[MAK 03] MAKARENKOV V., BOC A., “New Efficient Algorithm for Detection of Horizontal Gene
Transfer Events”, pp. 190-201 dans G. Benson and R. Page, eds. Algorithms in Bioinformatics.
Springer Verlag, proceedings of WABI 2003, Budapest.
[MAK 04] MAKARENKOV V., BOC A., DIALLO B., “Representing lateral gene transfer in species
classification”, Unique scenario. Pp. 439:446 dans D. Banks, L. House, F. R. McMorris, P. Arabie et
W. Gaul, eds. Classification, Clustering and Data Mining Applications, Springer Verlag, proceeding
of IFCS 2004, Chicago.
[MAK 05] MAKARENKOV V., BOC A., DELWICHE C. F., PHILIPPE H., “A novel approach for
detecting horizontal gene transfers: Modeling partial and complete gene transfer scenarios”, soumis.
[MIK 95] MIRKIN B. G., MUCHNIK I., SMITH T. F., “A Biologically Consistent Model for
Comparing Molecular Phylogenies”, J. of Comp. Biol., 2:493-507.
[PAG 98] PAGE R. D. M., CHARLESTON M. A., “Trees within trees: phylogeny and historical
associations”, Trends in Ecol. and Evol., 13:356-359.
[RAM 97] RAMBAUT A., GRASSLY N.C., “Seq-Gen: An application for the Monte Carlo simulation
of DNA sequence evolution along phylogenetic trees”, Comput. Appl. Biosci., 13: 235-238.
[SAI 87] SAITOU N., NEI M., “The neighbour-joining method: a new method for reconstructing
phylogenetic trees”, Mol. Biol. Evol., 4:406-425.
Téléchargement