HGT-Simulator : logiciel pour simuler des transferts horizontaux de gènes Dung Nguyen, Alix Boc et Vladimir Makarenkov Département d'informatique, Université du Québec à Montréal, Case postale 8888, succursale Centre-ville Montréal (Québec) Canada, H3C 3P8 RÉSUMÉ. Le problème de la détection et de la classification de transferts horizontaux de gènes (i.e. transferts latéraux de gènes) est parmi les plus ardus en biologie moléculaire. Dans cet article nous présentons un logiciel, appelé HGT-Simulator, permettant de simuler un modèle d’évolution comprenant les transferts horizontaux de gènes. Des transferts aléatoires sont générés entre les branches d’un arbres phylogénétique donné tout en respectant le modèle stochastique d’évolution choisi. Ce logiciel a été employé pour tester notre nouvelle méthode de détection des transferts horizontaux. MOTS-CLÉS : arbre phylogénétique, transfert horizontal de gène, modèle d’évolution stochastique, évolution réticulée. 1 Introduction L’évolution des êtres vivants a longtemps été modélisé uniquement à l’aide des arbres phylogénétiques (i.e. arbres additifs). Dans un arbre phylogénétique deux espèces sont toujours reliées par un chemin passant par leur ancêtre commun. Un tel modèle ne peut inclure des scénarios d’évolution réticulée comprenant les transferts horizontaux de gènes et l’hybridation. La recombinaison homologue, l’hybridation, le transfert latéral de gènes, la duplication d’un gène suivie de sa perte et l’évolution convergente sont les principaux mécanismes d’évolution réticulée [LEG 02]. Les deux premiers phénomènes peuvent être représentés seulement à l’aide des modèles en réseaux, tandis que les trois derniers nécessitent plus d’un arbre phylogénétique pour leur représentation. Le transfert horizontal consiste en un échange direct de matériel génétique d’une lignée à une autre [DOO 99]. Il est très fréquent chez les procaryotes. Bactéries et Archéobactéries ont développé des mécanismes sophistiqués pour acquérir rapidement de nouveaux gènes à l’aide du transfert latéral. Ces mécanismes ont été favorisés par la sélection naturelle par rapport à l’évolution génétique par mutations. Les trois principaux mécanismes de transfert de gènes sont les suivantes : la transformation par acquisition d’ADN directement de l’environnement, la conjugaison qui est enclenchée par des plasmides conjugaux ou par des transposons conjugaux et la transduction par transfert d’ADN par phage. Ces mécanismes peuvent introduire des séquences d’ADN de l’espèces donneur ayant très peu de similarité avec le reste de l’ADN de l’espèce hôte. Plusieurs méthodes pour modéliser et détecter les transferts horizontaux sont disponibles : Page et Charleston [PAG 98] ont décrit un ensemble de règles d’évolution qui doivent être prises en compte lors de la modélisation des transferts, Mirkin, Muchnik et Smith [MIR 95] ont décrit une méthode de réconciliation d’arbres permettant de combiner plusieurs phylogénies de gènes en arbre d’espèces unique, Hallet et Lagergren [HAL 01] ont proposé un modèle de détection de transferts permettant d’inscrire les phylogénies de gènes en phylogénie d’espèces. Par ailleurs, Boc et Makarenkov [BOC 03] et Makarenkov, Boc et Diallo [MAK 04] ont introduit deux méthodes de détection impliquant des scénarios unique et multiples des transferts horizontaux. Dans cet article nous décrivons un outil de simulation des transferts latéraux de gènes permettant aux chercheurs de générer les transferts à l’intérieur d’un arbre phylogénétique donné. Ce programme incluant de nombreux modèles d’évolution connus peut être utilisé pour comparer les méthodes d’inférence de transferts horizontaux. Les règles biologiques pertinentes spécifiées dans [PAG 98] et [MAK 05] ont été incorporées dans le modèle implanté. Ce logiciel a premièrement été utilisé dans les simulations statistiques [MAK 05] effectuées pour tester une nouvelle méthode de détection de transferts latéraux. 2 Description du logiciel HGT-Simulator Notre logiciel de génération des transferts horizontaux utilise les résultats du logiciel Seq-Gen [RAM 97]. Seq-Gen est un programme permettant de simuler l’évolution de séquences d’ADN le long d’une phylogénie donnée. Seq-Gen inclut plusieurs modèles stochastiques d’évolution ayant faits leurs preuves en analyse phylogénétique. La nouvelle application HGT-Simulator étend la possibilité initiale de Seq-Gen de modéliser l’évolution arborescente en se basant sur les principes de réseaux réticulés [LEG 02]. À son entrée HGTSimulator récupère les séquences associées aux nœuds de l’arbre initial qui ont été simulées par SeqGen. En fonction du nombre de transferts et du modèle d’évolution des séquences d’ADN choisis par l’utilisateur, le programme génère les transferts en affichant à sa sortie la liste des transferts engendrés, l’arbre modifié suite à ces transferts, de même que les nouvelles séquences d’ADN associées aux nœuds de cet arbre modifié. racine 0 5 1 6 2 7 01/10 TTTATGACCA 3 4 TTTATGATCA 8 transfert T1 T2 T3 T4 T5 T6 T7 T8 T9 T10 TTTATGAACA TTTATGATAA Figure 1. Transfert horizontal entre les branches (3, T2) et (7, 8) a eu lieu. Ce transfert explique la ressemblance entre les séquences associées aux nœuds 3 et T2 d’un côté et aux nœuds 8, T8 et T9 de l’autre. Notre procédure algorithmique se divise en trois étapes principales : Étape 1. Identifier un transfert (i.e. deux branches de l’arbre) en respectant les règles d’évolution. Étape 2. Générer les séquences associées aux nœuds dans le sous-arbre affecté par le transfert. La figure 1 montre un transfert horizontal entre les branches (3, T2) et (7, 8). Ce transfert affecte tout d’abord le nœud 8 (la séquence associée au nœud 8 a maintenant seulement une différence par rapport à la séquence associée au nœud 3) ainsi que les feuilles T8 et T9. L’algorithme choisit arbitrairement l’emplacement du départ du transfert sur la branche d’origine (3, T2) de même que l’emplacement de son arrivée sur la branche cible (7, 8). Une nouvelle distance entre les nœuds 3 et 8 est calculée en fonction de ces emplacements et du modèle d’évolution retenu. Ici une seule différence existe entre les séquences d’ADN TTTATGACCA et TTTATGATCA associées respectivement aux nœuds 3 et 8. Dans ce modèle, nous supposons que le gène de l’espèce donneur remplace complètement le gène homologue de l’hôte en transformant la phylogénie de départ en un arbre phylogénétique différent (figure 2). Étape 3. Reprendre Étape 1 tant qu’il reste des transferts à engendrer. Racine Racine b Transfert complet a i j (a) k i j k (b) Figure 2. Modèle du transfert complet. Le gène de l’espèce donneur remplace le gène homologue de l’hôte ce qui transforme la phylogénie initiale (a) en arbre phylogénétique différent (b). De plus, l’introduction de quelques règles d’évolution de base est nécessaire afin de renforcer la plausibilité biologique du modèle (voir [PAG 98] pour plus de détails sur ces règles). Par exemple, les transferts impliquant des espèces appartenant à la même lignée doivent être interdits (figure 3). Racine Figure 3. Transferts horizontaux sur la même lignée sont interdits. Finalement, HGT-Simulator préserve naturellement les caractéristiques de fluctuations stochastiques de Seq-Gen, mais apporte en plus une nouvelle dimension permettant de simuler les transferts horizontaux. Une seconde version du programme, indépendante de Seq-Gen, a aussi été développée. Cette version permet de simuler les transferts horizontaux pour un ensemble de phylogénies aléatoires qui peuvent être engendrées par le programme. Les séquences peuvent être générées selon 3 modèles d’évolution : Jukes-Cantor [JUK 69], Kimura 2 paramètres [KIM 80] et Jin-Nei [JIN 90]. À l’entrée, ce programme prend le nombre d’espèces, la taille des séquences, le nombre de transferts, le nombre d’arbres à considérer et le modèle d’évolution. À la sortie, il fournit les matrices de distance entre les feuilles des arbres modifiés par les transferts ainsi que la liste de transferts obtenue pour chaque arbre. 3 Utilisation du logiciel HGT-Simulator dans une étude Monte-Carlo Une étude Monte-Carlo a été effectuée pour tester les performances d’une nouvelle méthode [MAK 05] de détection de transferts latéraux. Nous avons examiné comment la procédure d’inférence des transferts se comporte dépendamment du modèle d’évolution des séquences d’ADN et du nombre d’espèces. Les résultats présentés sur la figure 4 ont été obtenus pour des arbres phylogénétiques binaires ayant 8, 16, 24, 32, 48 et 64 feuilles (i.e. espèces). Dans chaque cas, une vraie topologie d’arbre T, a été obtenue aléatoirement en utilisant la procédure de génération d’arbres proposée par [KUH 94]. Les longueurs des branches de T ont été calculées à l’aide d’une loi exponentielle. Suivant l’approche décrite dans [GUI 02], nous avons ajouté du bruit sur les branches des vraies phylogénies pour créer une déviation de l’hypothèse de l’horloge moléculaire. Toutes les longueurs des branches de T ont été multipliées par le coefficient 1+ax, où la variable x a été obtenue d’une distribution exponentielle standard (P(x>k) = exp(k)) et la valeur de la constante a a été fixée à 0.8. Les arbres générés par une telle procédure ont la profondeur O(log (n)), où n est le nombre d’espèces. Chaque arbre phylogénétique enraciné a par la suite été soumis à HGT-Simulator qui, à son tour, a simulé l’évolution des séquences d’ADN le long de ses branches. Les modèles d’évolution de Jukes et Cantor [JUK 69], de Kimura 2 paramètres [KIM 80] et de Jin-Nei Gamma [JIN 90] ont été considérés. Par la suite, la procédure de génération de transferts a engendré des transferts horizontaux de gène tout en respectant les règles d’évolution spécifiées dans la section précédente. Un seul transfert par arbre a été engendré dans cette étude. HGT-Simulator a régénéré des séquences d’ADN pour chaque nœud de l’arbre situé sous la branche affectée par un transfert (i.e. dans le sous-arbre qui a changé sa place dans la phylogénie à cause d’un transfert latéral). Pour chaque taille de données, 500 phylogénies aléatoires différentes ont été examinées. La méthode NJ [SAT 87] a été utilisée pour reconstruire les arbres de gène à partir des distances obtenues des séquences terminales (i.e. séquences associées aux feuilles) ; les vraies phylogénies T, utilisées comme arbres d’espèces, ont été supposées connues. 100 Pourcentage de détection 99 98 97 96 Kimura-2-p 95 Jin-Nei 94 Jukes-Cantor 93 92 91 90 8 16 24 32 48 64 Nombre d'espèces Figure 4. Pourcentage de détection des transferts horizontaux obtenus en utilisant la distance topologique de Robinson et Foulds (RF) comme critère d’optimisation pour réconcilier les topologies de gène et d’espèces [MAK 05]. Tests ont été effectués avec des arbres ayant de 8 à 64 feuilles. Les modèles d’évolution de Jukes et Cantor [JUK 69], Kimura 2 paramètres [KIM 80] et Jin-Nei Gamma [JIN 90] ont été comparés. La figure 4 présente les résultats des simulations obtenus pour le modèle de transfert horizontal complet [MAK 05]. Pour tous les trois modèles d’évolution considérés, la méthode de détection de transferts a pu retrouver le transfert en question avec au moins 91.4% de succès. Les meilleurs résultats ont été obtenus avec le modèle d’évolution Kimura 2 paramètres, suivi par ceux de Jin-Nei et JukesCantor. Pour les phylogénies avec 64 feuilles, le pourcentage de détection a atteint 98.5-99.1% avec les modèles Kimura 2 paramètres et Jin-Nei. Le pourcentage de détection augmente quand le nombre d’espèces augmente; cette tendance est certainement due au problème bien connu de reconstruction de petites phylogénies. Les résultats de la méthode de détection [MAK 05] sont surtout très prometteurs pour des larges phylogénies ou le pourcentage de détection tend vers 98 –99%. 4 Bibliographie [DOO 99] DOOLITTLE W. F., “Phylogenetic classification and the universal tree”, Science, 284:21242129. [GUI 02] GUINDON S., GASCUEL O., “Efficient biased estimation of evolutionary distances when substitution rates vary across sites”, Mol. Biol. Evol., 19:534-543. [HAL 01] HALLET M., LAGERGREN J., “Efficient algorithms for lateral gene transfer problems”, pp. 149-156, proceedings de RECOMB 2001, ACM Press, New-York. [JIN 90] JIN L., NEI M., “Limitations of the evolutionary parsimony method of phylogenetic analysis”, Mol. Biol. Evol., 7:82-102. [JUK 69] JUKES T.H., CANTOR C., “Mammalian Protein Metabolism”, pp. 21-132 dans H. N. Munro, editor, Evolution of protein molecules, Academic Press, New York. [KIM 80] KIMURA M., “A simple method for estimating evolutionary rate of base substitutions through comparative studies of nucleotide sequences”, J. Mol. Evol., 16:111-120. [KUH 94] KUHNER M., FELSENSTEIN J., “A simulation comparison of phylogeny algorithms under equal and unequal evolutionary rates”, Mol. Biol. Evol. 11:459-68. [LEG 02] LEGENDRE P., MAKARENKOV V., “Reconstruction of biogeographic and evolutionary networks using reticulograms”, Systematic Biology, 51:199-216. [MAK 03] MAKARENKOV V., BOC A., “New Efficient Algorithm for Detection of Horizontal Gene Transfer Events”, pp. 190-201 dans G. Benson and R. Page, eds. Algorithms in Bioinformatics. Springer Verlag, proceedings of WABI 2003, Budapest. [MAK 04] MAKARENKOV V., BOC A., DIALLO B., “Representing lateral gene transfer in species classification”, Unique scenario. Pp. 439:446 dans D. Banks, L. House, F. R. McMorris, P. Arabie et W. Gaul, eds. Classification, Clustering and Data Mining Applications, Springer Verlag, proceeding of IFCS 2004, Chicago. [MAK 05] MAKARENKOV V., BOC A., DELWICHE C. F., PHILIPPE H., “A novel approach for detecting horizontal gene transfers: Modeling partial and complete gene transfer scenarios”, soumis. [MIK 95] MIRKIN B. G., MUCHNIK I., SMITH T. F., “A Biologically Consistent Model for Comparing Molecular Phylogenies”, J. of Comp. Biol., 2:493-507. [PAG 98] PAGE R. D. M., CHARLESTON M. A., “Trees within trees: phylogeny and historical associations”, Trends in Ecol. and Evol., 13:356-359. [RAM 97] RAMBAUT A., GRASSLY N.C., “Seq-Gen: An application for the Monte Carlo simulation of DNA sequence evolution along phylogenetic trees”, Comput. Appl. Biosci., 13: 235-238. [SAI 87] SAITOU N., NEI M., “The neighbour-joining method: a new method for reconstructing phylogenetic trees”, Mol. Biol. Evol., 4:406-425.