Un nouvel algorithme d’alignement de structures secondaires d’ARN Aida Ouangraoua1 et Cedric Chauve2 1 2 LaBRI, 351 Cours de la Libération, 33405 Talence Cedex, France [email protected] Department of Mathematics, Simon Fraser University, 8888 University Drive, V5A 1S6, Burnaby (BC), Canada [email protected] Nous décrivons un nouvel algorithme d’alignement pour la comparaison de structures secondaires d’ARN prenant en compte le jeu complet d’opérations d’édition introduit dans (Jiang et al., 2002). Il a récemment été prouvé que le problème non contraint du calcul de la distance d’édition générale est NP-complet (Blin et al., 2007) mais qu’en apportant certaines contraintes au type d’alignement autorisé, il est possible de calculer un alignement optimal en temps polynomial (Herrbach et al., 2006). Nous décrivons dans ce travail un algorithme polynomial qui généralise les résultats de (Herrbach et al., 2006). Résumé : Mots-clefs : structures secondaires d’ARN, séquences arc-annotées, distance d’édition, alignement 1 Introduction La comparaison de structures secondaires d’ARN basée sur la notion d’édition a connu de récents développements à la suite des travaux de Jiang et al. [5] qui ont introduit la notion de distance d’édition entre séquences arc-annotées. La distance d’édition générale entre structures secondaires d’ARN représentées par des séquences arc-annotées, qui peut aussi se décrire en termes de comparaison d’arborescences orientées, permet de prendre en compte l’ensemble complet des évènements biologiques pouvant expliquer la différence entre deux structures secondaires d’ARN issues d’un ancêtre commun : insertion/suppression et mutation de base libre ou de paire de bases (opérations dites simples, analogues aux opérations d’édition classiques entre séquences), création/bris de lien hydrogène dans une paire de base et altération/complétion d’une paire de base (opérations complexes spécifiques aux séquences arc-annotées). Blin et al. ont montré que le calcul de cette distance d’édition générale est NP-complet [1], contrairement à la distance d’édition entre structures secondaires ne prenant en compte que les opérations simples [7]. Blin et Touzet [2] ont décrit un cadre formel pour la définition de plusieurs variantes de cette distance d’édition générale, basé sur les opérations d’édition considérées et sur certaines contraintes imposées aux alignements autorisés [6]. En se plaçant dans ce cadre, Herrbach et al. [4] ont notamment montré que si l’on considère un alignement dans lequel la structure ancestrale ne comporte pas de pseudo-nœud et chaque base est impliquée dans au plus un lien hydrogène avec une autre base, alors un alignement optimal peut être calculé en temps polynomial. Guignon et al. ont aussi proposé un algorithme polynomial pour le calcul d’un alignement optimal entre deux structures secondaires de type tige-boucle avec des contraintes de localité imposées à la structure ancestrale [3]. 2 Résultats Le premier résultat que nous présentons est une extension de l’algorithme décrit dans [4] qui autorise une base de la structure ancestrale à être impliquée dans plus d’un lien hydrogène avec une autre base. De plus nous plaçons ce résultat dans le cadre défini dans [2] en introduisant un nouvelle classe de structures ancestrales à mi-chemin entre les structures secondaires sans pseudo-noeuds (NESTED dans la terminologie de [6]) et les structures sans contraintes (UNLIMITED), mais différente des structures secondaires avec pseudo-nœud (CROSSING). En fait, la classe que nous introduisons, appelée NMULT est l’ensemble des structures ne comportant pas de croisement d’arcs et dans lesquelles une base peut être impliquée dans plus d’un arc (NESTED ⊂ NMULT ⊂ UNLIMITED). L’algorithme que nous présentons pour calculer un alignement optimal de type NMULT entre deux structures secondaires d’ARN a la même complexité asymptotique que l’algorithme de [4] pour le calcul d’un alignement optimal de type NESTED, mais avec des constantes plus élevées. Notre second résultat concerne le cas des structures secondaires de type tige-boucle, c’est-à-dire sans boucle multiple. Nous introduisons dans le cadre formel de [2] une nouvelle classe de structures spécifique aux tige-boucles, appelée STEM telle que (PLAIN ⊂ STEM ⊂ NESTED) et nous montrons que l’algorithme de [3] pour comparer deux tige-boucles consiste en fait à calculer un alignement optimal de type STEM entre ces deux tige-boucles. Similairement à la classe NMULT, nous introduisons la classe SMULT des structures ne comportant ni boucle multiple, ni croisement d’arcs et dans lesquelles une base peut être impliquée dans plus d’un arc (STEM ⊂ SMULT ⊂ NMULT) et nous présentons une spécialisation de notre algorithme d’alignement de structures secondaires pour le calcul d’un alignement optimal de type SMULT entre deux structures secondaires de type tige-boucle. Nous complétons ces résultats algorithmiques par une comparaison de ces différents algorithmes dans le cas de la comparaison de structures secondaires de précurseurs de microARNs. Remerciements Ce travail a été effectué lors d’une visite de A. O. à Simon Fraser University (SFU) financée par le projet BRASERO (Biologically Relevant Algorithms and Softwares for Efficient RNA Structure Comparison) et une subvention de SFU accordée à C. C. Références [1] G. Blin, G. Fertin, I. Rusu et C. Sinoquet, Extending the Hardness of RNA Secondary Structure Comparison. À paraı̂tre dans les actes de ESCAPE 2007, Lecture Notes in Comput. Sci., 2007. [2] G. Blin et H. Touzet, How to compare arc-annotated sequences : the alignment hierarchy. Actes de SPIRE 2006, Lecture Notes in Comput. Sci., vol. 4209, pp. 291-303, 2006. [3] V. Guignon, C. Chauve et S. Hamel, An edit distance between RNA stem-loops. Actes de SPIRE 2005, Lecture Notes in Comput. Sci., vol. 3772, pp. 345-357, 2005. [4] C. Herrbach, A. Denise, S. Dulucq et H. Touzet, Alignment of RNA secondary structures using a full set of operations. Rapport de Recherches 1451, CNRS-Université Paris-Sud-LRI, 2006. [5] T. Jiang, G.-H. Lin, B. Ma et K. Zhang, A general edit distance between RNA structures. J. Comp. Biol., 9(2) :371-388, 2002. [6] P. Evans, Algorithms and Complexity for Annotated Sequences Analysis. PhD thesis, University of Victoria, 1999. [7] K. Zhang et D. Shasha, Simple and fast algorithms for the editing distance between trees and related problems. SIAM J. Comput., 18(6) :1245-1262, 1989.