Un nouvel algorithme d`alignement de structures

publicité
Un nouvel algorithme d’alignement de structures secondaires
d’ARN
Aida Ouangraoua1 et Cedric Chauve2
1
2
LaBRI, 351 Cours de la Libération, 33405 Talence Cedex, France
[email protected]
Department of Mathematics, Simon Fraser University, 8888 University Drive, V5A 1S6, Burnaby (BC),
Canada
[email protected]
Nous décrivons un nouvel algorithme d’alignement pour la comparaison de
structures secondaires d’ARN prenant en compte le jeu complet d’opérations d’édition
introduit dans (Jiang et al., 2002). Il a récemment été prouvé que le problème non
contraint du calcul de la distance d’édition générale est NP-complet (Blin et al., 2007)
mais qu’en apportant certaines contraintes au type d’alignement autorisé, il est possible de calculer un alignement optimal en temps polynomial (Herrbach et al., 2006).
Nous décrivons dans ce travail un algorithme polynomial qui généralise les résultats de
(Herrbach et al., 2006).
Résumé :
Mots-clefs :
structures secondaires d’ARN, séquences arc-annotées, distance d’édition,
alignement
1
Introduction
La comparaison de structures secondaires d’ARN basée sur la notion d’édition a connu de récents
développements à la suite des travaux de Jiang et al. [5] qui ont introduit la notion de distance
d’édition entre séquences arc-annotées. La distance d’édition générale entre structures secondaires
d’ARN représentées par des séquences arc-annotées, qui peut aussi se décrire en termes de comparaison d’arborescences orientées, permet de prendre en compte l’ensemble complet des évènements
biologiques pouvant expliquer la différence entre deux structures secondaires d’ARN issues d’un
ancêtre commun : insertion/suppression et mutation de base libre ou de paire de bases (opérations
dites simples, analogues aux opérations d’édition classiques entre séquences), création/bris de lien
hydrogène dans une paire de base et altération/complétion d’une paire de base (opérations complexes
spécifiques aux séquences arc-annotées).
Blin et al. ont montré que le calcul de cette distance d’édition générale est NP-complet [1],
contrairement à la distance d’édition entre structures secondaires ne prenant en compte que les opérations simples [7]. Blin et Touzet [2] ont décrit un cadre formel pour la définition de plusieurs variantes de cette distance d’édition générale, basé sur les opérations d’édition considérées et sur certaines contraintes imposées aux alignements autorisés [6]. En se plaçant dans ce cadre, Herrbach et
al. [4] ont notamment montré que si l’on considère un alignement dans lequel la structure ancestrale
ne comporte pas de pseudo-nœud et chaque base est impliquée dans au plus un lien hydrogène avec
une autre base, alors un alignement optimal peut être calculé en temps polynomial. Guignon et al. ont
aussi proposé un algorithme polynomial pour le calcul d’un alignement optimal entre deux structures
secondaires de type tige-boucle avec des contraintes de localité imposées à la structure ancestrale [3].
2
Résultats
Le premier résultat que nous présentons est une extension de l’algorithme décrit dans [4] qui autorise une base de la structure ancestrale à être impliquée dans plus d’un lien hydrogène avec une autre
base. De plus nous plaçons ce résultat dans le cadre défini dans [2] en introduisant un nouvelle classe
de structures ancestrales à mi-chemin entre les structures secondaires sans pseudo-noeuds (NESTED
dans la terminologie de [6]) et les structures sans contraintes (UNLIMITED), mais différente des
structures secondaires avec pseudo-nœud (CROSSING). En fait, la classe que nous introduisons, appelée NMULT est l’ensemble des structures ne comportant pas de croisement d’arcs et dans lesquelles
une base peut être impliquée dans plus d’un arc (NESTED ⊂ NMULT ⊂ UNLIMITED). L’algorithme
que nous présentons pour calculer un alignement optimal de type NMULT entre deux structures secondaires d’ARN a la même complexité asymptotique que l’algorithme de [4] pour le calcul d’un
alignement optimal de type NESTED, mais avec des constantes plus élevées.
Notre second résultat concerne le cas des structures secondaires de type tige-boucle, c’est-à-dire
sans boucle multiple. Nous introduisons dans le cadre formel de [2] une nouvelle classe de structures spécifique aux tige-boucles, appelée STEM telle que (PLAIN ⊂ STEM ⊂ NESTED) et nous
montrons que l’algorithme de [3] pour comparer deux tige-boucles consiste en fait à calculer un alignement optimal de type STEM entre ces deux tige-boucles. Similairement à la classe NMULT, nous
introduisons la classe SMULT des structures ne comportant ni boucle multiple, ni croisement d’arcs
et dans lesquelles une base peut être impliquée dans plus d’un arc (STEM ⊂ SMULT ⊂ NMULT) et
nous présentons une spécialisation de notre algorithme d’alignement de structures secondaires pour le
calcul d’un alignement optimal de type SMULT entre deux structures secondaires de type tige-boucle.
Nous complétons ces résultats algorithmiques par une comparaison de ces différents algorithmes
dans le cas de la comparaison de structures secondaires de précurseurs de microARNs.
Remerciements
Ce travail a été effectué lors d’une visite de A. O. à Simon Fraser University (SFU) financée par
le projet BRASERO (Biologically Relevant Algorithms and Softwares for Efficient RNA Structure
Comparison) et une subvention de SFU accordée à C. C.
Références
[1] G. Blin, G. Fertin, I. Rusu et C. Sinoquet, Extending the Hardness of RNA Secondary Structure Comparison. À paraı̂tre dans les actes de ESCAPE 2007, Lecture Notes in Comput. Sci., 2007.
[2] G. Blin et H. Touzet, How to compare arc-annotated sequences : the alignment hierarchy. Actes de SPIRE
2006, Lecture Notes in Comput. Sci., vol. 4209, pp. 291-303, 2006.
[3] V. Guignon, C. Chauve et S. Hamel, An edit distance between RNA stem-loops. Actes de SPIRE 2005,
Lecture Notes in Comput. Sci., vol. 3772, pp. 345-357, 2005.
[4] C. Herrbach, A. Denise, S. Dulucq et H. Touzet, Alignment of RNA secondary structures using a full set
of operations. Rapport de Recherches 1451, CNRS-Université Paris-Sud-LRI, 2006.
[5] T. Jiang, G.-H. Lin, B. Ma et K. Zhang, A general edit distance between RNA structures. J. Comp. Biol.,
9(2) :371-388, 2002.
[6] P. Evans, Algorithms and Complexity for Annotated Sequences Analysis. PhD thesis, University of Victoria, 1999.
[7] K. Zhang et D. Shasha, Simple and fast algorithms for the editing distance between trees and related
problems. SIAM J. Comput., 18(6) :1245-1262, 1989.
Téléchargement