Un nouvel algorithme d’alignement de structures secondaires
d’ARN
Aida Ouangraoua1et Cedric Chauve2
1LaBRI, 351 Cours de la Lib´
eration, 33405 Talence Cedex, France
2Department of Mathematics, Simon Fraser University, 8888 University Drive, V5A 1S6, Burnaby (BC),
Canada
R´
esum´
e : Nous d´
ecrivons un nouvel algorithme d’alignement pour la comparaison de
structures secondaires d’ARN prenant en compte le jeu complet d’op´
erations d’´
edition
introduit dans (Jiang et al., 2002). Il a r´
ecemment ´
et´
e prouv´
e que le probl`
eme non
contraint du calcul de la distance d’´
edition g´
en´
erale est NP-complet (Blin et al., 2007)
mais qu’en apportant certaines contraintes au type d’alignement autoris´
e, il est pos-
sible de calculer un alignement optimal en temps polynomial (Herrbach et al., 2006).
Nous d´
ecrivons dans ce travail un algorithme polynomial qui g´
en´
eralise les r´
esultats de
(Herrbach et al., 2006).
Mots-clefs : structures secondaires d’ARN, s´
equences arc-annot´
ees, distance d’´
edition,
alignement
1 Introduction
La comparaison de structures secondaires d’ARN bas´
ee sur la notion d’´
edition a connu de r´
ecents
d´
eveloppements `
a la suite des travaux de Jiang et al. [5] qui ont introduit la notion de distance
d’´
edition entre s´
equences arc-annot´
ees. La distance d’´
edition g´
en´
erale entre structures secondaires
d’ARN repr´
esent´
ees par des s´
equences arc-annot´
ees, qui peut aussi se d´
ecrire en termes de compa-
raison d’arborescences orient´
ees, permet de prendre en compte l’ensemble complet des ´
ev`
enements
biologiques pouvant expliquer la diff´
erence entre deux structures secondaires d’ARN issues d’un
ancˆ
etre commun : insertion/suppression et mutation de base libre ou de paire de bases (op´
erations
dites simples, analogues aux op´
erations d’´
edition classiques entre s´
equences), cr´
eation/bris de lien
hydrog`
ene dans une paire de base et alt´
eration/compl´
etion d’une paire de base (op´
erations complexes
sp´
ecifiques aux s´
equences arc-annot´
ees).
Blin et al. ont montr´
e que le calcul de cette distance d’´
edition g´
en´
erale est NP-complet [1],
contrairement `
a la distance d’´
edition entre structures secondaires ne prenant en compte que les op´
era-
tions simples [7]. Blin et Touzet [2] ont d´
ecrit un cadre formel pour la d´
efinition de plusieurs va-
riantes de cette distance d’´
edition g´
en´
erale, bas´
e sur les op´
erations d’´
edition consid´
er´
ees et sur cer-
taines contraintes impos´
ees aux alignements autoris´
es [6]. En se plac¸ant dans ce cadre, Herrbach et
al. [4] ont notamment montr´
e que si l’on consid`
ere un alignement dans lequel la structure ancestrale
ne comporte pas de pseudo-nœud et chaque base est impliqu´
ee dans au plus un lien hydrog`
ene avec
une autre base, alors un alignement optimal peut ˆ
etre calcul´
e en temps polynomial. Guignon et al. ont
aussi propos´
e un algorithme polynomial pour le calcul d’un alignement optimal entre deux structures
secondaires de type tige-boucle avec des contraintes de localit´
e impos´
ees `
a la structure ancestrale [3].
2 R´
esultats
Le premier r´
esultat que nous pr´
esentons est une extension de l’algorithme d´
ecrit dans [4] qui auto-
rise une base de la structure ancestrale `
aˆ
etre impliqu´
ee dans plus d’un lien hydrog`
ene avec une autre
base. De plus nous plac¸ons ce r´
esultat dans le cadre d´
efini dans [2] en introduisant un nouvelle classe
de structures ancestrales `
a mi-chemin entre les structures secondaires sans pseudo-noeuds (NESTED
dans la terminologie de [6]) et les structures sans contraintes (UNLIMITED), mais diff´
erente des
structures secondaires avec pseudo-nœud (CROSSING). En fait, la classe que nous introduisons, ap-
pel´
ee NMULT est l’ensemble des structures ne comportant pas de croisement d’arcs et dans lesquelles
une base peut ˆ
etre impliqu´
ee dans plus d’un arc (NESTED NMULT UNLIMITED). L’algorithme
que nous pr´
esentons pour calculer un alignement optimal de type NMULT entre deux structures se-
condaires d’ARN a la mˆ
eme complexit´
e asymptotique que l’algorithme de [4] pour le calcul d’un
alignement optimal de type NESTED, mais avec des constantes plus ´
elev´
ees.
Notre second r´
esultat concerne le cas des structures secondaires de type tige-boucle, c’est-`
a-dire
sans boucle multiple. Nous introduisons dans le cadre formel de [2] une nouvelle classe de struc-
tures sp´
ecifique aux tige-boucles, appel´
ee STEM telle que (PLAIN STEM NESTED) et nous
montrons que l’algorithme de [3] pour comparer deux tige-boucles consiste en fait `
a calculer un ali-
gnement optimal de type STEM entre ces deux tige-boucles. Similairement `
a la classe NMULT, nous
introduisons la classe SMULT des structures ne comportant ni boucle multiple, ni croisement d’arcs
et dans lesquelles une base peut ˆ
etre impliqu´
ee dans plus d’un arc (STEM SMULT NMULT) et
nous pr´
esentons une sp´
ecialisation de notre algorithme d’alignement de structures secondaires pour le
calcul d’un alignement optimal de type SMULT entre deux structures secondaires de type tige-boucle.
Nous compl´
etons ces r´
esultats algorithmiques par une comparaison de ces diff´
erents algorithmes
dans le cas de la comparaison de structures secondaires de pr´
ecurseurs de microARNs.
Remerciements
Ce travail a ´
et´
e effectu´
e lors d’une visite de A. O. `
a Simon Fraser University (SFU) financ´
ee par
le projet BRASERO (Biologically Relevant Algorithms and Softwares for Efficient RNA Structure
Comparison) et une subvention de SFU accord´
ee `
a C. C.
R´
ef´
erences
[1] G. Blin, G. Fertin, I. Rusu et C. Sinoquet, Extending the Hardness of RNA Secondary Structure Compa-
rison. `
A paraˆ
ıtre dans les actes de ESCAPE 2007,Lecture Notes in Comput. Sci., 2007.
[2] G. Blin et H. Touzet, How to compare arc-annotated sequences : the alignment hierarchy. Actes de SPIRE
2006,Lecture Notes in Comput. Sci., vol. 4209, pp. 291-303, 2006.
[3] V. Guignon, C. Chauve et S. Hamel, An edit distance between RNA stem-loops. Actes de SPIRE 2005,
Lecture Notes in Comput. Sci., vol. 3772, pp. 345-357, 2005.
[4] C. Herrbach, A. Denise, S. Dulucq et H. Touzet, Alignment of RNA secondary structures using a full set
of operations. Rapport de Recherches 1451, CNRS-Universit´
e Paris-Sud-LRI, 2006.
[5] T. Jiang, G.-H. Lin, B. Ma et K. Zhang, A general edit distance between RNA structures. J. Comp. Biol.,
9(2) :371-388, 2002.
[6] P. Evans, Algorithms and Complexity for Annotated Sequences Analysis. PhD thesis, University of Vic-
toria, 1999.
[7] K. Zhang et D. Shasha, Simple and fast algorithms for the editing distance between trees and related
problems. SIAM J. Comput., 18(6) :1245-1262, 1989.
1 / 2 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !