Actes JNPC’03
PLaSMA : un algorithme hybride pour
le probl`
eme d’alignement multiple de
s´
equences
Vincent Derrien, Jean-Michel Richer, Jin-Kao Hao
Universit´e d’Angers
2, Bd Lavoisier, 49045 Angers Cedex, France
email: derrien,richer,hao @info.univ-angers.fr
R´
esum´
e
PLaSMA est un algorithme hybride pour l’alignement multiple de s´equences. Cet algo-
rithme combine en effet alignement progressif et recherche locale. L’algorithme a ´et´e test´e
sur quelques instances dont les tailles varient entre 5 et 17 s´equences de prot´eines. La compa-
raison avec Clustal W et SAGA montre que ce nouvel algorithme permet de trouver `a chaque
fois des r´esultats de meilleure qualit´e.
1 Introduction
1.1 L’alignement de s´
equences
L’alignement de s´equences d’ADN et de prot´eines est un probl`eme fondamental en bioinfor-
matique. Son but est de mettre en ´evidence des zones communes `a ces s´equences pour en extraire
de l’information. Des zones communes correspondent souvent `a des fonctions communes, mais
peuvent aussi ˆetre le signe d’une parent´ee entre les esp`eces dont sont issues les s´equences.
L’ADN et les prot´eines peuvent ˆetre mod´elis´es sous forme d’alphabets de 4 et 20 lettres res-
pectivement.
D´
efinition 1 - On appelle s´
equence une suite ordonn´
ee de caract`
eres pris
dans un alphabet . On note la longueur de .
Un alignement de s´equences peut ˆetre repr´esent´e sous la forme d’une matrice contenant
lignes. Chaque s´equence est plac´ee dans une des lignes de fac¸on continue ou non. C’est-`a-dire
que l’on autorise le fractionnement des s´equences, afin de pouvoir mettre en regard le plus grand
nombre de similarit´es possibles. Les emplacements libres de la matrice rec¸oivent le caract`ere ‘-’
appel´e gap.
345
346
D´
efinition 2 - Soit un ensemble de s´
equences d´
efinies sur un alphabet .
Un alignement des s´
equences de est une matrice dont les ´
el´
ements appartiennent `
a
et qui v´
erifie:
la suppression des caract`
eres ‘ ’ dans la matrice donne les s´
equences initiales de ,
Pour tout entier compris entre 1 et , il n’existe pas de colonne de la matrice contenant
uniquement le caract`
ere ‘ ’.
La qualit´e d’un alignement peut ˆetre estim´ee au moyen de fonctions d’´evaluation. La plus
connue est la fonction de somme des paires qui permet d’associer une valeur `a toute matrice
d’alignement. Plus la valeur est ´elev´e et plus l’alignement est consid´er´e comme ´etant de bonne
qualit´e.
Le probl`eme de l’alignement pour un ensemble de s´equences consiste `a trouver l’aligne-
ment qui maximise la fonction d’´evaluation.
1.2 Alignement de deux s´
equences
L’alignement de deux s´equences ou alignement par paire, est un cas particulier de l’aligne-
ment multiple. En effet, pour deux s´equences et de longueurs respectives et , il existe
un algorithme efficace pour trouver le meilleur alignement au sens de la fonction d’´evaluation.
Cet algorithme est bas´e sur la m´ethode programmation dynamique [Cormen, Leiserson et Rives,
1990], et il permet d’obtenir le meilleur alignement avec une complexit´e en .
1.3 Alignement multiple de s´
equences
On parle d’alignement multiple de s´equences lorsque le nombre de s´equences est sup´erieur
strictement `a 2. L’algorithme bas´e sur la m´ethode de programmation dynamique peut ˆetre g´en´eralis´e
pour s´equences. Toutefois, dans la pratique sa complexit´e spatiale le rend inutilisable pour
aligner plus de 3 ou 4 s´equences.
Le probl`eme de l’alignement multiple de s´equences `a ´et´e d´emontr´e NP-complet [Wang et
Jiang, 1994].
2 Etat de l’art
Devant la forte complexit´e des m´ethodes exactes, plusieurs heuristiques ont ´et´e d´evelopp´ees.
Elles peuvent ˆetre class´ees suivant deux types d’approches distinctes: les m´ethodes progressives
et les m´ethodes globales.
Les m´ethodes progressives sont r´ealis´ees de fac¸on it´erative. Initialement l’ensemble des
s´equences est partitionn´e, et les s´equences de chacun de ces sous-ensembles sont align´ees. En-
suite les diff´erents alignements sont progressivement align´es entre eux. Le processus se termine
lorsqu’il ne reste qu’un seul alignement contenant toutes les s´equences.
L’algorithme progressif le plus connu est celui de Clustal W [Thompson, Higgins et Gibson,
1994]. Il r´ealise les alignements de fac¸on progressive en utilisant l’algorithme de programma-
tion dynamique pour 2 s´equences. Lorsque deux s´equences ont ´et´e align´ees, l’algorithme les
regroupe sous forme d’une unique s´equence consensus appel´ee profil. Les profils peuvent en-
suite ˆetre align´es comme des s´equences par la m´ethode de programmation dynamique.
Les m´ethodes globales r´ealisent l’alignement multiple en prennant initialement toutes les
s´equences simultan´ement. Les diff´erentes approches sont plus vari´ees que pour les m´ethodes
347
progressives. Nous citerons principalement SAGA [Notredame et Higgins, 1996]bas´e sur un al-
gorithme g´en´etique qui comme Clustal W donne de bons r´esultats. Les autres algorithmes sont
bas´es sur diff´erentes approches telles que recuit simul´e, mod`eles de Markov ou graphes avec
contraintes.
3 Principe de PLaSMA
L’algorithme de PLaSMA propose une approche interm´ediaire entre l’alignement progressif
et l’alignement global. En effet PLaSMA r´ealise un alignement multiple en utilisant une m´ethode
progressive, mais contrairement `a Clustal W, les s´equences qui ont ´et´e align´ees sont conserv´ees.
On ´evite ainsi la perte d’information de Clustal W en n’ayant pas `a construire de profils.
L’algorithme se d´eroule en deux ´etapes principales. Tout d’abord un premier traitement per-
met d’obtenir les distances entre toutes les s´equences. A partir de ces s´equences, on peut trouver
l’ordre dans lequel les s´equences vont ˆetre align´ees.
L’algorithme g´en´eral de PLaSMA est le suivant:
1. Alignement par paires avec la m´ethode de programmation dynamique :
(a) Alignement optimal de chaque couple de s´equences,
(b) Cr´eation d’une matrice de distances.
2. Alignement it´eratif et progressif au moyen d’une m´ethode de recherche locale:
(a) choisir les deux groupes de s´equences les plus proches,
(b) les aligner en utilisant une m´ethode de recherche locale,
(c) les fusionner pour former un nouveau groupe, et mettre `a jour la matrice des dis-
tances,
(d) arrˆeter lorsque toutes les s´equences sont align´ees, sinon reprendre en 2.a.
La premi`ere ´etape est la mˆeme que celle de Clustal W. Les ´evaluations obtenues pour chacun
des alignements par paires permettent de construire une matrice de distances entre toutes
les s´equences. Cette matrice sera utilis´ee par la suite pour d´eterminer l’ordre d’alignement des
s´equences.
La seconde ´etape correspond `a la partie principale de l’algorithme de PLaSMA. Il s’agit ici
de construire de fac¸on it´erative l’alignement de toutes les s´equences. Pour cela l’algorithme va
prendre les deux s´equences ou ensemble de s´equences les plus proches afin de les aligner. L’ali-
gnement est r´ealis´e par une m´ethode de descente, en ins´erant ou en supprimant des gaps. Une
fois cet alignement termin´e, un nouveau groupe de s´equences est cr´e´e. La matrice des distances
est ensuite mise `a jour pour prendre en compte ce nouveau groupe.
Par rapport `a Clustal W, PLaSMA offre l’avantage de conserver toutes les s´equences. L’ali-
gnement se fait en travaillant directement sur les deux groupes de s´equences `a aligner. Ils forment
la configuration initiale, point de d´epart de la m´ethode descente.
L’algorithme va ensuite transformer la configuration initiale en r´ealisant des insertions ou des
suppressions de gaps dans un des deux groupes, ou dans les deux simultan´ement. Lorsqu’il n’est
plus possible d’am´eliorer cette configuration, toutes les s´equences sont regroup´ees.
4 R´
esultats exp´
erimentaux et comparaisons
Nous avons pour l’instant utilis´e l’impl´ementation de PLaSMA sur 5 jeux d’essais souvent
cit´es comme exemples dans la litt´erature. Le nombre de s´equences de ces jeux d’essais sont com-
348
pris entre 5 et 17, et les longueurs varient entre 153 et 264 acides amin´es.
Nous avons utilis´e Clustal W et SAGA sur les mˆemes jeux d’essais. Pour cela nous nous
sommes plac´es dans les mˆemes conditions exp´erimentales. Les r´esultats ont ´et´e ´evalu´es en utili-
sant la fonction de somme des paires.
Nous pouvons tout d’abord constater qu’`a chaque fois, PLaSMA donne les meilleurs r´esultats.
Pour les jeux d’essais ayant des s´equences assez similaires, l’am´elioration est peu importante. En
revanche, pour un des jeux d’essais constitu´e de s´equences assez diff´erentes, les r´esultats obtenus
avec PLaSMA sont nettement meilleurs.
5 Conclusion et perspectives
Dans cet article nous avons pr´esent´e PLaSMA un nouvel algorithme hybride pour l’aligne-
ment multiple de s´equences. Cet algorithme est bas´e sur une approche progressive qui combine
programmation dynamique et recherche locale. Le programme a ´et´e ´evalu´e sur 5 jeux d’es-
sais allant de 5 `a 17 s´equences et des longueurs variant entre 153 et 264 acides amin´es. Nous
avons ´egalement utilis´e ces jeux d’essais avec Clustal W et SAGA, en prenant les mˆemes pa-
ram`etres. Dans tous les cas, l’´evaluation par la somme des paires donne de meilleurs r´esultats
pour PLaSMA.
L’algorithme est actuellement reprogramm´eafin de r´eduire le temps de calcul. Nous pr´evoyons
de tester le programme sur un plus grand nombre de jeux d’essai, et notamment en utilisant BA-
liBASE [Thompson, Plewniak et Poch, 1998]. Nous envisageons ´egalement des techniques de
post-optimisation, notamment pour mieux r´epartir les br`eches ins´er´ees.
R´
ef´
erences
[Cormen, Leiserson et Rives, 1990]T.H. Cormen, C.E. Leiserson, R. L . Rivest Introduction to
Algorithms The MIT Electrical Engineering and Computer Science Series, 1990.
[Wang et Jiang, 1994]L. Wang et T. Jiang On the complexity of multiple sequence alignment.
Journal of computational biology, 4:337–348, 1994.
[Thompson, Higgins et Gibson, 1994]J.D. Thompson, D.G. Higgins, T.J. Gibson CLUSTAL
W: improving the sensitivity of progressive multiple sequence alignment through sequence
weighting, positions-specific gap penalties and weight matrix choice. Nucleic Acids Research,
22:4673–4680, 1994.
[Thompson, Plewniak et Poch, 1998]J. D. Thompson, F. Plewniak O. Poch BAliBASE: A bench-
mark alignment database for the evaluation of multiple alignment programs. Bioinformatics,
15:87–88, 1998.
[Notredame et Higgins, 1996]C. Notredame, D.G. Higgins SAGA: Sequence Alignment by Ge-
netic Algorithm. Nucleic Acids Research, 24:1515–1524, 1996.
1 / 4 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !