PLaSMA : un algorithme hybride pour le probl`eme d`alignement

Téléchargement

Actes JNPC’03

PLaSMA : un algorithme hybride pour

le probl`

eme d’alignement multiple de

s´

equences

Vincent Derrien, Jean-Michel Richer, Jin-Kao Hao

Universit´e d’Angers

2, Bd Lavoisier, 49045 Angers Cedex, France

email: derrien,richer,hao @info.univ-angers.fr

R´

esum´

PLaSMA est un algorithme hybride pour l’alignement multiple de s´equences. Cet algo-

rithme combine en effet alignement progressif et recherche locale. L’algorithme a ´et´e test´e

sur quelques instances dont les tailles varient entre 5 et 17 s´equences de prot´eines. La compa-

raison avec Clustal W et SAGA montre que ce nouvel algorithme permet de trouver `a chaque

fois des r´esultats de meilleure qualit´e.

1 Introduction

1.1 L’alignement de s´

equences

L’alignement de s´equences d’ADN et de prot´eines est un probl`eme fondamental en bioinfor-

matique. Son but est de mettre en ´evidence des zones communes `a ces s´equences pour en extraire

de l’information. Des zones communes correspondent souvent `a des fonctions communes, mais

peuvent aussi ˆetre le signe d’une parent´ee entre les esp`eces dont sont issues les s´equences.

L’ADN et les prot´eines peuvent ˆetre mod´elis´es sous forme d’alphabets de 4 et 20 lettres res-

pectivement.

D´

eﬁnition 1 - On appelle s´

equence une suite ordonn´

ee de caract`

eres pris

dans un alphabet . On note la longueur de .

Un alignement de s´equences peut ˆetre repr´esent´e sous la forme d’une matrice contenant

lignes. Chaque s´equence est plac´ee dans une des lignes de fac¸on continue ou non. C’est-`a-dire

que l’on autorise le fractionnement des s´equences, aﬁn de pouvoir mettre en regard le plus grand

nombre de similarit´es possibles. Les emplacements libres de la matrice rec¸oivent le caract`ere ‘-’

appel´e gap.

345

346

D´

eﬁnition 2 - Soit un ensemble de s´

equences d´

eﬁnies sur un alphabet .

Un alignement des s´

equences de est une matrice dont les ´

el´

ements appartiennent `

et qui v´

eriﬁe:

– la suppression des caract`

eres ‘ ’ dans la matrice donne les s´

equences initiales de ,

– Pour tout entier compris entre 1 et , il n’existe pas de colonne de la matrice contenant

uniquement le caract`

ere ‘ ’.

La qualit´e d’un alignement peut ˆetre estim´ee au moyen de fonctions d’´evaluation. La plus

connue est la fonction de somme des paires qui permet d’associer une valeur `a toute matrice

d’alignement. Plus la valeur est ´elev´e et plus l’alignement est consid´er´e comme ´etant de bonne

qualit´e.

Le probl`eme de l’alignement pour un ensemble de s´equences consiste `a trouver l’aligne-

ment qui maximise la fonction d’´evaluation.

1.2 Alignement de deux s´

equences

L’alignement de deux s´equences ou alignement par paire, est un cas particulier de l’aligne-

ment multiple. En effet, pour deux s´equences et de longueurs respectives et , il existe

un algorithme efﬁcace pour trouver le meilleur alignement au sens de la fonction d’´evaluation.

Cet algorithme est bas´e sur la m´ethode programmation dynamique [Cormen, Leiserson et Rives,

1990], et il permet d’obtenir le meilleur alignement avec une complexit´e en .

1.3 Alignement multiple de s´

equences

On parle d’alignement multiple de s´equences lorsque le nombre de s´equences est sup´erieur

strictement `a 2. L’algorithme bas´e sur la m´ethode de programmation dynamique peut ˆetre g´en´eralis´e

pour s´equences. Toutefois, dans la pratique sa complexit´e spatiale le rend inutilisable pour

aligner plus de 3 ou 4 s´equences.

Le probl`eme de l’alignement multiple de s´equences `a ´et´e d´emontr´e NP-complet [Wang et

Jiang, 1994].

2 Etat de l’art

Devant la forte complexit´e des m´ethodes exactes, plusieurs heuristiques ont ´et´e d´evelopp´ees.

Elles peuvent ˆetre class´ees suivant deux types d’approches distinctes: les m´ethodes progressives

et les m´ethodes globales.

Les m´ethodes progressives sont r´ealis´ees de fac¸on it´erative. Initialement l’ensemble des

s´equences est partitionn´e, et les s´equences de chacun de ces sous-ensembles sont align´ees. En-

suite les diff´erents alignements sont progressivement align´es entre eux. Le processus se termine

lorsqu’il ne reste qu’un seul alignement contenant toutes les s´equences.

L’algorithme progressif le plus connu est celui de Clustal W [Thompson, Higgins et Gibson,

1994]. Il r´ealise les alignements de fac¸on progressive en utilisant l’algorithme de programma-

tion dynamique pour 2 s´equences. Lorsque deux s´equences ont ´et´e align´ees, l’algorithme les

regroupe sous forme d’une unique s´equence consensus appel´ee proﬁl. Les proﬁls peuvent en-

suite ˆetre align´es comme des s´equences par la m´ethode de programmation dynamique.

Les m´ethodes globales r´ealisent l’alignement multiple en prennant initialement toutes les

s´equences simultan´ement. Les diff´erentes approches sont plus vari´ees que pour les m´ethodes

347

progressives. Nous citerons principalement SAGA [Notredame et Higgins, 1996]bas´e sur un al-

gorithme g´en´etique qui comme Clustal W donne de bons r´esultats. Les autres algorithmes sont

bas´es sur diff´erentes approches telles que recuit simul´e, mod`eles de Markov ou graphes avec

contraintes.

3 Principe de PLaSMA

L’algorithme de PLaSMA propose une approche interm´ediaire entre l’alignement progressif

et l’alignement global. En effet PLaSMA r´ealise un alignement multiple en utilisant une m´ethode

progressive, mais contrairement `a Clustal W, les s´equences qui ont ´et´e align´ees sont conserv´ees.

On ´evite ainsi la perte d’information de Clustal W en n’ayant pas `a construire de proﬁls.

L’algorithme se d´eroule en deux ´etapes principales. Tout d’abord un premier traitement per-

met d’obtenir les distances entre toutes les s´equences. A partir de ces s´equences, on peut trouver

l’ordre dans lequel les s´equences vont ˆetre align´ees.

L’algorithme g´en´eral de PLaSMA est le suivant:

1. Alignement par paires avec la m´ethode de programmation dynamique :

(a) Alignement optimal de chaque couple de s´equences,

(b) Cr´eation d’une matrice de distances.

2. Alignement it´eratif et progressif au moyen d’une m´ethode de recherche locale:

(a) choisir les deux groupes de s´equences les plus proches,

(b) les aligner en utilisant une m´ethode de recherche locale,

tances,

(d) arrˆeter lorsque toutes les s´equences sont align´ees, sinon reprendre en 2.a.

La premi`ere ´etape est la mˆeme que celle de Clustal W. Les ´evaluations obtenues pour chacun

des alignements par paires permettent de construire une matrice de distances entre toutes

les s´equences. Cette matrice sera utilis´ee par la suite pour d´eterminer l’ordre d’alignement des

s´equences.

La seconde ´etape correspond `a la partie principale de l’algorithme de PLaSMA. Il s’agit ici

de construire de fac¸on it´erative l’alignement de toutes les s´equences. Pour cela l’algorithme va

prendre les deux s´equences ou ensemble de s´equences les plus proches aﬁn de les aligner. L’ali-

gnement est r´ealis´e par une m´ethode de descente, en ins´erant ou en supprimant des gaps. Une

fois cet alignement termin´e, un nouveau groupe de s´equences est cr´e´e. La matrice des distances

est ensuite mise `a jour pour prendre en compte ce nouveau groupe.

Par rapport `a Clustal W, PLaSMA offre l’avantage de conserver toutes les s´equences. L’ali-

gnement se fait en travaillant directement sur les deux groupes de s´equences `a aligner. Ils forment

la conﬁguration initiale, point de d´epart de la m´ethode descente.

L’algorithme va ensuite transformer la conﬁguration initiale en r´ealisant des insertions ou des

suppressions de gaps dans un des deux groupes, ou dans les deux simultan´ement. Lorsqu’il n’est

plus possible d’am´eliorer cette conﬁguration, toutes les s´equences sont regroup´ees.

4 R´

esultats exp´

erimentaux et comparaisons

Nous avons pour l’instant utilis´e l’impl´ementation de PLaSMA sur 5 jeux d’essais souvent

cit´es comme exemples dans la litt´erature. Le nombre de s´equences de ces jeux d’essais sont com-

348

pris entre 5 et 17, et les longueurs varient entre 153 et 264 acides amin´es.

Nous avons utilis´e Clustal W et SAGA sur les mˆemes jeux d’essais. Pour cela nous nous

sommes plac´es dans les mˆemes conditions exp´erimentales. Les r´esultats ont ´et´e ´evalu´es en utili-

sant la fonction de somme des paires.

Nous pouvons tout d’abord constater qu’`a chaque fois, PLaSMA donne les meilleurs r´esultats.

Pour les jeux d’essais ayant des s´equences assez similaires, l’am´elioration est peu importante. En

revanche, pour un des jeux d’essais constitu´e de s´equences assez diff´erentes, les r´esultats obtenus

avec PLaSMA sont nettement meilleurs.

5 Conclusion et perspectives

Dans cet article nous avons pr´esent´e PLaSMA un nouvel algorithme hybride pour l’aligne-

ment multiple de s´equences. Cet algorithme est bas´e sur une approche progressive qui combine

programmation dynamique et recherche locale. Le programme a ´et´e ´evalu´e sur 5 jeux d’es-

sais allant de 5 `a 17 s´equences et des longueurs variant entre 153 et 264 acides amin´es. Nous

avons ´egalement utilis´e ces jeux d’essais avec Clustal W et SAGA, en prenant les mˆemes pa-

ram`etres. Dans tous les cas, l’´evaluation par la somme des paires donne de meilleurs r´esultats

pour PLaSMA.

L’algorithme est actuellement reprogramm´eaﬁn de r´eduire le temps de calcul. Nous pr´evoyons

de tester le programme sur un plus grand nombre de jeux d’essai, et notamment en utilisant BA-

liBASE [Thompson, Plewniak et Poch, 1998]. Nous envisageons ´egalement des techniques de

post-optimisation, notamment pour mieux r´epartir les br`eches ins´er´ees.

R´

ef´

erences

[Cormen, Leiserson et Rives, 1990]T.H. Cormen, C.E. Leiserson, R. L . Rivest Introduction to

Algorithms The MIT Electrical Engineering and Computer Science Series, 1990.

[Wang et Jiang, 1994]L. Wang et T. Jiang On the complexity of multiple sequence alignment.

Journal of computational biology, 4:337–348, 1994.

[Thompson, Higgins et Gibson, 1994]J.D. Thompson, D.G. Higgins, T.J. Gibson CLUSTAL

W: improving the sensitivity of progressive multiple sequence alignment through sequence

weighting, positions-speciﬁc gap penalties and weight matrix choice. Nucleic Acids Research,

22:4673–4680, 1994.

[Thompson, Plewniak et Poch, 1998]J. D. Thompson, F. Plewniak O. Poch BAliBASE: A bench-

mark alignment database for the evaluation of multiple alignment programs. Bioinformatics,

15:87–88, 1998.

[Notredame et Higgins, 1996]C. Notredame, D.G. Higgins SAGA: Sequence Alignment by Ge-

netic Algorithm. Nucleic Acids Research, 24:1515–1524, 1996.

1 / 4 100%

Documents connexes

TP Python SRI 1

Un nouvel algorithme d`alignement de structures

Bioinformatique - TP3 : alignement de séquences avec Python

Majeure d`informatique Introduction la théorie de l

51IF2IK3 – Examen Session 2

L`IMPORTANCE DE CRÉER UNE CULTURE DE RECONNAISSANCE

L`eau à la maison: Mode d`emploi écologique

IFT 3295 / IFT 6291 / BIN6000 (Aut2014)

Spectro-pointer Alignement optique-mécanique

Décryptage statistique

2009

30008303 BARRIERES PHOTO-ÉLECTRIQUE DOUBLE

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

PLaSMA : un algorithme hybride pour le probl`eme d`alignement

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

PLaSMA : un algorithme hybride pour le probl`eme d`alignement

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib