347
progressives. Nous citerons principalement SAGA [Notredame et Higgins, 1996]bas´e sur un al-
gorithme g´en´etique qui comme Clustal W donne de bons r´esultats. Les autres algorithmes sont
bas´es sur diff´erentes approches telles que recuit simul´e, mod`eles de Markov ou graphes avec
contraintes.
3 Principe de PLaSMA
L’algorithme de PLaSMA propose une approche interm´ediaire entre l’alignement progressif
et l’alignement global. En effet PLaSMA r´ealise un alignement multiple en utilisant une m´ethode
progressive, mais contrairement `a Clustal W, les s´equences qui ont ´et´e align´ees sont conserv´ees.
On ´evite ainsi la perte d’information de Clustal W en n’ayant pas `a construire de profils.
L’algorithme se d´eroule en deux ´etapes principales. Tout d’abord un premier traitement per-
met d’obtenir les distances entre toutes les s´equences. A partir de ces s´equences, on peut trouver
l’ordre dans lequel les s´equences vont ˆetre align´ees.
L’algorithme g´en´eral de PLaSMA est le suivant:
1. Alignement par paires avec la m´ethode de programmation dynamique :
(a) Alignement optimal de chaque couple de s´equences,
(b) Cr´eation d’une matrice de distances.
2. Alignement it´eratif et progressif au moyen d’une m´ethode de recherche locale:
(a) choisir les deux groupes de s´equences les plus proches,
(b) les aligner en utilisant une m´ethode de recherche locale,
(c) les fusionner pour former un nouveau groupe, et mettre `a jour la matrice des dis-
tances,
(d) arrˆeter lorsque toutes les s´equences sont align´ees, sinon reprendre en 2.a.
La premi`ere ´etape est la mˆeme que celle de Clustal W. Les ´evaluations obtenues pour chacun
des alignements par paires permettent de construire une matrice de distances entre toutes
les s´equences. Cette matrice sera utilis´ee par la suite pour d´eterminer l’ordre d’alignement des
s´equences.
La seconde ´etape correspond `a la partie principale de l’algorithme de PLaSMA. Il s’agit ici
de construire de fac¸on it´erative l’alignement de toutes les s´equences. Pour cela l’algorithme va
prendre les deux s´equences ou ensemble de s´equences les plus proches afin de les aligner. L’ali-
gnement est r´ealis´e par une m´ethode de descente, en ins´erant ou en supprimant des gaps. Une
fois cet alignement termin´e, un nouveau groupe de s´equences est cr´e´e. La matrice des distances
est ensuite mise `a jour pour prendre en compte ce nouveau groupe.
Par rapport `a Clustal W, PLaSMA offre l’avantage de conserver toutes les s´equences. L’ali-
gnement se fait en travaillant directement sur les deux groupes de s´equences `a aligner. Ils forment
la configuration initiale, point de d´epart de la m´ethode descente.
L’algorithme va ensuite transformer la configuration initiale en r´ealisant des insertions ou des
suppressions de gaps dans un des deux groupes, ou dans les deux simultan´ement. Lorsqu’il n’est
plus possible d’am´eliorer cette configuration, toutes les s´equences sont regroup´ees.
4 R´
esultats exp´
erimentaux et comparaisons
Nous avons pour l’instant utilis´e l’impl´ementation de PLaSMA sur 5 jeux d’essais souvent
cit´es comme exemples dans la litt´erature. Le nombre de s´equences de ces jeux d’essais sont com-