1
Alignement Multiple de
séquences
2016-2017 Carène Rizzon
Outils de la Bioinformatique
M1 GENIOMHE/ BS
Université Evry Val dEssonne
Introduction
Alignement multiple: pour comparer simultanément plusieurs
séquences homologues entre elles:
Exemple: Méthyltransférases
CLUSTAL W (1.82) multiple sequence alignment
Q800F5_TETNG -MSTSYPTPVYSHVGRGDFTDVYEPAEDTFLLMDALEKDAETLQRP--AVCLEVGSGSGV 57
Q800G0_TETNG -MSTSYPTPVYSHVGRGDFTDVYEPAEDTFLLMDALEKDAETLQR---SSCVS-GSGQWF 55
Q9YHV6_FUGRU -MSASYPTPVYSHVGRGDFRDVYEPAEDTFLLMDALEKDAERLRQ--------------- 44
N6AM1_HUMAN MAGENFATPFHGHVGRGAFSDVYEPAEDTFLLLDALEAAAAELAG--VEICLEVGSGSGV 58
Q96F73_HUMAN MAGENFATPFHGHVGRGAFSDVYEPAEDTFLLLDALEAAAAELAG--VEICLEVGSGSGV 58
Q6SKR2_MOUSE MAAPSVPTPLYGHVGRGAFRDVYEPAEDTFLLLDALEAAAAELAG--VEICLEVGAGSGV 58
Q6DGP3_BRARE ----MFPTPLYAPAGRGRFSEVYEPAEDSFLLMDALEKDADRLKDSRPCVCLEVGSGSGV 56
. .**.:. .*** * :*******:***:**** * * . . .:..
AVFPMILW RED
DE BLUE
RHK MAGENTA
STYHCNGQ GREEN
Others Gray
2
Alignement multiple: pour comparer simultanément plusieurs
séquences homologues entre elles:
Applications
- Détecter des régions conservées au travers de lÉvolution (souvent =
fonction clé de la molécule)
- Identifier les acides aminés impliqués dans la fonction dune protéine
- Valider a posteriori des alignements par paires fournis par BLAST et
FASTA: alignement multiple plus «!puissant!» que alignement par paires
- Déterminer des séquences consensus
- Reconstruire des familles de séquences
- Reconstruire des arbres phylogénétiques
- Reconstruire lhistoire évolutive de séquences homologues au sein
dune même espèce ( phylogénie)
Introduction
CLUSTAL W (1.82) multiple sequence alignment
Q800F5_TETNG -MSTSYPTPVYSHVGRGDFTDVYEPAEDTFLLMDALEKDAETLQRP--AVCLEVGSGSGV 57
Q800G0_TETNG -MSTSYPTPVYSHVGRGDFTDVYEPAEDTFLLMDALEKDAETLQR---SSCVS-GSGQWF 55
Q9YHV6_FUGRU -MSASYPTPVYSHVGRGDFRDVYEPAEDTFLLMDALEKDAERLRQ--------------- 44
N6AM1_HUMAN MAGENFATPFHGHVGRGAFSDVYEPAEDTFLLLDALEAAAAELAG--VEICLEVGSGSGV 58
Q96F73_HUMAN MAGENFATPFHGHVGRGAFSDVYEPAEDTFLLLDALEAAAAELAG--VEICLEVGSGSGV 58
Q6SKR2_MOUSE MAAPSVPTPLYGHVGRGAFRDVYEPAEDTFLLLDALEAAAAELAG--VEICLEVGAGSGV 58
Q6DGP3_BRARE ----MFPTPLYAPAGRGRFSEVYEPAEDSFLLMDALEKDADRLKDSRPCVCLEVGSGSGV 56
. .**.:. .*** * :*******:***:**** * * . . .:..
Introduction
Séquences apparentées !!!!
Rmq: très difficile de savoir si lalignement obtenu est exact
Exemple: Méthyltransférases
3
Alignement multiple optimal
Alignement multiple par programmation dynamique (algo. exact)
24
24
24
20
20
20
16
16
16
12
12
12
8
8
8
4
4
4
0
0
0
D
0 P -
Q
8
11
16
10
7
12
3
8
11
4
12
7
11
16
8
15
20
12
16
16
16
D
4 P C
Q
15
12
20
8
11
16
7
7
12
3
8
8
7
12
4
11
16
8
12
12
12
D
3 P G
Q
19
16
24
15
12
20
11
8
16
7
4
12
0
8
8
7
12
4
8
8
8
D
2 P T
Q
23
20
28
19
16
24
15
12
20
11
8
16
7
4
12
0
8
8
4
4
4
D
1 P A
Q
6
D P Q
C
5
D P Q
G
4
D P Q
C
3
D P Q
C
2
D P
Q
T
1
D P
Q
A
0
D P
Q
-
Pour 2 séquences Pour 3 séquences
Pour N séquences : N dimensions
( x1, x2, x3 )
S1
S2
S3
x1
x3 ε3
ε1
ε2
A T G T
C
G
T
T
C
A T G - T
- T G C -
- - - C T
Calcul des scores des sous-problèmes
Alignement multiple optimal par programmation dynamique
MSTSYPTPVYS i
MSTSYPTPV-S j
MSASYP-PVYS k
D i j = Min (Di j, Pi j, Qi j)
D i -1, j -1
D i , j -1
D i -1, j
D i , j
Qi j
Pi j
Di
j
Qi j = D i,j-1 + ωk
Pi j = D i-1,j + ωk
Di j = D i-1,j-1 + γ (ai, bj)
Pour 2 séquences Pour N séquences
- Retenir le score max (ou min) sur 2N-1 possibilités
exemple pour 3 sequences: 7 possibilités:
T(i-1,j-1,k-1)+γ(ai,bj,ck)
T(i,j-1,k-1)+γ(-,bj,ck)
T(i-1,j,k-1)+γ(ai,-,ck)
T(i-1,j-1,k)+γ(ai,bj,-)
T(i,j,k-1)+γ(-,-,ck)
T(i,j-1,k)+γ(-,bj,-)
T(i-1,j,k)+γ(ai,-,-)
D(i,j,k)=max
γ à 3 dimensions!
On prend plutôt des «!SP-score!»
4
Calcul des scores des sous-problèmes
Alignement multiple optimal par programmation dynamique
MSTSYPTPVYS H i
MSTSYPTPV-S H j
MSASYP-PVYS Y k
Pour N séquences
- Retenir le score max (ou min) sur 2N-1 possibilités
exemple pour 3 sequences: 7 possibilités:
T(i-1,j-1,k-1)+γ(ai,bj,ck)
T(i,j-1,k-1)+γ(-,bj,ck)
T(i-1,j,k-1)+γ(ai,-,ck)
T(i-1,j-1,k)+γ(ai,bj,-)
T(i,j,k-1)+γ(-,-,ck)
T(i,j-1,k)+γ(-,bj,-)
T(i-1,j,k)+γ(ai,-,-)
D(i,j,k)=max
«!SP-score!»:
Somme des scores des séquences
prises 2 à 2 pour lensemble des
paires de symboles dans la colonne
À la place de γ(ai,bj,ck):
SP(ai,bj,ck) = S(ai,bj)+S (ai,ck)+S(bj,ck)
SP(-,bj,ck) = S(-,bj)+S(-,ck)+S(bj,ck)
Etc.
Avec: S(-,-) = 0
(favorise le regroupement des indels au
niveau des mêmes colonnes de
l’alignement multiple)
γ à 3 dimensions!
On prend plutôt des «!SP-score!»
Mais …
Alignement multiple optimal par programmation dynamique
Needleman et Wunsch
Smith et Waterman
2 globines 1 sec O(N2)
3 globines 2 mn O(N3)
4 globines 5 h O(N4)
5 globines 3 semaines
6 globines 9 ans
7 globines 1000 ans
Nécessité dutiliser des heuristiques
5
Heuristiques pour l’alignement multiple
Dérivées de lalgorithme exact (restreint à des diagonales)
ex: MSA (Multiple Sequence Alignment, Carrillo
and Lipman 1988 et 1989).
Pour faible nombre de séquences
Fondées sur la recherche de segments : alignements locaux
DIALIGN2
MACAW
Adaptés lorsque grand nombre dindels et de répétitions internes
Méthodes itératives
HMMs, HMMER, SAM
Lentes, parfois non adaptés mais bons générateurs de profils
Méthodes progressives
ClustalW, PileUp, MultAlin, T-COFFEE …
Rapides et sensibles dans les cas simples
Autant dalignements que de programmes !!!!!
Les nouveaux:
3D-Coffee, MAFFT, PSI-PRALINE, PROBCONS, MUSCLE…
Conclusions
Rapidité Séquences proches Séquences
éloignées
qualité
Multalin ++ +++ + ++
CLUSTALW + ++ ++ +++
MUSCLE +++ +++ + +++
MAFFT ++ ++ + +++
T-COFFEE + + +++ +++
DIALIGN + + +++ +
Tiré de Deléage et Gouy, 2013
1 / 21 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !