Alignement Multiple de séquences Introduction

Téléchargement

Alignement Multiple de

séquences

2016-2017 Carène Rizzon

Outils de la Bioinformatique

M1 GENIOMHE/ BS

Université Evry Val d’Essonne

Introduction

• Alignement multiple: pour comparer simultanément plusieurs

séquences homologues entre elles:

Exemple: Méthyltransférases

CLUSTAL W (1.82) multiple sequence alignment

Q800F5_TETNG -MSTSYPTPVYSHVGRGDFTDVYEPAEDTFLLMDALEKDAETLQRP--AVCLEVGSGSGV 57

Q800G0_TETNG -MSTSYPTPVYSHVGRGDFTDVYEPAEDTFLLMDALEKDAETLQR---SSCVS-GSGQWF 55

Q9YHV6_FUGRU -MSASYPTPVYSHVGRGDFRDVYEPAEDTFLLMDALEKDAERLRQ--------------- 44

N6AM1_HUMAN MAGENFATPFHGHVGRGAFSDVYEPAEDTFLLLDALEAAAAELAG--VEICLEVGSGSGV 58

Q96F73_HUMAN MAGENFATPFHGHVGRGAFSDVYEPAEDTFLLLDALEAAAAELAG--VEICLEVGSGSGV 58

Q6SKR2_MOUSE MAAPSVPTPLYGHVGRGAFRDVYEPAEDTFLLLDALEAAAAELAG--VEICLEVGAGSGV 58

Q6DGP3_BRARE ----MFPTPLYAPAGRGRFSEVYEPAEDSFLLMDALEKDADRLKDSRPCVCLEVGSGSGV 56

. .**.:. .*** * :*******:***:**** * * . . .:..

AVFPMILW RED

DE BLUE

RHK MAGENTA

STYHCNGQ GREEN

Others Gray

• Alignement multiple: pour comparer simultanément plusieurs

séquences homologues entre elles:

• Applications

- Détecter des régions conservées au travers de l’Évolution (souvent =

fonction clé de la molécule)

- Identifier les acides aminés impliqués dans la fonction d’une protéine

- Valider a posteriori des alignements par paires fournis par BLAST et

FASTA: alignement multiple plus «!puissant!» que alignement par paires

- Déterminer des séquences consensus

- Reconstruire des familles de séquences

- Reconstruire des arbres phylogénétiques

- Reconstruire l’histoire évolutive de séquences homologues au sein

d’une même espèce (≠ phylogénie)

Introduction

CLUSTAL W (1.82) multiple sequence alignment

Q800F5_TETNG -MSTSYPTPVYSHVGRGDFTDVYEPAEDTFLLMDALEKDAETLQRP--AVCLEVGSGSGV 57

Q800G0_TETNG -MSTSYPTPVYSHVGRGDFTDVYEPAEDTFLLMDALEKDAETLQR---SSCVS-GSGQWF 55

Q9YHV6_FUGRU -MSASYPTPVYSHVGRGDFRDVYEPAEDTFLLMDALEKDAERLRQ--------------- 44

N6AM1_HUMAN MAGENFATPFHGHVGRGAFSDVYEPAEDTFLLLDALEAAAAELAG--VEICLEVGSGSGV 58

Q96F73_HUMAN MAGENFATPFHGHVGRGAFSDVYEPAEDTFLLLDALEAAAAELAG--VEICLEVGSGSGV 58

Q6SKR2_MOUSE MAAPSVPTPLYGHVGRGAFRDVYEPAEDTFLLLDALEAAAAELAG--VEICLEVGAGSGV 58

Q6DGP3_BRARE ----MFPTPLYAPAGRGRFSEVYEPAEDSFLLMDALEKDADRLKDSRPCVCLEVGSGSGV 56

. .**.:. .*** * :*******:***:**** * * . . .:..

Introduction

Séquences apparentées !!!!

Rmq: très difficile de savoir si l’alignement obtenu est exact

Exemple: Méthyltransférases

Alignement multiple optimal

•  Alignement multiple par programmation dynamique (algo. exact)

D’

0 P -

D’

4 P C

D’

3 P G

D’

2 P T

D’

1 P A

D’ P Q

D’ P

Pour 2 séquences Pour 3 séquences

Pour N séquences : N dimensions

( x1, x2, x3 )

x3 ε3

ε1

ε2

A T G T

A T G - T

- T G C -

- - - C T

•  Calcul des scores des sous-problèmes

Alignement multiple optimal par programmation dynamique

MSTSYPTPVYS i

MSTSYPTPV-S j

MSASYP-PVYS k

…

D i j = Min (D’i j, Pi j, Qi j)

D i -1, j -1

D i , j -1

D i -1, j

D i , j

Qi j

Pi j

D’i

Qi j = D i,j-1 + ωk

Pi j = D i-1,j + ωk

D’i j = D i-1,j-1 + γ (ai, bj)

Pour 2 séquences Pour N séquences

-  Retenir le score max (ou min) sur 2N-1 possibilités

exemple pour 3 sequences: 7 possibilités:

T(i-1,j-1,k-1)+γ(ai,bj,ck)

T(i,j-1,k-1)+γ(-,bj,ck)

T(i-1,j,k-1)+γ(ai,-,ck)

T(i-1,j-1,k)+γ(ai,bj,-)

T(i,j,k-1)+γ(-,-,ck)

T(i,j-1,k)+γ(-,bj,-)

T(i-1,j,k)+γ(ai,-,-)

D(i,j,k)=max

γ à 3 dimensions!

On prend plutôt des «!SP-score!»

•  Calcul des scores des sous-problèmes

Alignement multiple optimal par programmation dynamique

MSTSYPTPVYS H i

MSTSYPTPV-S H j

MSASYP-PVYS Y k

…

Pour N séquences

-  Retenir le score max (ou min) sur 2N-1 possibilités

exemple pour 3 sequences: 7 possibilités:

T(i-1,j-1,k-1)+γ(ai,bj,ck)

T(i,j-1,k-1)+γ(-,bj,ck)

T(i-1,j,k-1)+γ(ai,-,ck)

T(i-1,j-1,k)+γ(ai,bj,-)

T(i,j,k-1)+γ(-,-,ck)

T(i,j-1,k)+γ(-,bj,-)

T(i-1,j,k)+γ(ai,-,-)

D(i,j,k)=max

«!SP-score!»:

Somme des scores des séquences

prises 2 à 2 pour l’ensemble des

paires de symboles dans la colonne

À la place de γ(ai,bj,ck):

SP(ai,bj,ck) = S(ai,bj)+S (ai,ck)+S(bj,ck)

SP(-,bj,ck) = S(-,bj)+S(-,ck)+S(bj,ck)

Etc.

Avec: S(-,-) = 0

(favorise le regroupement des indels au

niveau des mêmes colonnes de

l’alignement multiple)

γ à 3 dimensions!

On prend plutôt des «!SP-score!»

•  Mais …

Alignement multiple optimal par programmation dynamique

Needleman et Wunsch

Smith et Waterman

2 globines → 1 sec O(N2)

3 globines → 2 mn O(N3)

4 globines → 5 h O(N4)

5 globines → 3 semaines

6 globines → 9 ans

7 globines → 1000 ans

→ Nécessité d’utiliser des heuristiques

Heuristiques pour l’alignement multiple

•  Dérivées de l’algorithme exact (restreint à des diagonales)

ex: MSA (Multiple Sequence Alignment, Carrillo

and Lipman 1988 et 1989).

Pour faible nombre de séquences

•  Fondées sur la recherche de segments : alignements locaux

DIALIGN2

MACAW

Adaptés lorsque grand nombre d’indels et de répétitions internes

•  Méthodes itératives

HMMs, HMMER, SAM

Lentes, parfois non adaptés mais bons générateurs de profils

•  Méthodes progressives

ClustalW, PileUp, MultAlin, T-COFFEE …

Rapides et sensibles dans les cas simples

Autant d’alignements que de programmes !!!!!

•  Les nouveaux:

3D-Coffee, MAFFT, PSI-PRALINE, PROBCONS, MUSCLE…

Conclusions

Rapidité Séquences proches Séquences

éloignées

qualité

Multalin ++ +++ + ++

CLUSTALW + ++ ++ +++

MUSCLE +++ +++ + +++

MAFFT ++ ++ + +++

T-COFFEE + + +++ +++

DIALIGN + + +++ +

Tiré de Deléage et Gouy, 2013

1 / 21 100%

Documents connexes

Séquences Littérature CE2 (2019/2020) - Programmation

Sujet examen 2010

PLaSMA, un nouvel algorithme progressif pour l`alignement multiple

L`IMPORTANCE DE CRÉER UNE CULTURE DE RECONNAISSANCE

TP - Problème de Découpe (suite)

phylogenie belgique

Fiche d`exercices : récurrences élémentaires

4. Comparaison de séquences

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Alignement Multiple de séquences Introduction

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Alignement Multiple de séquences Introduction

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib