Alignement Multiple de séquences Introduction

publicité
Alignement Multiple de
séquences
Outils de la Bioinformatique
M1 GENIOMHE/ BS
Université Evry Val d’Essonne
2016-2017
Carène Rizzon
Introduction
•  Alignement multiple: pour comparer simultanément plusieurs
séquences homologues entre elles:
Exemple: Méthyltransférases
CLUSTAL W (1.82) multiple sequence alignment
Q800F5_TETNG
Q800G0_TETNG
Q9YHV6_FUGRU
N6AM1_HUMAN
Q96F73_HUMAN
Q6SKR2_MOUSE
Q6DGP3_BRARE
-MSTSYPTPVYSHVGRGDFTDVYEPAEDTFLLMDALEKDAETLQRP--AVCLEVGSGSGV
-MSTSYPTPVYSHVGRGDFTDVYEPAEDTFLLMDALEKDAETLQR---SSCVS-GSGQWF
-MSASYPTPVYSHVGRGDFRDVYEPAEDTFLLMDALEKDAERLRQ--------------MAGENFATPFHGHVGRGAFSDVYEPAEDTFLLLDALEAAAAELAG--VEICLEVGSGSGV
MAGENFATPFHGHVGRGAFSDVYEPAEDTFLLLDALEAAAAELAG--VEICLEVGSGSGV
MAAPSVPTPLYGHVGRGAFRDVYEPAEDTFLLLDALEAAAAELAG--VEICLEVGAGSGV
----MFPTPLYAPAGRGRFSEVYEPAEDSFLLMDALEKDADRLKDSRPCVCLEVGSGSGV
.
.**.:. .*** * :*******:***:**** * *
. . .:..
57
55
44
58
58
58
56
AVFPMILW RED
DE
BLUE
RHK
MAGENTA
STYHCNGQ GREEN
Others
Gray
1
Introduction
•  Alignement multiple: pour comparer simultanément plusieurs
séquences homologues entre elles:
•  Applications
- Détecter des régions conservées au travers de l’Évolution (souvent =
fonction clé de la molécule)
- Identifier les acides aminés impliqués dans la fonction d’une protéine
- Valider a posteriori des alignements par paires fournis par BLAST et
FASTA: alignement multiple plus « puissant » que alignement par paires
- Déterminer des séquences consensus
- Reconstruire des familles de séquences
- Reconstruire des arbres phylogénétiques
- Reconstruire l’histoire évolutive de séquences homologues au sein
d’une même espèce (≠ phylogénie)
Introduction
Exemple: Méthyltransférases
CLUSTAL W (1.82) multiple sequence alignment
Q800F5_TETNG
Q800G0_TETNG
Q9YHV6_FUGRU
N6AM1_HUMAN
Q96F73_HUMAN
Q6SKR2_MOUSE
Q6DGP3_BRARE
-MSTSYPTPVYSHVGRGDFTDVYEPAEDTFLLMDALEKDAETLQRP--AVCLEVGSGSGV
-MSTSYPTPVYSHVGRGDFTDVYEPAEDTFLLMDALEKDAETLQR---SSCVS-GSGQWF
-MSASYPTPVYSHVGRGDFRDVYEPAEDTFLLMDALEKDAERLRQ--------------MAGENFATPFHGHVGRGAFSDVYEPAEDTFLLLDALEAAAAELAG--VEICLEVGSGSGV
MAGENFATPFHGHVGRGAFSDVYEPAEDTFLLLDALEAAAAELAG--VEICLEVGSGSGV
MAAPSVPTPLYGHVGRGAFRDVYEPAEDTFLLLDALEAAAAELAG--VEICLEVGAGSGV
----MFPTPLYAPAGRGRFSEVYEPAEDSFLLMDALEKDADRLKDSRPCVCLEVGSGSGV
.
.**.:. .*** * :*******:***:**** * *
. . .:..
57
55
44
58
58
58
56
Séquences apparentées !!!!
Rmq: très difficile de savoir si l’alignement obtenu est exact
2
Alignement multiple optimal
•  Alignement multiple par programmation dynamique (algo. exact)
Pour 2 séquences
0
D’ P
Q
D’
0 P Q
0
D’
1 P A
Q
4
1
D’ P
Q
A
4
4
0
8
12
D’
4 P C
Q
16
7
8
15
8
24
19
24
12
16
7
8
20
11
4
4
24
15
20
8
12
3
7
16
12
16
7
8
8
20
8
16
24
7
15
11
20
20
12
3
4
16
12
12
T
12
8
4
11
15
G
19
12
8
11
12
C
23
16
28
7
12
C
24
20
12
T
6
D’ P Q
C
20
16
11
12
0
8
16
20
16
12
4
Pour 3 séquences
5
D’ P Q
G
8
8
16
16
12
8
0
4
4
D’ P Q
C
12
8
4
4
D’
3 P G
Q
3
D’ P Q
C
8
0
D’
2 P T
Q
2
D’ P
Q
T
16
10
8
7
8
7
11
8
A
11
16
12
T
G
T
A T G - T
- T G C - - - C T
( x1, x2, x3 )
S2
Pour N séquences : N dimensions
S3
ε2
x3
S1
x1
ε3
ε1
Alignement multiple optimal par programmation dynamique
•  Calcul des scores des sous-problèmes
Pour 2 séquences
D i -1, j -1
Pour N séquences
D i , j -1
D’i
Qi j
j
D i -1, j
D i,j
Pi j
MSTSYPTPVYS
MSTSYPTPV-S
MSASYP-PVYS
…
-  Retenir le score max (ou min) sur 2N-1 possibilités
exemple pour 3 sequences: 7 possibilités:
D i j = Min (D’i j, Pi j, Qi j)
D’i j = D i-1,j-1 + γ (ai, bj)
Qi j = D i,j-1 + ωk
Pi j = D i-1,j + ωk
i
j
k
D(i,j,k)=max
T(i-1,j-1,k-1)+γ(ai,bj,ck)
T(i,j-1,k-1)+γ(-,bj,ck)
T(i-1,j,k-1)+γ(ai,-,ck)
T(i-1,j-1,k)+γ(ai,bj,-)
T(i,j,k-1)+γ(-,-,ck)
T(i,j-1,k)+γ(-,bj,-)
T(i-1,j,k)+γ(ai,-,-)
γ à 3 dimensions!
On prend plutôt des « SP-score »
3
Alignement multiple optimal par programmation dynamique
•  Calcul des scores des sous-problèmes
Pour N séquences
MSTSYPTPVYS
MSTSYPTPV-S
MSASYP-PVYS
…
« SP-score »:
Somme des scores des séquences
prises 2 à 2 pour l’ensemble des
paires de symboles dans la colonne
À la place de γ(ai,bj,ck):
SP(ai,bj,ck) = S(ai,bj)+S (ai,ck)+S(bj,ck)
SP(-,bj,ck) = S(-,bj)+S(-,ck)+S(bj,ck)
Etc.
Avec: S(-,-) = 0
(favorise le regroupement des indels au
niveau des mêmes colonnes de
l’alignement multiple)
H i
H j
Y k
-  Retenir le score max (ou min) sur 2N-1 possibilités
exemple pour 3 sequences: 7 possibilités:
T(i-1,j-1,k-1)+γ(ai,bj,ck)
T(i,j-1,k-1)+γ(-,bj,ck)
D(i,j,k)=max
T(i-1,j,k-1)+γ(ai,-,ck)
T(i-1,j-1,k)+γ(ai,bj,-)
T(i,j,k-1)+γ(-,-,ck)
T(i,j-1,k)+γ(-,bj,-)
T(i-1,j,k)+γ(ai,-,-)
γ à 3 dimensions!
On prend plutôt des « SP-score »
Alignement multiple optimal par programmation dynamique
•  Mais …
Needleman et Wunsch
Smith et Waterman
2 globines
3 globines
4 globines
5 globines
6 globines
7 globines
→
→
→
→
→
→
1 sec O(N2)
2 mn O(N3)
5 h O(N4)
3 semaines
9 ans
1000 ans
→ Nécessité d’utiliser des heuristiques
4
Heuristiques pour l’alignement multiple
•  Dérivées de l’algorithme exact (restreint à des diagonales)
ex: MSA (Multiple Sequence Alignment, Carrillo
and Lipman 1988 et 1989).
Pour faible nombre de séquences
•  Fondées sur la recherche de segments : alignements locaux
DIALIGN2
MACAW
Adaptés lorsque grand nombre d’indels et de répétitions internes
•  Méthodes itératives
HMMs, HMMER, SAM
Lentes, parfois non adaptés mais bons générateurs de profils
•  Méthodes progressives
ClustalW, PileUp, MultAlin, T-COFFEE …
Rapides et sensibles dans les cas simples
•  Les nouveaux:
3D-Coffee, MAFFT, PSI-PRALINE, PROBCONS, MUSCLE…
Autant d’alignements que de programmes !!!!!
Conclusions
Rapidité Séquences proches Séquences qualité
éloignées
Multalin
++
+++
+
++
CLUSTALW
+
++
++
+++
MUSCLE
+++
+++
+
+++
MAFFT
++
++
+
+++
T-COFFEE
+
et Gouy, 2013
+ Tiré de Deléage
+++
+++
DIALIGN
+
+
+++
+
5
Partie II
Motifs dans les séquences
Introduction
•  La recherche de motifs dans des séquences (via des algorithmes)
est un moyen de rechercher des propriétés biologiques cachées
dans la grande quantité d’information disponible aujourd’hui.
•  Les motifs de séquences ont un rôle important dans la
compréhension de la structure et de la fonction des protéines,
des régulations génétiques et des interactions protéinesprotéines ou protéines-nucléotides
6
Introduction
Le motif au sens strict, est généralement un segment court, continu et
non ambigu.
En ce qui concerne les protéines, le terme de "motif" a une
définition un peu différente. Le motif est un élément structural que
l'on retrouve dans tous les membres d'une famille de protéine. Il
contient des résidus essentiels à une fonction conservée, pas
nécessairement consécutifs (il s'agit ainsi d'un "pattern"), mais assez
proches dans la structure 3D, car ils participent à la même fonction
(site actif ...). Un motif n'a pas un repliement propre.
Le pattern (terme anglo-saxon pour "patron") est une séquence
dégénérée et/ou composée de différents motifs (au sens strict) qui
peuvent être séparés par des régions variables.
Introduction
Chez les protéines, le domaine est un fragment de séquence (bloc)
contigu conservé dans une ou plusieurs familles de protéines et qui
se replie indépendamment (structure IIaire spécifique). Il peut
être dupliqué et réutilisé par des protéines de fonctions
différentes (gènes "mosaïques").
Au sens évolutif; une unité d’évolution; un gène mosaïque
contient plusieurs domaines protéiques qui peuvent avoir des
histoires évolutives différentes.
7
Introduction
•  Intérêts de la recherche de motifs
- Détermination de la fonction d'une nouvelle séquence
(identification d’éléments fonctionnels)
- Identification des phases ouvertes (recherche des signaux
spécifiques associés)
- Etablissement d'une carte de restriction (recherche des sites
de coupure reconnus par les enzymes de restriction)
- Recherche dans un ensemble de séquences d'une même
"signature" capable de les caractériser (identification d'une
famille de protéine)
La détermination de motifs spécifiques est généralement issue de
l'analyse d'un alignement multiple.
Introduction
•  Motifs dans les séquences ADN et ARN
Régions promotrices (ex: TATA box), sites de liaison à des facteurs de
transcription, sites de restriction enzymatique, signaux d’épissage
ADN
8
Introduction
•  Motifs dans les séquences ADN et ARN
Régions promotrices (ex: TATA box), sites de liaison à des facteurs de
transcription, signaux d’épissage
Human RNAsplice
junctions
sequence
matrix
http://www-lmmb.ncifcrf.gov/~toms/sequencelogo.html
Introduction
•  Motifs dans les séquences protéiques
- régions conservées entre séquences d’une même famille
- signatures de familles de protéines
- sites enzymatiques
-…
9
Introduction
•  Motifs dans les séquences protéiques
Zinc-finger (dans Prosite) : site protéique de liaison à l’ADN
x x x
x x x
x
x
x x
x
x x
x
x
x
C
C
C
x \
/ x
x \
/ x
x
Zn
x
x
Zn
x
C /
\ C
H /
\ C
x
x x
x
x x x x x x
x
x x x x x x
'C': conserved cysteine involved zinc binding.
'H': conserved histidine involved in zinc binding.
'Zn': zinc atom.
x
C
Formalismes de représentation
de motifs
•  Consensus
•  Tables de fréquences ou de probabilités (profils)
•  Alignements multiples par blocs
•  Modèles de Markov Cachés (HMMs: Hidden Markov Models)
10
Formalismes de représentation de motifs
•  Séquences consensus
On retient la lettre majoritaire pour chaque site de l’alignement
multiple.
- ADN
Formalismes de représentation de motifs
•  Séquences consensus
On retient la lettre majoritaire pour chaque site de l’alignement
multiple.
- ADN
11
Formalismes de représentation de motifs
•  Séquences consensus
On retient la lettre majoritaire pour chaque site de l’alignement
multiple.
- protéique
Formalismes de représentation de motifs
•  Séquences consensus : expressions régulières ou « patterns »
Utilisation d’une syntaxe simple pour décrire une région conservée, une
signature protéique…
exemples:
- leucine zipper
L-x(6)-L-x(6)-L-x(6)-L
- zinc-finger
C - x - H - x - [LIVMFY] - C - x(2) - C - [LIVMYA]
-…
Syntaxe:
- : séparation des éléments
x : n’importe quel acide aminé
(i,j) : nombre d’occurrences entre i et j avec i<j
[NHG] : alternative entre N H et G pour un même site
Cf. Banque de motifs PROSITE (indicateurs de « bons »
patterns sont les faibles nombres de faux positifs et faux négatifs)
12
Formalismes de représentation de motifs
•  Séquences consensus : expressions régulières ou « patterns»
Algorithmes et programmes de recherche de motifs très simples (ADN)
et de patterns (ADN et protéiques)
•  Algorithmes d’alignements de 2 séquences
•  Optimisation pour les patterns: programme PATTINPROT (au
pbil: http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_pattinprot.html)
et les
outils sur le site de PROSITE
Formalismes de représentation de motifs
•  Tables de fréquences et de probabilités (profils)
ADN
On représente un motif par une matrice de fréquences (PFM)
- lignes = positions dans le motif (= colonnes dans l’alignement)
- colonnes = les différents résidus possibles (ici A,T,G,C)
Alignement
multiple (15 seq)
13
Formalismes de représentation de motifs
•  Tables de fréquences et de probabilités (profils)
ADN
Des PFM aux PWM (Position Weight Matrix)
- poids positifs représentent les bases qui apparaissent plus que
la moyenne
- poids négatifs représentent les bases qui apparaissent moins
que la moyenne
- poids de la base x dans une colonne de l’alignement:
⎛ f (x) ⎞
log 2 ⎜
⎟
⎝ 0,25 ⎠
f(x) est la fréquence de x dans la colonne considérée
0,25 suppose que les 4 bases ont la même probabilité d’apparition
- problème des €
0 (log(0)=-∞): ajout d’un pseudo-compte pour éviter
qu’il y ait sur-adaptation
⎛ f (x) + 0.05 ⎞
log 2 ⎜
⎟
⎝
⎠
0.25
€
Formalismes de représentation de motifs
•  Tables de fréquences et de probabilités (profils)
ADN
Des PFM aux PWM (Position Weight Matrix)
14
Formalismes de représentation de motifs
•  Tables de fréquences et de probabilités (profils)
ADN
Des PFM aux PWM (Position Weight Matrix)
Formalismes de représentation de motifs
•  Tables de fréquences et de probabilités (profils) : recherche
automatique d’un profil
•  Calcul des scores pour la séquences où on veut trouver le
motif, comparaison avec les scores max et min possibles avec
le profil
•  Choix d’un score significatif
15
Formalismes de représentation de motifs
•  Tables de fréquences et de probabilités (profils) : recherche
automatique d’un profil
Ex: programmes Matrixsearch (Sigscan), MAST
Formalismes de représentation de motifs
•  Tables de fréquences et de probabilités (profils)
Protéines
Profils plus « souples » que pour l’ADN :
- autorisation de gaps (21 colonnes dans la matrice)
- autorisation de substitutions entre acides aminés
qui ont des propriétés physicochimiques proches
-> sonde très puissante pour la recherche dans les bases de
données.
Construction de matrice de scores position-spécifique dans un
alignement multiple (« Position-Specific Scoring Matrix »=PSSM):
16
Formalismes de représentation de motifs
•  Tables de fréquences et de probabilités (profils)
Protéines
Construction de matrices de scores position-spécifique dans un alignement
multiple (« Position-Specific Scoring Matrix »=PSSM):
- pour un alignement multiple de N sites (N colonnes); le profil est une table
de N lignes et 21 colonnes au moins (20 acides aminés plus côut des gaps)
- La valeur du profil pour un acide aminé a en position p de l’alignement
multiple
b= 20
M( p,a) =
∑W ( p,b) × Y (a,b)
b=1
• Y(a,b) : score fourni par la matrice de substitution (ex:PAM250)
pour le remplacement de a par b
• W€(p,b) est un coefficient traduisant le taux d’apparition de
l’acide aminé b à la position p de l’alignement multiple
Formalismes de représentation de motifs
b= 20
M( p,a) =
∑W ( p,b) × Y (a,b)
b=1
En notant n(b,p) le nombre d’apparitions en position p de l’alignement
multiple de l’acide aminé b dans Ns séquences; 2 méthodes généralement
utilisées pour le calcul de W(p,b):
€
-(a)
-(b) €
W ( p,b) =
n(b, p)
Ns
W ( p,b) = log(
n(b, p)
)
Ns
(avec ici n(b,p)=1 pour les acides aminés n’apparaissant jamais en
position
€ P)
17
Formalismes de représentation de motifs
/GENERAL_SPEC: ALPHABET='ABCDEFGHIKLMNPQRSTVWYZ'; LENGTH=49;
/DISJOINT: DEFINITION=PROTECT; N1=5; N2=45;
/NORMALIZATION: MODE=1; FUNCTION=LINEAR; R1=2.2742712; R2=0.0110785; TEXT='-LogE';
/CUT_OFF: LEVEL=0; SCORE=788; N_SCORE=11.0; MODE=1; TEXT='R';
/CUT_OFF: LEVEL=-1; SCORE=382; N_SCORE=8.5; MODE=1; TEXT='R?';
/DEFAULT: M0=-9; D=-20; I=-20; B1=-200; E1=-200; MI=-105; MD=-105; IM=-105; DM=-105;
/I:
/M:
/M:
/M:
/M:
/M:
/M:
/M:
/M:
/M:
/M:
/M:
/M:
/M:
/M:
/M:
/M:
/M:
/M:
/M:
/M:
/M:
/M:
/M:
/M:
/M:
/I:
/M:
/I:
/M:
/I:
/M:
/I:
/M:
/I:
/M:
/M:
/M:
/M:
…
SY='S';
SY='D';
SY='G';
SY='E';
SY='P';
SY='C';
SY='V';
SY='F';
SY='P';
SY='F';
SY='I';
SY='Y';
SY='R';
SY='G';
SY='R';
SY='T';
SY='Y';
SY='H';
SY='D';
SY='C';
SY='T';
SY='T';
SY='E';
SY='G';
SY='R';
SY='E';
SY='D';
SY='G';
SY='Y';
SY='L';
SY='W';
SY='C';
SY='A';
A
B
C
D
E
F
G
H
I
K
L
M
N
P
Q
R
S
T
V
W
Y
Z
B1=0; BI=-105; BD=-105;
M= 8, -2,-17, -2, 3,-19, -7,-13,-15, -7,-18,-14, -1, -9, -3,-12, 14, 6, -8,-30,-17, 0;
M= -8, 12,-25, 15, 10,-20,-11, 1,-23, -3,-19,-14, 8, -9, 2, -7, 1, -4,-21,-28,-11, 5;
M= -5, -3,-29, -1,-11,-26, 42,-10,-35,-12,-27,-18, 1,-18,-13,-13, -1,-16,-27,-19,-17,-13;
M= -1, 6,-27, 9, 18,-28,-11, -6,-25, 9,-22,-15, 2, 0, 7, 2, -1, -8,-22,-27,-18, 12;
M= -6,-14,-31,-10, 0,-22,-15,-15,-18, -1,-19,-12,-13, 35, -6, -6, -7, -7,-21,-25,-19, -6;
M=-10,-20,120,-30,-30,-20,-30,-30,-30,-30,-20,-20,-20,-40,-30,-30,-10,-10,-10,-50,-30,-30;
M= -3,-17,-20,-18,-12,-10,-25, -4, 6, -6, -3, 3,-14,-21,-11, -8, -9, -6, 14,-26, -5,-13;
M=-19,-30,-20,-39,-29, 74,-30,-20, 3,-30, 12, 2,-21,-30,-38,-20,-21,-10, 1, 8, 28,-29;
M=-10,-20,-40,-10, 0,-30,-20,-20,-20,-10,-30,-20,-20, 90,-10,-20,-10,-10,-30,-30,-30,-10;
M=-18,-28,-20,-37,-28, 73,-28,-19, -1,-29, 7, -1,-18,-29,-37,-19,-16, -8, -1, 7, 28,-28;
M= -4,-14,-21,-19,-12,-10,-25,-18, 8, -7, 2, 4,-10,-18, -7, -8, -7, 3, 8,-24, -7,-11;
M=-19,-25,-26,-29,-25, 47,-31, 1, 4,-20, 5, 2,-20,-29,-23,-15,-20,-10, -2, 17, 52,-25;
M=-12, 3,-27, 2, 5,-23, -9, 2,-23, 10,-17, -8, 6,-16, 10, 14, -5,-10,-22,-24,-10, 6;
M= -2, 0,-28, -3,-12,-28, 46,-13,-34,-12,-28,-19, 10,-19,-12,-10, 2,-15,-28,-24,-26,-12;
M=-11, 1,-26, -1, 6,-21,-19, 2,-22, 17,-21, -9, 4,-14, 9, 19, -3, -4,-18,-24, -7, 6;
M= -4, -6,-22, -9, -2,-14,-16,-13,-12, -4,-13, -9, -3,-15, -2, -5, 3, 4,-10,-10, -8, -1;
M=-19,-18,-29,-19,-18, 24,-29, 25, -2,-13, -1, 1,-16,-28,-10,-10,-18,-11, -9, 16, 62,-18;
M=-12, 2,-24, 2, -2, -1,-17, 15,-18, -8,-15,-10, 3,-18, -3, -6, 0, -3,-17,-17, 11, -3;
M= -3, 13,-21, 18, 10,-27, -3, -7,-26, -1,-25,-19, 9,-10, 1, -6, 14, 4,-19,-34,-19, 5;
M=-10,-20,118,-30,-30,-20,-30,-30,-30,-29,-20,-20,-20,-40,-30,-29,-10,-10,-10,-50,-30,-30;
M= -3,-11,-16,-20,-17, -6,-26,-22, 9,-16, 1, 1, -8,-14,-13,-16, 6, 29, 10,-27, -7,-16;
M= -4, -5,-19, -6, 0,-14,-18, -4,-14, -2,-12, -8, -2,-14, -1, 2, 7, 11, -7,-28, -9, -1;
M= -9, 11,-26, 17, 25,-28,-13, 1,-27, 4,-21,-17, 4, -8, 9, -2, 3, -3,-23,-30,-15, 16;
M= -5, 0,-29, 1, -6,-29, 44,-11,-37,-12,-28,-20, 6,-17,-11,-11, 0,-16,-30,-24,-25, -9;
M= -8, 0,-23, 1, 3,-23,-12, -3,-27, 12,-25,-15, 5,-15, 8, 29, 9, 1,-18,-29,-14, 4;
I=-6; MD=-29;
M= -5, 2,-15, 2, 4, -9, -8, 0,-15, -2,-13, -9, 3, -6, 1, -1, 3, 0,-12,-17, -7, 2; D=-6;
I=-6; MD=-29;
M= -9, 18,-17, 26, 6,-16, -3, -3,-19, -4,-13,-14, 7, -8, -3, -7, 0, -5,-15,-20,-10, 2; D=-6;
I=-6; MI=-29; IM=-29; DM=-29;
M= -3, -8,-25,-11,-15,-14, 23,-13,-21,-15,-15,-12, 1,-17,-16,-14, -3,-11,-17,-21,-17,-16;
I=-6; MD=-32;
M=-13,-13,-26,-15, -8, 0,-21, 1,-11, 3, -7, -1,-10,-20, -2, 6,-12, -9,-12, -1, 13, -6; D=-6;
I=-6; MI=-32; IM=-32; DM=-32;
M=-11,-22,-28,-19,-10, -8,-25,-13, -3,-10, 10, 3,-20, 5,-10, -3,-19,-10, -8,-22, -8,-12;
M=-19,-36,-48,-35,-23, 7,-20,-28,-21,-18,-20,-20,-37,-28,-17,-18,-37,-28,-30,136, 26,-15;
M=-10,-20,120,-30,-30,-20,-30,-30,-30,-30,-20,-20,-20,-40,-30,-30,-10,-10,-10,-50,-30,-30;
M= 27, -7,-13,-11, -6,-21, 3,-16,-16,-11,-20,-15, -2, -5, -7,-16, 20, 6, -8,-28,-21, -7;
Formalismes de représentation de motifs
•  Chaînes de Markov Cachées (HMMs)
-  Les HMMs sont des modèles statistiques.
-  Les profils peuvent être considérés comme des HMMs simples
-  Les HMMs peuvent aussi modéliser un ou plusieurs profils en même temps
pour représenter des groupes de patterns (ex: modules cis-intéragissant,
introns/exons…)
18
Bases de données de motifs et domaines
Alignements
- BLOCKS (http://blocks.fhcrc.org/)
- CDD (au NCBI) (http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml)
Bases de profils:
- ADN:
-TRANSFAC (éléments régulateurs en cis, et facteurs
agissant en trans)
- EPD (promoteurs eukaryotes)
- Protéines:
- PROSITE (http://www.expasy.org/prosite/)
- ProDom (familles de domaines protéiques construites par
l’intermédiaire de recherche de profils avec PSI-BLAST)
(http://prodom.prabi.fr/prodom/current/html/home.php)
-InterPro (familles de protéines, domaines protéiques et sites
fonctionnels;
http://www.ebi.ac.uk/interpro/)
Chaînes de Markov Cachées (HMMs)
- Pfam
(http://www.sanger.ac.uk/Software/Pfam)
-  SMART (http://smart.embl-heidelberg.de/) contient Pfam
Bases de données de motifs et domaines
Prodom
19
Bases de données de motifs et domaines
•  Blocs
Block PR00084A
ID
MTLDHDRGNASE; BLOCK
AC
PR00084A; distance from previous block=(3,38)
DE
Mannitol dehydrogenase signature
BL
adapted;
width=11; seqs=14; 99.5%=569; strength=1210
MTLK_RHOSH|P33216 ( 18) IVHIGVGNFHR 54
YDFI_ECOLI|P77260 ( 24) IVHLGFGAFHR 61
MTLD_STRMU|Q02418 (
4) AVHFGAGNIGR 52
O68111
( 19) IVHIGLGNFHR 56
YEIQ_ECOLI|P33029 ( 27) IVHFGFGAFHR 56
MTLD_BACST|Q45421 (
3) AVHFGAGNIGR 52
UXUB_ECOLI|P39160 ( 25) IVHLGCGAFHR 69
MTLD_ENTFA|P27543 (
3) AVHFGAGNIGR 52
YEI0_YEAST|P39941 ( 38) IVHLGVGAFHR 58
MTLD_BACSU|P42957 (
3) ALHFGAGNIGR 56
O08355
( 29) IAHIGVGGFHR 95
MTLD_ECOLI|P09424 (
3) ALHFGAGNIGR 56
O65992
(
3) ALHFGAGNIGR 56
O52720
(
7) WLHIGLGSFHR 100
//
[Return to t
Algorithmes et programmes de recherche de profils
•  Blocs
•  Transformation du bloc en profil dans le programme
•  Programmes Profilesearch (de GCG), Patmat, Blocksearch
•  HMMs
•  Algorithme de Viterbi
•  Scores et E-values
•  HMMER
•  Mais aussi des programmes découvreurs de motifs:
•  Patterns: Weeder, YML, etc
•  Profils: Gibbs sampler, AlignAce, MEME, GLAM
20
Sources:
-  Support de cours de Hélène Touzet, Lille
-  « Bioinformatique, Cours et cas pratique », Gilbert Deléage et Manolo
Gouy, éd. Dunod, 2013 (ISBN: 978-2-10-058751-3)
-  Support de cours de Gisèle Bronner, Clermont-Ferrand
Voir aussi: « Bio-informatique, Principes d’utilisation des outils », Denis
Tagu, Jean-Loup Risler, coord., éd. Quae, 2010 (ISBN:
978-2-7592-0870-8),
21
Téléchargement