Comparaisons de séquences

publicité
Comparaison et alignement
de séquences
Mastère Ingénierie des BioMolécules
Module Bioinformatique structurale. Cours I
Octobre 2013
T. Simonson, Ecole Polytechnique.
●
Comparaisons de séquences: pourquoi faire?
●
L'alignement de séquences comme
modèle d'un processus évolutif
●
Alignement de séquences: algorithmes
●
Déroulement du module Bioinformatique
1) Les protéines similaires ont souvent un
ancêtre commun: Exemple des globines
Millions d'années
Arbre
phylogénétique
retraçant
l'évolution
des globines.
Les protéines similaires ont souvent
un ancêtre commun
Gène X
Duplication
Gène X
Spéciation
Gène X
Gène X
Gène X
Gène X
Divergence
Divergence
Gène Y
Gène Z
Orthologues
Paralogues
La duplication conduit à des gènes paralogues
Gène X
individu
Duplication
accidentelle
invasion
de la
population
Gène X Gène X
individu +
descendance
Divergence
Gène Y
Gène Z
population
Paralogues
Les paralogues changent généralement de fonction
La duplication conduit à des gènes paralogues
Gène X
Duplication
accidentelle
Gène X
Gène X
Divergence
Gène Y
Gène Z
Paralogues
Les paralogues changent généralement de fonction
Evolution d'un gène par spéciation,
duplication et divergence
X
spéciation
B
B1
A
B2 duplication
spéciation
temps
duplication
a
orthologues
b1
b2
c1
c2
paralogues
c3
2) Les protéines similaires ont souvent
des fonctions similaires
K
L
H
G
G
P
M
L
D
S
D
Q
K
F
W
R
T
P
A
A
L
Séquence
Structure
Fonction
A partir de 60% d'identité de séquence on peut dire avec
confiance que deux homologues ont la même fonction.
A partir de 35% d'identité des complexes homologues vont
probablement interagir de manière homologue.
Launay & Simonson
BMC Bioinformatics
2008
L'alignement de séquences
comme modèle
d'un processus évolutif
L'alignement comme modèle
d'un processus évolutif
Hypothèse: deux protéines similaires
ont toujours un ancêtre commun
L'alignement comme hypothèse
d'un ancêtre commun “parsimonieux”
T C L I C G D E A S G C H Y
Récepteur de l'androstérone
T C L V C G D E A T G Y H Y
Ancêtre commun hypothétique
L C V V C G D K A T G Y H Y
Récepteur de l'hormone thyroïdienne
Mutations hypothétiques en rouge
L'hypothèse ci-dessus est-elle vraisemblable?
Un modèle probabiliste d'évolution
P(xi,yj) = probabilité d'observer xi aligné avec yj
P(xi ≠ yj) = P(“xi muté en yj” ou “yj muté en xi”)
P(xi = yj) = P(“xi conservé”)
séquence x:
séquence y:
T C L I C G D E A S G C H Y
L C V V C G D K A T G Y H Y
●
Probabilités estimées à partir d'alignements tests
●
Hypothèse de positions équivalentes et indépendantes
La vraisemblance ou probabilité d'un alignement
T C L I C G D E A S G C H Y
Récepteur de l'androstérone
L C V V - G D K A T G Y H Y
Récepteur de l'hormone
thyroïdienne
Mutations probables
alignement probable
Mutations improbables
alignement improbable
En comparant des protéines homologues, on voit
que les mutations ont des probabilités différentes
androgène
progestérone
minéralocorticoïde
glucocorticoïde
estrogène
acide rétonïque
vitamine D3
thyroïde
VFFKRAAEG--KQKYLCASRNDCTIDKFRRKNCPSCRLRKCY
VFFKRAVEG--HHNYLCAGRNDCIVDKIRRKNCPACRLRKCY
VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRLQKCL
VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRYRKCL
AFFKRSIQG--HNDYMCPATNQCTIDKNRRKSCQACRLRKCY
GFFRRSIQK--NMVYTCHRDKNCIINKVTRNRCQYCRLQKCF
GFFRRSMKR--KALFTCPFNGDCRITKDNRRHCQACRLKRCV
GFFRRTIQKNLHPTYSCKYDSCCVIDKITRNQCQLCRFKKCL
**:*: .
: :
* : * *. * ** ::*
Récepteur de l'androstérone
Récepteurs nucléaires
Se fixent sur l'ADN et régulent
l'expression génétique
sous le contrôle de petits
ligands: stéroïdes, vitamines, ...
androgen
Rev Erb
glucocorticoid
retinoic acid
CLICGDEASGAHYGALTCGSCKVFFKRAAEGKQKYL-CASRNDCTIDKFRRKNCPSCRLRKCYEAGMTLGA
CKVCGDVASGFHYGVLACEGCKGFFRRSIQQNIQYKRCLKNENCSIVRINRNRCQQCRFKKCLSVGMSRDCLVCSDEASGCHYGVLTCEGCKAFFKRAVEGQHNYL-CKYEGKCIIDKIRRKNCPACRYRKCLQAGMNLEA
CAICGDRSSGKHYGVYSCEGCKGFFKRTVRKDLTYT-CRDNKDCLIDKRQRNRCQYCRYQKCLAMGM---
Les mutations ont des probabilités différentes
androgène
progestérone
minéralocorticoïde
glucocorticoïde
estrogène
acide rétinoïque
vitamine D3
thyroïde
VFFKRAAEG--KQKYLCASRNDCTIDKFRRKNCPSCRLRKCY
VFFKRAVEG--HHNYLCAGRNDCIVDKIRRKNCPACRLRKCY
VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRLQKCL
VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRYRKCL
AFFKRSIQG--HNDYMCPATNQCTIDKNRRKSCQACRLRKCY
GFFRRSIQK--NMVYTCHRDKNCIINKVTRNRCQYCRLQKCF
GFFRRSMKR--KALFTCPFNGDCRITKDNRRHCQACRLKRCV
GFFRRTIQKNLHPTYSCKYDSCCVIDKITRNQCQLCRFKKCL
**:*: .
: : *
* : * *. * ** ::*
Les propriétés structurales des acides aminés font
que les mutations ont des probabilités différentes
PHE
F
TYR
Y
homologues
KYL
NYL
NYL
NYL
DYM
VYT
LFT
TYS
:
Les propriétés structurales des acides aminés font
que les mutations ont des probabilités différentes
LYS
K
RKCY
RKCY
QKCL
RKCL
RKCY
QKCF
KRCV
KKCL
::*
ARG
R
GLN
Q
homologues
Un modèle probabiliste d'évolution
P(xi,yj) = probabilité d'observer xi aligné avec yj
P(xi ≠ yj) = P(“xi muté en yj” ou “yj muté en xi”)
P(xi = yj) = P(“xi conservé”)
séquence x:
séquence y:
T C L I C G D E A S G C H Y
L C V V C G D K A T G Y H Y
●
Probabilités estimées à partir d'alignements tests
●
Hypothèse de positions équivalentes et indépendantes
Difficulté: qu'est-ce qu'une grande probabilité?
Alignement avec le récepteur humain de la progestérone
PQKTCLICGDEASGAHYGALTCGSCKVFFKRAAEGKQKYLCASRNDCTIDKFRRKNCPSC
PQRVCVICGDEASGCHYGVLTCGSCKVFFKRAVEGHHQYLCAGRNDCIVDKIRRKNCPAC
**' *'******** *** ************* ** '**** **** '** ******'*
Alignement avec le récepteur humain de l'hormone thyroïdienne
PQKTCLICGDEASGAHYGALTCGSCKVFFKRAAEG--KQKYLCASRNDCTIDKFRRKNCPSC
KDEQCVVCGDKATGYHYRCITCEGCKGFFRRTIQKNLHPTYSCKYDSCCVIDKITRNQCQLC
*''***'*'* ** '** ** **'* '
* *
* *** * * *
Alignement avec la ferrédoxine de la bactérie Proteus vulgaris
PQKTCLICGDEASGAHYGTLTCGSCKVFFKRAAEGKQKYLCASRNDCTIDKFRRKNCPSC
DQDKCIGCKTCVLACPYGTMEVVSRPVMRKLTALNTIEAFKAEANKCDLCHHRAEG-PAC
* *' *
***'
* * * *
* * * '
* ' *'*
Modèle “aléatoire” comme point de référence
Hypothèse “évolutive”: deux séquences ont un ancêtre commun (parsimonieux)
Hypothèse concurrente: elles n'ont aucune relation biologique: c'est comme si
on cherchait à aligner deux séquences aléatoires, tirées au hasard.
Q(xi,yj) = probabilité d'observer xi et yj
dans deux protéines indépendantes
= qxi qyj
x
W
L
Fréquences naturelles de xi, yj
qx
1.3 % des acides aminés
9.0 %
W
L
≠
W
L
Vraisemblance d'une colonne dans un alignement
On prend toujours un ratio entre une probabilité P (scénario évolutif)
et une probabilité Q (scénario aléatoire):
déf.
M(xi,yj) = log P(xi,yj)/Q(xi,yj)
= log [ P(xi,yj)/qxi qyj ]
xi
T C L I C G D E A S G C H Y
L C V V C G D K A T G Y H Y
yi
M = matrice de “score”
Une matrice empirique très utilisée: BLOSUM62
C
S
T
P
A
G
N
D
E
Q
H
R
K
M
I
L
V
F
Y
W
C S T P A G N D
9 -1 -1 -3 0 -3 -3 -3
4 1 -1 1 0 1 0
5 -1 0 -2 0 -1
7 -1 -2 -2 -1
4 0 -2 -2
6 0 -1
6 1
6
C
S
T
P
A
G
N
D
E
-4
0
-1
-1
-1
-2
0
2
5
Q
-3
0
-1
-1
-1
-2
0
0
2
5
H
-3
-1
-2
-2
-2
-2
1
-1
0
0
8
R
-3
-1
-1
-2
-1
-2
0
-2
0
1
0
5
K
-3
0
-1
-1
-1
-2
0
-1
1
1
-1
2
5
M
-1
-1
-1
-2
-1
-3
-2
-3
-2
0
-2
-1
-1
5
I
-1
-2
-1
-3
-1
-4
-3
-3
-3
-3
-3
-3
-3
1
4
L
-1
-2
-1
-3
-1
-4
-3
-4
-3
-2
-3
-2
-2
2
2
4
V
-1
-2
0
-2
0
-3
-3
-3
-2
-2
-3
-3
-2
1
3
1
4
F
-2
-2
-2
-4
-2
-3
-3
-3
-3
-3
-1
-3
-3
0
0
0
-1
6
E
Q
H
R
K
M
I
L
V
F
Y
-2
-2
-2
-3
-2
-3
-2
-3
-2
-1
2
-2
-2
-1
-1
-1
-1
3
7
W
-2
-3
-2
-4
-3
-2
-4
-4
-3
-2
-2
-3
-3
-1
-3
-2
-3
1
2
11
Y W
C
S
T
P
A
G
N
D
E
Q
H
R
K
M
I
L
V
F
Y
W
Une matrice empirique très utilisée: BLOSUM62
C
S
T
P
A
G
N
D
E
Q
H
R
K
M
I
L
V
F
Y
W
C S T P A G N D
9 -1 -1 -3 0 -3 -3 -3
4 1 -1 1 0 1 0
5 -1 0 -2 0 -1
7 -1 -2 -2 -1
4 0 -2 -2
6 0 -1
6 1
6
C
S
T
P
A
G
N
D
E
-4
0
-1
-1
-1
-2
0
2
5
Q
-3
0
-1
-1
-1
-2
0
0
2
5
H
-3
-1
-2
-2
-2
-2
1
-1
0
0
8
R
-3
-1
-1
-2
-1
-2
0
-2
0
1
0
5
K
-3
0
-1
-1
-1
-2
0
-1
1
1
-1
2
5
M
-1
-1
-1
-2
-1
-3
-2
-3
-2
0
-2
-1
-1
5
I
-1
-2
-1
-3
-1
-4
-3
-3
-3
-3
-3
-3
-3
1
4
L
-1
-2
-1
-3
-1
-4
-3
-4
-3
-2
-3
-2
-2
2
2
4
V
-1
-2
0
-2
0
-3
-3
-3
-2
-2
-3
-3
-2
1
3
1
4
F
-2
-2
-2
-4
-2
-3
-3
-3
-3
-3
-1
-3
-3
0
0
0
-1
6
E
Q
H
R
K
M
I
L
V
F
Y
-2
-2
-2
-3
-2
-3
-2
-3
-2
-1
2
-2
-2
-1
-1
-1
-1
3
7
Pénalty pour gaps: voir plus loin
Exc: calculer les valeurs de P(W,W) et P(L,L) et les commenter.
W
-2
-3
-2
-4
-3
-2
-4
-4
-3
-2
-2
-3
-3
-1
-3
-2
-3
1
2
11
Y W
C
S
T
P
A
G
N
D
E
Q
H
R
K
M
I
L
V
F
Y
W
Les mutations ont des probabilités différentes
K
R
Q
Y
F
K
6
R
3
7
Q Y F
2 -2 -4
1 -1 -3
7 -1 -4
8 4
8
Extrait de la matrice empirique BLOSUM50
La vraisemblance ou probabilité d'un alignement
P(xi,yj) = probabilité d'observer xi aligné avec yj
= P(“xi conservé” ou “xi muté en yj” ou “yj muté en xi”)
T C L I C G D E A S G C H Y
L C V V - G D K A T G Y H Y
●
Probabilités estimées à partir d'alignements tests
●
Hypothèse de positions équivalentes
●
Hypothèse de positions indépendantes: P(alignement) = Π(i,j) P(xi,yj)
Vraisemblance ou “score” d'un alignement
s(xi,yj) = log P(xi,yj)/Q(xi,yj)
= log [ P(xi,yj)/qxi qyj ]
s(x,y) = Σ(i,j) s(xi,yj)
T C L I C G D E A S G C H Y
L C V V - G D K A T G Y H Y
La probabilité de mutation dépend du temps
P(x,y) = P(x,y;T) = probabilité d'une mutation pendant le temps T
Les cytochromes c de chimpanzee et d'humain
sont plus similaires que les cytochromes c
d'humain et d'Escherichia coli...
Une matrice de similarité vaut pour une
échelle de temps, ou de similarité donnée.
BLOSUM50 ≠ BLOSUM62
Il faut un traitement plus réaliste des gaps
Il est nettement plus facile d'allonger un gap
existant que d'ouvrir un nouveau gap
Eg, boucles
Ouvrir un gap:
●L'allonger d'un résidu:
●
●
-d
-e
(e<d)
Coût d'un gap de longueur m:
g(m) = -d – (m-1) e
Les positions ne sont plus équivalentes ni indépendantes
En résumé, un alignement correspond à
un modèle d'évolution, qui comprend:
●
Hypothèse de divergence “minimale” depuis un ancêtre commun
●
Détermination empirique des probabilités de mutations
●
Hypothèse de positions équivalentes et indépendantes
●
Un modèle de référence (hypothèse “nulle”)
L'alignement de séquences:
algorithmes
Comparaison graphique de deux
séquences par une matrice densité
Séquence 2
On dispose les deux séquences sur les bords d'une matrice.
Pour chaque paire de résidus similaires ou identiques, on
dessine un point dans la matrice:
W
W
P
Q
R
W
W
*
*
*
*
*
*
A A P Q R A A A P Q R A
Séquence 1
Comparaison graphique de deux
séquences par une matrice densité
cheval
Cytochromes c
humain
Récepteur
androgène
Récepteur estrogène
C'est souvent une partie d'une protéine qui est
conservée: il faut chercher un alignement “local”
Aspartyl-ARNt
synthétase
de levure
Domaine du
site actif,
Aspartyl-ARNt
synthétase
d'E coli
BLAST:
Basic Local Alignment Search Tool
recherche de tétrapeptides homologues
● extension de chaque peptide tant que la similarité > seuil
●
C L I C G D E A S G C H Y
Récepteur de l'androstérone
L C V V G D K A T G Y H Y
Récepteur de l'hormone thyroïdienne
Tétrapeptides homologues à
un tétrapeptide de référence
G D E A
G D E A
score
BLOSUM62
21 = 6+6+5+4
G D D A
G D Q A
18
18
G
G
G
G
17
17
17
17
E
D
D
D
E
E
K
E
A
G
A
V
BLOSUM62
V A G D E Q K
A 0 4
G
6
D
6 2
E
5 2 1
7 homologues (avec BLOSUM62 et un seuil de 17).
On identifie dans la séquence cible un
tétrapeptide homologue à la séquence de référence
G
G
G
G
G
G
G
D
D
D
E
D
D
D
E
D
Q
E
E
K
E
A
A
A
A
G
A
V
Eg: Tétrapeptides homologues
à la référence GDEA
>sp|P10827|THA_HUMAN Thyroid hormone receptor alpha Homo sapiens.
MEQKPSKVECGSDPEENSARSPDGKRKRKNGQCSLKTSMSGYIPSYLDKDEQCVVCGDKA
TGYHYRCITCEGCKGFFRRTIQKNLHPTYSCKYDSCCVIDKITRNQCQLCRFKKCIAVGM
AMDLVLDDSKRVAKRKLIEQNRERRRKEEMIRSLQQRPEPTPEEWDLIHIATEAHRSTNA
QGSHWKQRRKFLPDDIGQSPIVSMPDGDKVDLEAFSEFTKIITPAITRVVDFAKKLPMFS
ELPCEDQIILLKGCCMEIMSLRAAVRYDPESDTLTLSGEMAVKREQLKNGGLGVVSDAIF
ELGKSLSAFNLDDTEVALLQAVLLMSTDRSGLLCVDKIEKSQEAYLLAFEHYVNHRKHNI
PHFWPKLLMKEREVQSSILYKGAAAEGRPGGSLGVHPEGQQLLGMHVVQGPQVRQLEQQL
GEAGSLQGPVLQHQSPKSPQQRLLELLHRSGILHARAVCGEDDSSEADSPSSSEEEPEVC
EDLAGNAASP
On étend le “micro-alignement” dans chaque
direction, tant que le score > seuil
C L I C G D E A S G C H Y
Récepteur de l'androstérone
L C V V G D K A T G Y H Y
Récepteur de l'hormone thyroïdienne
Chaque tétrapeptide homologue conduit à un alignement local sans gaps
●On retient les meilleurs alignements
●
Homologues du récepteur de l'androstérone
identifiés avec BLAST
#
1
6
14
17
21
33
41
42
:
:
343
344
345
346
347
349
351
355
ID
Swissprot
P15207
P19091
Q63449
P06401
P08235
P04150
Q9YH32
Q9YH33
:
:
Q9N4Q7
Q23294
O45460
Q09565
Q09587
P17672
P20659
P98164
Hit
ANDR_RAT
ANDR_MOUSE
PRGR_RAT
PRGR_HUMAN
MCR_HUMAN
GCR_HUMAN
ESR2_ORENI
ESR1_ORENI
:
:
NH13_CAEEL
NH11_CAEEL
NH54_CAEEL
NH20_CAEEL
NH22_CAEEL
E75B_DROME
TRX_DROME
LRP2_HUMAN
Description
Score
(bits)
Androgen receptor.
162
Androgen receptor.
162
Progesterone receptor (PR)
136
Progesterone receptor (PR)
136
Mineralocorticoid receptor (MR) 136
Glucocorticoid receptor (GR)
131
Estrogen receptor beta (ER-beta) 99
Estrogen receptor (ER-alpha)
98
:
:
:
:
:
:
Nuclear hormone receptor nhr-13
54
Nuclear hormone receptor nhr-11
54
Nuclear hormone receptor nhr-54
54
Nuclear hormone receptor nhr-20
51
Nuclear hormone receptor nhr-22
45
Ecdysone-induced protein 75B
40
Trithorax protein.
31
Lipoprotein receptor.
30
%
E Identity
*
1e-40
100
1e-40
100
1e-32
80
1e-32
80
1e-32
79
3e-31
77
3e-21
58
4e-21
55
:
:
:
:
8e-08
39
8e-08
42
1e-07
37
7e-07
34
5e-05
32
0.001
37
0.74
26
1.7
27
*E = espérance du nombre d'alignements fortuits de score supérieur
Match
Length
73
73
72
72
72
72
72
72
:
:
66
66
67
66
66
47
49
65
Une méthode plus rigoureuse, qui s'inspire
de la “matrice” déja vue
On dispose les deux séquences sur les bords d'une matrice:
Séquence 2
P Q R A
S
P
Q
R
*
*
*
Séquence 1
Une méthode plus rigoureuse; présentation partielle
On dispose les deux séquences sur les bords d'une matrice.
Un alignement correspond à une ligne à travers la matrice:
S
P
Q
R
*
*
*
P Q R A
Séquence 2
Séquence 2
P Q R A
Séquence 1
Exc: représenter les alignements suivants:
S
P
Q
R
-PQRA
SPQR-
Séquence 1
P-QRA
SPQR-
P--QRA
SPQ-R-
Une méthode plus rigoureuse; présentation partielle
Un alignement correspond à une ligne à travers la matrice.
Une ligne “incomplète” correspond à un alignement incomplet:
P Q R A
S
P
Q
R
P Q R A
S
P
Q
R
-PQRA
SPQR-
-PQ
SPQ
Une méthode plus rigoureuse; présentation partielle
Un alignement correspond à une ligne à travers la matrice.
On annote la table avec les scores:
P
P Q R A
Q
R
A
0
S-8
S
P
Q
R
P
Q
R
-PQRA
SPQR-
P
Q
R
A
-1
4
9
1
S P Q R
-1 7 -1 -2
0 -1 5 1
-1 -2 1 5
1 -1 -1 -1
Une méthode plus rigoureuse; présentation partielle
L'alignement optimal est en compétition avec beaucoup d'autres alignements possibles:
P
Q
R
A
P
0
R
A
1
-7
0
S-8
S
-1
P
P
-9
Q
Q
-1
4
R
Q
9
-PQRA
SPQR-
1
R
-4
P-QRA
SPQR-
Une méthode plus rigoureuse; présentation partielle
L'alignement optimal est en compétition avec beaucoup d'autres alignements possibles:
P
Q
R
A
P
0
Q
R
A
P
0
Q
S
-1
S
P
P
-9
P
-17
Q
-25
Q
4
R
Q
9
-PQRA
SPQR-
1
R
A
0
S-8
-1
R
-4
1
P-QRA
SPQR-
-7 R
-1 -9
-20 -28
PQ--RA
S-PQR-
Comment trouver le meilleur chemin à travers la table?
Supposons que nous connaissons les scores de trois alignements particuliers:
P
Q
R
A
Chaque score bleu correspond à un
alignement incomplet, inconnu à ce stade.
Pour le moment, nous n'avons pas besoin
de savoir comment ces valeurs sont obtenues:
elles sont admises.
0
S
P
Q
R
-1 -9
9
?
A partir de ces 3 scores, je peux trouver le score
manquant! Comment??
Comment trouver le meilleur chemin à travers la table?
Supposons que nous connaissons les scores de trois alignements particuliers:
P
Q
R
A
A partir des 3 scores bleus, je peux trouver
le score manquant!
0
S
3 possibilités:
P
Q
R
-1 -9
9
?
score -1 -1 = -2
score 9 - 8 = 1
score -9 - 8 = -17
Comment trouver le meilleur chemin à travers la table?
Supposons que nous connaissons les scores de trois alignements particuliers:
P
Q
R
A
A partir des 3 scores bleus, je peux trouver
le score manquant!
0
S
3 possibilités:
P
Q
R
-1 -9
9
1
score -1 -1 = -2
score 9 – 8 = 1
score -9 - 8 = -17
Comment trouver le meilleur chemin à travers la table?
Supposons que nous connaissons encore trois autres scores:
P
Q
R
A
0
S
P
Q
R
4 -1 -9
-4
9
1
On peut construire progressivement un alignement optimal;
pour une description complète de la méthode, voir Dardel & Képès
Comment trouver le meilleur chemin à travers la table?
Supposons que nous connaissons encore trois autres scores:
P
Q
R
A
0
S
P
Q
R
4 -1 -9
-4
9
1
Comment obtenir ces scores “intermédiaires”? Par une opération
de remplissage de la table entière, en commençant en haut à gauche.
Comment trouver le meilleur chemin à travers la table?
Supposons que nous connaissons encore trois autres scores:
P
Q
R
A
0
S
P
Q
R
4 -1 -9
-4
9
1
Comment obtenir ces scores “intermédiaires”? Par une opération
de remplissage de la table entière, en commençant en haut à gauche.
La méthode de Needleman-Wunsch
P
Q
R
A
0
-8
-16
-24
-32
S -8
-1
-8
-16
-23
P-16
-1
-2
-10
-15
Q-24
-9
4
-1
-9
R-32
-17
-4
9
1
Pour les détails, voir le livre de Dardel & Képès
La méthode de Needleman-Wunsch
P
Q
R
A
0
-8
-16
-24
-32
S -8
-1
-8
-16
-23
P-16
-1
-2
-10
-15
Q-24
-9
4
-1
-9
R-32
-17
-4
9
1
Pour les détails, voir le livre de Dardel & Képès
La méthode de Needleman-Wunsch
Q
R
A
0
-8
-16
-24
-32
S -8
-1
-8
-16
-23
P-16
-1
-2
-10
-15
Q-24
-9
4
-1
-9
R-32
-17
-4
9
1
P Q R A
Séquence 2
P
S
P
Q
R
-PQRA
SPQR-
Séquence 1
Pour les détails, voir le livre de Dardel & Képès (chap. 2)
Alignements multiples:
principes
Homologues du récepteur de l'androstérone
identifiés avec BLAST
#
1
6
14
17
21
33
41
42
:
:
343
344
345
346
347
349
351
355
ID
Swissprot
P15207
P19091
Q63449
P06401
P08235
P04150
Q9YH32
Q9YH33
:
:
Q9N4Q7
Q23294
O45460
Q09565
Q09587
P17672
P20659
P98164
Hit
ANDR_RAT
ANDR_MOUSE
PRGR_RAT
PRGR_HUMAN
MCR_HUMAN
GCR_HUMAN
ESR2_ORENI
ESR1_ORENI
:
:
NH13_CAEEL
NH11_CAEEL
NH54_CAEEL
NH20_CAEEL
NH22_CAEEL
E75B_DROME
TRX_DROME
LRP2_HUMAN
Description
Score
(bits)
Androgen receptor.
162
Androgen receptor.
162
Progesterone receptor (PR)
136
Progesterone receptor (PR)
136
Mineralocorticoid receptor (MR) 136
Glucocorticoid receptor (GR)
131
Estrogen receptor beta (ER-beta) 99
Estrogen receptor (ER-alpha)
98
:
:
:
:
:
:
Nuclear hormone receptor nhr-13
54
Nuclear hormone receptor nhr-11
54
Nuclear hormone receptor nhr-54
54
Nuclear hormone receptor nhr-20
51
Nuclear hormone receptor nhr-22
45
Ecdysone-induced protein 75B
40
Trithorax protein.
31
Lipoprotein receptor.
30
%
Match
Identity Length
E
*
1e-40
1e-40
1e-32
1e-32
1e-32
3e-31
3e-21
4e-21
:
:
8e-08
8e-08
1e-07
7e-07
5e-05
0.001
0.74
1.7
*E = espérance du nombre d'alignements fortuits de score supérieur
100
100
80
80
79
77
58
55
:
:
39
42
37
34
32
37
26
27
73
73
72
72
72
72
72
72
:
:
66
66
67
66
66
47
49
65
Méthode heuristique pour un alignement multiple:
trois phases successives
●
Alignement 2 à 2 des séquences
●
Construction d'un arbre “guide”
●
Alignement progressif séquences-profil
Phase 1: alignement des séquences 2 à 2
S T A R
S K A T
a) S T A R
b) S K A T
c) P I T
4
-1
4 -1
S T A R
P I T -1 -1
Score =6
0
-8
S K A T
P – I T
-1 -8 -1
Score =-10 (Exc.)
5
Score =-5 (Exc.)
Phases 2, 3: on reprend le problème à zéro, en
traitant les séquences dans un ordre intelligent
Phase 2: Classement des séquences par similarité
Phase 3: On les aligne progessivement,
en commençant par les plus similaires
Phase 2: classement hiérarchique,
ou arbre “guide”
a
a
b
2
b
3
a
d
c
d
b
c
1
“Unweighted Pair Group Joining with Arithmetic Mean”
c
d
Phase 3: alignement des séquences
en remontant progressivement l'arbre
0.8
progesterone
0.7
mineralocorticoid
0.8
0.4
glucocorticoid
1.2
estrogen
1.1
vitamin D
0.5
1.4
PPAR
0.2
0.9
1.0
androgen
retinoic acid
thyroid
Phase 3: alignement des séquences
en remontant progressivement l'arbre
a avec b
a) S T A R
b) S K A T
a
b
c
c avec {a, b}
Alignement “séquence-profil”
Alignement séquence-profil:
programmation dynamique
S
S
S
0
P
I
T
T
T
K
-24
-27
A
I
A
R
R
T
T
T
K
total
P
-1
-1
-1
-3
Aligner une séquence avec un alignement:
calcul d'un score moyen
Alignement existant:
S
S
S
T
T
K
A
I
A
R
R
T
Séquence à aligner:
T
T
K
total
P
-1
-1
-1
-3
P I T
b
s(a, b' ) = s(a,b) + s(a,b') + s(a,b'')
b''
Somme
de
paires
Alignement séquence-profil:
programmation dynamique
P
I
T
S
S
S
T
T
K
A
I
A
R
R
T
0
-24
-48
-72
-96
-24
-3
-27
-51
-75
-48
-19
-6
-25
-49
-72
-43
-10
-4
-22
S
T
S
P
T
S
K
-
A
A
I
I
R
R
T
T
Aligner deux profils ou alignements:
calcul d'un score moyen
S
S
S
PP
II
GT
T
T
K
A
I
A
R
R
T
a b
s( a' , b' ) = s(a,b) + s(a,b')
b'' + s(a,b'')+ s(a',b)
+ s(a',b')+ s(a',b'')
Somme de paires
S
T
S
P
P
T
S
K
-
A
A
I
I
I
R
R
T
T
G
Produit final:
584
androgène
progestérone
minéralocorticoïde
glucocorticoïde
estrogène
acide rétinoïque
vitamine D3
thyroïde
588
VFFKRAAEG--KQKYLCASRNDCTIDKFRRKNCPSCRLRKCY
VFFKRAVEG--HHNYLCAGRNDCIVDKIRRKNCPACRLRKCY
VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRLQKCL
VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRYRKCL
AFFKRSIQG--HNDYMCPATNQCTIDKNRRKSCQACRLRKCY
GFFRRSIQK--NMVYTCHRDKNCIINKVTRNRCQYCRLQKCF
GFFRRSMKR--KALFTCPFNGDCRITKDNRRHCQACRLKRCV
GFFRRTIQKNLHPTYSCKYDSCCVIDKITRNQCQLCRFKKCL
**:*: .
: :
* : * *. * ** ::*
588
Nécessité d'une validation expérimentale
●
Mutagénèse des résidus conservés
Mise en évidence d'une interaction
avec un substrat ou inhibiteur
●
Détermination de structures tridimensionnelles (!)
●
Matinées
9h30 – 12h30
Après midis
14h – 17h30
TP
dates
chapitres de la matinée (salles)
après-midi
-----------------------------------------------------------------------------------------------------------22/10 Alignements de séquence + présentation du TP AspRS (PC38)
TP (SI35)
29/10
Modélisation + présentation du TP Trpcage (PC38)
TP (SI35)
7/11
Modélisation par homologie (Salle 52) + TD Xplor (SI35)
TP (SI35)
14/11
Reconnaissance moléculaire 1 (Salle 52) + TD Modeller (SI35)
TP (SI35)
21/11
Exposés + exercices
TP (SI31)
26/11
TP (SI35)
28/11
TP (salle?)
(PC16)
Reconnaissance moléculaire 2
+ TD Docking (PC4)
Exposés + exercices (salle?)
Contrôle: présentation d'un des TPs + présentation d'article + contrôle écrit
[email protected]
[email protected]
Laboratoire de Biochimie, Ecole Polytechnique
http://biology.polytechnique.fr/biocomputing/teach.html
Téléchargement