Modélisation et prédiction de structure de protéines: une introduction

publicité
Modélisation et prédiction
de structure de protéines:
une introduction
Glycolyse . Transport d'oxygène . Capture d'énergie lumineuse . Pompage d'ions .
Métabolisme des acides aminés . Synthèse d'ARN. Transport de métabolites . Motilité cellulaire . Photosynthèse . Transport d'ions . Synthèse d'ATP . Synthèse
d'acides gras . Cycle de Krebs . Cytosquelette . Respiration . Synthèse de sucres .
Mort cellulaire. Contraction musculaire . Croissance des tissus . Répertoire
immunitaire. Maturation d'ARN. Synthèse de lipides. Anticorps . Traduction du
code génétique. Réplication d'ADN . Capsides virales . Cheveux . Inflammation
Coagulation . Signalisation . Répression de gènes . Gluconéogénèse. Hormones .
Dégradation d'aliments . Neurotransmission . Oxidoréduction . Bioluminescence . Réparation d'ADN . Synthèse de protéines . Thermogénèse . Fusion cellulaire. Détoxification . Compaction d'ADN . Chaperones . Catabolisme ADN/ARN . Transport vésiculaire . Maturation protéique . Choc thermique . Épissage . Transport nucléaire . Fuseau mitotique . Communication cellulaire . Homéostase .
Neurotoxines et biodéfense . Biosynthèse d'acides aminés . Sécrétion . Cycle de
l'urée . Biosynthèse de nucléotides . Recombinaison génétique . Chimiorécepteurs
. Transport de protéines . Moteurs . Intégration du métabolisme . Neurotoxines .
Biosynthèse d'hormones . Tissus connectifs . Dégradation d'antibiotiques . Vision
Ingénierie de la structure et fonction des biomolécules
A
U
G
C
G
C
U
U
A
U
A
G
C
C
A
A
G
G
:
Séquence
Structure
Fonction
●
Organisation structurale et stabilité des protéines
●
Prédiction de structure secondaire
●
Modélisation moléculaire, dynamique moléculaire
●
Prédiction de structure 3D: modélisation par homologie
Le problème du repliement
la structure native est un minimum d'énergie libre K
L
H
G
G
P
M
L
D
S
D
Q
K
F
W
R
T
P
A
A
L
H
Q
N
E
G
F
T
Nétats ~ 3n n = 100­300
Googols...
Un acide aminé possède 3 conformations; un polypeptide de longueur n
en possède... 3n. Et pourtant, il se replie en un temps très court (10­6 – 1 s). Structure des protéines
Structure des protéines
La chaîne principale possède deux dièdres flexibles
phi, psi par acide aminé
i
i+1
i+2
Liaison
peptide
= plane
Ri
N
CH
N
H

O
H

C
O
C
CH
Ri+1
+

N
+
H
Ri+2
CH
Les valeurs stériquement permises de phi, psi
sont celles du diagramme de Ramachandran



CH
O
C
H
C
CH
N
N
H


C
O
CH
Lovell et al, 2003,
Proteins, 50:437 CH
O
C
C
N

H
CH
C

O
H
N
CH
Dans les hélices et feuillets, les groupements polaires de la
chaine principale sont engagés dans des liaisons hydrogènes
Hélice  3.6 résidus
par tour
i+4
Feuillet (antiparallèle, ici)
i
Pseudo­périodicité de 2 Les boucles sont plus flexibles, donc difficiles à
prédire. Elles ont assez souvent un role fonctionnel.
boucles
coude
~1/3 des acides aminés
La nature utilise une chimiothèque de 20 acides aminés
avec une gamme de caractéristiques physico­chimiques
+ NH
NH
taille
Trp
Phe
Lys CH
2
CH3 CH2
CH
Leu
CH
Ala
CH2
CH
Met
CH2
Thr
Cys SH
CH3 OH
CH2
CH3
S
CH3
O
CH2
N
CH
Pro
CH2
NH
NH
CH2
NH2
O
CH2
His
Arg
O
CH2
CH2
C
OH
­
C
CH2
CH
Gly
H
CH2
NH2
O
C
CH3 CH3
CH3 CH3
Val
Tyr
(CH2)3
CH2
Gln
CH2
CH3
NH
CH2
CH2
OH
Ile
+
NH2 NH2
3
CH2
Glu
O
­
O
C
CH2
Asp
Asn
CH2 Ser
polarité
La nature a sélectionné les acides aminés L
L
D
Ne pas confondre “L” avec “lévogyre”: subtile différence
Les chaines latérales ont des angles de torsion flexibles
+ NH
3
Lysine
CH2
CH2

CH2

CH2

N
H
1
CH

C
O
53 conformations de Lys vue dans des structures
cristallographiques de protéines.
Les chaines latérales ont des conformations
préférées, appelées “rotamères”
énergie(chi1,chi2)
1

C
N
­2.5
C
O
Exemple de l'asparagine
chi1
C
C
­4.5
­4.3
­3.3
1 kcal/mol entre contours
N
chi2
conformations typiques vues dans les protéines
conformations vues par simulation Structure “quaternaire”: Notion de domaine structural
50­300 acides aminés
Deux aminoacyl­ARNt synthétases
4 modules
fibronectine
Un même domaine peut être utilisé par de
nombreuses protéines différentes
Domaine “SH3”: trouvé
dans des contextes variés
dans >150 protéines de
structures 3D connues.
Tyrosine kinase c­Src
23 chez la levure
Le domaine structural comme module élémentaire
dans l'évolution des protéines
Domaine de
fixation
du substrat
Protéine fixant
le substrat A
fusions
duplications
NAD
Domaine
de fixation
du NAD
Glycéraldéhyde3-phosphate
déshydrogénase
Protéine fixant
le NAD
Protéine fixant
le substrat B
Déshydrogénases
à NAD de
spécificité large
évolution
séparée et
spécialisation
Déshydrogénases à NAD de spécificité étroite
Structures de domaines: classement hiérarchique
par similarité
3 classes



40 architectures
Classifying a Protein in
the CATH Database
of Domain Structures
Acta Cryst (1998) D54:1155 Orengo, Martin, Hutchinson, Jones, Jones, Michie, Swindells, Thornton
~ 1100 “topologies”
ou “repliements”
~ 2200 superfamilles
Reflet de l'évolution
Protéines orthologues Protéines paralogues
Gène X
Gène X
duplication
du gène
spéciation
Gène X
Gène X
Gène X Gène X
divergence
Gène A Gène B
Classement structural des domaines
Classe 
Classe 
Classe 
114000 structures
●
2200 superfamilles
●
100 contiennent 60%
des domaines
●
www.cathdb.info
Protein Data Bank
www.rcsb.org/pdb/
La découverte de nouveaux
plis ralentit.
~ quelques milliers de
plis différents dans le
monde du vivant
L'espace des plis est discret et fini
Les protéines sont formées par assemblage de domaines
Le répertoire structural = {qques milliers de domaines}N
Les structures 3D de biomolécules sont regroupées
dans la “Protein Data Bank”
88000 structures
de protéines
Nombre
total de
structures
dans la
PDB
2012 niveau nombre de
d'identité protéines
100% 48216
95% 34262
25% ~4000
année
Les projets internationaux de “génomique structurale” visent à déterminer les structures de toutes les protéines d'organismes choisis, par cristallographie de rayons X, par résonance magnétique nucléaire, et par modélisation.
Faisceau
monochromatique
de rayons X
Cristal de
protéine ou
d'ARN
Cliché
de
diffraction
Le synchrotron SOLEIL
Accélérateur d'électrons; émet des rayons X, utilisables pour la cristallographie.
Pour l'immense majorité des protéines connues,
il n'y a pas de structure 3D expérimentale.
Pour ~1/3, la fonction n'est pas connue.
ID
# Swissprot
Nom
1 P15207
ANDR_RAT
6 P19091
ANDR_MOUSE
14 Q63449
PRGR_RAT
17 P06401
PRGR_HUMAN
21 P08235
MCR_HUMAN
33 P04150
GCR_HUMAN
41 Q9YH32
ESR2_ORENI
42 Q9YH33
ESR1_ORENI
:
:
:
:
:
:
343 Q9N4Q7 NH13_CAEEL
344 Q23294 NH11_CAEEL
345 O45460 NH54_CAEEL
346 Q09565 NH20_CAEEL
347 Q09587 NH22_CAEEL
349 P17672 E75B_DROME
351 P20659 TRX_DROME
355 P98164 LRP2_HUMAN
:
:
:
:
:
:
Description
Androgen receptor.
Androgen receptor.
Progesterone receptor
Progesterone receptor
Mineralocorticoid receptor
Glucocorticoid receptor
Estrogen receptor beta
Estrogen receptor alpha
:
:
:
:
Nuclear hormone receptor nhr-13
Nuclear hormone receptor nhr-11
Nuclear hormone receptor nhr-54
Nuclear hormone receptor nhr-20
Nuclear hormone receptor nhr-22
Ecdysone-induced protein 75B
Trithorax protein.
Lipoprotein receptor.
:
:
:
:
Score
162
162
136
136
136
131
99
98
:
:
54
54
54
51
45
40
31
30
:
:
E
1e-40
1e-40
1e-32
1e-32
1e-32
3e-31
3e-21
4e-21
:
:
8e-08
8e-08
1e-07
7e-07
5e-05
0.001
0.74
1.7
:
:
%
Longueur
Identité alignée
100
73
100
73
80
72
80
72
79
72
77
72
58
72
55
72
:
:
:
:
39
66
42
66
37
67
34
66
32
66
37
47
26
49
27
65
:
:
:
:
Importance de la modélisation
Stabilité des protéines
Les protéines sont marginalement stables
G = 5­15 kcal/mol = 10­30 kT
~ 0.1 kT par acide aminé
~ 0.01 kT par atome
Forte entropie configurationnelle
Nombreuses interactions protéine­eau
G
Effets compensatoires
Faible entropie configurationnelle
Interactions protéine­eau
Interactions protéine­protéine
L'effet qui s'oppose au repliement est
l'entropie configurationnelle
K
L
H
G
G
P
M
L
D
S
D
Q
K
F
W
R
T
P
A
A
L
H
Q
N
E
G
F
T
Nétats ~ 3n n = 100­300
Un nombre astronomique d'états accessibles pour la protéine dépliée
Les protéines tendent à enfouir leurs groupes apolaires
avec un empilement très compact
thioredoxine
Les sphères rouges sont les atomes
des chaines latérales hydrophobes.
Fraction de volume occupée élevée: ~ 0.74 (moyenne sur les structures connues)
La force motrice du repliement est l'effet hydrophobe
Ségrégation alkane/eau
Kauzmann, 1959
Tension de
surface =
+70 cal/mol/A2
1 nm
L'eau interagit faiblement avec les alkanes saturés et fortement avec l'eau. D'où une tension de surface eau/alkane forte et positive, qui poussera deux goutelettes microscopiques d'huile à coalescer spontanément. Ainsi, en caricaturant un peu, on peut dire que
le repliement est induit par les interactions eau­eau.
Les hélices et feuillets sont des structures étendues
qui peuvent traverser le coeur hydrophobe d'une protéine
tout en formant toutes les liaisons hydrogènes possibles
Hélices +
feuillets =
plus de 60% des
acides aminés
Prédites par Corey et Pauling avant la détermination de structures expérimentales.
Les protéines membranaires sont un cas à part
Cytochrome oxidase
~ 30% du génome humain, ~ 50% des médicaments sur le marché
Nombre limité de structures connues (~100).
Nombre limité d'architectures possibles.
Le repliement n'est pas une propriété universelle!
Un polypeptide avec une séquence arbitraire ne se repliera pas.
Seule une infime minorité de séquences, sélectionnées par l'évolution, conduisent à un repliement stable et unique.
Il faut notamment un bon équilibre entre résidus hydrophiles et hydrophobes.
Pourcentages d'utilisation des acides aminés dans les protéines
aa Gly Ala Val Leu Ile Met Pro Phe Trp Ser
% 7 8 7 9 5 2 5 4 1 7 aa Thr Asn Gln Tyr Cys Lys Arg His Asp Glu
% 6 4 4 3 2 6 5 2 5 6
Les interactions électrostatiques gouvernent
la reconnaissance moléculaire
25% des acides aminés sont chargés
+
+ NH3
Lys
NH2 NH2
CH2
NH
CH2
Fe
2+
(CH2)3
CH2
CH2
O
-O
C
NH
Cu2+
+ NH
Acetylcholine estérase
Régions rouges = potentiel électrostatique négatif
Son substrat, l'acétylcholine, est positif
Glu
CH2
O
CH2
CH2
His
Arg
C
2+
Zn
phospho­Ser
-O
CH2
Asp
Les interactions électrostatiques gouvernent
la reconnaissance moléculaire
Bleu: potentiel positif
Cytochrome c
Rouge: potentiel négatif
hème
Vue de devant
Vue de derrière
Le cytochrome c interagit avec la membrane mitochondriale, chargée
négativement, et avec des régions négatives sur le cytochrome bc1 et
le cytochrome oxidase.
Prédiction de la structure secondaire
Lys9
Lys16
Ala12
Thr13
vj
Thr17
Ala8
Phe15
Lys10
Leu14
Gly11
Prédiction de structure secondaire
Hélice  3.6 résidus par tour
Feuillet 
Pseudo­périodicité de 2 Dans les protéines, le diamètre d'un domaine correspond
souvent à quelques éléments de structure secondaire
Représentants de 30 “architectures” dans la classification CATH
www.cathdb.info
Dans les protéines, le diamètre d'un domaine correspond
souvent à quelques éléments de structure secondaire
H
y
d
r
o
p
h
o
b
e
boucle
diamètre
hydrophile
hydrophile
Les hélices sont souvent amphipathes, avec une face enfouie
dans la protéine et une vers le solvant.
Prédiction de structure secondaire
Les hélices sont souvent amphipathes, avec une face enfouie
dans la protéine et une vers le solvant.
hydrophiles
Lys9
Lys16
Ala12
Thr13
“Roue
hélicoidale”
Ala8
Thr17
Phe15
Lys10
Leu14
Gly11
hydrophobes
Vue du dessus et simplifiée d'une hélice amphiphile
On s'intéresse à un acide aminé, disons Thr13. On fait l'hypothèse qu'il est dans une hélice, représentée ci­dessous. On considère les acides aminés 9, 10, 11, 12, 13, 14, 15, 16, 17, qu'on repère par des vecteurs:
Lys9
Lys16
Ala12
Thr13
Ala8
Thr17
Phe15
Lys10
Leu14
Gly11
On s'intéresse à un acide aminé,disons Thr13. On fait l'hypothèse qu'il est dans une hélice, représentée ci­dessous. On considère les acides aminés 9, 10, 11, 12, 13, 14, 15, 16, 17, qu'on repère par des vecteurs:
Lys9
Lys16
Ala12
Thr13
Ala8
Thr17
Phe15
Lys10
Leu14
Gly11
On s'intéresse à un acide aminé,disons Thr13. On fait l'hypothèse qu'il est dans une hélice, représentée ci­dessous. On considère les acides aminés 9, 10, 11, 12, 13, 14, 15, 16, 17, qu'on repère par des vecteurs.
Pour les acides aminés hydrophobes, on compte les vecteurs négativement:
Lys9 Lys16
Ala12
Thr13
Ala8
Thr17
Phe15
Lys10
Leu14
Gly11
On ajoute tous ces vecteurs:
V13
Lys9
Lys16
Ala12
Thr13
Ala8
Thr17
Phe15
Lys10
Leu14
Gly11
Si l'hypothèse est juste: on obtiendra un grand vecteur V13 (les vj s'ajoutent “constructivement”). Sinon, on obtiendra un petit vecteur.
En fait, nous avons défini un “moment hydrophobe”:
i+ m
Moment hydrophobe: i = Hj vj
j= i­m
Lys9
Lys16
Ala12
Thr13
vj
Thr17
Hj = hydrophobicité,
caractéristique de chaque
type d'acide aminé
m = 3 ou 4
Ala8
Phe15
Lys10
Leu14
Gly11

...G S A K K G A T L F K T R C Q Q...
Le moment hydrophobe
permet de repérer des
régions amphipathes
qui ont la périodicité 3.6.
Pseudo­périodicité de 2
Hypothèse d'un feuillet beta: on
définit un autre moment hydrophobe :
j=1
j=2
Moment hydrophobe: Axe
j du
feuillet
i+ m
i = Hj vj
j= i­m
Hj = hydrophobicité
vj = (­1) j
j=3
Sphères
oranges
= chaines
latérales
(chaine latérale au­dessus ou en­dessous du feuillet)
Hypothèse valable:
grande valeur de |i|
Axe j du
feuillet
j=4
Une méthode inspirée des réseaux de neurones
Une cellule neuronale j recoit des signaux en entrée x1, x2, ..., xn, depuis des
cellules voisines 1, 2, ..., n; les intègre, et les convertit en un signal de sortie yj:
axone
yj
yj
yj
x1
x2
Cellule
neuronale j
yj
dendrites
x3
x4
yj
x6
x5
Les signaux d'entrée xi
sont pondérés et sommés: Ej = i wij xi puis convertis: yj =  ( Ej ) (Ej)
Neurone
éteint
Neurone
allumé
Ej
Un réseau de neurones pour prédire la structure secondaire
hélice/feuillet/autre
sortie
~ 75% de
prédictions
correctes
caché
Ej = i wij xi entrée
Phe
Asn
Ala
Arg
Met
Lys
Leu
L'architecture du réseau est choisie au départ. On optimise les poids wij de toutes les connections (1212 dans cet exemple) pour obtenir des prédictions correctes sur un jeu de structures connues (phase d'apprentissage). Ainsi paramétré, le réseau a “appris” à associer une structure secondaire à toute séquence qu'on lui présente. Plus précisément, le réseau prédit l'état du résidu central Arg.
Un réseau de neurones pour prédire la structure secondaire
hélice/feuillet/autre
~ 80% de
prédictions
correctes
sortie
caché
entrée
Phe
Phe
Phe
Tyr
Asn
Gln
Asn
Asn
Ala
Ser
Ala
­ Arg
Arg
Lys
Arg
Met
Met
Ile
Met
Lys
Lys
Lys
Arg
Leu
Ile
Leu
Leu
Utilisation d'un alignement multiple en entrée
Structure 3D:
mécanique moléculaire
et dynamique moléculaire
U
T1
T2
T3
{r}
On observe expérimentalement que les macromolécules
biologiques adoptent un ensemble de conformations
Lysine
Tige­boucle d'ARN
(vue stéréo)
On peut les caractériser par une surface d'énergie
C
1 C

N
N
chi1
C
C
O
chi2
Prédiction de structure = recherche de structures de basse énergie
On peut construire une fonction d'énergie empirique
pour la modélisation biomoléculaire
U = liaisons kb (b­b0)2 + angles ka (a­a0)2 + torsions kt [1 + cos(nt­)] On peut construire une fonction d'énergie empirique
pour la modélisation biomoléculaire
q
­2q
q'
q'
q'
q
q'
U = ij [ Aij/rij12 ­ Bij/rij6 ] + ij qiqj/rij
Lennard­Jones ou van der Waals
Coulomb
Paramétrisation: 1980­2000
Liaisons, angles, torsions: ­spectroscopie de petites molécules
­résolution numérique de Schrodinger
Lennard­Jones: ­cristaux de petites molécules
­propriétés de liquides simples
Charges atomiques : ­résolution numérique de l'équation de Schrodinger
­cristaux de petites molécules
alanyl­methionine
Jelsch '01
Fonction d'énergie: Mécanique Moléculaire
U = liaisons kb (b­b0)2 + angles ka (a­a0)2 + torsions kt [1 + cos(nt­)] + ij [ Aij/rij12 ­ Bij/rij6 + qiqj/rij ]
.35
H H H
N-.30
.3
H
CH2
.3
CH2
H N
N
H
CH
-.55
O
C .55
CH2
CH2
-.6
-.55
O
C
.55
-.35
N
.25 H
CH2
O
CH
C
CH3
N
H
CH
Positions équivalentes et indépendantes
Recherche de structures de basse énergie:
minimisation d'énergie
C
1 C

N
N
chi1
C
C
O
chi2
Minimisation selon la ligne de plus grande pente
(1) Méthode: partant de Pi, on se déplace le long
du gradient: ­grad U(Pi) jusqu'au minimum dans
cette direction, Pi+1. On recommence jusqu'au
minimum (gradient nul). (2) Recherche de Pi+1: par interpolations successives
Exploration conformationnelle
par dynamique moléculaire
N
C
1 C

chi1
C
Permet
de franchir
les barrières
d'énergie
(pas trop
fortes)
C
N
O
chi2
Résoudre numériquement les équations du mouvement:
mi i = Fi = ­ grad Ui
3 équations
par atome
Description implicite du solvant Solvent “explicite”
Solvent “implicite”
Continuum diélectrique Energie électrostatique pour une paire d'ions: E = q q' /  r
 = constante diélectrique de l'eau
Pour traiter quelques ions dans l'eau, tout va bien...
Description implicite du solvant Solvent “explicite”
Solvent “implicite”
Continuum diélectrique Pour une biomolécule, c'est plus compliqué:
hétérogénéité “diélectrique” du système:
cf électrostatique des milieux continus
Dans un premier temps, on peut ignorer cette difficulté:
Energie électrostatique E = q q' /  r
Recuit simulé:
Optimisation sur une surface d'énergie rugueuse ●
Exploration par dynamique moléculaire
●
Température élevée; décroit progressivement
U
T1
T2
T3
{r}
Repliement in silico
vilin
FiP35
Shaw et al (2010)
Science, 330:341
Explicit­solvent simulations of villin headpiece folding; Freddolino, Schulten (2009) Biophysical Journal
Fluctuations d'un domaine PDZ à l'échelle microseconde
●
Organisation structurale et stabilité des protéines
●
Prédiction de structure secondaire
●
Modélisation moléculaire, dynamique moléculaire
●
Prédiction de structure 3D: modélisation par homologie
Prédiction de structure par homologie: identifier d'abord le pli,
généralement par comparaisons de séquences
K
L
H
G
G
P
M
L
D
S
D
Q
K
F
W
R
T
P
A
A
L
H
Q
N
E
G
F
T
?
Modélisation par homologie
Recherche d'une ou plusieurs protéines homologues
de structures connue (“cibles”)
Alignement multiple avec un ensemble d'homologues
Régions conservées: on moyenne les chaines principales des cibles
Boucles flexibles: recherche dans la Protein Data Bank; méthodes de modélisation “ab initio”
Chaines latérales: recherche de rotamères favorables, eg par une
exploration stochastique, de type “Monte Carlo”
Affinement et évaluation du modèle: relaxation par minimisation
d'énergie et/ou dynamique moléculaire
Exercice de prédiction: délétion, puis reconstruction des chaines latérales;
la position de la chaine principale est connue exactement (elle n'est
pas modélisée).
86% des angles chi1 corrects
73% des chi2 et chi1
Quand la chaine principale est parfaitement connue,
la prédiction est très bonne mais pas parfaite.
% de séquences avec des homologues PDB
Modélisation par homologie:
une cible n'est pas toujours disponible 0
20
40
60
80
0
20
40
M. genitalium
15
60
80
S. cerevisiae
5
C. elegans
15
E. coli
Distribution des identités de séquence dans la Protein Data Bank
5
0
20
40
60
80
0
20
40
60
80
% d'identité
Une cible doit avoir suffisamment de similarité avec la séquence modélisée
La structure quaternaire est moins conservée
Recherche d'une ou plusieurs protéines homologues
●
Alignement multiple avec un ensemble d'homologues
●
Régions conservées: on moyenne les chaines principales
●
Boucles flexibles: recherche dans la PDB; méthodes “ab initio”
●
Chaines latérales: recherche de rotamères favorables
●
Affinement et évaluation du modèle
●
Positionnement relatif des domaines?
●
Contacts inter-domaine
moins nombreux:
positionnements
relatifs moins
conservés que les
structures
intradomaines
Téléchargement