Du génome à la structure protéique

publicité
Modélisation des protéines
Du génome à la structure protéique
...GCGGGACTCAAGAGTAGCCTTCCTCGAGGACCTGC
CTTTCCCATTTGCTGCCTGAAGTTAATGTTTCTTGCTG
GCCAAATCAGGGACATGCCGGCATTAGCGGGATGAGTG
GGTGTTCCGGCAGGGATGTGGTCATTGACGGCCAGTGA
GGGCGAGAGTACCACGGCCCACTTCTTCCTTGGAGCTG
GAGATGAGGGGCTGGGCACCCGTGGAATAGGCATGAGG
CCAGAAGAGAGTGACAGCGAGCTCCTTGAGGATGAGGA
GGATGAAGTGCCTCCTGAACCTCAGATCATTGTTGGCA
TCTGTGCCATGACCAAGAAATCCAAGTCCAAGCCAATG
ACTCAAATCCTAGAGCGACTCTGCAGATTTGACTACCT
GACTGTTGTCATTCTGGGAGAAGATGTAATCCTTAATG
AACCTGTGGAAAACTGGCCATCCTGCCACTGCCTCATC
TCTTTCCACTCCAAAGGCTTTCCTCTGGACAAAGCTGT
TGCTTACTCCAAGCTTCGAAACCCCTTTCTTATCAATG
ATCTGGCCATGCAGTATTACATCCAAGATAGGAGGGAG
GTGTACCGGATCCTGCAGGAAGAGGGTATTGATCTGCC
TCGATATGCTGTGCTCAACCGTGATCCTGCCCGGCCTG
AGGAATGCAACCTGATAGAAGGTGAAGACCAAGTAGAG
GTCAATGGAGCTGTCTTTCGATCCTGCAGGAAGCT...
?
De la séquence d’ADN à la
séquence protéique
Chaque acide aminé est codé par un triplet de nucleotides (codon)
Chaque protéine commence par un ‘codon d’initiation’ et termine par un ‘codon stop’
...GCGGGACTCAAGATGAGCCTTCCTCGAGGACCTGC
CTTTCCCATTTGCTGCCTGAAGTTAATGTTTCTTGCTG
GCCAAATCAGGGACATGCCGGCATTAGCGGGATGAGTG
GGTGTTCCGGCAGGGATGTGGTCATTGACGGCCAGTGA
GGGCGAGAGTACCACGGCCCACTTCTTCCTTGGAGCTG
GAGATGAGGGGCTGGGCACCCGTGGAATAGGCATGAGG
CCAGAAGAGAGTGACAGCGAGCTCCTTGAGGATGAGGA
GGATGAAGTGCCTCCTGAACCTCAGATCATTGTTGGCA
TCTGTGCCATGACCAAGAAATCCAAGTCCAAGCCAATG
ACTCAAATCCTAGAGCGACTCTGCAGATTTGACTACCT
GACTGTTGTCATTCTGGGAGAAGATGTAATCCTTAATG
AACCTGTGGAAAACTGGCCATCCTGCCACTGCCTCATC
TCTTTCCACTCCAAAGGCTTTCCTCTGGACAAAGCTGT
TGCTTACTCCAAGCTTCGAAACCCCTTTCTTATCAATG
ATCTGGCCATGCAGTATTACATCCAAGATAGGAGGGAG
GTGTACCGGATCCTGCAGGAAGAGGGTATTGATCTGCC
TCGATATGCTGTGCTCAACCGTGATCCTGCCCGGCCTG
AGGAATGCAACCTGATAGAAGGTGAAGACCAAGTAGAG
GTCAATGGAGCTGTCTTTCGTAGCTGCAGGAAGCT...
MGKAAKKKYSGATSSKQVSAEKHLS
SVFKFNTDLGQHILKNPLVAQGIVD
KAQIRPSDVVLEVGPGTGNLTVRIL
EQAKNVVAVEMDPRMAAELTKRVRG
TPVEKKLEIMLGDFMKTELPYFDIC
ISNTPYQISSPLVFKLINQPRPPRV
SILMFQREFALRLLARPGDSLYCRL
SANVQMWANVTHIMKVGKNNFRPPP
QVESSVVRLEIKNPRPQVDYNEWDG
LLRIVFVRKNRTISAGFKSTTVMDI
LEKNYKTFLAMNNEMVDDTKGSMHD
VVKEKIDTVLKETDLGDKRAGKCDQ
NDFLRLLYAFHQVGIHF
1
Les protéines ont une
structure tridimensionelle
La structure tridimensionelle (fold) d’une protéine
correspond à l’arrangement de ses acides aminés dans
l’espace 3D.
MGKAAKKKYSGATSSKQVSAEKHLS
SVFKFNTDLGQHILKNPLVAQGIVD
KAQIRPSDVVLEVGPGTGNLTVRIL
EQAKNVVAVEMDPRMAAELTKRVRG
TPVEKKLEIMLGDFMKTELPYFDIC
ISNTPYQISSPLVFKLINQPRPPRV
SILMFQREFALRLLARPGDSLYCRL
SANVQMWANVTHIMKVGKNNFRPPP
QVESSVVRLEIKNPRPQVDYNEWDG
LLRIVFVRKNRTISAGFKSTTVMDI
LEKNYKTFLAMNNEMVDDTKGSMHD
VVKEKIDTVLKETDLGDKRAGKCDQ
NDFLRLLYAFHQVGIHF
Importance de la structure
3D des protéines
• La structure 3D des protéines est une source importante
d’information
• pour comprendre sa fonction
• pour imaginer des mutations
• Le nombre des protéines de structure connue (9000) est
sensiblement plus faible que celui des protéines connues (600000).
• Le problème est que les techniques expérimentales de détermination
de la structure 3D des protéines sont longues et coûteuses
• Il existe une alternative: la modélisation des protéines
2
Modélisation des protéines:
Pourquoi ça marche?
La modélisation 3D des protéines est basée sur le
fait que des protéines similaires adoptent le même
fold.
Il est possible de prédire un fold approximatif
pour une protéine d’intérêt à partir d ’une
protéine similaire de structure connue (template)
Modélisation des protéines:
Recherche en banques de données de
structures connues
Le premier pas dans la modélisation des protéines consiste à
rechercher une protéine similaire de structure connue (template)
dans les banques de données. Le résultat est une liste de protéines
similaires triées par un score. Plus le score est haut, plus la
similarité avec la protéine d’intérêt est grande.
Sequences producing significant alignments:
Score
(bits)
E
Value
pdb|1YUB|
pdb|1QAN|A
pdb|1G6Q|1
pdb|1EI1|A
pdb|3HDH|A
pdb|1PSZ|A
pdb|1VID|
58
53
31
29
27
27
26
1e-09
6e-08
0.28
1.1
2.4
3.2
7.2
Solution
Chain A,
Chain 1,
Chain A,
Chain A,
Chain A,
Catechol
Structure Of An Rrna Methyltransferase...
The Structure Of The Rrna Methyltransfe...
Crystal Structure Of Yeast Arginine Met...
Dimerization Of E. Coli Dna Gyrase B Pr...
Pig Heart Short Chain L-3-Hydroxyacyl C...
Pneumococcal Surface Antigen Psaa
O-Methyltransferase
3
Modélisation des protéines:
Alignement séquence-structure
Le deuxième pas dans la modélisation des protéines est
l’alignement entre la sequence de la protéine d’intérêt
(DIM1p) et le template (1YUB)
DIM1p
1YUB
MGKAAKKKYSGATSSKQVSAEKHLSSVFKFNTDLGQHILKNPLVAQGIVDKAQIRPSDVV
---------------------------MNKNIKYSQNFLTSEKVLNQIIKQLNLKETDTV
DIM1p
1YUB
LEVGPGTGNLTVRILEQAKNVVAVEMDPRMAAELTKRVRGTPVEKKLEIMLGDFMKTELP
YEIGTGKGHLTTKLAKISKQVTSIELDSHLFNLSSEKLK---LNTRVTLIHQDILQFQFP
DIM1p
1YUB
YFD--ICISNTPYQISSPLVFKLINQPRPPRVSILMFQREFALRLLARPGDSLYCRLSAN
NKQRYKIVGNIPYHLSTQIIKKVVFESRASDI-YLIVEEGFYKRTLD-----IHRTLGLL
DIM1p
1YUB
VQMWANVTHIMKVGKNNFRPPPQVESSVVRLEIKNPRPQVDYNEWDGLLRIVFVRKNRTI
LHTQVSIQQLLKLPAECFHPKPKVNSVLIKLTRHTTDVPDKY--WK--LYTYFVSK----
DIM1p
1YUB
SAGFKSTTVMDILEKNYKTFLAMNNEMVDDTKGSMHDVVKEKIDTVLKETDLGDKRAGKC
-----------WVNREYRQLFTKN-----------------QFHQAMKHAKVNN--LSTI
DIM1p
1YUB
DQNDFLRLLYAFHQVGIHF
TYEQVLSIFNSYLLFNGR-
Modélisation des protéines:
Assignation des coordonnées
Le troisième pas dans la modélisation de protéines est de construire le
modèle 3D de la protéine d’intérêt. Dans cette procédure, les acides
aminés du template sont remplacés par ceux qui sont alignés dans la
protéine d’intérêt.
1YUB
Y E
DIM1p
1YUB
...LEVGPGTGNLTVRILEQAKNV...
...YEIGTGKGHLTTKLAKISKQV...
I
G
TG K
G
H
L
4
Modélisation des protéines:
Assignation des coordonnées
Le troisième pas dans la modélisation de protéines est de construire le
modèle 3D de la protéine d’intérêt. Dans cette procédure, les acides
aminés du template sont remplacés par ceux qui sont alignés dans la
protéine d’intérêt.
1YUB
L E
DIM1p
...LEVGPGTGNLTVRILEQAKNV...
1YUB
...YEIGTGKGHLTTKLAKISKQV...
I
G
TG K
G
H
L
Modélisation des protéines:
Assignation des coordonnées
Le troisième pas dans la modélisation de protéines est de construire le
modèle 3D de la protéine d’intérêt. Dans cette procédure, les acides
aminés du template sont remplacés par ceux qui sont alignés dans la
protéine d’intérêt.
1YUB
L E
DIM1p
...LEVGPGTGNLTVRILEQAKNV...
1YUB
...YEIGTGKGHLTTKLAKISKQV...
I
G
TG K
G
H
L
5
Modélisation des protéines:
Assignation des coordonnées
Le troisième pas dans la modélisation de protéines est de construire le
modèle 3D de la protéine d’intérêt. Dans cette procédure, les acides
aminés du template sont remplacés par ceux qui sont alignés dans la
protéine d’intérêt.
1YUB
L E
DIM1p
...LEVGPGTGNLTVRILEQAKNV...
1YUB
...YEIGTGKGHLTTKLAKISKQV...
V
G
TG K
G
H
L
Modélisation des protéines:
Assignation des coordonnées
Le troisième pas dans la modélisation de protéines est de construire le
modèle 3D de la protéine d’intérêt. Dans cette procédure, les acides
aminés du template sont remplacés par ceux qui sont alignés dans la
protéine d’intérêt.
1YUB
L E
DIM1p
...LEVGPGTGNLTVRILEQAKNV...
1YUB
...YEIGTGKGHLTTKLAKISKQV...
V
G
TG K
G
H
L
6
Modélisation des protéines:
Assignation des coordonnées
Le troisième pas dans la modélisation de protéines est de construire le
modèle 3D de la protéine d’intérêt. Dans cette procédure, les acides
aminés du template sont remplacés par ceux qui sont alignés dans la
protéine d’intérêt.
1YUB
L E
DIM1p
...LEVGPGTGNLTVRILEQAKNV...
1YUB
...YEIGTGKGHLTTKLAKISKQV...
V
G
PG K
G
H
L
Modélisation des protéines:
Assignation des coordonnées
Le troisième pas dans la modélisation de protéines est de construire le
modèle 3D de la protéine d’intérêt. Dans cette procédure, les acides
aminés du template sont remplacés par ceux qui sont alignés dans la
protéine d’intérêt.
1YUB
L E
DIM1p
...LEVGPGTGNLTVRILEQAKNV...
1YUB
...YEIGTGKGHLTTKLAKISKQV...
V
G
PG K
G
H
L
7
Modélisation des protéines:
Assignation des coordonnées
Le troisième pas dans la modélisation de protéines est de construire le
modèle 3D de la protéine d’intérêt. Dans cette procédure, les acides
aminés du template sont remplacés par ceux qui sont alignés dans la
protéine d’intérêt.
1YUB
L E
DIM1p
...LEVGPGTGNLTVRILEQAKNV...
1YUB
...YEIGTGKGHLTTKLAKISKQV...
V
G
PG T
G
H
L
Modélisation des protéines:
Assignation des coordonnées
Le troisième pas dans la modélisation de protéines est de construire le
modèle 3D de la protéine d’intérêt. Dans cette procédure, les acides
aminés du template sont remplacés par ceux qui sont alignés dans la
protéine d’intérêt.
1YUB
L E
DIM1p
...LEVGPGTGNLTVRILEQAKNV...
1YUB
...YEIGTGKGHLTTKLAKISKQV...
V
G
PG T
G
H
L
8
Modélisation des protéines:
Assignation des coordonnées
Le troisième pas dans la modélisation de protéines est de construire le
modèle 3D de la protéine d’intérêt. Dans cette procédure, les acides
aminés du template sont remplacés par ceux qui sont alignés dans la
protéine d’intérêt.
1YUB
L E
DIM1p
...LEVGPGTGNLTVRILEQAKNV...
1YUB
...YEIGTGKGHLTTKLAKISKQV...
V
G
PG T
G
N
L
Modélisation des protéines:
Assignation des coordonnées
Le troisième pas dans la modélisation de protéines est de construire le
modèle 3D de la protéine d’intérêt. Dans cette procédure, les acides
aminés du template sont remplacés par ceux qui sont alignés dans la
protéine d’intérêt.
Modèle de DIM1p
L E
DIM1p
...LEVGPGTGNLTVRILEQAKNV...
1YUB
...YEIGTGKGHLTTKLAKISKQV...
V
G
PG T
G
N
L
9
Modélisation des protéines:
Minimisation de l’énergie
Le quatrième pas dans la modélisation de protéines est de minimiser
l’énergie des interactions entre atomes de la molécule.
Dans cette procédure, on alterne des étapes de minimisation et de
dynamique moléculaire.
http://pbil.ibcp.fr/~gdeleage/Cours/BIOINFO_mecanique.html
Modélisation des protéines:
Minimisation de l’énergie
Le calcul de l’énergie libre se fait par l’intermédiaire d’une fonction
complexe d’un ensemble de termes énergétiques et d’un jeu de
paramètres qui s’appelle un champs de force (force field)
CHARMM - Martin Karplus (Harvard) 1980
10
Modélisation des protéines:
Minimisation de l’énergie
Les termes énergétiques concernent l’énergie de liaison, fonction de la
position des atomes R ...
(3)
f(R) =
(1)
(1) E(étirement du lien) +
(2) E(rotation autour du lien) +
(3) E(angle de la liaison)
(2)
http://www.ch.embnet.org/MD_tutorial/
Modélisation des protéines:
Minimisation de l’énergie
... et l’énergie hors liaison:
E(libre) = E(du lien) + E(hors liaison)
E(hors liaison) = E( Van der Waals) + E (Electrostatique)
http://www.diffusion.ens.fr/vip/pageA05.html
Force de Coulomb
11
Modélisation des protéines:
Minimisation de l’énergie
La fonction d’énergie entre deux atomes dépend de
la distance qui les sépare
http://pbil.ibcp.fr/~gdeleage/Cours/BIOINFO_mecanique.html
Modélisation des protéines:
Minimisation de l’énergie
La fonction d’énergie de l’ensemble des atomes de la protéine est
beaucoup plus complexe qui présentent des « points de selle »
http://pbil.ibcp.fr/~gdeleage/Cours/BIOINFO_mecanique.html
http://www-drfmc.cea.fr/sp2m/L_Sim/Documents/1998/Rapport_SP2M-1996-1998/chap3/gbchap3.htm
12
Modélisation des protéines:
Dynamique moléculaire
La simulation de l’augmentation de la T° permet de fanchir les
barrières énergétiques
http://ifestos.cse.sc.edu/
http://www.biochem.arizona.edu/classes/bioc462/462a/NOTES/LIPIDS/flip.html
Modélisation des protéines:
Le problème de l’eau
http://bioserv.rpbs.jussieu.fr/~autin/help/PMGtuto.html
13
Modélisation des protéines:
Logiciel de modélisation
automatique
http://www.salilab.org/modeller/
1995
Left to right: Andrej Sali, PhD; Christopher Voigt, PhD;
Ken Dill, PhD; and Anthony Hunt PhD
http://pharmacy.ucsf.edu/news/2004/03/09/1/
Modélisation par homologie
ou comparative modeling
Recherche en banque de
données
PDB
template
Etape
critique
Alignement Cible-template
Construction du modèle 3D
Modeller
Evaluation du modèle
14
Téléchargement