Modélisation des protéines Du génome à la structure protéique ...GCGGGACTCAAGAGTAGCCTTCCTCGAGGACCTGC CTTTCCCATTTGCTGCCTGAAGTTAATGTTTCTTGCTG GCCAAATCAGGGACATGCCGGCATTAGCGGGATGAGTG GGTGTTCCGGCAGGGATGTGGTCATTGACGGCCAGTGA GGGCGAGAGTACCACGGCCCACTTCTTCCTTGGAGCTG GAGATGAGGGGCTGGGCACCCGTGGAATAGGCATGAGG CCAGAAGAGAGTGACAGCGAGCTCCTTGAGGATGAGGA GGATGAAGTGCCTCCTGAACCTCAGATCATTGTTGGCA TCTGTGCCATGACCAAGAAATCCAAGTCCAAGCCAATG ACTCAAATCCTAGAGCGACTCTGCAGATTTGACTACCT GACTGTTGTCATTCTGGGAGAAGATGTAATCCTTAATG AACCTGTGGAAAACTGGCCATCCTGCCACTGCCTCATC TCTTTCCACTCCAAAGGCTTTCCTCTGGACAAAGCTGT TGCTTACTCCAAGCTTCGAAACCCCTTTCTTATCAATG ATCTGGCCATGCAGTATTACATCCAAGATAGGAGGGAG GTGTACCGGATCCTGCAGGAAGAGGGTATTGATCTGCC TCGATATGCTGTGCTCAACCGTGATCCTGCCCGGCCTG AGGAATGCAACCTGATAGAAGGTGAAGACCAAGTAGAG GTCAATGGAGCTGTCTTTCGATCCTGCAGGAAGCT... ? De la séquence d’ADN à la séquence protéique Chaque acide aminé est codé par un triplet de nucleotides (codon) Chaque protéine commence par un ‘codon d’initiation’ et termine par un ‘codon stop’ ...GCGGGACTCAAGATGAGCCTTCCTCGAGGACCTGC CTTTCCCATTTGCTGCCTGAAGTTAATGTTTCTTGCTG GCCAAATCAGGGACATGCCGGCATTAGCGGGATGAGTG GGTGTTCCGGCAGGGATGTGGTCATTGACGGCCAGTGA GGGCGAGAGTACCACGGCCCACTTCTTCCTTGGAGCTG GAGATGAGGGGCTGGGCACCCGTGGAATAGGCATGAGG CCAGAAGAGAGTGACAGCGAGCTCCTTGAGGATGAGGA GGATGAAGTGCCTCCTGAACCTCAGATCATTGTTGGCA TCTGTGCCATGACCAAGAAATCCAAGTCCAAGCCAATG ACTCAAATCCTAGAGCGACTCTGCAGATTTGACTACCT GACTGTTGTCATTCTGGGAGAAGATGTAATCCTTAATG AACCTGTGGAAAACTGGCCATCCTGCCACTGCCTCATC TCTTTCCACTCCAAAGGCTTTCCTCTGGACAAAGCTGT TGCTTACTCCAAGCTTCGAAACCCCTTTCTTATCAATG ATCTGGCCATGCAGTATTACATCCAAGATAGGAGGGAG GTGTACCGGATCCTGCAGGAAGAGGGTATTGATCTGCC TCGATATGCTGTGCTCAACCGTGATCCTGCCCGGCCTG AGGAATGCAACCTGATAGAAGGTGAAGACCAAGTAGAG GTCAATGGAGCTGTCTTTCGTAGCTGCAGGAAGCT... MGKAAKKKYSGATSSKQVSAEKHLS SVFKFNTDLGQHILKNPLVAQGIVD KAQIRPSDVVLEVGPGTGNLTVRIL EQAKNVVAVEMDPRMAAELTKRVRG TPVEKKLEIMLGDFMKTELPYFDIC ISNTPYQISSPLVFKLINQPRPPRV SILMFQREFALRLLARPGDSLYCRL SANVQMWANVTHIMKVGKNNFRPPP QVESSVVRLEIKNPRPQVDYNEWDG LLRIVFVRKNRTISAGFKSTTVMDI LEKNYKTFLAMNNEMVDDTKGSMHD VVKEKIDTVLKETDLGDKRAGKCDQ NDFLRLLYAFHQVGIHF 1 Les protéines ont une structure tridimensionelle La structure tridimensionelle (fold) d’une protéine correspond à l’arrangement de ses acides aminés dans l’espace 3D. MGKAAKKKYSGATSSKQVSAEKHLS SVFKFNTDLGQHILKNPLVAQGIVD KAQIRPSDVVLEVGPGTGNLTVRIL EQAKNVVAVEMDPRMAAELTKRVRG TPVEKKLEIMLGDFMKTELPYFDIC ISNTPYQISSPLVFKLINQPRPPRV SILMFQREFALRLLARPGDSLYCRL SANVQMWANVTHIMKVGKNNFRPPP QVESSVVRLEIKNPRPQVDYNEWDG LLRIVFVRKNRTISAGFKSTTVMDI LEKNYKTFLAMNNEMVDDTKGSMHD VVKEKIDTVLKETDLGDKRAGKCDQ NDFLRLLYAFHQVGIHF Importance de la structure 3D des protéines • La structure 3D des protéines est une source importante d’information • pour comprendre sa fonction • pour imaginer des mutations • Le nombre des protéines de structure connue (9000) est sensiblement plus faible que celui des protéines connues (600000). • Le problème est que les techniques expérimentales de détermination de la structure 3D des protéines sont longues et coûteuses • Il existe une alternative: la modélisation des protéines 2 Modélisation des protéines: Pourquoi ça marche? La modélisation 3D des protéines est basée sur le fait que des protéines similaires adoptent le même fold. Il est possible de prédire un fold approximatif pour une protéine d’intérêt à partir d ’une protéine similaire de structure connue (template) Modélisation des protéines: Recherche en banques de données de structures connues Le premier pas dans la modélisation des protéines consiste à rechercher une protéine similaire de structure connue (template) dans les banques de données. Le résultat est une liste de protéines similaires triées par un score. Plus le score est haut, plus la similarité avec la protéine d’intérêt est grande. Sequences producing significant alignments: Score (bits) E Value pdb|1YUB| pdb|1QAN|A pdb|1G6Q|1 pdb|1EI1|A pdb|3HDH|A pdb|1PSZ|A pdb|1VID| 58 53 31 29 27 27 26 1e-09 6e-08 0.28 1.1 2.4 3.2 7.2 Solution Chain A, Chain 1, Chain A, Chain A, Chain A, Catechol Structure Of An Rrna Methyltransferase... The Structure Of The Rrna Methyltransfe... Crystal Structure Of Yeast Arginine Met... Dimerization Of E. Coli Dna Gyrase B Pr... Pig Heart Short Chain L-3-Hydroxyacyl C... Pneumococcal Surface Antigen Psaa O-Methyltransferase 3 Modélisation des protéines: Alignement séquence-structure Le deuxième pas dans la modélisation des protéines est l’alignement entre la sequence de la protéine d’intérêt (DIM1p) et le template (1YUB) DIM1p 1YUB MGKAAKKKYSGATSSKQVSAEKHLSSVFKFNTDLGQHILKNPLVAQGIVDKAQIRPSDVV ---------------------------MNKNIKYSQNFLTSEKVLNQIIKQLNLKETDTV DIM1p 1YUB LEVGPGTGNLTVRILEQAKNVVAVEMDPRMAAELTKRVRGTPVEKKLEIMLGDFMKTELP YEIGTGKGHLTTKLAKISKQVTSIELDSHLFNLSSEKLK---LNTRVTLIHQDILQFQFP DIM1p 1YUB YFD--ICISNTPYQISSPLVFKLINQPRPPRVSILMFQREFALRLLARPGDSLYCRLSAN NKQRYKIVGNIPYHLSTQIIKKVVFESRASDI-YLIVEEGFYKRTLD-----IHRTLGLL DIM1p 1YUB VQMWANVTHIMKVGKNNFRPPPQVESSVVRLEIKNPRPQVDYNEWDGLLRIVFVRKNRTI LHTQVSIQQLLKLPAECFHPKPKVNSVLIKLTRHTTDVPDKY--WK--LYTYFVSK---- DIM1p 1YUB SAGFKSTTVMDILEKNYKTFLAMNNEMVDDTKGSMHDVVKEKIDTVLKETDLGDKRAGKC -----------WVNREYRQLFTKN-----------------QFHQAMKHAKVNN--LSTI DIM1p 1YUB DQNDFLRLLYAFHQVGIHF TYEQVLSIFNSYLLFNGR- Modélisation des protéines: Assignation des coordonnées Le troisième pas dans la modélisation de protéines est de construire le modèle 3D de la protéine d’intérêt. Dans cette procédure, les acides aminés du template sont remplacés par ceux qui sont alignés dans la protéine d’intérêt. 1YUB Y E DIM1p 1YUB ...LEVGPGTGNLTVRILEQAKNV... ...YEIGTGKGHLTTKLAKISKQV... I G TG K G H L 4 Modélisation des protéines: Assignation des coordonnées Le troisième pas dans la modélisation de protéines est de construire le modèle 3D de la protéine d’intérêt. Dans cette procédure, les acides aminés du template sont remplacés par ceux qui sont alignés dans la protéine d’intérêt. 1YUB L E DIM1p ...LEVGPGTGNLTVRILEQAKNV... 1YUB ...YEIGTGKGHLTTKLAKISKQV... I G TG K G H L Modélisation des protéines: Assignation des coordonnées Le troisième pas dans la modélisation de protéines est de construire le modèle 3D de la protéine d’intérêt. Dans cette procédure, les acides aminés du template sont remplacés par ceux qui sont alignés dans la protéine d’intérêt. 1YUB L E DIM1p ...LEVGPGTGNLTVRILEQAKNV... 1YUB ...YEIGTGKGHLTTKLAKISKQV... I G TG K G H L 5 Modélisation des protéines: Assignation des coordonnées Le troisième pas dans la modélisation de protéines est de construire le modèle 3D de la protéine d’intérêt. Dans cette procédure, les acides aminés du template sont remplacés par ceux qui sont alignés dans la protéine d’intérêt. 1YUB L E DIM1p ...LEVGPGTGNLTVRILEQAKNV... 1YUB ...YEIGTGKGHLTTKLAKISKQV... V G TG K G H L Modélisation des protéines: Assignation des coordonnées Le troisième pas dans la modélisation de protéines est de construire le modèle 3D de la protéine d’intérêt. Dans cette procédure, les acides aminés du template sont remplacés par ceux qui sont alignés dans la protéine d’intérêt. 1YUB L E DIM1p ...LEVGPGTGNLTVRILEQAKNV... 1YUB ...YEIGTGKGHLTTKLAKISKQV... V G TG K G H L 6 Modélisation des protéines: Assignation des coordonnées Le troisième pas dans la modélisation de protéines est de construire le modèle 3D de la protéine d’intérêt. Dans cette procédure, les acides aminés du template sont remplacés par ceux qui sont alignés dans la protéine d’intérêt. 1YUB L E DIM1p ...LEVGPGTGNLTVRILEQAKNV... 1YUB ...YEIGTGKGHLTTKLAKISKQV... V G PG K G H L Modélisation des protéines: Assignation des coordonnées Le troisième pas dans la modélisation de protéines est de construire le modèle 3D de la protéine d’intérêt. Dans cette procédure, les acides aminés du template sont remplacés par ceux qui sont alignés dans la protéine d’intérêt. 1YUB L E DIM1p ...LEVGPGTGNLTVRILEQAKNV... 1YUB ...YEIGTGKGHLTTKLAKISKQV... V G PG K G H L 7 Modélisation des protéines: Assignation des coordonnées Le troisième pas dans la modélisation de protéines est de construire le modèle 3D de la protéine d’intérêt. Dans cette procédure, les acides aminés du template sont remplacés par ceux qui sont alignés dans la protéine d’intérêt. 1YUB L E DIM1p ...LEVGPGTGNLTVRILEQAKNV... 1YUB ...YEIGTGKGHLTTKLAKISKQV... V G PG T G H L Modélisation des protéines: Assignation des coordonnées Le troisième pas dans la modélisation de protéines est de construire le modèle 3D de la protéine d’intérêt. Dans cette procédure, les acides aminés du template sont remplacés par ceux qui sont alignés dans la protéine d’intérêt. 1YUB L E DIM1p ...LEVGPGTGNLTVRILEQAKNV... 1YUB ...YEIGTGKGHLTTKLAKISKQV... V G PG T G H L 8 Modélisation des protéines: Assignation des coordonnées Le troisième pas dans la modélisation de protéines est de construire le modèle 3D de la protéine d’intérêt. Dans cette procédure, les acides aminés du template sont remplacés par ceux qui sont alignés dans la protéine d’intérêt. 1YUB L E DIM1p ...LEVGPGTGNLTVRILEQAKNV... 1YUB ...YEIGTGKGHLTTKLAKISKQV... V G PG T G N L Modélisation des protéines: Assignation des coordonnées Le troisième pas dans la modélisation de protéines est de construire le modèle 3D de la protéine d’intérêt. Dans cette procédure, les acides aminés du template sont remplacés par ceux qui sont alignés dans la protéine d’intérêt. Modèle de DIM1p L E DIM1p ...LEVGPGTGNLTVRILEQAKNV... 1YUB ...YEIGTGKGHLTTKLAKISKQV... V G PG T G N L 9 Modélisation des protéines: Minimisation de l’énergie Le quatrième pas dans la modélisation de protéines est de minimiser l’énergie des interactions entre atomes de la molécule. Dans cette procédure, on alterne des étapes de minimisation et de dynamique moléculaire. http://pbil.ibcp.fr/~gdeleage/Cours/BIOINFO_mecanique.html Modélisation des protéines: Minimisation de l’énergie Le calcul de l’énergie libre se fait par l’intermédiaire d’une fonction complexe d’un ensemble de termes énergétiques et d’un jeu de paramètres qui s’appelle un champs de force (force field) CHARMM - Martin Karplus (Harvard) 1980 10 Modélisation des protéines: Minimisation de l’énergie Les termes énergétiques concernent l’énergie de liaison, fonction de la position des atomes R ... (3) f(R) = (1) (1) E(étirement du lien) + (2) E(rotation autour du lien) + (3) E(angle de la liaison) (2) http://www.ch.embnet.org/MD_tutorial/ Modélisation des protéines: Minimisation de l’énergie ... et l’énergie hors liaison: E(libre) = E(du lien) + E(hors liaison) E(hors liaison) = E( Van der Waals) + E (Electrostatique) http://www.diffusion.ens.fr/vip/pageA05.html Force de Coulomb 11 Modélisation des protéines: Minimisation de l’énergie La fonction d’énergie entre deux atomes dépend de la distance qui les sépare http://pbil.ibcp.fr/~gdeleage/Cours/BIOINFO_mecanique.html Modélisation des protéines: Minimisation de l’énergie La fonction d’énergie de l’ensemble des atomes de la protéine est beaucoup plus complexe qui présentent des « points de selle » http://pbil.ibcp.fr/~gdeleage/Cours/BIOINFO_mecanique.html http://www-drfmc.cea.fr/sp2m/L_Sim/Documents/1998/Rapport_SP2M-1996-1998/chap3/gbchap3.htm 12 Modélisation des protéines: Dynamique moléculaire La simulation de l’augmentation de la T° permet de fanchir les barrières énergétiques http://ifestos.cse.sc.edu/ http://www.biochem.arizona.edu/classes/bioc462/462a/NOTES/LIPIDS/flip.html Modélisation des protéines: Le problème de l’eau http://bioserv.rpbs.jussieu.fr/~autin/help/PMGtuto.html 13 Modélisation des protéines: Logiciel de modélisation automatique http://www.salilab.org/modeller/ 1995 Left to right: Andrej Sali, PhD; Christopher Voigt, PhD; Ken Dill, PhD; and Anthony Hunt PhD http://pharmacy.ucsf.edu/news/2004/03/09/1/ Modélisation par homologie ou comparative modeling Recherche en banque de données PDB template Etape critique Alignement Cible-template Construction du modèle 3D Modeller Evaluation du modèle 14