Modélisation des protéines Du génome à la structure protéique ...GCGGGACTCAAGAGTAGCCTTCCTCGAGGACCTGC CTTTCCCATTTGCTGCCTGAAGTTAATGTTTCTTGCTG GCCAAATCAGGGACATGCCGGCATTAGCGGGATGAGTG GGTGTTCCGGCAGGGATGTGGTCATTGACGGCCAGTGA GGGCGAGAGTACCACGGCCCACTTCTTCCTTGGAGCTG GAGATGAGGGGCTGGGCACCCGTGGAATAGGCATGAGG CCAGAAGAGAGTGACAGCGAGCTCCTTGAGGATGAGGA GGATGAAGTGCCTCCTGAACCTCAGATCATTGTTGGCA TCTGTGCCATGACCAAGAAATCCAAGTCCAAGCCAATG ACTCAAATCCTAGAGCGACTCTGCAGATTTGACTACCT GACTGTTGTCATTCTGGGAGAAGATGTAATCCTTAATG AACCTGTGGAAAACTGGCCATCCTGCCACTGCCTCATC TCTTTCCACTCCAAAGGCTTTCCTCTGGACAAAGCTGT TGCTTACTCCAAGCTTCGAAACCCCTTTCTTATCAATG ATCTGGCCATGCAGTATTACATCCAAGATAGGAGGGAG GTGTACCGGATCCTGCAGGAAGAGGGTATTGATCTGCC TCGATATGCTGTGCTCAACCGTGATCCTGCCCGGCCTG AGGAATGCAACCTGATAGAAGGTGAAGACCAAGTAGAG GTCAATGGAGCTGTCTTTCGATCCTGCAGGAAGCT... ? De la séquence d’ADN à la séquence protéique Chaque acide aminé est codé par un triplet de nucleotides (codon) Chaque protéine commence par un ‘codon d’initiation’ et termine par un ‘codon stop’ ...GCGGGACTCAAGATGAGCCTTCCTCGAGGACCTGC CTTTCCCATTTGCTGCCTGAAGTTAATGTTTCTTGCTG GCCAAATCAGGGACATGCCGGCATTAGCGGGATGAGTG GGTGTTCCGGCAGGGATGTGGTCATTGACGGCCAGTGA GGGCGAGAGTACCACGGCCCACTTCTTCCTTGGAGCTG GAGATGAGGGGCTGGGCACCCGTGGAATAGGCATGAGG CCAGAAGAGAGTGACAGCGAGCTCCTTGAGGATGAGGA GGATGAAGTGCCTCCTGAACCTCAGATCATTGTTGGCA TCTGTGCCATGACCAAGAAATCCAAGTCCAAGCCAATG ACTCAAATCCTAGAGCGACTCTGCAGATTTGACTACCT GACTGTTGTCATTCTGGGAGAAGATGTAATCCTTAATG AACCTGTGGAAAACTGGCCATCCTGCCACTGCCTCATC TCTTTCCACTCCAAAGGCTTTCCTCTGGACAAAGCTGT TGCTTACTCCAAGCTTCGAAACCCCTTTCTTATCAATG ATCTGGCCATGCAGTATTACATCCAAGATAGGAGGGAG GTGTACCGGATCCTGCAGGAAGAGGGTATTGATCTGCC TCGATATGCTGTGCTCAACCGTGATCCTGCCCGGCCTG AGGAATGCAACCTGATAGAAGGTGAAGACCAAGTAGAG GTCAATGGAGCTGTCTTTCGTAGCTGCAGGAAGCT... MGKAAKKKYSGATSSKQVSAEKHLS SVFKFNTDLGQHILKNPLVAQGIVD KAQIRPSDVVLEVGPGTGNLTVRIL EQAKNVVAVEMDPRMAAELTKRVRG TPVEKKLEIMLGDFMKTELPYFDIC ISNTPYQISSPLVFKLINQPRPPRV SILMFQREFALRLLARPGDSLYCRL SANVQMWANVTHIMKVGKNNFRPPP QVESSVVRLEIKNPRPQVDYNEWDG LLRIVFVRKNRTISAGFKSTTVMDI LEKNYKTFLAMNNEMVDDTKGSMHD VVKEKIDTVLKETDLGDKRAGKCDQ NDFLRLLYAFHQVGIHF Les protéines ont une structure tridimensionelle La structure tridimensionelle (fold) d’une protéine correspond à l’arrangement de ses acides aminés dans l’espace 3D. MGKAAKKKYSGATSSKQVSAEKHLS SVFKFNTDLGQHILKNPLVAQGIVD KAQIRPSDVVLEVGPGTGNLTVRIL EQAKNVVAVEMDPRMAAELTKRVRG TPVEKKLEIMLGDFMKTELPYFDIC ISNTPYQISSPLVFKLINQPRPPRV SILMFQREFALRLLARPGDSLYCRL SANVQMWANVTHIMKVGKNNFRPPP QVESSVVRLEIKNPRPQVDYNEWDG LLRIVFVRKNRTISAGFKSTTVMDI LEKNYKTFLAMNNEMVDDTKGSMHD VVKEKIDTVLKETDLGDKRAGKCDQ NDFLRLLYAFHQVGIHF Importance de la structure 3D des protéines • La structure 3D des protéines est une source importante d’information • pour comprendre sa fonction • pour imaginer des mutations • Le nombre des protéines de structure connue (9000) est sensiblement plus faible que celui des protéines connues (600000). • Le problème est que les techniques expérimentales de détermination de la structure 3D des protéines sont longues et coûteuses • Il existe une alternative: la modélisation des protéines Modélisation des protéines: Pourquoi ça marche? La modélisation 3D des protéines est basée sur le fait que des protéines similaires adoptent le même fold. Il est possible de prédire un fold approximatif pour une protéine d’intérêt à partir d ’une protéine similaire de structure connue (template) Modélisation des protéines: Recherche en banques de données de structures connues Le premier pas dans la modélisation des protéines consiste à rechercher une protéine similaire de structure connue (template) dans les banques de données. Le résultat est une liste de protéines similaires triées par un score. Plus le score est haut, plus la similarité avec la protéine d’intérêt est grande. Sequences producing significant alignments: Score (bits) E Value pdb|1YUB| pdb|1QAN|A pdb|1G6Q|1 pdb|1EI1|A pdb|3HDH|A pdb|1PSZ|A pdb|1VID| 58 53 31 29 27 27 26 1e-09 6e-08 0.28 1.1 2.4 3.2 7.2 Solution Chain A, Chain 1, Chain A, Chain A, Chain A, Catechol Structure Of An Rrna Methyltransferase... The Structure Of The Rrna Methyltransfe... Crystal Structure Of Yeast Arginine Met... Dimerization Of E. Coli Dna Gyrase B Pr... Pig Heart Short Chain L-3-Hydroxyacyl C... Pneumococcal Surface Antigen Psaa O-Methyltransferase Modélisation des protéines: Alignement séquence-structure Le deuxième pas dans la modélisation des protéines est l’alignement entre la sequence de la protéine d’intérêt (DIM1p) et le template (1YUB) DIM1p 1YUB MGKAAKKKYSGATSSKQVSAEKHLSSVFKFNTDLGQHILKNPLVAQGIVDKAQIRPSDVV ---------------------------MNKNIKYSQNFLTSEKVLNQIIKQLNLKETDTV DIM1p 1YUB LEVGPGTGNLTVRILEQAKNVVAVEMDPRMAAELTKRVRGTPVEKKLEIMLGDFMKTELP YEIGTGKGHLTTKLAKISKQVTSIELDSHLFNLSSEKLK---LNTRVTLIHQDILQFQFP DIM1p 1YUB YFD--ICISNTPYQISSPLVFKLINQPRPPRVSILMFQREFALRLLARPGDSLYCRLSAN NKQRYKIVGNIPYHLSTQIIKKVVFESRASDI-YLIVEEGFYKRTLD-----IHRTLGLL DIM1p 1YUB VQMWANVTHIMKVGKNNFRPPPQVESSVVRLEIKNPRPQVDYNEWDGLLRIVFVRKNRTI LHTQVSIQQLLKLPAECFHPKPKVNSVLIKLTRHTTDVPDKY--WK--LYTYFVSK---- DIM1p 1YUB SAGFKSTTVMDILEKNYKTFLAMNNEMVDDTKGSMHDVVKEKIDTVLKETDLGDKRAGKC -----------WVNREYRQLFTKN-----------------QFHQAMKHAKVNN--LSTI DIM1p 1YUB DQNDFLRLLYAFHQVGIHF TYEQVLSIFNSYLLFNGR- Modélisation des protéines: Assignation des coordonnées Le troisième pas dans la modélisation de protéines est de construire le modèle 3D de la protéine d’intérêt. Dans cette procédure, les acides aminés du template sont remplacés par ceux qui sont alignés dans la protéine d’intérêt. 1YUB Y E DIM1p 1YUB ...LEVGPGTGNLTVRILEQAKNV... ...YEIGTGKGHLTTKLAKISKQV... I G TG K G H L Modélisation des protéines: Assignation des coordonnées Le troisième pas dans la modélisation de protéines est de construire le modèle 3D de la protéine d’intérêt. Dans cette procédure, les acides aminés du template sont remplacés par ceux qui sont alignés dans la protéine d’intérêt. 1YUB L E DIM1p ...LEVGPGTGNLTVRILEQAKNV... 1YUB ...YEIGTGKGHLTTKLAKISKQV... I G TG K G H L Modélisation des protéines: Assignation des coordonnées Le troisième pas dans la modélisation de protéines est de construire le modèle 3D de la protéine d’intérêt. Dans cette procédure, les acides aminés du template sont remplacés par ceux qui sont alignés dans la protéine d’intérêt. 1YUB L E DIM1p ...LEVGPGTGNLTVRILEQAKNV... 1YUB ...YEIGTGKGHLTTKLAKISKQV... I G TG K G H L Modélisation des protéines: Assignation des coordonnées Le troisième pas dans la modélisation de protéines est de construire le modèle 3D de la protéine d’intérêt. Dans cette procédure, les acides aminés du template sont remplacés par ceux qui sont alignés dans la protéine d’intérêt. 1YUB L E DIM1p ...LEVGPGTGNLTVRILEQAKNV... 1YUB ...YEIGTGKGHLTTKLAKISKQV... V G TG K G H L Modélisation des protéines: Assignation des coordonnées Le troisième pas dans la modélisation de protéines est de construire le modèle 3D de la protéine d’intérêt. Dans cette procédure, les acides aminés du template sont remplacés par ceux qui sont alignés dans la protéine d’intérêt. 1YUB L E DIM1p ...LEVGPGTGNLTVRILEQAKNV... 1YUB ...YEIGTGKGHLTTKLAKISKQV... V G TG K G H L Modélisation des protéines: Assignation des coordonnées Le troisième pas dans la modélisation de protéines est de construire le modèle 3D de la protéine d’intérêt. Dans cette procédure, les acides aminés du template sont remplacés par ceux qui sont alignés dans la protéine d’intérêt. 1YUB L E DIM1p ...LEVGPGTGNLTVRILEQAKNV... 1YUB ...YEIGTGKGHLTTKLAKISKQV... V G PG K G H L Modélisation des protéines: Assignation des coordonnées Le troisième pas dans la modélisation de protéines est de construire le modèle 3D de la protéine d’intérêt. Dans cette procédure, les acides aminés du template sont remplacés par ceux qui sont alignés dans la protéine d’intérêt. 1YUB L E DIM1p ...LEVGPGTGNLTVRILEQAKNV... 1YUB ...YEIGTGKGHLTTKLAKISKQV... V G PG K G H L Modélisation des protéines: Assignation des coordonnées Le troisième pas dans la modélisation de protéines est de construire le modèle 3D de la protéine d’intérêt. Dans cette procédure, les acides aminés du template sont remplacés par ceux qui sont alignés dans la protéine d’intérêt.v 1YUB L E DIM1p ...LEVGPGTGNLTVRILEQAKNV... 1YUB ...YEIGTGKGHLTTKLAKISKQV... V G PG T G H L Modélisation des protéines: Assignation des coordonnées Le troisième pas dans la modélisation de protéines est de construire le modèle 3D de la protéine d’intérêt. Dans cette procédure, les acides aminés du template sont remplacés par ceux qui sont alignés dans la protéine d’intérêt. 1YUB L E DIM1p ...LEVGPGTGNLTVRILEQAKNV... 1YUB ...YEIGTGKGHLTTKLAKISKQV... V G PG T G H L Modélisation des protéines: Assignation des coordonnées Le troisième pas dans la modélisation de protéines est de construire le modèle 3D de la protéine d’intérêt. Dans cette procédure, les acides aminés du template sont remplacés par ceux qui sont alignés dans la protéine d’intérêt. 1YUB L E DIM1p ...LEVGPGTGNLTVRILEQAKNV... 1YUB ...YEIGTGKGHLTTKLAKISKQV... V G PG T G N L Modélisation des protéines: Assignation des coordonnées Le troisième pas dans la modélisation de protéines est de construire le modèle 3D de la protéine d’intérêt. Dans cette procédure, les acides aminés du template sont remplacés par ceux qui sont alignés dans la protéine d’intérêt. Modèle de DIM1p L E DIM1p ...LEVGPGTGNLTVRILEQAKNV... 1YUB ...YEIGTGKGHLTTKLAKISKQV... V G PG T G N L