Bioinformatique Structurale Elodie Laine Licence de Biologie Semestre 2, 2016-2017 Computational and Quantitative Biology, UMR 7238, CNRS-UPMC e-documents: http://www.lcqb.upmc.fr/laine/3V686 e-mail: [email protected] Les protéines: plusieurs dimensions Les protéines sont des objets biologiques qui peuvent être vus/représentés en plusieurs dimensions. 3V686 – 09.03.2016 Les acides aminés un acide aminé aRginine lysine (K) aspartate (D) glutamate (E) asparagiNe glutamine (Q) Cysteine Methionine Histidine Serine Threonine Valine Leucine Isoleucine phenylalanine (F) tYrosine tryptophane (W) Glycine Alanine Proline Liaison peptidique • Les acides aminés sont les briques de base des protéines • Il en existe 20 types, avec des tailles et propriétés physico-chimiques différentes • A l'intérieur des protéines, ils sont connectés séquentiellement par la liaison peptidique et appelés "résidus" d'acides aminés • Chaque résidu contient 10-20 atomes 3V686 – 09.03.2016 Les acides aminés un acide aminé Les 20 types d'aas sont codés par 3 ou 1 lettre(s) ARG (R) LYS (K) ASP (D) GLU (E) ASN (N) GLN (Q) CYS (C) MET (M) HIS (H) SER (S) THR (T) VAL (V) LEU (L) ILE (I) PHE (F) TYR (Y) TRP (W) GLY (G) ALA (A) PRO (P) 3V686 – 09.03.2016 Les protéines : plusieurs niveaux d'organisation 1er niveau d’organisation : structure primaire …QNCQLRPSGWQCRPTRGDCDLPEFCPGDSSQCPDVSLGDG… ~10 à ~1000 résidus d’acides aminés Liaisons covalentes 1 protéine = 1 chaîne polypeptidique 3V686 – 09.03.2016 Les protéines : plusieurs niveaux d'organisation 2ème niveau d’organisation : structure secondaire Feuillet β Hélice α Liaisons chimiques faibles de squelette à squelette Autres éléments: hélice 310 > coudes > boucles > pelote statistique 3V686 – 09.03.2016 Les protéines : plusieurs niveaux d'organisation 2ème niveau d’organisation : structure secondaire Feuillet β Hélice α Liaisons chimiques faibles de squelette à squelette Autres éléments: hélice 310 > coudes > boucles > pelote statistique 3V686 – 09.03.2016 Les protéines : plusieurs niveaux d'organisation 3ème niveau d’organisation : structure tertiaire Une séquence protéique adopte un repliement particulier en solution, qui correspond au minimum d’énergie libre Types d’interactions non-covalentes : • pont salin • liaison hydrogène • contact hydrophobe • van der Waals • empilement pi-pi 3V686 – 09.03.2016 Les protéines : plusieurs niveaux d'organisation 4ème niveau d’organisation : structure quaternaire Arrangement des domaines au sein d’une protéine ou des protéines au sein d’une assemblée macro-moléculaire 3V686 – 09.03.2016 Les structures protéiques : un bref historique Structure tridimensionnelle de la myoglobine Kendrew et al. (1958) Nature Modèle d’hélice α Pauling & Corey (1951) PNAS 3V686 – 09.03.2016 Répliement des protéines La configuration géométrique de l’état natif d’une protéine détermine ses propriétés macroscopiques, son comportement dynamique et sa fonction. Le nombre de conformations possibles pour une protéine donnée est astronomique. ex: 100aa, 3 conf/aa => 5 1047 conf 1 repliement/10-13 sec => 1027 années (âge de l’univers : 1010 années) Et pourtant les protéines se replient spontanément en quelques millisecondes. Comment est-ce possible ? Paradoxe de Levinthal Hydrophobicpolar (HP) 2Dlattice model 3V686 – 09.03.2016 Paradigme séquence-structure-fonction Dynamique Les segments désordonnés de la protéine suppresseur de tumeur p53 lui permettent d’interagir avec plusieurs centaines de partenaires différents. 3V686 – 09.03.2016 Fonctions des protéines pompe les substances chimiques hors des cellules stocke le fer dans les cellules senseur de lumière digère la nourriture dans l’estomac supports organs and tissues hormones reconnaît les corps étrangers copie l’information contenue dans un brin d’ADN forme des piliers structuraux moteur rotatif alimenté par de l’énergie électrochimique 3V686 – 09.03.2016 Complexité du vivant • Plusieurs isoformes d'une même protéine peuvent être produits à partir d'un seul gène, par épissage alternatif • Les protéines sont des objets dynamiques : elles peuvent adopter plusieurs conformations en solution • Les protéines n'agissent pas seules : elle forment un réseau complexe d'interactions, entre elles, avec l'ADN/ARN et avec de petites molécules (ATP...) • Une protéine peut assurer plusieurs fonctions complètement différentes (moonlighting proteins) 3V686 – 09.03.2016 Fossé entre séquences et structures 3V686 – 09.03.2016 Détermination expérimentale de structures Carte de densité électronique issue de cristallographie aux rayons X Modèles multiples issus de résonance magnétique nucléaire Ces deux techniques expérimentales sont les plus utilisées pour déterminer les coordonnées tridimensionnelles des structures protéines. Elles nécessitent l'utilisation de méthodes computationnelles pour générer des modèles. 3V686 – 09.03.2016 Cristallographie aux rayons X 3V686 – 09.03.2016 Cliché de diffraction Les intensités relatives des spots fournissent l'information nécessaire à la détermination des positions x,y,z de chaque atome de la protéine cristallisée. La distance minimale entre deux spots définit la résolution 3V686 – 09.03.2016 Résonnance magnétique nucléaire (RMN) Les noyaux des atomes (1H ou 15N) possèdent un moment angulaire de spin intrinsèque, qui est modifié sous l'effet d'un champ magnétique externe. 3V686 – 09.03.2016 Expérience de RMN 3V686 – 09.03.2016 Base de données de structures protéiques http://www.rcsb.org/ 3V686 – 09.03.2016 Exemple d'entrée Structure résolue par microscopie électronique 3V686 – 09.03.2016 Structures cristallographiques L'unité asymétrique du cristal peut contenir plusieurs protéines (chaînes) différentes et/ou plusieurs copies de la même protéine. Cet arrangement est déterminé par les contraintes physiques du cristal. asymetric unit (AU) {A-D, B-E, C-F} L'unité biologique correspond à l'arrangement fonctionnel de la ou des protéines dans la cellule. Elle est connue à travers des expériences ou prédite. {A-D} {B-E} {C-F} 3V686 – 09.03.2016 Format PDB la 1ère colonne indique la section informations sur la ou les molécules présentes dans l'entrée PDB 3V686 – 09.03.2016 Format PDB section des coordonnées tridimensi onnelles des atomes protéiques - id de l'atome type d'atome type d'aa chaîne id de l'aa coord x coord y coord z occupation facteur B élément 3V686 – 09.03.2016 Visualisation 3D sticks spheres surface cartoon Logiciels de visualisation : Pymol, Chimera, VMD... 3V686 – 09.03.2016 Unité de base : le domaine Un domaine protéique est une unité stable d’une structure de protéine qui peut se replier de manière indépendante. Les petites protéines et la plupart de celles de taille moyenne possèdent un seul domaine. Historiquement, les domaines protéiques ont été décrits sur la base de la compaction de leur structure, leur fonction, évolution ou repliement. Pyruvate kinase 3V686 – 09.03.2016 Classification structurale des protéines Quelle est la motivation pour une classification des structures de protéines ? mieux comprendre les fonctions biologiques des protéines déterminer les relations évolutionnaires entre les protéines Les structures ont tendance à moins diverger que les séquences. Des protéines partageant une similarité de séquence adoptent des formes similaires. Généralement, audelà de 40% d’identité de séquence, les structures sont très ressemblantes. Décarboxylases ayant 21% d’identité de séquence : Évolution convergente ou divergente ? 3V686 – 09.03.2016 Local/global structure secondaire hélice α, feuillet β, boucle… domaine unité structurale protéique Similarité croissante Classification structurale des protéines classe repliement/topologie superfamille contenu en structure secondaire forme globale fonction similaire & homologie ressources : 3V686 – 09.03.2016 Unité de base : le domaine Un domaine protéique est une unité stable d’une structure de protéine qui peut se replier de manière indépendante. (2) Les petites protéines et la plupart de celles de taille moyenne possèdent un seul domaine. (3) Historiquement, les domaines protéiques ont été décrits sur la base de la compaction de leur structure, leur fonction, évolution ou repliement. Classes: (1) (2) (3) (4) (5) All alpha All beta Alpha and beta – mixed (a/b) Alpha and beta proteins – segregated (a+b) Small – metal ligand, heme and/or disulfide bridges … (3) Pyruvate kinase 3V686 – 09.03.2016 Classes structurales All Alpha All Beta Alpha/Beta Alpha+Beta myohemerythrin All Alpha Neuraminidase Beta Propeller All Beta Aspartate SemiAldehyde Dehydrogenase TATA Binding Protein Alpha+Beta Alpha/Beta 3V686 – 09.03.2016 Comment comparer 2 structures ? Déviation standard (RMSD) après superposition ( xia xib ) 2 ( yia yib ) 2 ( zia zib ) 2 RMSD n i 1 n Cette mesure exprime la distance moyenne minimale globale entre les n atomes correspondants des structures superposées a et b, où (x,y,z) sont les coordonnées atomiques cartésiennes. Le RMSD peut être calculé sur une sélection d’atomes (squelette, atomes lourds…). Le calcul du RMSD requiert qu’exactement n atomes de la structure a correspondent à n atomes de la structure b. 3V686 – 09.03.2016 Bioinformatique structurale : pour quoi faire ? Prédire les structures de protéines Simuler les mouvements des protéines et... Comparer les structures de protéines Caractériser leurs interactions, pour... Concevoir de nouveaux médicaments 3V686 – 09.03.2016 Conclusion • Les protéines sont des objets biologiques à plusieurs niveaux d'organisation • Elles sont composées de résidus d'acides aminés, euxmême composés d'atomes • Elles assurent une grande variété de fonctions biologiques • Elles adaptent leur forme et leurs mouvements aux conditions environnementales • Elles interagissent entre elles et avec d'autres molécules dans la cellule • Prédire et caractériser la structure des protéines permet de décrire et comprendre les mécanismes moléculaires qui sous-tendent les processus biologiques. 3V686 – 09.03.2016