Modélisation et prédiction de structure de protéines: une introduction Glycolyse . Transport d'oxygène . Capture d'énergie lumineuse . Pompage d'ions . Métabolisme des acides aminés . Synthèse d'ARN. Transport de métabolites . Motilité cellulaire . Photosynthèse . Transport d'ions . Synthèse d'ATP . Synthèse d'acides gras . Cycle de Krebs . Cytosquelette . Respiration . Synthèse de sucres . Mort cellulaire. Contraction musculaire . Croissance des tissus . Répertoire immunitaire. Maturation d'ARN. Synthèse de lipides. Anticorps . Traduction du code génétique. Réplication d'ADN . Capsides virales . Cheveux . Inflammation Coagulation . Signalisation . Répression de gènes . Gluconéogénèse. Hormones . Dégradation d'aliments . Neurotransmission . Oxidoréduction . Bioluminescence . Réparation d'ADN . Synthèse de protéines . Thermogénèse . Fusion cellulaire. Détoxification . Compaction d'ADN . Chaperones . Catabolisme ADN/ARN . Transport vésiculaire . Maturation protéique . Choc thermique . Épissage . Transport nucléaire . Fuseau mitotique . Communication cellulaire . Homéostase . Neurotoxines et biodéfense . Biosynthèse d'acides aminés . Sécrétion . Cycle de l'urée . Biosynthèse de nucléotides . Recombinaison génétique . Chimiorécepteurs . Transport de protéines . Moteurs . Intégration du métabolisme . Neurotoxines . Biosynthèse d'hormones . Tissus connectifs . Dégradation d'antibiotiques . Vision Ingénierie de la structure et fonction des biomolécules A U G C G C U U A U A G C C A A G G : Séquence Structure Fonction ● Organisation structurale et stabilité des protéines ● Prédiction de structure secondaire ● Modélisation moléculaire, dynamique moléculaire ● Prédiction de structure 3D: modélisation par homologie Le problème du repliement la structure native est un minimum d'énergie libre K L H G G P M L D S D Q K F W R T P A A L H Q N E G F T Nétats ~ 3n n = 100­300 Googols... Un acide aminé possède 3 conformations; un polypeptide de longueur n en possède... 3n. Et pourtant, il se replie en un temps très court (10­6 – 1 s). Structure des protéines Structure des protéines La chaîne principale possède deux dièdres flexibles phi, psi par acide aminé i i+1 i+2 Liaison peptide = plane Ri N CH N H O H C O C CH Ri+1 + N + H Ri+2 CH Les valeurs stériquement permises de phi, psi sont celles du diagramme de Ramachandran CH O C H C CH N N H C O CH Lovell et al, 2003, Proteins, 50:437 CH O C C N H CH C O H N CH Dans les hélices et feuillets, les groupements polaires de la chaine principale sont engagés dans des liaisons hydrogènes Hélice 3.6 résidus par tour i+4 Feuillet (antiparallèle, ici) i Pseudo­périodicité de 2 Les boucles sont plus flexibles, donc difficiles à prédire. Elles ont assez souvent un role fonctionnel. boucles coude ~1/3 des acides aminés La nature utilise une chimiothèque de 20 acides aminés avec une gamme de caractéristiques physico­chimiques + NH NH taille Trp Phe Lys CH 2 CH3 CH2 CH Leu CH Ala CH2 CH Met CH2 Thr Cys SH CH3 OH CH2 CH3 S CH3 O CH2 N CH Pro CH2 NH NH CH2 NH2 O CH2 His Arg O CH2 CH2 C OH ­ C CH2 CH Gly H CH2 NH2 O C CH3 CH3 CH3 CH3 Val Tyr (CH2)3 CH2 Gln CH2 CH3 NH CH2 CH2 OH Ile + NH2 NH2 3 CH2 Glu O ­ O C CH2 Asp Asn CH2 Ser polarité La nature a sélectionné les acides aminés L L D Ne pas confondre “L” avec “lévogyre”: subtile différence Les chaines latérales ont des angles de torsion flexibles + NH 3 Lysine CH2 CH2 CH2 CH2 N H 1 CH C O 53 conformations de Lys vue dans des structures cristallographiques de protéines. Les chaines latérales ont des conformations préférées, appelées “rotamères” énergie(chi1,chi2) 1 C N ­2.5 C O Exemple de l'asparagine chi1 C C ­4.5 ­4.3 ­3.3 1 kcal/mol entre contours N chi2 conformations typiques vues dans les protéines conformations vues par simulation Structure “quaternaire”: Notion de domaine structural 50­300 acides aminés Deux aminoacyl­ARNt synthétases 4 modules fibronectine Un même domaine peut être utilisé par de nombreuses protéines différentes Domaine “SH3”: trouvé dans des contextes variés dans >150 protéines de structures 3D connues. Tyrosine kinase c­Src 23 chez la levure Le domaine structural comme module élémentaire dans l'évolution des protéines Domaine de fixation du substrat Protéine fixant le substrat A fusions duplications NAD Domaine de fixation du NAD Glycéraldéhyde3-phosphate déshydrogénase Protéine fixant le NAD Protéine fixant le substrat B Déshydrogénases à NAD de spécificité large évolution séparée et spécialisation Déshydrogénases à NAD de spécificité étroite Structures de domaines: classement hiérarchique par similarité 3 classes 40 architectures Classifying a Protein in the CATH Database of Domain Structures Acta Cryst (1998) D54:1155 Orengo, Martin, Hutchinson, Jones, Jones, Michie, Swindells, Thornton ~ 1100 “topologies” ou “repliements” ~ 2200 superfamilles Reflet de l'évolution Protéines orthologues Protéines paralogues Gène X Gène X duplication du gène spéciation Gène X Gène X Gène X Gène X divergence Gène A Gène B Classement structural des domaines Classe Classe Classe 114000 structures ● 2200 superfamilles ● 100 contiennent 60% des domaines ● www.cathdb.info Protein Data Bank www.rcsb.org/pdb/ La découverte de nouveaux plis ralentit. ~ quelques milliers de plis différents dans le monde du vivant L'espace des plis est discret et fini Les protéines sont formées par assemblage de domaines Le répertoire structural = {qques milliers de domaines}N Les structures 3D de biomolécules sont regroupées dans la “Protein Data Bank” 88000 structures de protéines Nombre total de structures dans la PDB 2012 niveau nombre de d'identité protéines 100% 48216 95% 34262 25% ~4000 année Les projets internationaux de “génomique structurale” visent à déterminer les structures de toutes les protéines d'organismes choisis, par cristallographie de rayons X, par résonance magnétique nucléaire, et par modélisation. Faisceau monochromatique de rayons X Cristal de protéine ou d'ARN Cliché de diffraction Le synchrotron SOLEIL Accélérateur d'électrons; émet des rayons X, utilisables pour la cristallographie. Pour l'immense majorité des protéines connues, il n'y a pas de structure 3D expérimentale. Pour ~1/3, la fonction n'est pas connue. ID # Swissprot Nom 1 P15207 ANDR_RAT 6 P19091 ANDR_MOUSE 14 Q63449 PRGR_RAT 17 P06401 PRGR_HUMAN 21 P08235 MCR_HUMAN 33 P04150 GCR_HUMAN 41 Q9YH32 ESR2_ORENI 42 Q9YH33 ESR1_ORENI : : : : : : 343 Q9N4Q7 NH13_CAEEL 344 Q23294 NH11_CAEEL 345 O45460 NH54_CAEEL 346 Q09565 NH20_CAEEL 347 Q09587 NH22_CAEEL 349 P17672 E75B_DROME 351 P20659 TRX_DROME 355 P98164 LRP2_HUMAN : : : : : : Description Androgen receptor. Androgen receptor. Progesterone receptor Progesterone receptor Mineralocorticoid receptor Glucocorticoid receptor Estrogen receptor beta Estrogen receptor alpha : : : : Nuclear hormone receptor nhr-13 Nuclear hormone receptor nhr-11 Nuclear hormone receptor nhr-54 Nuclear hormone receptor nhr-20 Nuclear hormone receptor nhr-22 Ecdysone-induced protein 75B Trithorax protein. Lipoprotein receptor. : : : : Score 162 162 136 136 136 131 99 98 : : 54 54 54 51 45 40 31 30 : : E 1e-40 1e-40 1e-32 1e-32 1e-32 3e-31 3e-21 4e-21 : : 8e-08 8e-08 1e-07 7e-07 5e-05 0.001 0.74 1.7 : : % Longueur Identité alignée 100 73 100 73 80 72 80 72 79 72 77 72 58 72 55 72 : : : : 39 66 42 66 37 67 34 66 32 66 37 47 26 49 27 65 : : : : Importance de la modélisation Stabilité des protéines Les protéines sont marginalement stables G = 5­15 kcal/mol = 10­30 kT ~ 0.1 kT par acide aminé ~ 0.01 kT par atome Forte entropie configurationnelle Nombreuses interactions protéine­eau G Effets compensatoires Faible entropie configurationnelle Interactions protéine­eau Interactions protéine­protéine L'effet qui s'oppose au repliement est l'entropie configurationnelle K L H G G P M L D S D Q K F W R T P A A L H Q N E G F T Nétats ~ 3n n = 100­300 Un nombre astronomique d'états accessibles pour la protéine dépliée Les protéines tendent à enfouir leurs groupes apolaires avec un empilement très compact thioredoxine Les sphères rouges sont les atomes des chaines latérales hydrophobes. Fraction de volume occupée élevée: ~ 0.74 (moyenne sur les structures connues) La force motrice du repliement est l'effet hydrophobe Ségrégation alkane/eau Kauzmann, 1959 Tension de surface = +70 cal/mol/A2 1 nm L'eau interagit faiblement avec les alkanes saturés et fortement avec l'eau. D'où une tension de surface eau/alkane forte et positive, qui poussera deux goutelettes microscopiques d'huile à coalescer spontanément. Ainsi, en caricaturant un peu, on peut dire que le repliement est induit par les interactions eau­eau. Les hélices et feuillets sont des structures étendues qui peuvent traverser le coeur hydrophobe d'une protéine tout en formant toutes les liaisons hydrogènes possibles Hélices + feuillets = plus de 60% des acides aminés Prédites par Corey et Pauling avant la détermination de structures expérimentales. Les protéines membranaires sont un cas à part Cytochrome oxidase ~ 30% du génome humain, ~ 50% des médicaments sur le marché Nombre limité de structures connues (~100). Nombre limité d'architectures possibles. Le repliement n'est pas une propriété universelle! Un polypeptide avec une séquence arbitraire ne se repliera pas. Seule une infime minorité de séquences, sélectionnées par l'évolution, conduisent à un repliement stable et unique. Il faut notamment un bon équilibre entre résidus hydrophiles et hydrophobes. Pourcentages d'utilisation des acides aminés dans les protéines aa Gly Ala Val Leu Ile Met Pro Phe Trp Ser % 7 8 7 9 5 2 5 4 1 7 aa Thr Asn Gln Tyr Cys Lys Arg His Asp Glu % 6 4 4 3 2 6 5 2 5 6 Les interactions électrostatiques gouvernent la reconnaissance moléculaire 25% des acides aminés sont chargés + + NH3 Lys NH2 NH2 CH2 NH CH2 Fe 2+ (CH2)3 CH2 CH2 O -O C NH Cu2+ + NH Acetylcholine estérase Régions rouges = potentiel électrostatique négatif Son substrat, l'acétylcholine, est positif Glu CH2 O CH2 CH2 His Arg C 2+ Zn phospho­Ser -O CH2 Asp Les interactions électrostatiques gouvernent la reconnaissance moléculaire Bleu: potentiel positif Cytochrome c Rouge: potentiel négatif hème Vue de devant Vue de derrière Le cytochrome c interagit avec la membrane mitochondriale, chargée négativement, et avec des régions négatives sur le cytochrome bc1 et le cytochrome oxidase. Prédiction de la structure secondaire Lys9 Lys16 Ala12 Thr13 vj Thr17 Ala8 Phe15 Lys10 Leu14 Gly11 Prédiction de structure secondaire Hélice 3.6 résidus par tour Feuillet Pseudo­périodicité de 2 Dans les protéines, le diamètre d'un domaine correspond souvent à quelques éléments de structure secondaire Représentants de 30 “architectures” dans la classification CATH www.cathdb.info Dans les protéines, le diamètre d'un domaine correspond souvent à quelques éléments de structure secondaire H y d r o p h o b e boucle diamètre hydrophile hydrophile Les hélices sont souvent amphipathes, avec une face enfouie dans la protéine et une vers le solvant. Prédiction de structure secondaire Les hélices sont souvent amphipathes, avec une face enfouie dans la protéine et une vers le solvant. hydrophiles Lys9 Lys16 Ala12 Thr13 “Roue hélicoidale” Ala8 Thr17 Phe15 Lys10 Leu14 Gly11 hydrophobes Vue du dessus et simplifiée d'une hélice amphiphile On s'intéresse à un acide aminé, disons Thr13. On fait l'hypothèse qu'il est dans une hélice, représentée ci­dessous. On considère les acides aminés 9, 10, 11, 12, 13, 14, 15, 16, 17, qu'on repère par des vecteurs: Lys9 Lys16 Ala12 Thr13 Ala8 Thr17 Phe15 Lys10 Leu14 Gly11 On s'intéresse à un acide aminé,disons Thr13. On fait l'hypothèse qu'il est dans une hélice, représentée ci­dessous. On considère les acides aminés 9, 10, 11, 12, 13, 14, 15, 16, 17, qu'on repère par des vecteurs: Lys9 Lys16 Ala12 Thr13 Ala8 Thr17 Phe15 Lys10 Leu14 Gly11 On s'intéresse à un acide aminé,disons Thr13. On fait l'hypothèse qu'il est dans une hélice, représentée ci­dessous. On considère les acides aminés 9, 10, 11, 12, 13, 14, 15, 16, 17, qu'on repère par des vecteurs. Pour les acides aminés hydrophobes, on compte les vecteurs négativement: Lys9 Lys16 Ala12 Thr13 Ala8 Thr17 Phe15 Lys10 Leu14 Gly11 On ajoute tous ces vecteurs: V13 Lys9 Lys16 Ala12 Thr13 Ala8 Thr17 Phe15 Lys10 Leu14 Gly11 Si l'hypothèse est juste: on obtiendra un grand vecteur V13 (les vj s'ajoutent “constructivement”). Sinon, on obtiendra un petit vecteur. En fait, nous avons défini un “moment hydrophobe”: i+ m Moment hydrophobe: i = Hj vj j= i­m Lys9 Lys16 Ala12 Thr13 vj Thr17 Hj = hydrophobicité, caractéristique de chaque type d'acide aminé m = 3 ou 4 Ala8 Phe15 Lys10 Leu14 Gly11 ...G S A K K G A T L F K T R C Q Q... Le moment hydrophobe permet de repérer des régions amphipathes qui ont la périodicité 3.6. Pseudo­périodicité de 2 Hypothèse d'un feuillet beta: on définit un autre moment hydrophobe : j=1 j=2 Moment hydrophobe: Axe j du feuillet i+ m i = Hj vj j= i­m Hj = hydrophobicité vj = (­1) j j=3 Sphères oranges = chaines latérales (chaine latérale au­dessus ou en­dessous du feuillet) Hypothèse valable: grande valeur de |i| Axe j du feuillet j=4 Une méthode inspirée des réseaux de neurones Une cellule neuronale j recoit des signaux en entrée x1, x2, ..., xn, depuis des cellules voisines 1, 2, ..., n; les intègre, et les convertit en un signal de sortie yj: axone yj yj yj x1 x2 Cellule neuronale j yj dendrites x3 x4 yj x6 x5 Les signaux d'entrée xi sont pondérés et sommés: Ej = i wij xi puis convertis: yj = ( Ej ) (Ej) Neurone éteint Neurone allumé Ej Un réseau de neurones pour prédire la structure secondaire hélice/feuillet/autre sortie ~ 75% de prédictions correctes caché Ej = i wij xi entrée Phe Asn Ala Arg Met Lys Leu L'architecture du réseau est choisie au départ. On optimise les poids wij de toutes les connections (1212 dans cet exemple) pour obtenir des prédictions correctes sur un jeu de structures connues (phase d'apprentissage). Ainsi paramétré, le réseau a “appris” à associer une structure secondaire à toute séquence qu'on lui présente. Plus précisément, le réseau prédit l'état du résidu central Arg. Un réseau de neurones pour prédire la structure secondaire hélice/feuillet/autre ~ 80% de prédictions correctes sortie caché entrée Phe Phe Phe Tyr Asn Gln Asn Asn Ala Ser Ala ­ Arg Arg Lys Arg Met Met Ile Met Lys Lys Lys Arg Leu Ile Leu Leu Utilisation d'un alignement multiple en entrée Structure 3D: mécanique moléculaire et dynamique moléculaire U T1 T2 T3 {r} On observe expérimentalement que les macromolécules biologiques adoptent un ensemble de conformations Lysine Tige­boucle d'ARN (vue stéréo) On peut les caractériser par une surface d'énergie C 1 C N N chi1 C C O chi2 Prédiction de structure = recherche de structures de basse énergie On peut construire une fonction d'énergie empirique pour la modélisation biomoléculaire U = liaisons kb (b­b0)2 + angles ka (a­a0)2 + torsions kt [1 + cos(nt­)] On peut construire une fonction d'énergie empirique pour la modélisation biomoléculaire q ­2q q' q' q' q q' U = ij [ Aij/rij12 ­ Bij/rij6 ] + ij qiqj/rij Lennard­Jones ou van der Waals Coulomb Paramétrisation: 1980­2000 Liaisons, angles, torsions: ­spectroscopie de petites molécules ­résolution numérique de Schrodinger Lennard­Jones: ­cristaux de petites molécules ­propriétés de liquides simples Charges atomiques : ­résolution numérique de l'équation de Schrodinger ­cristaux de petites molécules alanyl­methionine Jelsch '01 Fonction d'énergie: Mécanique Moléculaire U = liaisons kb (b­b0)2 + angles ka (a­a0)2 + torsions kt [1 + cos(nt­)] + ij [ Aij/rij12 ­ Bij/rij6 + qiqj/rij ] .35 H H H N-.30 .3 H CH2 .3 CH2 H N N H CH -.55 O C .55 CH2 CH2 -.6 -.55 O C .55 -.35 N .25 H CH2 O CH C CH3 N H CH Positions équivalentes et indépendantes Recherche de structures de basse énergie: minimisation d'énergie C 1 C N N chi1 C C O chi2 Minimisation selon la ligne de plus grande pente (1) Méthode: partant de Pi, on se déplace le long du gradient: ­grad U(Pi) jusqu'au minimum dans cette direction, Pi+1. On recommence jusqu'au minimum (gradient nul). (2) Recherche de Pi+1: par interpolations successives Exploration conformationnelle par dynamique moléculaire N C 1 C chi1 C Permet de franchir les barrières d'énergie (pas trop fortes) C N O chi2 Résoudre numériquement les équations du mouvement: mi i = Fi = ­ grad Ui 3 équations par atome Description implicite du solvant Solvent “explicite” Solvent “implicite” Continuum diélectrique Energie électrostatique pour une paire d'ions: E = q q' / r = constante diélectrique de l'eau Pour traiter quelques ions dans l'eau, tout va bien... Description implicite du solvant Solvent “explicite” Solvent “implicite” Continuum diélectrique Pour une biomolécule, c'est plus compliqué: hétérogénéité “diélectrique” du système: cf électrostatique des milieux continus Dans un premier temps, on peut ignorer cette difficulté: Energie électrostatique E = q q' / r Recuit simulé: Optimisation sur une surface d'énergie rugueuse ● Exploration par dynamique moléculaire ● Température élevée; décroit progressivement U T1 T2 T3 {r} Repliement in silico vilin FiP35 Shaw et al (2010) Science, 330:341 Explicit­solvent simulations of villin headpiece folding; Freddolino, Schulten (2009) Biophysical Journal Fluctuations d'un domaine PDZ à l'échelle microseconde ● Organisation structurale et stabilité des protéines ● Prédiction de structure secondaire ● Modélisation moléculaire, dynamique moléculaire ● Prédiction de structure 3D: modélisation par homologie Prédiction de structure par homologie: identifier d'abord le pli, généralement par comparaisons de séquences K L H G G P M L D S D Q K F W R T P A A L H Q N E G F T ? Modélisation par homologie Recherche d'une ou plusieurs protéines homologues de structures connue (“cibles”) Alignement multiple avec un ensemble d'homologues Régions conservées: on moyenne les chaines principales des cibles Boucles flexibles: recherche dans la Protein Data Bank; méthodes de modélisation “ab initio” Chaines latérales: recherche de rotamères favorables, eg par une exploration stochastique, de type “Monte Carlo” Affinement et évaluation du modèle: relaxation par minimisation d'énergie et/ou dynamique moléculaire Exercice de prédiction: délétion, puis reconstruction des chaines latérales; la position de la chaine principale est connue exactement (elle n'est pas modélisée). 86% des angles chi1 corrects 73% des chi2 et chi1 Quand la chaine principale est parfaitement connue, la prédiction est très bonne mais pas parfaite. % de séquences avec des homologues PDB Modélisation par homologie: une cible n'est pas toujours disponible 0 20 40 60 80 0 20 40 M. genitalium 15 60 80 S. cerevisiae 5 C. elegans 15 E. coli Distribution des identités de séquence dans la Protein Data Bank 5 0 20 40 60 80 0 20 40 60 80 % d'identité Une cible doit avoir suffisamment de similarité avec la séquence modélisée La structure quaternaire est moins conservée Recherche d'une ou plusieurs protéines homologues ● Alignement multiple avec un ensemble d'homologues ● Régions conservées: on moyenne les chaines principales ● Boucles flexibles: recherche dans la PDB; méthodes “ab initio” ● Chaines latérales: recherche de rotamères favorables ● Affinement et évaluation du modèle ● Positionnement relatif des domaines? ● Contacts inter-domaine moins nombreux: positionnements relatifs moins conservés que les structures intradomaines