Structure et représentation des protéines M2 - STL Chaîne d’acides-aminés (1D) Algorithmes sur les séquences en bioinformatique Chaîne d’éléments structuraux réguliers (2D) Cours 6 : Algorithmes d’alignement de structures des protéines Alessandra Carbone Université Pierre et Marie Curie Structure 3D d’une chaîne d’acides-aminés. A.Carbone - UPMC Problème de la comparaison structurale entre protéines Structure 3D de plusieurs chaînes d’acides-aminés. 2 Quelques faits sur la structure 3D Hypothèse de travail principale : une protéine se replie dans une structure unique, qui est dépendante seulement de la séquence. Les méthodes les plus communes pour trouver la structure 3D des protéines sont : -Cristallographie – réalisée avec la diffraction des rayons-X et la diffraction des neutrons. -Résonance Magnétique Nucléaire (Nuclear Magnetic Resonance - NMR) Le fort intérêt pour des algorithmes de prédictions de la structure des protéines vient du fait que ces méthodes sont lentes et chères. Un atome est modélisé par une balle ayant un rayon de van der Waals. Le rayon de Van der Waals d’un atome est défini comme le rayon minimum qui ne permet pas le chevauchement avec d’autres atomes. La prédiction sera réalisée, quand cela est possible, à travers une comparaison 3D de structures : - la structure 3D est plus conservée à travers l’évolution que la séquence - la structure 3D contient plus d’information que la séquence (e.g. sites actifs) Exemple de van der Waals radius A.Carbone - UPMC 3 A.Carbone - UPMC 4 1 Chaque acide-aminé a un atome de carbone appelé Cα, qui est connecté à un groupe carboxyle et un amino-groupe, un atome hydrogène et une partie qui dépend de l’acide amine spécifique, appelé résidu. Les atomes Cα forment le squelette (backbone) de support de tous les autres atomes. b. a. Dans une chaîne protéique, l’amino-groupe d’un acide-aminé est connecté au carboxyle groupe de l’acide-aminé qui le suit. c. Cα 5 Méthodes pour la prédiction du repliement d’une protéine a. b. c. Cα de chaque acide-aminé Tous les atomes formant le backbone du polypeptide Liens hydrogènes qui permettent la formation des hélices α 6 Alignement structurale des protéines Ils existent plusieurs approches pour approximer la structure d’une protéine : Modélisation par homologie – utilise une base de données de protéines pour chercher des séquences similaires. Si une protéines avec homologie d’au moins 30% est trouvée, c’est assez probable que les deux protéines ont la même structure. Threading – classifie structures connues dans des familles avec repliement similaire. Étant donnée une séquence d’acides aminés, la méthode sélectionne la famille d’appartenance la plus probable : aligne la protéine à une protéine similaire dont on connaît la structure, et utilise la nouvelle structure comme point de départ pour effectuer des opérations de repliement plus fines. Représentation 3D discrète de la forme d’une molécule. Caractéristiques critiques possibles : - squelette des Cα - squelette des Cα et Cβ - éléments de la structure secondaire (hélices α et feuillets β) - représentation de la surface moléculaire Ab initio – quand on a aucune information sur l’homologie d’une protéine on est forcé à replier la protéine ab initio. Les solutions sont algorithmiquement difficiles même dans les modèles les plus simples. Exemple : si on divise les acides-aminés en hydrophiles et hydrophobes, on peut essayer de construire la structure 3D en minimisant les répulsions et en maximisant les attractions entre acides-aminés voisins. Il a été montré que la résolution de ce modèle est NP-complet, même s’il y a des approches euristique avec ratio d’approximation 2/3. A.Carbone - UPMC 7 Coordonnées Cα de deux molécules A.Carbone - UPMC 8 2 Problème : Comparaison de deux structures Entrée : un ensemble de coordonnées atomiques des deux molécules Sortie : transformation rigide (rotation et translation) dans l’espace qui permet l’appariement d’un nombre suffisant d’atomes d’une molécule aux atomes de l’autre. Les algorithmes qui essaye de résoudre ce problème sont classifiables dans deux catégories: 1. Dépendant de l’ordre de la séquence. Utilise l’ordre des atomes dans la chaîne protéique, en réduisant le problème à un problème de matching d’une courbe 3D (essentiellement un problème 1D). Avantages: -Les biologistes sont parfois plus intéressés à des motifs qui préservent l’ordre de la séquence -La puissance calculatoire nécessaire est réduite par l’usage de l’ordre d’une chaîne 2. Indépendant de l’ordre de la séquence. Alignement de propriétés dans un espace 3D (un problème 3D). Avantages: - les techniques détectent des motifs 3D non-séquentiels, comme des motifs sur la surface de la molécule, et en particulier les sites d’interaction. - bdd structurelles sont approchables avec de l’information structurelle partielle - l’algorithme peut être applicable à d’autres structures moléculaires - l’algorithme n’est pas affecté par insertions et délétions. A.Carbone - UPMC 9 On peux décomposer le problème de la comparaison structurale en deux : 1. 2. matching – détection des propriétés de matching (difficile) meilleure superposition par rapport à des propriétés de matching données – trouver une transformation d’une structure dans l’autre avec RMSD (Root Mean Square Deviation: elle mesure les différences entre les positions des atomes Cα entre deux protéines) minimale. Superposition (2) – le meilleur RMSD obtenu par alignement rigide Entrée : deux ensembles de points en 3D : P = {pi} et Q = {qi} où i=1…n Sortie : trouver une rotation 3D R0 (cad retourner la figure autour d’un point a étant donné R0 degrés) et une translation a0 (cad, chaque point de la figure bouge d’une distance a0 dans la même direction) telles que minR,a ∑i |Rpi + a - qi |2 = ∑i |R0pi + a0 - qi |2 Solution : une solution pour ce problème existe et elle demande une analyse des eigenvalues de la matrice de corrélation des points. A.Carbone - UPMC 10 Algorithme d’alignement rigide basé sur les techniques d’hachage géométrique (Wolfson et al. 1988, 2000) Un cas simple du problème de matching (1) Algorithme organisé en deux parties : preprocessing et reconnaissance On considère le fait que les objets sont des corps rigides. Dans ce cas le matching d’une paire de triplets de points ordonnés défini de façon unique une transformation 3D rigide. Preprocessing Tous les modèles d’une bdd sont considérés. Pendant cette phase, pour chaque modèle, son information géométrique est codifiée dans un tableau d’hachage. Algorithme : Reconnaissance - Pour chaque paire de triplets, une pour chaque molécule, définissant des triangles « presque congruents », calculer la transformation qui superpositionne les triangles. - Calculer le nombre de paires de points qui sont presque superposées et donner un score dépendant de ce nombre à la superposition des deux objets. - Choisir la superposition qui obtient le score plus élevé et améliorer la transformation en la remplaçant par la meilleur transformation RMSD, pour toutes paires matchées. Etant donné un objet, ses caractéristiques sont déduites. Ces caractéristiques sont utilisées pour faire correspondre l’objets à plusieurs entrées dans le tableau d’hachage. Complexité : O(n7), où O(n) est le nombre de points dans chaque molécule. A.Carbone - UPMC 11 Une structure de référence 3D est un triplet de vecteurs orthogonales ayant une origine commune. Elle peut être définie de façon unique par les sommets d’un triangle non-dégénéré. A.Carbone - UPMC Exemple de structure de référence 3D 12 3 Supposons ex, ey, ez les trois vecteurs unité. Chaque point en 3D peut être représenté en utilisant la structure de référence comme v= αex + βey + γez + p1. Reconnaissance. Le matching de l’objet cible est réalisé comme suit : La longueur des côtés du triangle que l’on veut stocker (CαNCβ ) est invariante par translation et par rotation, et en conséquence, on peut définir à partir de la structure de référence, une signature de la forme en fixant les longueurs des côtés du triangle. 1. Algorithme : Preprocessing. Pour chaque objet modèle fait ce qui suit:: 1. 2. 3. 4. 5. Choisir une structure de référence. Calculer la base orthonormale 3D associée à la structure de référence et sa signature de forme (la longueur des côtés du triangle). Calculer les coordonnées de tous les autres points (dans un voisinage pre-specifié) dans cette structure de référence. Utiliser chaque coordonnée comme une adresse du tableau d’hachage. Mémoriser l’entrée (identificateur de protéine, structure de référence, signature de forme, points) à l’adresse du tableau d’hachage. Répéter les étapes 1-4 pour chaque structure de référence modèle (modèle de triplet non-collinéaire de points). A.Carbone - UPMC 13 Pour chaque structure de référence de l’objet cible : a. Calculer la base orthonormale et la signature de la forme associée b. Calculer les coordonnées de tous les autres points dans la structure de référence courante. c. Utiliser les coordonnées pour accéder au tableau de hachage et récupérer tous les enregistrements (identificateur de protéine, structure de référence, signature de la forme, points) 2. Pour les enregistrements avec une signature de la forme donnée, « voter » pour les paires (identificateur de protéine, structure de référence). 3. Calculer les transformations des paires ayant des scores élevés. Pour chaque hypothèse, il sera possible de calculer aussi les paires de points qui matchent. La liste des matching et les transformations associées forment ce que l’on appelle « germe du matching ». A.Carbone - UPMC 14 On peut maintenant construire un algorithme d’alignement qui utilise l’hachage géométrique comme suit. - définir le voisinage locale d’un résidu. Noter que si on utilise tous les trois points pour chaque triplet, chaque atome sera représenté de façon redundante. Il apparaîtra dans la table d’hachage dans toutes structures de référence. (En pratique, comme on n’est pas intéressé aux atomes qui sont trop proches ou trop loin alors on prendra seulement les atomes qui se trouvent dans un rayon entre un max et un min.) - Appliquer la technique de l’hachage géométrique aux points voisins pour détecter les germes du matching définis par une transformation et une liste de matching. Plusieurs listes de matching pourrons partager la même transformation. Complexité : N O(n) R S nombre de protéines dans la bdd nombre de caractéristiques par structure de protéine nombre de structures de référence, typiquement R= n, n2, n3 taille de l’entrée du tableau d’hachage (s peut être maintenu petit) - On clustérise germes de matching et on réunie listes de matching - Étape d’extension: les germes de matching sont étendus pour contenir des paires de matching en plus. Preprocessing Reconnaissance O(N * R * n) O(R * N * s) - La meilleure transformation par rapport au RMSD est calculée. Pour cette raison, un algorithme itératif heuristique qui minimise la somme des distances entre des nouvelles paires est appliqué. A.Carbone - UPMC 15 A.Carbone - UPMC 16 4 Algorithme d’alignement flexible basé sur les techniques d’hachage géométrique (Wolfson et al. 2000) 1. Il y a deux types de mouvement possible pour une protéine : à charnières (hinge motion) et de cisaillement (shear motion). L’approche d’hachage géométrique peut être étendu pour traiter ces cas flexibles aussi. La méthode demande par contre la connaissance au préalable de la position des charnières. 2. Entrée : deux molécules A = v1 … vn et B = w1…wn représentées par leurs coordonnées Cα. Sortie : décomposition des deux molécules dans un nombre minimal de fragments disjoints de taille maximale, telle que le nombre de Cα dans chaque fragment est le plus proche possible au nombre des Cα du fragment matché et telle qu’il existe une translation rotationelle en 3D qui superpose les atomes correspondants avec un plus petit RMSD. Détecter des fragments rigides congruents qui soient suffisamment grands. Construire une liste de paires d’atomes en correspondance (matching) constituée par une seule paire tout au début. Itérativement, étendre la liste en ajoutant une paire d’atomes à la gauche et une à la droite (en suivant la direction du backbone) jusqu’à l’obtention de la plus longue paire de fragments congruents consécutifs qui inclue la liste de paires d’atomes de départ. Pour calculer la liste de paires d’atomes correspondants contigus, itérer cette étape pour tous les atomes Vi,Vj. Trouver une séquence de fragments disjoints que suivra la séquence de Cα de A et de B. La méthode est similaire à celle utilisée dans l’algorithme FastA: a. a. c. A.Carbone - UPMC 17 M1 k d. e. f. g. h. j gap1 t M2 b p gap2 18 Représentation de la surface moléculaire s’il n’y a pas de chevauchement, alors ∆ = 0. l est défini comme la longueur de M1. gap1 = b-j et gap2 = p-t W(e)= - ( (l -1) - ∆ )2 + max ( |gap1|, |gap2|) + ||gap1|-|gap2|| i Les listes de matching sont représentées comme des nœuds d’un graphe. Rejoindre deux nœuds par un arc, si la paire fragment qu’ils représentent est consécutive dans l’alignement. Les paires fragments peuvent chevaucher sur un intervalle maximale de 2∆. Le résultat est un graphe dirigé acyclique. A chaque arc on assigne un poids de pénalité W(e). L’idée étant de favoriser des fragments correspondants très longs et de pénaliser les long gaps. Définir M1 et M2 deux listes d’atomes en correspondance Vi…Vj avec Vk…Vt et Vb…Vf avec Vp…Vr. où 0<i<j<f<n, b<f et 0<k<t<r<m, p<r Une bonne représentation de la surface moléculaire aide à -l’étude du repliement de la protéine, -la prédiction de la reconnaissance biomoléculaire -la détection des cavités jouant un rôle important dans l’interaction avec les médicaments. f r Un nœud virtuel, appelé nœud de départ, et les arcs sortant de ce nœud et dirigés vers tous les autres nœuds, ayant coût 0, sont ajoutés au graphe. L’algorithme de recherche du chemin le plus court qui part du nœud de départ est appliqué au graphe. Cela permettra le calcul du chemin le plus court à partir de chaque nœud. Tous les chemins possibles sont collectionnés et classés dans des groupes différents par rapport au nombre des nœuds dans le chemin. l’RMSD du chemin est calculé et les chemins de chaque groupe sont ordonnés par rapport à cette valeur. Pour chaque groupe, les 10 meilleurs résultats donnerons les possibles solutions, chacune ayant un nombre de charnières différent. Comme la complexité des algorithmes dépends du nombre de points représentants la surface moléculaire, un problème important dans cette représentation concerne la dispersion des points intéressants qui représentent la molécule. Complexité de l’algorithme : O(k4), où k = max(|A|,|B|). A.Carbone - UPMC 19 A.Carbone - UPMC 20 5 Représentation courante (Connolly, 1983). Une balle d’eau virtuelle (de 1.4-1.8Å de diamètre) est roulée sur la surface de van der Waals pour rendre lisse la surface et éliminer les zones qui ne sont pas accessibles au solvant. Cet algorithme partitionne la surface dans des zones convexes, concaves et à selle dépendamment du nombre de points de contacte entre la surface des atomes et la balle d’eau. En sortie, la représentation consiste en un ensemble de points et de vecteurs normales à la surface. Ces points sont choisis par rapport à une densité de référence (par exemple, 10 points/ Å2 ). Zone convexe Zone a selle Zone concave Représentation de Crambin A.Carbone - UPMC 21 L’un des avantages d’avoir une bonne représentation de la surface moléculaire est la possibilité de visualiser la complémentarité des formes aux interfaces. A.Carbone - UPMC 22 Critical Points Representation g = centre de gravité de la face c = projection du centre de gravité sur la surface La représentation basée sur un ensemble de points et de normales est assez dense. Exemples de représentations qui emploient un nombre modéré de points : -Critical Points Representation (Wolfson et al. 1994) -Solid Angle Local Extrema (Connolly, 1986) -SPHGEN (Kuntz et al. 1982) A.Carbone - UPMC p = point d’intersection entre le plan orthogonal à ab passant par O et la droite passant par cg S = face de Connolly (elle peut etre convexe, concave ou a selle) 23 A.Carbone - UPMC a et b = atomes; entre ces deux atomes on retrouve l’axe du tore 24 6 Solid Angle Local Extrema SPHGEN Une sphère est centrée à la surface d’une protéine et la fraction de la sphère détectée à l’intérieure de la protéine est mesurée. Si plus de la moitié de la sphère est à l’intérieure de la protéine alors la région est concave, si non la région est convexe. A.Carbone - UPMC 25 Un ensemble de sphères chevauchantes est généré pour décrire la forme de la molécule ou de la surface d’une molécule. A.Carbone - UPMC 26 Amarrage (docking) Problème : Docking Entrée : une molécule récepteur (R) et une molécule ligand (L) Sortie : un matching entre la surface de R et la surface de L maximisant l’aire de contacte entre les surfaces. L’idée principale de docking est celle de « clé et serrure ». Le ligand est la clé, petit et possiblement flexible. Le récepteur est la serrure, grande et généralement ayant un niveau de flexibilité limitée. Trypsin inhibitor Mieux les deux molécules s’approchent, meilleure sera l’interaction du médicament avec la molécule cible. Trypsin protein Il y a des molécules que sont rigides mais il y en a d’autres qui ne le sont pas complètement et qui présentent une flexibilité limitée. D’habitude cette flexibilité est localisée dans certaines positions spécifiques (dites charnières - hinges) entre deux parties de la molécule. Dans une charnière il y a d’habitude une variétés d’angles possibles où la partie rigide peut roter. a. Deux parties rigides et une charnière de la molécule b. Les deux parties avec le récepteur 2ptc complex : bovin trypsin protease (245 aa) complexed with a trypsin inhibitor (58 aa) A.Carbone - UPMC 27 A.Carbone - UPMC 28 7 Etapes principales de la méthode de docking La classe des problèmes d’amarrage as deux sous-classes majeures: 1. Le problème de docking rigid 2. Le docking flexible – une ou deux molécules ont un degré de liberté. Ce problème est plus difficile. Quand une méthode de docking est évaluée il faut examiner les problèmes suivants: 1. est-ce que la méthode traite la flexibilité ? a. si oui, est-ce que une ou deux protéines sont flexibles? b. qu’est-ce que le nombre de liens flexibles permis et le coût pour l’ajoute de flexibilité? 2. est-ce que la méthode demande une connaissance a priori du site d’interaction? 3. efficacité/rapidité dans l’exploration de larges librairies. A.Carbone - UPMC 29 A.Carbone - UPMC 30 Base de données de test : Chen benchmark Docking entre protéines 85 150*75 = 11250 30000 complexes protéiques, dont 150 protéines différentes qui peuvent potentiellement interagir paires de protéines à vérifier positions à tester par paire de protéines 30.000 200sec 30.000*200=1600h 1600h*11250=18.000.000h= =750.000 jours ~ 2050ans La connaissance des sites de liaison diminue très fortement le coût de ses recherches et réduit le test à 300 positions. 300 16h*11250=180000h=7500 jours ~ 20ans A.Carbone - UPMC 31 A.Carbone - UPMC positions différentes à vérifier par docking pour chaque paire de protéines temps de calcul par position temps de calcul pour chaque paire temps de calcul totale sur un PC à 2Ghz positions différentes à vérifier par docking pour chaque paire de protéines temps de calcul totale sur un PC à 2Ghz 32 8 Références bibliographiques Anfinsen CB. Principles that govern the folding of protein chains. Science, 181:223--230, 1973. M. Connolly. Measurement of protein surface shape by solid angles. J. Mol. Graph., 4:3--6, 1986. M.L. Connolly. Solvent-accessible surfaces of proteins and nucleic acids. Science, 221:709--713, 1983. M. Gerstein, A.M. Lesk, and C. Chothia. Structural Mechanisms for Domain Movements in Proteins. Biochemistry, 33(22):6739--6749, 1994. But final I. Kuntz, J. Blaney, S. Oatley, R. Langridge, and T. Ferrin. A geometric approach to macromolecule-ligand interactions. J. Mol. Biol., 161:269--288, 1982. Étudier les interactions d’une base de données de 4000 protéines Y. Lamdan, J. T. Schwartz, and H. J. Wolfson. Object Recognition by Affine Invariant Matching. In Proceedings of the IEEE Computer Vision and Pattern Recognition Conf., pages 335--344, Ann Arbor, Michigan, June 1988. Y. Lamdan, J. T. Schwartz, and H. J. Wolfson. On Recognition of 3-D Objects from 2-D Images. In Proceedings of IEEE Int. Conf. on Robotics and Automation, pages 1407--1413, Philadelphia, 1988. B. Lee. The interpretation of protein structures: estimation of static accessibility. J. Mol. Biol., 55:379-400, 1971. S. L. Lin, R. Nussinov, D. Fischer, and H.J. Wolfson. Molecular Surface Representation by Sparse Critical Points. PROTEINS: Structure, Function and Genetics, 18:94--101, 1994. A.Carbone - UPMC 33 A.Carbone - UPMC 34 M. Shatsky, Z.Y. Fligelman, R. Nussinov, and H. Wolfson. Flexprot: an algorithm for alignment of flexible protein structures. J. Proc. 8th International Conference onIntelligent Systems for Molecular Biology (ISMB '00)., pages 329--343, 2000. S. Umeyama. Least-Squares Estimation of Transformation Parameters Between Two Point Patterns. IEEE Transactions on Pattern Analysis and Machine Intelligence, PAMI-13(4):376--386, April 1991. Comparing proteins 3D structure algorithm. R.; Verbitsky, G.; Nussinov and H. Wolfson. Structural comparison allowing hinge bending, swiveling motions. PROTEINS: Structure, Function and Genetics, 34:232--254, 1999. A.Carbone - UPMC 35 9