Introduction Structure des protéines M2 – STL - ASB Cours 5 : Algorithmes d’alignement de structures des protéines Chaîne d’acides-aminés (1D) Chaîne d’éléments structuraux réguliers (2D) Structure 3D d’une chaîne d’acides-aminés. Mathilde Carpentier Structure 3D de plusieurs chaînes d’acides-aminés. M.Carpentier - UPMC Introduction Les protéines : structure primaire Séquence Introduction Les protéines : la liaison peptidique liaison peptidique acide aminé 1 acide aminé 2 OH N H O + H H OH N H H R1 R2 R1 H O H O O N N OH + H R2 O H eau Formation d'une liaison peptidique entre deux acide aminés M.Carpentier - UPMC N N H Extrémité amino terminale = N-term. O H R1 H O R2 H O H R3 N N O OH R4 Extrémité carboxy terminale = C-term. chaîne principale Exemple de tétrapeptide (enchaînement de 4 acide aminés) M.Carpentier - UPMC Introduction Introduction Les protéines : Chaine latérale (R) Les protéines : structure secondaire 20 acides aminés naturels boucle M.Carpentier - UPMC Introduction Les protéines : structure tertiaire Structure tridimensionnelle Détermination par M.Carpentier - UPMC Introduction Les protéines : structure quaternaire Plusieurs chaînes protéiques -> Complexe protéique - Cristallographie – réalisée avec la diffraction des rayons-X - Résonance Magnétique Nucléaire (Nuclear Magnetic Resonance - NMR) 1BTA 1QO1 M.Carpentier - UPMC M.Carpentier - UPMC Introduction Quelques notions importantes sur la structure 3D Hypothèse de travail principale : une protéine se replie dans une structure unique, qui est dépendante seulement de la séquence (C. Anfinsen, 1973). Introduction Problèmes posés en bioinformatique structurale (protéines) - Comparaison/Alignement de structures 3D de protéines - Prédiction de la structure secondaire Dégénérescence séquence-structure : les structures sont plus conservées au niveau de la structure 3D que des séquences - Prédiction de la structure tertiaire - Amarrage (Docking) - Dynamique moléculaire Comparer ce qui est comparable : aligner des protéines n’ayant pas d'ancêtre commun a t il un sens ? M.Carpentier - UPMC Introduction M.Carpentier - UPMC Introduction Données Protein Databank 1 Données Les fichiers PDB format en 80 colonnes où chaque colonne a sa signification Exemple - 30000 structure protéiques - 15000 structures ayant moins de 90% d’identité de séquence HEADER PECTATE CLEAVAGE 24-APR-97 1AIR DESC Pectate Lyase C TITLE PECTATE LYASE C FROM ERWINIA CHRYSANTHEMI (EC16) TO A TITLE 2 RESOLUTION OF 2.2 ANGSTROMS WITH 128 WATERS COMPND MOL_ID: 1; COMPND 2 MOLECULE: PECTATE LYASE C; COMPND 3 CHAIN: NULL; COMPND 4 SYNONYM: PELC; COMPND 5 EC: 4.2.2.2 EXPDTA X-RAY DIFFRACTION REMARK 500 LOCATED ON SPECIAL POSITIONS IN THE CELL. ATOM 2 CA ALA 1 18.826 42.331 -25.276 1.00 70.68 C ATOM 10 CA THR 2 18.998 41.492 -21.571 1.00 53.15 C ATOM 19 CA ASP 3 15.722 39.566 -21.506 1.00 41.86 C ATOM 28 CA THR 4 16.215 35.986 -20.400 1.00 21.71 C ATOM 37 CA GLY 5 12.565 35.204 -19.631 1.00 16.48 C ATOM 42 CA GLY 6 13.444 35.213 -15.952 1.00 12.78 C 1( Berstein et al., 1977; Berman et al., 2000) M.Carpentier - UPMC M.Carpentier - UPMC Comparaison: introduction Comparaison de structures : un exemple Comparaison: introduction Comparaison de structures - Pourquoi ? 1fxi - Les différents types de comparaison / alignement : - Comparaison de deux structures, - Alignement ou recherche de motifs, - Recherche sur banque, - Comparaison de plusieurs structures (Alignement multiple)? (blanc) - Respect de l’ordre des résidus dans la séquence ou non 1ubq (gris) M.Carpentier - UPMC Comparaison: introduction Représentation M.Carpentier - UPMC Représentation Méthodologie Les structures : que comparer ? - Tous les atomes, les carbones α, les structures secondaires ? - Représentation - Mesure de similarité ou dissimilarité - Algorithme de comparaison - Post-traitement M.Carpentier - UPMC M.Carpentier - UPMC Comparaison: introduction Comparaison: introduction Les structures : que comparer ? Représentation - Tous les atomes, les carbones α, les structures secondaires ? - Tous les atomes, les carbones α, les structures secondaires ? M.Carpentier - UPMC Comparaison: introduction Les structures : que comparer ? Représentation M.Carpentier - UPMC Méthode superposition / alignement Les structures : que comparer ? Représentation - Tous les atomes, les carbones α, les structures secondaires ? Méthodes superposition / alignement Représentation et mesure de similarité où N est le nombre d'atomes mis en correspondance~: dans la structure B l'atome b'i est mis en correspondance avec l'élément ai de la structure A, et D(ai, b'i) est la distance entre les atomes ai et b'i après superposition optimale de tous les atomes mis en correspondance. Une superposition optimale de est une transformation rigide (une translationrotation) telle que le $RMSD_c$ est minimal. avec w(ai ,bj) le coût de la «~substitution~» de ai par bj , M=20 et d0=5Å. Les gaps sont permis et pénalisés. où i et j sont les paires de résidus en équivalence des deux protéines, Ngap le nombre de gaps, d0 et M des constantes comme précédemment. M.Carpentier - UPMC Programme Structal LEVITT, M. et GERSTEIN, M. (1998). A unified statistical framework for sequence comparison and structure comparison. Proc Natl Acad Sci U S A, 95(11) : 5913–20. M.Carpentier - UPMC Méthode superposition / alignement Méthode superposition / alignement Principe Superposition : minimisation du RMSD Superposition– le meilleur RMSD obtenu par alignement rigide Entrée : deux ensembles de points en 3D : P = {pi} et Q = {qi} où i=1…n Sortie : trouver une rotation 3D R0 (cad retourner la figure autour d’un point a étant donné R0 degrés) et une translation a0 (cad, chaque point de la figure bouge d’une distance a0 dans la même direction) telles que le RMSD soit minimal Solution : Beaucoup de méthodes pour trouver cette transformation optimale ont été décrites. Certaines font appel à un formalisme fondé sur les quaternions (Kearsley, 1989 ; Zuker and Somorjai, 1989), certaines utilisent une diagonalisation de matrices (Kabsch, 1976, 1978), certaines procèdent par itérations successives (Sippl and Stegbuchner, 1991) ou par minimisation (McLachlan, 1982, 1979 ; Lesk, 1986). M.Carpentier - UPMC Méthode superposition / alignement Alignement par programmation dynamique M.Carpentier - UPMC DALI DALI : représentation et score où i et j sont les indices des Cα dans la matrice (et non leur indice dans chaque protéine) et φ la fonction de mesure de similarité. M.Carpentier - UPMC où di,j est la moyenne de dAi,j et dBi,j , ΘE une constante égale à 0,2 (qui permet donc 20% de variation) et w(r) une fonction d'enveloppe: α=20Å. w(r) permet de moins prendre en compte les différences entre grandes distances (20Å est la taille typique d'un domaine). HOLM, L. et SANDER, C. (1993). Protein structure comparison by alignment of distance matrices. J M.Carpentier - UPMC Mol Biol, 233(1) : 123–38. DALI DALI DALI : principe 1) 2) 3) 4) DALI : algorithme Sélection des 40 000 meilleures paires d’hexa-matrices Subdivision des hexa-matrices en tetra-matrices chevauchantes Recherche des meilleures séries de paires de tétra-matrices par Monte-Carlo p = exp(B*(S'-S)) où S' est le score en incluant la nouvelle tétramatrice, S l’ancien score et B une constante. Affinement du meilleur alignement M.Carpentier - UPMC Recherche sur banque Recherche de similarités structurales dans un banque : YAKUSA M.Carpentier - UPMC Recherche sur banque Les angles α Les structures comme des séries de symboles Structures de la banque (PDB) Structure requête Recherche sur banque ...206−55−52−63−…−79−46−150−250−… ...α21−α05−α05−α06−…−α07−α04−α15−α25−… M. Carpentier, S. Brouillet, J. Pothier, YAKUSA: a fast structural databases scanning method, Proteins: Structure, Function, and Bioinformatics (2005). M.Carpentier - UPMC M.Carpentier - UPMC Recherche sur banque Recherche sur banque Les angles α Les structures comme des séries de symboles Les angles α Les structures comme des séries de symboles ...α03−α21−α14−α21−…−α17−α16−α03−α22−… ...α03−α21−α14−α21−…−α17−α16−α03−α22−… ...α21−α02−α13−α21−…−α19−α15−α20−α12−… ...α21−α02−α13−α21−…−α19−α15−α20−α12−… M.Carpentier - UPMC Recherche sur banque M.Carpentier - UPMC Recherche sur banque Recherche des « graines » Dictionnaire/Automate Recherche des « graines » Dictionnaire/Automate Structure requête : α1 α1 α2 α1 α2 α1 Structure requête : α1 α1 α2 α1 α2 α1 M.Carpentier - UPMC M.Carpentier - UPMC Recherche sur banque Recherche sur banque Recherche des « graines » Dictionnaire/Automate Recherche des « graines » Dictionnaire/Automate Structure requête : α1 α1 α2 α1 α2 α1 Structure requête : α1 α1 α2 α1 α2 α1 M.Carpentier - UPMC Recherche sur banque M.Carpentier - UPMC Recherche sur banque Recherche des « graines » Dictionnaire/Automate Recherche des « graines » floues Dictionnaire/Automate dégénéré Structure requête : α1 α1 α2 α1 α2 α1 Structure requête : α1 α1 α2 α1 α2 α1 α’1 ; classes d’angles proches de α1 (classes α0 et α2 par exemple) M.Carpentier - UPMC M.Carpentier - UPMC Recherche sur banque Sélection, extension des graines, construction des Blocs structuraux Recherche sur banque Résultats Structure requête (ribonucléase) graine Structure de la banque Structure de la banque Ribonucléase Glycérol dehydrogenase. Requête ...α03−α21−α14−α21−α21−α22−α24−α17−α16−α03−α22−… Banque Blocs structuraux ...α21−α02−α11−α24−α22 −α23 −α23−α19−α14−α20−α12−… Bloc structural (longueur k) k Score angulaire = ∑ T − dc(α r +i ,α b +i ) i= 0 3.313069E-11 2.065163E-10 α r +i , α b+i : angles α des structures requête (r) et de la banque (b) dc() : différence angulaire T : constante Recherche sur banque Score angulaire ~300 dans les deux cas (13 résidus) M.Carpentier - UPMC Cause (principale) : les structures secondaires périodiques M.Carpentier - UPMC Recherche sur banque Score probabiliste - Score basé sur la probabilité de trouver les blocs structuraux dans la banque; Requête α14−α21−α21−α22−α24−α17−α16−α03 Banque α11−α24−α22 −α23 −α23−α19−α14−α02 Probabilité Bloc structural - Dépendance -> Mixture Transition Distribution model ou MTD1 M.Carpentier - UPMC 1(Berchold et Raftery, 1989 ) M.Carpentier - UPMC Recherche sur banque Recherche sur banque Compatibilité « spatiale » Compatibilité « spatiale » M.Carpentier - UPMC Recherche sur banque M.Carpentier - UPMC Yakusa et Yakunet Conclusion • • • • • Conclusion - Perspectives Classification Prédiction de structure tertiaire Annotation des génomes Evolution des protéines Relation structure-fonction Bien d’autres problèmes en bioinformatique structurale. Disponible sur RPBS www.rpsb.jussieu.fr/Yakusa/ C. Alland, F. Moreews, D. Boens, M. Carpentier, S. Chiusa, M. Lonquety, N. Renault, Y. Wong, H. Cantalloube, J. Chomilier, J. Hochez, J. Pothier, B.O. Villoutreix, J.-F. Zagury, P. Tuffery, ; RPBS: a web resource for structural bioinformatics, Nucleic Acid Research, 2005, 33: W44-W49 M.Carpentier - UPMC Alignement multiple de structures Alignement multiple de structures Méthodes d’alignement multiple Les << m-diagonales >> Protéine 1 - Méthode des « m-diagonales » - Méthode du Gibbs sampling Angles α Protéine 2 - Méthode de recherche de motifs relationnels (Triades) Distances internes Protéine 3 Diagonale m dimensions : ici, diagonale 3 dimensions, combinaison de 3 diagonales 2 dimensions. M.Carpentier - UPMC Alignement multiple de structures M.Carpentier - UPMC Alignement multiple de structures Les « m-diagonales » Le Gibbs sampling Amélioration: -> prise en compte de la similarité des symboles, c-a-d le “flou” nécessaire pour les structures. L’existence d’un angle à une position du motif augmente la probabilité des angles similaires à cet angle à cette même position. 35 cytochromes P450 M.Carpentier - UPMC M.Carpentier - UPMC Alignement multiple de structures Alignement multiple de structures Le Gibbs sampling Recherche de motifs répétés : Triades Distances internes entre Cα Construction des motifs de taille k à partir des motifs chevauchants de taille inférieure. 35 cytochromes P450 N. Pisanti, H. Soldano, M. Carpentier, Incremental Inference of Relational Motifs with a Degenerate Alphabet , Lecture Note in Computer Science (proceedings CPM, Combinatorial Pattern Matching, Volume 3537, May 2005, Pages 229 - 240). M.Carpentier - UPMC Alignement multiple de structures Recherche de motifs répétés : Triades N. Pisanti, H. Soldano, M. Carpentier, J. Pothier, Ιmplicit and Explicit Representation of Approximated Motifs KCL series book, edited by C. Iliopoulos, K. Park and K. Steinhfel (à paraître en 2005) Alignement multiple de structures Comparaison des méthodes - Méthode des « m-diagonales » : - quorum réglable - alignement des paires de structures - Méthode du Gibbs sampling : - pas d’alignement des paires, comparaison d’un très grand nombre de structures - quorum fixe - Méthode de recherche de motifs répétés (Triades) : - pas d’alignement des paires, quorum réglable - exhaustivité - générique 4 cytochromes P450 M.Carpentier - UPMC M.Carpentier - UPMC