Algorithmes sur les séquences en bioinformatique

publicité
Structure et représentation des protéines
M2 - STL
Chaîne d’acides-aminés (1D)
Algorithmes sur les séquences
en bioinformatique
Chaîne d’éléments structuraux
réguliers (2D)
Cours 6 : Algorithmes d’alignement de structures
des protéines
Alessandra Carbone
Université Pierre et Marie Curie
Structure 3D d’une chaîne
d’acides-aminés.
A.Carbone - UPMC
Problème de la comparaison structurale entre protéines
Structure 3D de plusieurs chaînes
d’acides-aminés.
2
Quelques faits sur la structure 3D
Hypothèse de travail principale : une protéine se replie dans une structure unique,
qui est dépendante seulement de la séquence.
Les méthodes les plus communes pour trouver la structure 3D des protéines sont :
-Cristallographie – réalisée avec la diffraction des rayons-X et la diffraction des neutrons.
-Résonance Magnétique Nucléaire (Nuclear Magnetic Resonance - NMR)
Le fort intérêt pour des algorithmes de prédictions de la structure des protéines vient du fait
que ces méthodes sont lentes et chères.
Un atome est modélisé par une balle ayant un rayon de van der Waals.
Le rayon de Van der Waals d’un atome est défini comme le rayon minimum qui ne permet
pas le chevauchement avec d’autres atomes.
La prédiction sera réalisée, quand cela est possible, à travers une comparaison 3D
de structures :
- la structure 3D est plus conservée à travers l’évolution que la séquence
- la structure 3D contient plus d’information que la séquence (e.g. sites actifs)
Exemple de van der Waals radius
A.Carbone - UPMC
3
A.Carbone - UPMC
4
1
Chaque acide-aminé a un atome de carbone appelé Cα, qui est connecté à un groupe carboxyle
et un amino-groupe, un atome hydrogène et une partie qui dépend de l’acide amine spécifique,
appelé résidu.
Les atomes Cα forment le squelette (backbone) de support de tous les autres atomes.
b.
a.
Dans une chaîne protéique, l’amino-groupe d’un acide-aminé est connecté au carboxyle groupe
de l’acide-aminé qui le suit.
c.
Cα
5
Méthodes pour la prédiction du repliement d’une protéine
a.
b.
c.
Cα de chaque acide-aminé
Tous les atomes formant le backbone du polypeptide
Liens hydrogènes qui permettent la formation des hélices α
6
Alignement structurale des protéines
Ils existent plusieurs approches pour approximer la structure d’une protéine :
Modélisation par homologie – utilise une base de données de protéines pour chercher des
séquences similaires. Si une protéines avec homologie d’au moins 30% est trouvée, c’est
assez probable que les deux protéines ont la même structure.
Threading – classifie structures connues dans des familles avec repliement similaire.
Étant donnée une séquence d’acides aminés, la méthode sélectionne la famille d’appartenance
la plus probable : aligne la protéine à une protéine similaire dont on connaît la structure,
et utilise la nouvelle structure comme point de départ pour effectuer des opérations
de repliement plus fines.
Représentation 3D discrète de la forme d’une molécule. Caractéristiques critiques possibles :
- squelette des Cα
- squelette des Cα et Cβ
- éléments de la structure secondaire (hélices α et feuillets β)
- représentation de la surface moléculaire
Ab initio – quand on a aucune information sur l’homologie d’une protéine on est forcé à replier
la protéine ab initio. Les solutions sont algorithmiquement difficiles même dans les modèles
les plus simples.
Exemple : si on divise les acides-aminés en hydrophiles et hydrophobes, on peut essayer de
construire la structure 3D en minimisant les répulsions et en maximisant les attractions entre
acides-aminés voisins. Il a été montré que la résolution de ce modèle est NP-complet, même
s’il y a des approches euristique avec ratio d’approximation 2/3.
A.Carbone - UPMC
7
Coordonnées Cα de deux molécules
A.Carbone - UPMC
8
2
Problème : Comparaison de deux structures
Entrée : un ensemble de coordonnées atomiques des deux molécules
Sortie : transformation rigide (rotation et translation) dans l’espace qui permet l’appariement
d’un nombre suffisant d’atomes d’une molécule aux atomes de l’autre.
Les algorithmes qui essaye de résoudre ce problème sont classifiables dans deux catégories:
1.
Dépendant de l’ordre de la séquence. Utilise l’ordre des atomes dans la chaîne protéique,
en réduisant le problème à un problème de matching d’une courbe 3D (essentiellement un
problème 1D).
Avantages:
-Les biologistes sont parfois plus intéressés à des motifs qui préservent l’ordre de la séquence
-La puissance calculatoire nécessaire est réduite par l’usage de l’ordre d’une chaîne
2.
Indépendant de l’ordre de la séquence. Alignement de propriétés dans un espace 3D
(un problème 3D).
Avantages:
- les techniques détectent des motifs 3D non-séquentiels, comme des motifs sur la surface de la
molécule, et en particulier les sites d’interaction.
- bdd structurelles sont approchables avec de l’information structurelle partielle
- l’algorithme peut être applicable à d’autres structures moléculaires
- l’algorithme n’est pas affecté par insertions et délétions.
A.Carbone - UPMC
9
On peux décomposer le problème de la comparaison structurale en deux :
1.
2.
matching – détection des propriétés de matching (difficile)
meilleure superposition par rapport à des propriétés de matching données – trouver une
transformation d’une structure dans l’autre avec RMSD (Root Mean Square Deviation:
elle mesure les différences entre les positions des atomes Cα entre deux protéines)
minimale.
Superposition (2) – le meilleur RMSD obtenu par alignement rigide
Entrée : deux ensembles de points en 3D : P = {pi} et Q = {qi}
où i=1…n
Sortie : trouver une rotation 3D R0 (cad retourner la figure autour d’un point a étant donné R0
degrés) et une translation a0 (cad, chaque point de la figure bouge d’une distance a0 dans
la même direction) telles que minR,a ∑i |Rpi + a - qi |2 = ∑i |R0pi + a0 - qi |2
Solution : une solution pour ce problème existe et elle demande une analyse des eigenvalues
de la matrice de corrélation des points.
A.Carbone - UPMC
10
Algorithme d’alignement rigide basé sur les techniques d’hachage
géométrique (Wolfson et al. 1988, 2000)
Un cas simple du problème de matching (1)
Algorithme organisé en deux parties : preprocessing et reconnaissance
On considère le fait que les objets sont des corps rigides. Dans ce cas le matching d’une
paire de triplets de points ordonnés défini de façon unique une transformation 3D rigide.
Preprocessing
Tous les modèles d’une bdd sont considérés. Pendant cette phase, pour chaque modèle,
son information géométrique est codifiée dans un tableau d’hachage.
Algorithme :
Reconnaissance
- Pour chaque paire de triplets, une pour
chaque molécule, définissant des triangles
« presque congruents », calculer la
transformation qui superpositionne les triangles.
- Calculer le nombre de paires de points qui sont presque superposées et donner un
score dépendant de ce nombre à la superposition des deux objets.
- Choisir la superposition qui obtient le score plus élevé et améliorer la transformation en
la remplaçant par la meilleur transformation RMSD, pour toutes paires matchées.
Etant donné un objet, ses caractéristiques sont déduites. Ces caractéristiques sont utilisées
pour faire correspondre l’objets à plusieurs entrées dans le tableau d’hachage.
Complexité : O(n7), où O(n) est le nombre de points dans chaque molécule.
A.Carbone - UPMC
11
Une structure de référence 3D est un triplet
de vecteurs orthogonales ayant une origine
commune. Elle peut être définie de façon
unique par les sommets d’un triangle
non-dégénéré.
A.Carbone - UPMC
Exemple de structure
de référence 3D
12
3
Supposons ex, ey, ez les trois vecteurs unité. Chaque point en 3D peut être représenté
en utilisant la structure de référence comme v= αex + βey + γez + p1.
Reconnaissance. Le matching de l’objet cible est réalisé comme suit :
La longueur des côtés du triangle que l’on veut stocker (CαNCβ ) est invariante par translation
et par rotation, et en conséquence, on peut définir à partir de la structure de référence, une
signature de la forme en fixant les longueurs des côtés du triangle.
1.
Algorithme :
Preprocessing. Pour chaque objet modèle fait ce qui suit::
1.
2.
3.
4.
5.
Choisir une structure de référence.
Calculer la base orthonormale 3D associée à la structure de référence et sa signature
de forme (la longueur des côtés du triangle).
Calculer les coordonnées de tous les autres points (dans un voisinage pre-specifié) dans
cette structure de référence.
Utiliser chaque coordonnée comme une adresse du tableau d’hachage. Mémoriser
l’entrée (identificateur de protéine, structure de référence, signature de forme, points)
à l’adresse du tableau d’hachage.
Répéter les étapes 1-4 pour chaque structure de référence modèle (modèle de triplet
non-collinéaire de points).
A.Carbone - UPMC
13
Pour chaque structure de référence de l’objet cible :
a. Calculer la base orthonormale et la signature de la forme associée
b. Calculer les coordonnées de tous les autres points dans la structure de référence
courante.
c. Utiliser les coordonnées pour accéder au tableau de hachage et récupérer tous les
enregistrements (identificateur de protéine, structure de référence, signature de la
forme, points)
2.
Pour les enregistrements avec une signature de la forme donnée, « voter » pour les
paires (identificateur de protéine, structure de référence).
3.
Calculer les transformations des paires ayant des scores élevés. Pour chaque hypothèse,
il sera possible de calculer aussi les paires de points qui matchent. La liste des matching
et les transformations associées forment ce que l’on appelle « germe du matching ».
A.Carbone - UPMC
14
On peut maintenant construire un algorithme d’alignement qui utilise l’hachage géométrique
comme suit.
- définir le voisinage locale d’un résidu. Noter que si on utilise tous les trois points
pour chaque triplet, chaque atome sera représenté de façon redundante. Il apparaîtra dans la
table d’hachage dans toutes structures de référence. (En pratique, comme on n’est pas
intéressé aux atomes qui sont trop proches ou trop loin alors on prendra seulement les
atomes qui se trouvent dans un rayon entre un max et un min.)
- Appliquer la technique de l’hachage géométrique aux points voisins pour détecter les
germes du matching définis par une transformation et une liste de matching. Plusieurs listes
de matching pourrons partager la même transformation.
Complexité :
N
O(n)
R
S
nombre de protéines dans la bdd
nombre de caractéristiques par structure de protéine
nombre de structures de référence, typiquement R= n, n2, n3
taille de l’entrée du tableau d’hachage (s peut être maintenu petit)
- On clustérise germes de matching et on réunie listes de matching
- Étape d’extension: les germes de matching sont étendus pour contenir des paires de
matching en plus.
Preprocessing
Reconnaissance
O(N * R * n)
O(R * N * s)
- La meilleure transformation par rapport au RMSD est calculée. Pour cette raison, un
algorithme itératif heuristique qui minimise la somme des distances entre des nouvelles
paires est appliqué.
A.Carbone - UPMC
15
A.Carbone - UPMC
16
4
Algorithme d’alignement flexible basé sur les techniques d’hachage
géométrique (Wolfson et al. 2000)
1.
Il y a deux types de mouvement possible pour une protéine : à charnières (hinge motion)
et de cisaillement (shear motion). L’approche d’hachage géométrique peut être étendu pour
traiter ces cas flexibles aussi. La méthode demande par contre la connaissance au préalable
de la position des charnières.
2.
Entrée : deux molécules A = v1 … vn et B = w1…wn représentées par leurs coordonnées Cα.
Sortie : décomposition des deux molécules dans un nombre minimal de fragments disjoints
de taille maximale, telle que le nombre de Cα dans chaque fragment est le plus proche
possible au nombre des Cα du fragment matché et telle qu’il existe une translation rotationelle
en 3D qui superpose les atomes correspondants avec un plus petit RMSD.
Détecter des fragments rigides congruents qui soient suffisamment grands.
Construire une liste de paires d’atomes en correspondance (matching) constituée par
une seule paire tout au début. Itérativement, étendre la liste en ajoutant une paire
d’atomes à la gauche et une à la droite (en suivant la direction du backbone) jusqu’à
l’obtention de la plus longue paire de fragments congruents consécutifs qui inclue la
liste de paires d’atomes de départ. Pour calculer la liste de paires d’atomes
correspondants contigus, itérer cette étape pour tous les atomes Vi,Vj.
Trouver une séquence de fragments disjoints que suivra la séquence de Cα de A et de B.
La méthode est similaire à celle utilisée dans l’algorithme FastA:
a.
a.
c.
A.Carbone - UPMC
17
M1
k
d.
e.
f.
g.
h.
j
gap1
t
M2
b
p
gap2
18
Représentation de la surface moléculaire
s’il n’y a pas de chevauchement, alors ∆ = 0.
l est défini comme la longueur de M1.
gap1 = b-j et gap2 = p-t
W(e)= - ( (l -1) - ∆ )2 + max ( |gap1|, |gap2|) + ||gap1|-|gap2||
i
Les listes de matching sont représentées comme
des nœuds d’un graphe.
Rejoindre deux nœuds par un arc, si la paire fragment
qu’ils représentent est consécutive dans l’alignement.
Les paires fragments peuvent chevaucher sur un
intervalle maximale de 2∆. Le résultat est un
graphe dirigé acyclique.
A chaque arc on assigne un poids de pénalité W(e).
L’idée étant de favoriser des fragments correspondants
très longs et de pénaliser les long gaps. Définir M1
et M2 deux listes d’atomes en correspondance
Vi…Vj avec Vk…Vt
et
Vb…Vf avec Vp…Vr.
où 0<i<j<f<n, b<f et 0<k<t<r<m, p<r
Une bonne représentation de la surface moléculaire aide à
-l’étude du repliement de la protéine,
-la prédiction de la reconnaissance biomoléculaire
-la détection des cavités jouant un rôle important dans l’interaction avec les médicaments.
f
r
Un nœud virtuel, appelé nœud de départ, et les arcs sortant de ce nœud et dirigés
vers tous les autres nœuds, ayant coût 0, sont ajoutés au graphe.
L’algorithme de recherche du chemin le plus court qui part du nœud de départ est
appliqué au graphe. Cela permettra le calcul du chemin le plus court à partir de chaque
nœud.
Tous les chemins possibles sont collectionnés et classés dans des groupes différents
par rapport au nombre des nœuds dans le chemin.
l’RMSD du chemin est calculé et les chemins de chaque groupe sont ordonnés par
rapport à cette valeur.
Pour chaque groupe, les 10 meilleurs résultats donnerons les possibles solutions,
chacune ayant un nombre de charnières différent.
Comme la complexité des algorithmes dépends du nombre de points représentants la surface
moléculaire, un problème important dans cette représentation concerne la dispersion des
points intéressants qui représentent la molécule.
Complexité de l’algorithme : O(k4), où k = max(|A|,|B|).
A.Carbone - UPMC
19
A.Carbone - UPMC
20
5
Représentation courante (Connolly, 1983). Une balle d’eau virtuelle (de 1.4-1.8Å de diamètre)
est roulée sur la surface de van der Waals pour rendre lisse la surface et éliminer les
zones qui ne sont pas accessibles au solvant. Cet algorithme partitionne la surface dans des
zones convexes, concaves et à selle dépendamment du nombre de points de contacte entre
la surface des atomes et la balle d’eau. En sortie, la représentation consiste en un ensemble
de points et de vecteurs normales à la surface. Ces points sont choisis par rapport à une
densité de référence (par exemple, 10 points/ Å2 ).
Zone convexe
Zone a selle
Zone concave
Représentation de
Crambin
A.Carbone - UPMC
21
L’un des avantages d’avoir une bonne représentation de la surface moléculaire est la
possibilité de visualiser la complémentarité des formes aux interfaces.
A.Carbone - UPMC
22
Critical Points Representation
g = centre de gravité de la face
c = projection du
centre de gravité
sur la surface
La représentation basée sur un ensemble de points et de normales est assez dense.
Exemples de représentations qui emploient un nombre modéré de points :
-Critical Points Representation (Wolfson et al. 1994)
-Solid Angle Local Extrema (Connolly, 1986)
-SPHGEN (Kuntz et al. 1982)
A.Carbone - UPMC
p = point d’intersection entre
le plan orthogonal à ab
passant par O et la droite
passant par cg
S = face de Connolly
(elle peut etre convexe, concave ou a selle)
23
A.Carbone - UPMC
a et b = atomes; entre ces deux atomes
on retrouve l’axe du tore
24
6
Solid Angle Local Extrema
SPHGEN
Une sphère est centrée à la surface d’une protéine et la fraction de la sphère détectée à
l’intérieure de la protéine est mesurée. Si plus de la moitié de la sphère est à l’intérieure de
la protéine alors la région est concave, si non la région est convexe.
A.Carbone - UPMC
25
Un ensemble de sphères chevauchantes est
généré pour décrire la forme de la molécule
ou de la surface d’une molécule.
A.Carbone - UPMC
26
Amarrage (docking)
Problème : Docking
Entrée : une molécule récepteur (R) et
une molécule ligand (L)
Sortie : un matching entre la surface de R
et la surface de L maximisant l’aire de contacte
entre les surfaces.
L’idée principale de docking est celle de « clé et serrure ». Le ligand est la clé, petit et
possiblement flexible. Le récepteur est la serrure, grande et généralement ayant un niveau
de flexibilité limitée.
Trypsin inhibitor
Mieux les deux molécules s’approchent, meilleure sera l’interaction du médicament avec
la molécule cible.
Trypsin protein
Il y a des molécules que sont rigides mais il y en a d’autres qui ne le sont pas complètement
et qui présentent une flexibilité limitée. D’habitude cette flexibilité est localisée dans
certaines positions spécifiques (dites charnières - hinges) entre deux parties de la molécule.
Dans une charnière il y a d’habitude une variétés d’angles possibles où la partie rigide peut
roter.
a. Deux parties rigides et une charnière
de la molécule
b. Les deux parties avec le récepteur
2ptc complex : bovin trypsin protease (245 aa)
complexed with a trypsin inhibitor (58 aa)
A.Carbone - UPMC
27
A.Carbone - UPMC
28
7
Etapes principales de la méthode de docking
La classe des problèmes d’amarrage as deux sous-classes majeures:
1. Le problème de docking rigid
2. Le docking flexible – une ou deux molécules ont un degré de liberté. Ce problème est
plus difficile.
Quand une méthode de docking est évaluée il faut examiner les problèmes suivants:
1. est-ce que la méthode traite la flexibilité ?
a. si oui, est-ce que une ou deux protéines sont flexibles?
b. qu’est-ce que le nombre de liens flexibles permis et le coût pour l’ajoute de flexibilité?
2. est-ce que la méthode demande une connaissance a priori du site d’interaction?
3. efficacité/rapidité dans l’exploration de larges librairies.
A.Carbone - UPMC
29
A.Carbone - UPMC
30
Base de données de test : Chen benchmark
Docking entre protéines
85
150*75 = 11250
30000
complexes protéiques, dont 150 protéines différentes qui peuvent
potentiellement interagir
paires de protéines à vérifier
positions à tester par
paire de protéines
30.000
200sec
30.000*200=1600h
1600h*11250=18.000.000h=
=750.000 jours ~ 2050ans
La connaissance des sites de
liaison diminue très fortement le
coût de ses recherches et réduit le
test à 300 positions.
300
16h*11250=180000h=7500 jours ~ 20ans
A.Carbone - UPMC
31
A.Carbone - UPMC
positions différentes à vérifier par docking
pour chaque paire de protéines
temps de calcul par position
temps de calcul pour chaque paire
temps de calcul totale sur un PC à 2Ghz
positions différentes à vérifier par docking
pour chaque paire de protéines
temps de calcul totale sur un PC à 2Ghz
32
8
Références bibliographiques
Anfinsen CB. Principles that govern the folding of protein chains. Science, 181:223--230, 1973.
M. Connolly. Measurement of protein surface shape by solid angles. J. Mol. Graph., 4:3--6, 1986.
M.L. Connolly. Solvent-accessible surfaces of proteins and nucleic acids. Science, 221:709--713, 1983.
M. Gerstein, A.M. Lesk, and C. Chothia. Structural Mechanisms for Domain Movements in Proteins.
Biochemistry, 33(22):6739--6749, 1994.
But final
I. Kuntz, J. Blaney, S. Oatley, R. Langridge, and T. Ferrin. A geometric approach to
macromolecule-ligand interactions. J. Mol. Biol., 161:269--288, 1982.
Étudier les interactions d’une base de données de 4000
protéines
Y. Lamdan, J. T. Schwartz, and H. J. Wolfson. Object Recognition by Affine Invariant Matching. In
Proceedings of the IEEE Computer Vision and Pattern Recognition Conf., pages 335--344, Ann Arbor,
Michigan, June 1988.
Y. Lamdan, J. T. Schwartz, and H. J. Wolfson. On Recognition of 3-D Objects from 2-D Images. In
Proceedings of IEEE Int. Conf. on Robotics and Automation, pages 1407--1413, Philadelphia, 1988.
B. Lee. The interpretation of protein structures: estimation of static accessibility. J. Mol. Biol., 55:379-400, 1971.
S. L. Lin, R. Nussinov, D. Fischer, and H.J. Wolfson. Molecular Surface Representation by Sparse
Critical Points. PROTEINS: Structure, Function and Genetics, 18:94--101, 1994.
A.Carbone - UPMC
33
A.Carbone - UPMC
34
M. Shatsky, Z.Y. Fligelman, R. Nussinov, and H. Wolfson. Flexprot: an algorithm for alignment of flexible
protein structures. J. Proc. 8th International Conference onIntelligent Systems for Molecular Biology
(ISMB '00)., pages 329--343, 2000.
S. Umeyama. Least-Squares Estimation of Transformation Parameters Between Two Point Patterns.
IEEE Transactions on Pattern Analysis and Machine Intelligence, PAMI-13(4):376--386, April 1991.
Comparing proteins 3D structure algorithm.
R.; Verbitsky, G.; Nussinov and H. Wolfson. Structural comparison allowing hinge bending, swiveling
motions. PROTEINS: Structure, Function and Genetics, 34:232--254, 1999.
A.Carbone - UPMC
35
9
Téléchargement