Étude des classes d`atomes des protéines pour la prédiction d

publicité
Analyses de Données Biologiques
05 février 2008
Étude des classes d’atomes des protéines pour la
prédiction d’interactions moléculaires
Rantanen V.V., Gyllenberg M., Koski T. et Johnson M.S.
Mars 2002 – Bioinformatics
Présenté par Mathieu Almeida, Amine Ghozlane
Introduction
• Interactions moléculaires des protéines
– Nombreuses cibles possibles
• Ions, petites molécules, protéines, ADN, ARN
– Conception d’un médicament
Identification du ligand
• RMN
• Cristallographie
Rayon x
Prédiction du ligand
• Criblage virtuel
Docking
Introduction
• Interactions moléculaires des protéines
– Nombreuses cibles possibles
• Ions, petites molécules, protéines, ADN, ARN
– Conception d’un médicament
Identification du ligand
• RMN
• Cristallographie
Rayon x
Prédiction du ligand
• Criblage virtuel
Docking
On a besoin de comprendre comment s’effectue la liaison
Introduction
• Identification des interactions
Analyse d’une
base de donnée
Modélisation
Moléculaire
Évaluation des champs
de force
(GRID, AQUARIUS)
Reconnaissance
statistique des
modèles
Évaluation statistique des
liaisons d’un groupement
(SuperStar, X-Site)
Utilisation de
classes
d’atomes
Identification des interactions
Amélioration des classifications des atomes intervenant dans les
interactions protéiques
Construction d’une librairie d’interaction
12880 fichiers de coordonnées
Interaction protéine -ligand
930 pairs d’interaction protéine
– protéine non homologues
Atomes impliqués dans les interactions
Classification en 24 classes des atomes des protéines impliqués
dans ces liaisons
Li A.J. et
Nussinov R. 1998
Classes comportant
les même types
d’atomes
Construction d’une librairie d’interaction
Estimation de l’erreur :
classe Carbone
classe Oxygène
 Hypothèse :
 Existence d’un groupement plus naturel des atomes pour une
meilleure prédiction
Estimation de la distribution des atomes de
protéines autour de ligands
I - Classification des ligands en 30 fragments
•
•
•
•
9 classes Azotes
9 classes Oxygène
10 classes Carbones
2 classes Sulfures
Estimation de la distribution des atomes de
protéines autour de ligands
II - Disposition des atomes de protéines dans un systèmes de coordonnée centré sur F
Distance entre l’atome M du fragment
et l’atome de la classe Ck
angles α, г
x = {r, α, г}
T atome de la
classe Ck
autres atomes du
ligand liés à M
M atome principal du ligand
Centre du repère x,y,z
Estimation de la densité de probabilité
d’une interaction
III – Estimation du nombre optimal de mélanges gaussiens
 Utilisation de plusieurs lois normales
Estimation de la densité de probabilité
d’une interaction
III – Estimation du nombre optimal de mélanges gaussiens
Dispositions des atomes d’oxygène
carboxylé de la classe 23 autour d’un
atome d’Azote.
Distribution optimal des intéractions dès le
mélange de 3 distributions gaussiennes
Estimation de la densité de probabilité
d’une interaction
IV - Densité de probabilité d’interaction entre Ck et F
Mfk = nombre de composante du mélange Gaussien
βj = distribution du mélange Gaussien
Pf(x|Ck, θj) = Fonction de distribution Gaussienne
• Maximisation de la log-vraisemblance de la densité de probabilité par l’algorithme EM
Lf(Ck, Θ) = Estimation du paramètre θj de la classe
Calcul de la matrice de dissimilarité des
classes d’atomes de protéine
 But:
Estimer la différence d’association aux fragments de ligand entre les classes d’atome Ck.
Ecart entre la densité de probabilité que
F interagisse avec une atome de la classe Ci ou Cj
(distance de Jeffrey)
distances Euclidiennes
entre les classes d’atomes Ck
Classification hiérarchique des classes
d’atomes protéiques
 But :
 Visualiser la différence d’association aux fragments des atomes des protéines (Ck)
 Hypothèse:
 Les classes d’atomes de protéine 4, 5, 6 et 8, 10 peuvent être regroupées.
Validation des résultats
Bootstrap
Jackknife
Estimation de
la cohérence
interne et de la
stabilité des
classes
Coefficent de
corrélation
cophénétique
Estimation
de la
précision
MANOVA
Qualité des
classes
Coefficient cophénétique : 0.85 ≥ 0.8
Dendrogramme construit par KITCH
Package PHYLIP (Felsenstein - 1985)
 r²= 72% de la variance de la matrice de
dissimilarité
Classification hiérarchique des classes
d’atomes protéiques
Classe des Carbones
Classe des Oxygènes
Classe des Azotes
Classe des Sulfures
Package PHYLIP (Felsenstein - 1985)
Classification hiérarchique des classes
d’atomes protéiques
Forte proximité entre les classes
d’atomes de carbone 4-5-6 (D4-5=19,6,
D5-6=23.0) et 7-8 (D7-8=14,4)
Forte dissimilarité entre les
classes d’atomes 8-10
Package PHYLIP (Felsenstein - 1985)
 Proposition des auteurs :
– fusion des classes 7-8 , 4-5 et 8-10
Distribution de la dissimilarité des classes
d’atomes des protéines
 But :
 Visualiser la dissimilarité au sein des classes d’atomes de protéine par MDS
Pas de stress indiqué
Classe des
Carbones
 Fort regroupement de la classe carbone
– Redondances de cette classe
Classe des
oxygènes
et azotes
Discussion - Conclusion
• Réalisation d’une matrice des dissimilarités entre les classes d’atomes grâce aux
mélanges gaussiens
 Estimation des distances classes d’atomes
+ Informe bien sur la dissimilarité des classes d’atome
- Contradiction sur les interprétations des distances lié à son estimation globale
• Visualisation des dissimilarités par Classification Hiérarchique et MDS
Mise en évidence des regroupements des classes
Redondance de la classe Carbone : fusion des classes d’atomes 4-5, 7-8 et 8-10
+ Mise en évidence du regroupement sur des distances
- Classe 8-10 : Problème de la classification hiérarchique
• Étude des interactions atomes – ligands par Reconnaissance statistique
des modèles
+ Pas limitation lié au temps calcul, ni d’analyse de base de donnée
+ Permet de considérer les interactions protéine – protéine
- Interprétation complexe : considère simultanément plusieurs caractéristiques
- Méthode prédisant encore mal les interactions de la classe Carbone
Perspectives
• Étudier les 30 matrices individuellement
 nature environnemental (complexe avec le solvant) et chimique
des dissimilarités
• Déterminer si la nouvelle classification proposé par les
auteurs améliore les prédictions d’interaction
• Réalisation d’un logiciel de prédiction des interactions
protéine - ligand et protéine - protéine
Annexes
Banque de donnée PDB
 Informations contenu dans les structures 3D est la clé de la
compréhension des fonctions protéiques au niveau atomique
MDL
• Minimum description
length
• Dimension du modèle
de mélange
ERROR
Erreur importante pour les classes carbones
Téléchargement