Analyses de Données Biologiques 05 février 2008 Étude des classes d’atomes des protéines pour la prédiction d’interactions moléculaires Rantanen V.V., Gyllenberg M., Koski T. et Johnson M.S. Mars 2002 – Bioinformatics Présenté par Mathieu Almeida, Amine Ghozlane Introduction • Interactions moléculaires des protéines – Nombreuses cibles possibles • Ions, petites molécules, protéines, ADN, ARN – Conception d’un médicament Identification du ligand • RMN • Cristallographie Rayon x Prédiction du ligand • Criblage virtuel Docking Introduction • Interactions moléculaires des protéines – Nombreuses cibles possibles • Ions, petites molécules, protéines, ADN, ARN – Conception d’un médicament Identification du ligand • RMN • Cristallographie Rayon x Prédiction du ligand • Criblage virtuel Docking On a besoin de comprendre comment s’effectue la liaison Introduction • Identification des interactions Analyse d’une base de donnée Modélisation Moléculaire Évaluation des champs de force (GRID, AQUARIUS) Reconnaissance statistique des modèles Évaluation statistique des liaisons d’un groupement (SuperStar, X-Site) Utilisation de classes d’atomes Identification des interactions Amélioration des classifications des atomes intervenant dans les interactions protéiques Construction d’une librairie d’interaction 12880 fichiers de coordonnées Interaction protéine -ligand 930 pairs d’interaction protéine – protéine non homologues Atomes impliqués dans les interactions Classification en 24 classes des atomes des protéines impliqués dans ces liaisons Li A.J. et Nussinov R. 1998 Classes comportant les même types d’atomes Construction d’une librairie d’interaction Estimation de l’erreur : classe Carbone classe Oxygène Hypothèse : Existence d’un groupement plus naturel des atomes pour une meilleure prédiction Estimation de la distribution des atomes de protéines autour de ligands I - Classification des ligands en 30 fragments • • • • 9 classes Azotes 9 classes Oxygène 10 classes Carbones 2 classes Sulfures Estimation de la distribution des atomes de protéines autour de ligands II - Disposition des atomes de protéines dans un systèmes de coordonnée centré sur F Distance entre l’atome M du fragment et l’atome de la classe Ck angles α, г x = {r, α, г} T atome de la classe Ck autres atomes du ligand liés à M M atome principal du ligand Centre du repère x,y,z Estimation de la densité de probabilité d’une interaction III – Estimation du nombre optimal de mélanges gaussiens Utilisation de plusieurs lois normales Estimation de la densité de probabilité d’une interaction III – Estimation du nombre optimal de mélanges gaussiens Dispositions des atomes d’oxygène carboxylé de la classe 23 autour d’un atome d’Azote. Distribution optimal des intéractions dès le mélange de 3 distributions gaussiennes Estimation de la densité de probabilité d’une interaction IV - Densité de probabilité d’interaction entre Ck et F Mfk = nombre de composante du mélange Gaussien βj = distribution du mélange Gaussien Pf(x|Ck, θj) = Fonction de distribution Gaussienne • Maximisation de la log-vraisemblance de la densité de probabilité par l’algorithme EM Lf(Ck, Θ) = Estimation du paramètre θj de la classe Calcul de la matrice de dissimilarité des classes d’atomes de protéine But: Estimer la différence d’association aux fragments de ligand entre les classes d’atome Ck. Ecart entre la densité de probabilité que F interagisse avec une atome de la classe Ci ou Cj (distance de Jeffrey) distances Euclidiennes entre les classes d’atomes Ck Classification hiérarchique des classes d’atomes protéiques But : Visualiser la différence d’association aux fragments des atomes des protéines (Ck) Hypothèse: Les classes d’atomes de protéine 4, 5, 6 et 8, 10 peuvent être regroupées. Validation des résultats Bootstrap Jackknife Estimation de la cohérence interne et de la stabilité des classes Coefficent de corrélation cophénétique Estimation de la précision MANOVA Qualité des classes Coefficient cophénétique : 0.85 ≥ 0.8 Dendrogramme construit par KITCH Package PHYLIP (Felsenstein - 1985) r²= 72% de la variance de la matrice de dissimilarité Classification hiérarchique des classes d’atomes protéiques Classe des Carbones Classe des Oxygènes Classe des Azotes Classe des Sulfures Package PHYLIP (Felsenstein - 1985) Classification hiérarchique des classes d’atomes protéiques Forte proximité entre les classes d’atomes de carbone 4-5-6 (D4-5=19,6, D5-6=23.0) et 7-8 (D7-8=14,4) Forte dissimilarité entre les classes d’atomes 8-10 Package PHYLIP (Felsenstein - 1985) Proposition des auteurs : – fusion des classes 7-8 , 4-5 et 8-10 Distribution de la dissimilarité des classes d’atomes des protéines But : Visualiser la dissimilarité au sein des classes d’atomes de protéine par MDS Pas de stress indiqué Classe des Carbones Fort regroupement de la classe carbone – Redondances de cette classe Classe des oxygènes et azotes Discussion - Conclusion • Réalisation d’une matrice des dissimilarités entre les classes d’atomes grâce aux mélanges gaussiens Estimation des distances classes d’atomes + Informe bien sur la dissimilarité des classes d’atome - Contradiction sur les interprétations des distances lié à son estimation globale • Visualisation des dissimilarités par Classification Hiérarchique et MDS Mise en évidence des regroupements des classes Redondance de la classe Carbone : fusion des classes d’atomes 4-5, 7-8 et 8-10 + Mise en évidence du regroupement sur des distances - Classe 8-10 : Problème de la classification hiérarchique • Étude des interactions atomes – ligands par Reconnaissance statistique des modèles + Pas limitation lié au temps calcul, ni d’analyse de base de donnée + Permet de considérer les interactions protéine – protéine - Interprétation complexe : considère simultanément plusieurs caractéristiques - Méthode prédisant encore mal les interactions de la classe Carbone Perspectives • Étudier les 30 matrices individuellement nature environnemental (complexe avec le solvant) et chimique des dissimilarités • Déterminer si la nouvelle classification proposé par les auteurs améliore les prédictions d’interaction • Réalisation d’un logiciel de prédiction des interactions protéine - ligand et protéine - protéine Annexes Banque de donnée PDB Informations contenu dans les structures 3D est la clé de la compréhension des fonctions protéiques au niveau atomique MDL • Minimum description length • Dimension du modèle de mélange ERROR Erreur importante pour les classes carbones