Bioinformatique moléculaire • Qu’est-ce que la bioinformatique ? – Dogme central en biologie – Protocole scientifique • Quantité de données • Qu’est-ce que la bioinformatique moléculaire? • Défis en bioinformatique moléculaire – Défis particuliers – Défis techniques • Compréhension rationnelle des phénomènes biologiques à l’échelle moléculaire H06 IFT6292/BIN6001 - F. Major 1 Qu’est-ce que la bioinformatique? La définition précise de la bioinformatique est sans aucun doute matière à débat. Selon Russ Altman, à la lumière des articles scientifiques publiées dans le domaine, la bioinformatique correspond à deux flux d’information en biologie moléculaire. Le premier est celui du dogme central en biologie, soit ADN -> ARN -> protéines, qui se replient en trois dimensions pour effectuer leur fonction, sélectionnée selon les lois de l’évolution Darwinienne, càd par des facteurs environnementaux. La première classe de bioinformatique s’adresse donc au transfert d’information à n’importe quel niveau du dogme central, incluant l’organisation de l’ADN dans les chromosomes. Le deuxième flux vient du protocole scientifique. Nous créons des hypothèses sur les activités biologiques, mettons au point des expériences pour tester ces hypothèses, modifions les hypothèses en fonction des résultats des nouvelles expériences, et on boucle en quête de nouvelles hypothèses et connaissances. La deuxième classe de bioinformatique adresse le transfert d’information dans ce protocole et on y inclut alors les systèmes in silico, générateurs d’hypothèses, le design assisté d’expériences, le stockage, l’organisation et l’analyse des résultats expérimentaux, la validation des données en fonction de modèles, etc. H06 IFT6292/BIN6001 - F. Major 2 Dogme central en biologie http://allserv.rug.ac.be/~avierstr/principles/centraldogma.html H06 IFT6292/BIN6001 - F. Major 3 Protocole scientifique Formalize Knowledge/Data Determine In silico systems Simulate Predictions Experiments Suggest H06 IFT6292/BIN6001 - F. Major 4 Quantité des données La biologie a attiré les informaticiens depuis environ 30 ans par la disponibilité de tonnes de données à analyser (séquences), que ce soit par analyse de textes, algorithmique, modèles probabilistes, etc. Les grands succès de la bioinformatique classique sont l’alignement de deux séquences, l’alignement multiple, la découverte de motifs dans les séquences et l’application des HMM pour trouver des gènes, pour aligner des séquences et pour représenter des familles de protéines. L’augmentation des données structurales attire les spécialistes de la géométrie computationnelle, l’infographie et la modélisation. Le domaine de l’infographie moléculaire est né dans les années 60 pour visualiser les structures résolues à cette époque. Déjà dans ces années, le problème de déconvoluer les données de cristallographie aux rayons X et de transformer les densités électroniques en modèles moléculaires conventionnels ont lancé les biologistes structuraux vers les technologies informatiques. Plus tard, la volonté de transformer les contraintes spatiales générées par les expériences de résonance magnétique nucléaire en modèles structuraux ont augmenté la présence de l’informatique en biologie structurale. Éventuellement, le désir de stocker les structures résolues dans une base de données, la PDB, a aussi contribué à attirer les informaticiens vers les sciences biologiques. Finalement, on voit apparaître aujourd’hui un 3ième groupe. La génération d’une grande quantité de données d’expression génétique (les micro-arrays) et de spectrométrie de masse attire de plus en plus d’informaticiens intéressés par l’application de méthodes statistiques et d’apprentissage machine (cf. clustering). Les problèmes de cette 3ième catégorie de bioinformaticiens diffèrent des problèmes rencontrés en génomique ou en structure. H06 IFT6292/BIN6001 - F. Major 5 Qu’est-ce que la bioinformatique moléculaire? En général, on admet que la bioinformatique se justifie en biologie par la génération de grandes quantités d’information impossible à gérer sans ordinateur. La grande quantité d’information structurale et le remplissage de la PDB auraient donc créé la sous discipline « bioinformatique structurale ou moléculaire », selon Russ Altman et Jonathan Dugan. Cette discipline se pencherait sur la représentation, le stockage, la recherche, l’analyse et l’affichage des structures. H06 IFT6292/BIN6001 - F. Major 6 Défis particuliers • • Non linéarité des données structurales. Il faut faire des approximations! Espaces de recherche pour la plupart des problèmes sont continus. Il faut faire des discrétisation et des simplifications. – • Les raisonnements qu’on fait à l’aide de la visualisation sont difficiles à informatiser – • • • H06 modélisateurs humains sont meilleurs que les ordinateurs! Les données structurales sont floues et imparfaites. Malgré les succès pour déterminer des structures de plus en plus précises, nos connaissances sont limitées par la nature flexible et dynamique des molécules – • plus difficile de relier avec la réalité des modèles approximatifs, discrets et simplifiés. nous sommes toujours en présence de données partielles. On a plus de séquences que de structures et extraire des données structurales des séquences est difficile. Plusieurs phénomènes moléculaires impliquent des structures qui ne se résolvent pas facilement voir pas du tout avec les méthodes physiques actuelles. Génomique structurale devrait identifier plusieurs domaines moléculaires qu’il faudra ensuite associer en structure. Déterminer les règles d’association des domaines est un défi de taille. IFT6292/BIN6001 - F. Major 7 Défis techniques • • • • • • • H06 Sélectionner les cibles, càd choisir les molécules à étudier qui relève de l’identification des motifs intéressants dans les séquences, un problème difficile. Déterminer rapidement les conditions expérimentales qui permettent la cristallisation, de sorte à automatiser la détermination de structure à haut débit. Analyser et transformer les données de cristallographie partielles en structures, en utilisant des méthodes ab initio. On essaye de deviner un élément de structure à partir d’un schéma déjà observé. Analyser et transformer les données de RMN en structures; un problème de satisfaction de contraintes. Les approches connues inclues la géométrie des distances, la dynamique moléculaire avec contraintes, et d’autres méthodes non linéaires ainsi que discrètes. Évaluer des structures générées par les méthodes à haut débit requiert des algorithmes de vérification de la stéréochimie et d’annotation pour déterminer rapidement leur potentiel à la découverte. Stocker les structures de manière à répondre aux requêtes les plus variées. Consolider plusieurs types de données provenant de différents types d’expérience. IFT6292/BIN6001 - F. Major 8 Compréhension rationnelle des phénomènes biologiques à l’échelle moléculaire • Visualisation. Créer des programmes qui facilitent l’analyse visuelle. • Classification. Regrouper les structures de même famille et retracer les changements au cours de l’évolution. • Prédiction. Déterminer la famille d’une molécule biologique à partir de sa séquence. • Simulation. Étudier la dynamique d’une molécule biologique. H06 IFT6292/BIN6001 - F. Major 9