Bioinformatique moléculaire - Département d`informatique et de

publicité
Bioinformatique moléculaire
• Qu’est-ce que la bioinformatique ?
– Dogme central en biologie
– Protocole scientifique
• Quantité de données
• Qu’est-ce que la bioinformatique moléculaire?
• Défis en bioinformatique moléculaire
– Défis particuliers
– Défis techniques
• Compréhension rationnelle des phénomènes
biologiques à l’échelle moléculaire
H06
IFT6292/BIN6001 - F. Major
1
Qu’est-ce que la bioinformatique?
La définition précise de la bioinformatique est sans aucun doute matière à
débat. Selon Russ Altman, à la lumière des articles scientifiques publiées dans
le domaine, la bioinformatique correspond à deux flux d’information en biologie
moléculaire.
Le premier est celui du dogme central en biologie, soit ADN -> ARN ->
protéines, qui se replient en trois dimensions pour effectuer leur fonction,
sélectionnée selon les lois de l’évolution Darwinienne, càd par des facteurs
environnementaux. La première classe de bioinformatique s’adresse donc au
transfert d’information à n’importe quel niveau du dogme central, incluant
l’organisation de l’ADN dans les chromosomes.
Le deuxième flux vient du protocole scientifique. Nous créons des hypothèses
sur les activités biologiques, mettons au point des expériences pour tester ces
hypothèses, modifions les hypothèses en fonction des résultats des nouvelles
expériences, et on boucle en quête de nouvelles hypothèses et
connaissances. La deuxième classe de bioinformatique adresse le transfert
d’information dans ce protocole et on y inclut alors les systèmes in silico,
générateurs d’hypothèses, le design assisté d’expériences, le stockage,
l’organisation et l’analyse des résultats expérimentaux, la validation des
données en fonction de modèles, etc.
H06
IFT6292/BIN6001 - F. Major
2
Dogme central en biologie
http://allserv.rug.ac.be/~avierstr/principles/centraldogma.html
H06
IFT6292/BIN6001 - F. Major
3
Protocole scientifique
Formalize
Knowledge/Data
Determine
In silico systems
Simulate
Predictions
Experiments
Suggest
H06
IFT6292/BIN6001 - F. Major
4
Quantité des données
La biologie a attiré les informaticiens depuis environ 30 ans par la disponibilité de tonnes
de données à analyser (séquences), que ce soit par analyse de textes, algorithmique,
modèles probabilistes, etc. Les grands succès de la bioinformatique classique sont
l’alignement de deux séquences, l’alignement multiple, la découverte de motifs dans les
séquences et l’application des HMM pour trouver des gènes, pour aligner des
séquences et pour représenter des familles de protéines. L’augmentation des données
structurales attire les spécialistes de la géométrie computationnelle, l’infographie et la
modélisation. Le domaine de l’infographie moléculaire est né dans les années 60 pour
visualiser les structures résolues à cette époque. Déjà dans ces années, le problème de
déconvoluer les données de cristallographie aux rayons X et de transformer les densités
électroniques en modèles moléculaires conventionnels ont lancé les biologistes
structuraux vers les technologies informatiques. Plus tard, la volonté de transformer les
contraintes spatiales générées par les expériences de résonance magnétique nucléaire
en modèles structuraux ont augmenté la présence de l’informatique en biologie
structurale. Éventuellement, le désir de stocker les structures résolues dans une base de
données, la PDB, a aussi contribué à attirer les informaticiens vers les sciences
biologiques.
Finalement, on voit apparaître aujourd’hui un 3ième groupe. La génération d’une grande
quantité de données d’expression génétique (les micro-arrays) et de spectrométrie de
masse attire de plus en plus d’informaticiens intéressés par l’application de méthodes
statistiques et d’apprentissage machine (cf. clustering). Les problèmes de cette 3ième
catégorie de bioinformaticiens diffèrent des problèmes rencontrés en génomique ou en
structure.
H06
IFT6292/BIN6001 - F. Major
5
Qu’est-ce que la bioinformatique moléculaire?
En général, on admet que la bioinformatique se justifie en
biologie par la génération de grandes quantités
d’information impossible à gérer sans ordinateur. La
grande quantité d’information structurale et le remplissage
de la PDB auraient donc créé la sous discipline
« bioinformatique structurale ou moléculaire », selon Russ
Altman et Jonathan Dugan. Cette discipline se pencherait
sur la représentation, le stockage, la recherche, l’analyse
et l’affichage des structures.
H06
IFT6292/BIN6001 - F. Major
6
Défis particuliers
•
•
Non linéarité des données structurales. Il faut faire des approximations!
Espaces de recherche pour la plupart des problèmes sont continus. Il faut faire des
discrétisation et des simplifications.
–
•
Les raisonnements qu’on fait à l’aide de la visualisation sont difficiles à informatiser
–
•
•
•
H06
modélisateurs humains sont meilleurs que les ordinateurs!
Les données structurales sont floues et imparfaites. Malgré les succès pour
déterminer des structures de plus en plus précises, nos connaissances sont limitées
par la nature flexible et dynamique des molécules
–
•
plus difficile de relier avec la réalité des modèles approximatifs, discrets et simplifiés.
nous sommes toujours en présence de données partielles.
On a plus de séquences que de structures et extraire des données structurales des
séquences est difficile.
Plusieurs phénomènes moléculaires impliquent des structures qui ne se résolvent
pas facilement voir pas du tout avec les méthodes physiques actuelles.
Génomique structurale devrait identifier plusieurs domaines moléculaires qu’il faudra
ensuite associer en structure. Déterminer les règles d’association des domaines est
un défi de taille.
IFT6292/BIN6001 - F. Major
7
Défis techniques
•
•
•
•
•
•
•
H06
Sélectionner les cibles, càd choisir les molécules à étudier qui relève de
l’identification des motifs intéressants dans les séquences, un problème difficile.
Déterminer rapidement les conditions expérimentales qui permettent la
cristallisation, de sorte à automatiser la détermination de structure à haut débit.
Analyser et transformer les données de cristallographie partielles en structures, en
utilisant des méthodes ab initio. On essaye de deviner un élément de structure à
partir d’un schéma déjà observé.
Analyser et transformer les données de RMN en structures; un problème de
satisfaction de contraintes. Les approches connues inclues la géométrie des
distances, la dynamique moléculaire avec contraintes, et d’autres méthodes non
linéaires ainsi que discrètes.
Évaluer des structures générées par les méthodes à haut débit requiert des
algorithmes de vérification de la stéréochimie et d’annotation pour déterminer
rapidement leur potentiel à la découverte.
Stocker les structures de manière à répondre aux requêtes les plus variées.
Consolider plusieurs types de données provenant de différents types d’expérience.
IFT6292/BIN6001 - F. Major
8
Compréhension rationnelle des phénomènes
biologiques à l’échelle moléculaire
• Visualisation. Créer des programmes qui
facilitent l’analyse visuelle.
• Classification. Regrouper les structures de
même famille et retracer les changements au
cours de l’évolution.
• Prédiction. Déterminer la famille d’une molécule
biologique à partir de sa séquence.
• Simulation. Étudier la dynamique d’une
molécule biologique.
H06
IFT6292/BIN6001 - F. Major
9
Téléchargement