H06 IFT6292/BIN6001 - F. Major 5
Quantité des données
La biologie a attiré les informaticiens depuis environ 30 ans par la disponibilité de tonnes
de données à analyser (séquences), que ce soit par analyse de textes, algorithmique,
modèles probabilistes, etc. Les grands succès de la bioinformatique classique sont
l’alignement de deux séquences, l’alignement multiple, la découverte de motifs dans les
séquences et l’application des HMM pour trouver des gènes, pour aligner des
séquences et pour représenter des familles de protéines. L’augmentation des données
structurales attire les spécialistes de la géométrie computationnelle, l’infographie et la
modélisation. Le domaine de l’infographie moléculaire est né dans les années 60 pour
visualiser les structures résolues à cette époque. Déjà dans ces années, le problème de
déconvoluer les données de cristallographie aux rayons X et de transformer les densités
électroniques en modèles moléculaires conventionnels ont lancé les biologistes
structuraux vers les technologies informatiques. Plus tard, la volonté de transformer les
contraintes spatiales générées par les expériences de résonance magnétique nucléaire
en modèles structuraux ont augmenté la présence de l’informatique en biologie
structurale. Éventuellement, le désir de stocker les structures résolues dans une base de
données, la PDB, a aussi contribué à attirer les informaticiens vers les sciences
biologiques.
Finalement, on voit apparaître aujourd’hui un 3ième groupe. La génération d’une grande
quantité de données d’expression génétique (les micro-arrays) et de spectrométrie de
masse attire de plus en plus d’informaticiens intéressés par l’application de méthodes
statistiques et d’apprentissage machine (cf. clustering). Les problèmes de cette 3ième
catégorie de bioinformaticiens diffèrent des problèmes rencontrés en génomique ou en
structure.