L'avènement à moindre coût des techniques de séquençages haut débit, offre à tout projet scientifique la possibilité d'utiliser le séquençage comme un outil au quotidien. L’analyse approfondie des données toujours plus complètes et massives pose aujourd'hui les limites à l'utilisation des nouvelles technologies. C'est dans ce contexte, que la bio-informatique s'impose de plus en plus comme une discipline d'avenir. « La puissance des processeurs double tous les 18 mois, les données générées par le séquençage doublent, elles, tous les 16 mois » Adaptation lois de Moore • La bioinformatique c'est quoi et c'est pour qui ? L’obtention des premières séquences protéiques dans les années soixante provoquèrent la nécessité de disposer d’outils capables de traiter et d'analyser ces données dans le but de pouvoir étudier leurs structures et leurs rôles. Les avancées technologiques en biologie moléculaire et en informatique ne cessèrent d'augmenter le nombre de séquences et d'en approfondir l'analyse. Dans ce contexte la bio-informatique s'établit comme une discipline à part entière et ne cessa de se développer dans les laboratoires du monde entier. C’est une discipline scientifique évoluant à la frontière entre l'informatique et la biologie. Elle permet d’analyser les données de plus en plus nombreuses et de plus en plus complexes que fournit le séquençage. Ces données peuvent être utilisées pour étudier différents aspects de la biologie tel que la génétique, la protéomique ou encore la biologie des systèmes. Elles sont aussi facilement La bioinformatique c'est surtout une ouverture vers de nouveaux champs thématique de recherche. F. Sabot stockées, partagées et conservées. Cependant il n’est pas aisé de les utiliser sans formation et sans des compétences particulières. De nos jours, de nombreux domaines de la biologie en sont dépendants ce qui contribue à accroître la demande en bio-informaticiens ainsi que le besoin pour les chercheurs de se former afin d’être à même d’utiliser les outils qu’apporte cette discipline. Les entreprises ayant besoin de la bio-informatique peuvent être classées en deux domaines. On distingue son utilisation au service des entreprises privées des secteurs pharmaceutiques, cosmétiques, agroalimentaires, ou environnementaux avec celle des organismes de recherche publique. • La bioinformatique pourquoi faire ? ◦ La biologie des systèmes La biologie des systèmes ou des réseaux est une science multi-échelle. Elle permet d'étudier les interactions entre les membres du réseau (appelé nœud). Des résultats biologiques, tel que des analyses de transcriptions, sont nécessaires pour établir les relations (appelées arrête) entre les différents nœuds. - Master 2 Biologie des plantes - Gaëtan Maillot - Jean-Baptiste Lopez - Thomas Gayraud - Après avoir caractérisé les différentes interactions, il est possible de générer l'émergence de propriétés nouvelles ne pouvant être prédites avant analyse. Cette capacité prédictive est basée sur la qualité des données initialement obtenues et constitue une base de travail permettant d'aiguiller un chercheur dans son projet scientifique. Au sein des cultures, la biologie des systèmes trouve sa place dans les grandes exploitations et au sein des sociétés de biotechnologie agricole. Les gènes et activités transcriptionnelles sont alors remplacés par des variables environnementales et leurs influences sur la biologie de la plante cultivée. ◦ La modélisation La modélisation est un outil de représentation des données scientifiques assistée par ordinateur. Lorsque associée à la biologie des systèmes, elle devient source de prédiction en générant des données nouvelles sans nécessiter de retour aux expérimentations. Elle va permettre de visualiser et de tester des hypothèses scientifiques sans avoir besoin de passer directement par des phases expérimentales pouvant être longues et coûteuses. ◦ L'alignement de séquence L'alignement de séquences permet la représentation de séquences d’ADN, d'ARN ou de proteines les unes sous les autres pour les comparer, voir leurs niveaux d’homologies et établir une phylogénie. Son utilisation permet également de prédire leurs rôles en identifiant des sites fonctionnels par leurs similarités avec des domaines décrits et inscrits dans des bases de données mondiales. On différencie deux types d'alignement, l'alignement global à l'alignement local. Le premier consiste en un alignement des séquences sur toutes leurs longueurs, au détriment parfois de petites régions de haute similarité qui ne sont pas alignées au profil d'un meilleur rendement d'alignement global des séquences. L'alignement local déstructure les séquences et permet de mettre en avant les régions similaires et divergentes des séquences. ◦ La protéomique L’apport des bioinformatiques sur l'étude des protéines est considérable. Des prédictions in silico fournissent des informations structurale (structure 2D et 3D) et transcriptionnelle (traduction des séquences séquencées et analyse du taux d'expression). • Le séquençage, la clef du succès ? Le développement rapide des techniques de séquençage a révolutionné tous les domaines de la biologie. Ces techniques ont permis des avancées majeures dans différents domaines tel que la biologie moléculaire (clonage), l’amélioration des plantes (sélection assistée par marqueurs) ou encore l’écologie (comparaison d’évolution de séquences). En 1977, Sanger développe la première technique de séquençage, elle est basée sur la terminaison des chaînes nucléiques par des didésoxyribonucléotides suivit d’une électrophorèse sur gel de polyacrylamide. L’amélioration de la méthode de Sanger et l’apparition d’appareils de séquençage automatisés a permis d'obtenir la séquence du génome humain en 2001. - Master 2 Biologie des plantes - Gaëtan Maillot - Jean-Baptiste Lopez - Thomas Gayraud - Suite à ce projet, de plus en plus d’équipes se sont mises à utiliser le séquençage pour leurs travaux, cependant la première génération coûte cher et le séquençage entier d’un génome est lent à cause d’un faible débit. La bioinformatique va Pour permettre à la discipline de prendre son essor, la création de devenir un outil classique en technique de séquençage seconde génération (ou NGS Next generation laboratoires. D'ici dix ans sequencing) à plus haut débit a été nécessaire. l'utilisation de script sera Les NGS n’utilisent pas le même principe de terminaison de chaîne, aussi commune qu'une PCR. mais permettent de faire des séquençages de plusieurs milliers de fragments en F. Sabot parallèle et à haut débit. Ces techniques fonctionnent en capturant le signal émis par le clivage d’une sonde lumineuse ou l’émission de protons lors de la synthèse du brin d’ADN. Les NGS ont permis de réduire fortement le coût du séquençage d’une séquence, démocratisant ainsi l’utilisation du séquençage des génomes. Plusieurs techniques différentes avec chacunes leurs avantages et inconvénients ont été développées : Pyroséquençage 454, Illumina, Solid, Ion torrent… Le faible coût par base des NGS couplé au développement de séquenceur de paillasse (Ion PGM et Myseq) permit l’utilisation massive du séquençage de l’ADN. La première génération a permis le séquençage rapide de longs fragments d’ADN mais avait un coût élevé et un faible débit. La seconde génération a permis de gagner en débit tout en diminuant fortement les coûts par base, mais perdu en contrepartie au niveau de la taille des fragments séquençables et en vitesse de lecture. La troisième génération offre un compromis en proposant un haut débit à faible coût, permettant le séquençage d’une molécule entière d’ADN avec une vitesse de lecture rapide. Les techniques de séquençage de troisièmes générations possèdent deux caractéristiques propres qui les différencient des techniques précédentes. Elles s’affranchissent de l’étape d’amplification de l’ADN ce qui réduit le temps et le coût de préparation de l’ADN. Cela a aussi pour conséquence de réduire les biais introduits auparavant par cette amplification. Pour finir ces techniques permettent l’observation en temps réel du signal via la capture du signal électrique (nanopore) ou par fluorescence (pacbio). L’intensité du signal est aussi mesurable ce qui permet de donner des informations sur l’état de méthylation de l’ADN. Cependant les NGS et 3ème générations génèrent énormément de données et il est aujourd’hui plus cher de stocker les données produites que de reséquencer entièrement ces données. L’analyse des informations est donc un facteur limitant aujourd’hui liés au progrès de la bioinformatique. L'amélioration des systèmes informatiques et l'optimisation des logiciels de bioinformatique est donc un objectif majeur des prochaines années pour continué l'essor de la discipline. Remerciement : Nous souhaitons particulièrement remercier Francois Sabot, bio-informaticien de l'Institut de Recherche pour le Développement à Montpellier d'avoir bien voulu nous consacrer un peu de son temps pour nous parler de son métier. Références : http://bioinfo-fr.net/le-sequencage - http://hmg.oxfordjournals.org/content/19/R2/R227.full - http://biologie.univ-mrs.fr/upload/p201/Thieffry_ULB_271006.pdf - - Master 2 Biologie des plantes - Gaëtan Maillot - Jean-Baptiste Lopez - Thomas Gayraud -