L`avènement à moindre coût des techniques de séquençages haut

publicité
L'avènement à moindre coût des techniques de séquençages haut débit, offre à tout projet scientifique
la possibilité d'utiliser le séquençage comme un outil au quotidien. L’analyse approfondie des données
toujours plus complètes et massives pose aujourd'hui les limites à l'utilisation des nouvelles technologies.
C'est dans ce contexte, que la bio-informatique s'impose de plus en plus comme une discipline d'avenir.
« La puissance des processeurs double tous les 18 mois,
les données générées par le séquençage doublent, elles, tous les 16 mois »
Adaptation lois de Moore
• La bioinformatique c'est quoi et c'est pour qui ?
L’obtention des premières séquences protéiques dans les années soixante provoquèrent la nécessité
de disposer d’outils capables de traiter et d'analyser ces données dans le but de pouvoir étudier leurs
structures et leurs rôles. Les avancées technologiques en biologie moléculaire et en informatique ne cessèrent
d'augmenter le nombre de séquences et d'en approfondir l'analyse. Dans ce contexte la bio-informatique
s'établit comme une discipline à part entière et ne cessa de se développer dans les laboratoires du monde
entier.
C’est une discipline scientifique évoluant à la frontière entre l'informatique
et la biologie. Elle permet d’analyser les données de plus en plus nombreuses et de
plus en plus complexes que fournit le séquençage. Ces données peuvent être
utilisées pour étudier différents aspects de la biologie tel que la génétique, la
protéomique ou encore la biologie des systèmes. Elles sont aussi facilement
La bioinformatique
c'est surtout une
ouverture vers de
nouveaux champs
thématique de
recherche.
F. Sabot
stockées, partagées et
conservées. Cependant il n’est pas aisé de les utiliser sans formation et sans des compétences particulières.
De nos jours, de nombreux domaines de la biologie en sont dépendants ce qui contribue à accroître la
demande en bio-informaticiens ainsi que le besoin pour les chercheurs de se former afin d’être à même
d’utiliser les outils qu’apporte cette discipline. Les entreprises ayant besoin de la bio-informatique peuvent
être classées en deux domaines. On distingue son utilisation au service des entreprises privées des secteurs
pharmaceutiques, cosmétiques, agroalimentaires, ou environnementaux avec celle des organismes de
recherche publique.
• La bioinformatique pourquoi faire ?
◦ La biologie des systèmes
La biologie des systèmes ou des réseaux est une science multi-échelle. Elle permet d'étudier les
interactions entre les membres du réseau (appelé nœud). Des résultats biologiques, tel que des analyses de
transcriptions, sont nécessaires pour établir les relations (appelées arrête) entre les différents nœuds.
-
Master 2 Biologie des plantes
- Gaëtan Maillot - Jean-Baptiste Lopez
- Thomas Gayraud
-
Après avoir caractérisé les différentes interactions, il est possible de générer l'émergence de
propriétés nouvelles ne pouvant être prédites avant analyse. Cette capacité prédictive est basée sur la qualité
des données initialement obtenues et constitue une base de travail permettant d'aiguiller un chercheur dans
son projet scientifique.
Au sein des cultures, la biologie des systèmes trouve sa place dans les grandes exploitations et au
sein des sociétés de biotechnologie agricole. Les gènes et activités transcriptionnelles sont alors remplacés
par des variables environnementales et leurs influences sur la biologie de la plante cultivée.
◦ La modélisation
La modélisation est un outil de représentation des données scientifiques assistée par ordinateur.
Lorsque associée à la biologie des systèmes, elle devient source de prédiction en générant des données
nouvelles sans nécessiter de retour aux expérimentations. Elle va permettre de visualiser et de tester des
hypothèses scientifiques sans avoir besoin de passer directement par des phases expérimentales pouvant être
longues et coûteuses.
◦ L'alignement de séquence
L'alignement de séquences permet la représentation de séquences d’ADN, d'ARN ou de proteines les
unes sous les autres pour les comparer, voir leurs niveaux d’homologies et établir une phylogénie. Son
utilisation permet également de prédire leurs rôles en identifiant des sites fonctionnels par leurs similarités
avec des domaines décrits et inscrits dans des bases de données mondiales. On différencie deux types
d'alignement, l'alignement global à l'alignement local. Le premier consiste en un alignement des séquences
sur toutes leurs longueurs, au détriment parfois de petites régions de haute similarité qui ne sont pas alignées
au profil d'un meilleur rendement d'alignement global des séquences. L'alignement local déstructure les
séquences et permet de mettre en avant les régions similaires et divergentes des séquences.
◦ La protéomique
L’apport des bioinformatiques sur l'étude des protéines est considérable. Des prédictions in silico
fournissent des informations structurale (structure 2D et 3D) et transcriptionnelle (traduction des séquences
séquencées et analyse du taux d'expression).
• Le séquençage, la clef du succès ?
Le développement rapide des techniques de séquençage a révolutionné tous les domaines de la
biologie. Ces techniques ont permis des avancées majeures dans différents domaines tel que la biologie
moléculaire (clonage), l’amélioration des plantes (sélection assistée par marqueurs) ou encore l’écologie
(comparaison d’évolution de séquences).
En 1977, Sanger développe la première technique de séquençage, elle est basée sur la terminaison
des chaînes nucléiques par des didésoxyribonucléotides suivit d’une électrophorèse sur gel de
polyacrylamide. L’amélioration de la méthode de Sanger et l’apparition d’appareils de séquençage
automatisés a permis d'obtenir la séquence du génome humain en 2001.
-
Master 2 Biologie des plantes
- Gaëtan Maillot - Jean-Baptiste Lopez
- Thomas Gayraud
-
Suite à ce projet, de plus en plus d’équipes se sont mises à utiliser le séquençage pour leurs travaux,
cependant la première génération coûte cher et le séquençage entier d’un génome est lent à cause d’un faible
débit.
La bioinformatique va
Pour permettre à la discipline de prendre son essor, la création de devenir un outil classique en
technique de séquençage seconde génération (ou NGS Next generation laboratoires. D'ici dix ans
sequencing) à plus haut débit a été nécessaire.
l'utilisation de script sera
Les NGS n’utilisent pas le même principe de terminaison de chaîne, aussi commune qu'une PCR.
mais permettent de faire des séquençages de plusieurs milliers de fragments en
F. Sabot
parallèle et à haut débit. Ces techniques fonctionnent en capturant le signal émis par le clivage d’une sonde
lumineuse ou l’émission de protons lors de la synthèse du brin d’ADN. Les NGS ont permis de réduire
fortement le coût du séquençage d’une séquence, démocratisant ainsi l’utilisation du séquençage des
génomes. Plusieurs techniques différentes avec chacunes leurs avantages et inconvénients ont été
développées : Pyroséquençage 454, Illumina, Solid, Ion torrent… Le faible coût par base des NGS couplé au
développement de séquenceur de paillasse (Ion PGM et Myseq) permit l’utilisation massive du séquençage
de l’ADN.
La première génération a permis le séquençage rapide de longs fragments d’ADN mais avait un coût
élevé et un faible débit. La seconde génération a permis de gagner en débit tout en diminuant fortement les
coûts par base, mais perdu en contrepartie au niveau de la taille des fragments séquençables et en vitesse de
lecture. La troisième génération offre un compromis en proposant un haut débit à faible coût, permettant le
séquençage d’une molécule entière d’ADN avec une vitesse de lecture rapide. Les techniques de séquençage
de troisièmes générations possèdent deux caractéristiques propres qui les différencient des techniques
précédentes. Elles s’affranchissent de l’étape d’amplification de l’ADN ce qui réduit le temps et le coût de
préparation de l’ADN. Cela a aussi pour conséquence de réduire les biais introduits auparavant par cette
amplification. Pour finir ces techniques permettent l’observation en temps réel du signal via la capture du
signal électrique (nanopore) ou par fluorescence (pacbio). L’intensité du signal est aussi mesurable ce qui
permet de donner des informations sur l’état de méthylation de l’ADN.
Cependant les NGS et 3ème générations génèrent énormément de données et il est aujourd’hui plus
cher de stocker les données produites que de reséquencer entièrement ces données. L’analyse des
informations est donc un facteur limitant aujourd’hui liés au progrès de la bioinformatique. L'amélioration
des systèmes informatiques et l'optimisation des logiciels de bioinformatique est donc un objectif majeur des
prochaines années pour continué l'essor de la discipline.
Remerciement :
Nous souhaitons particulièrement remercier Francois Sabot, bio-informaticien de l'Institut de Recherche
pour le Développement à Montpellier d'avoir bien voulu nous consacrer un peu de son temps pour nous
parler de son métier.
Références :
http://bioinfo-fr.net/le-sequencage - http://hmg.oxfordjournals.org/content/19/R2/R227.full
- http://biologie.univ-mrs.fr/upload/p201/Thieffry_ULB_271006.pdf -
-
Master 2 Biologie des plantes
- Gaëtan Maillot - Jean-Baptiste Lopez
- Thomas Gayraud
-
Téléchargement