Introduction à la Recherche en Laboratoire Analyse bioinformatique

Introduction à la Recherche en Laboratoire
Analyse bioinformatique de données de séquençage NGS
médicale
Dupouy Maylis Mai 2013
1. Introduction :
Dans le cadre de ma deuxième année au
sein de l'Ecole Nationale Supérieure
d'Informatique et de Mathématiques
Appliquées de Grenoble (ENSIMAG), j'ai
suivi le module d'introduction à la recherche
en laboratoire au sein du laboratoire en
Techniques de l'Ingénierie Médicale et de la
Complexité Informatique, Mathématiques
et Applications de Grenoble (TIMC-IMAG).
Le TIMC-IMAG dépend du CNRS et de
l'université Joseph Fourier de Grenoble mais
aussi de Grenoble INP et Vet'Agro Sup. Ce
laboratoire utilise l'informatique et les
mathématiques appliquées pour répondre à
des problématiques de biologie et de santé.
Huit équipes sont présentes dans cette
structure avec pour chacune une spécialité.
J'ai pour ma part intégré l'équipe de Biologie
Computationnelle et Mathématique (BCM).
Ses recherches s'organisent en trois axes : la
génomique, la biologie des systèmes et la
modélisation mathématique de systèmes
biologiques complexes. Le but de cette
équipe est de développer des méthodes
informatiques ou mathématiques permettant
le traitement non-erroné de données
biologiques ou encore la modélisation de
systèmes biologiques en prenant en compte
toute leur complexité. Chaque axe de
recherche a un domaine d'études varié. Par
exemple la génomique comprend à la fois la
génétique des populations et l'épidémiologie
moléculaire. De même, les travaux sur les
systèmes biologiques peuvent s'appliquer
sur les réseaux génétiques ou sur le cancer.
Pendant un semestre, j'ai travaillé sur
des données génétiques fournies par le
laboratoire d'Andrologie, Gérontechnologie,
Inflammation et Modélisation. Cette
structure a été créée en 2011 pour une durée
de deux ans. Elle dépend du CNRS, de
l'Université Joseph Fourier de Grenoble, de
l'Université Pierre-Mendès France de
Grenoble et de l'Ecole Pratique des Hautes
Etudes. Ce laboratoire se divise en trois
équipes : le Groupe de Recherche et d'Etude
du processus inflammatoire, l'équipe de
Gérontechnologie, Modélisation et e-Santé
et l'équipe Andrologie, Génétique et Cancer.
Mon projet s'inscrit dans les travaux de cette
dernière équipe et plus précisément du
groupe génétique infertilité et
thérapeutiques. Ce groupe à plusieurs axes
de recherches visant à comprendre
l'infertilité masculine, le vieillissement du
sperme et d'augmenter les chances de
réussite de la Procréation Médicalement
Assistée.
Les données génétiques fournies
correspondaient au séquençage de
l'information génétique de trois paires de
frères. Chaque paire souffre d'une
pathologie très rare entraînant l'infertilité.
L'infertilité de la première paire est due à
une anomalie de flagelles et celles des autres
paires sont dues à l'absence de
spermatozoïdes dans le sperme. Le but de
mon travail a donc été de mettre en évidence
des polymorphismes de leur ADN pouvant
être responsables de ces pathologies.
Je vais dans un premier temps
présenter la problématique dans laquelle
s'inscrit ce sujet ainsi que le contexte
général d'étude et je finirai par expliquer
plus précisément le travail que j'ai effectué
pendant ce module.
2. Problématique et état de l'art
a. Problématique
De nos jours, plusieurs types de maladies
sont connus, chacun ayant des causes
différentes. Par exemple, une maladie peut
être due à une infection bactérienne ou
encore virale. D'autres maladies sont
génétiques et c'est dans ce cadre que le
projet s'inscrit.
En effet, de nombreuses
caractéristiques d'un individu sont définies
par son matériel génétique, qui est constitué
d'acide désoxyribonucléique (ADN). A
travers divers processus biologiques, l'ADN
est responsable du fonctionnement de notre
corps et influence notre aspect physique par
exemple. Au sein des noyaux de nos
cellules, l'ADN ne se présente pas sous la
forme d'une seule séquence; il se présente
sous forme de différents fragments : les
chromosomes. Chimiquement parlant,
l'ADN se compose de quatre bases azotées :
l'adénine (A), la guanine (G), la cytosine (C)
et la thymine (T). Ces bases sont appelées
nucléotides et forment pour chaque
chromosome une séquence particulière. Les
cellules humaines sont dites diploïdes, c'est-
à-dire que chaque chromosome est présent
en deux exemplaires, l'un étant hérité du
père, l'autre de la mère. Ces deux copies
forment une paire de chromosomes dits
« homologues ». Deux chromosomes
homologues contiennent globalement la
même information génétique, différente de
celles des autres chromosomes de
l'organisme. Cette information est contenue
dans des sous-parties du chromosome
appelées gènes. Chaque gène détermine un
ou plusieurs caractères héréditaires
spécifiques.
Ainsi, les maladies génétiques
peuvent s'expliquer par des modifications de
la séquence nucléotidique (des mutations
ponctuelles, des délétions ou des insertions
par exemple) qui entraînent le
dysfonctionnement du caractère héréditaire
déterminé par le gène ayant subi une ou
plusieurs variations.
Une branche de la recherche en
génomique consiste à chercher, chez des
individus atteints d'une pathologie donnée,
des gènes qui portent un polymorphisme
responsable de cette pathologie. Cela permet
tout d'abord de connaître la cause exacte de
la maladie et donc permettre un diagnostic
futur. De plus, connaître un gène
responsable d'un dysfonctionnement d'une
caractéristique donnée démontre aussi que le
gène participe à la définition de cette
caractéristique chez l'ensemble des êtres
humains et on peut donc lui attribuer une
nouvelle fonction. Enfin, c'est un pré-requis
au développement de la fameuse « médecine
personnalisée », où le traitement est adapté à
chaque patient en fonction des causes
moléculaires de sa pathologie.
Dans ce projet, les patients
considérés sont atteints de trois types rares
d'infertilité masculine et le but était donc
d'essayer de trouver des gènes modifiés
responsables de ces pathologies.
Je vais maintenant parler plus
précisément de la démarche utilisée pour
répondre à cette problématique.
b. Etat de l'art
La plupart des approches mises en
œuvre pour identifier des gènes responsables
de maladies se basent sur le séquençage de
l'ADN [5][6][7][8][9]. Cette technique consiste à
trouver dans quel ordre senchaînent les
nucléotides dans les chromosomes. Les
premières méthodes mises au point ne
permettaient pas l'identification d'un grand
nombre de bases, elles étaient de plus
coûteuses en temps, et ce malg leur
automatisation. Appliquer une de ces
méthodes à notre problématique nécessitait
donc d'avoir sélectionné au préalable des
gènes susceptibles d'être impliqués dans la
maladie étudiée. Le séquençage est devenu
accessible pour l'analyse de pathologies lors
de l'apparition des méthodes de séquençage
de nouvelle génération. Elles ont permis de
lire des fragments d'ADN plus courts mais
en bien plus grand nombre. Le séquençage
rapide d'un génome entier à un coût
raisonnable est donc devenu possible. Avoir
accès à un génome entier permet d'étudier
non pas quelques gènes présélectionnés
mais l'ensemble des gènes et augmente donc
les chances de trouver un gène responsable
d'une maladie. Cependant, en général, pour
déterminer une variation génétique
responsable d'une maladie le génome n'est
pas entièrement séquencé car le coût reste
onéreux pour être utiliser couramment dans
le domaine de la recherche. Une stratégie
consiste à séquencer les exons, c'est-à-dire
les parties de gène qui interviennent dans la
synthèse des protéines (principaux acteurs
de notre métabolisme). En effet, les gènes se
présentent comme des successions d'exons
et d'introns. Les exons représentent 1 à 2%
du génome et le rôle fonctionnel des introns
est encore mal connu de nos jours. Le
séquençage des exons uniquement a un coût
réduit par rapport au séquençage d'un
génome complet. Cette méthode à déjà fait
ses preuves pour identifier les nes
responsables de certains troubles
mendéliens. [1]
Le séquençage de l'ADN est suivi de
l'alignement. Pour chaque read (longueur de
l'ordre de 50 bases) produit par le
séquenceur, cette étape consiste à identifier
le site d'où il provient dans le génome de
référence. Le but de cette étape est de
permettre la détection de polymorphismes
pour pouvoir étudier leur impact sur les
différents gènes et savoir s'ils pourraient être
responsables de la pathologie.
Figure 1 - Exemple d'alignement. Les portions
vertes représentent les reads, les portions rouges
les polymorphismes, et la séquence en bleu est la
séquence de référence
Suite à l'alignement, pour une
position donnée, il y a trois possibilités (voir
figure 1): soit les nucléotides des deux
séquences sont identiques, soit elles sont
différentes, soit le séquençage de l'ADN
effectué ne permet pas d'avoir l'information
de manière fiable. L'étape qui suit, l'appel
des Single-Nucléotide Polymorphisms
(SNPs) [2], détecte l'ensemble des
polymorphismes d'un seul nucléotide entre
l'individu étudié et le génome de référence
et détermine son génotype. Comme cela est
expliqué précédemment, les humains ont des
paires de chromosomes homologues. Les
gènes sont donc aussi présents sous deux
versions nommées allèles. Pour une position
donnée, il y a deux possibilités de génotype
: l'individu est homozygote si les deux
allèles sont identiques et hétérozygote sinon.
A ce stade, les polymorphismes rencontrés à
des positions où la fiabilité de l'alignement
est remise en cause ne sont pas retenus. Le
critère de fiabilité sera expliqué dans la
partie suivant. Cependant, la liste de SNPs
restants est encore trop importante et n'est
donc pas exploitable.
Une étape de tri est nécessaire avant
d'étudier l'impact des SNPs. Le tri ne doit
conserver que les SNPs cohérents avec la
pathologie du patient. Par exemple, si on
étudie une maladie pour laquelle le
polymorphisme responsable est supposé
dominant, l'individu peut être hétérozygote
pour les SNPs candidats alors que dans le
cas d'un polymorphisme récessif il ne peut
pas. (Voir Annexes pour une définition plus
approfondie des termes génétiques). Il y a
différentes stratégies pour traiter cette étape
[3].
3. Travail effectué:
Comme cela est expliqué dans
l'introduction, l'équipe du Docteur Pierre
Ray a fourni au laboratoire TIMC-IMAG
des données génétiques issues du
séquençage de six patients. Ces patients sont
atteints de formes rares d'infertilité
masculine. Les six patients se divisaient en
trois paires de frères, chaque paire ayant une
pathologie différente. Une des pathologies
correspond à une anomalie sur les flagelles
des spermatozoïdes. Les deux autres sont
des cas d'azoospermie (absence de
spermatozoïdes). Il est important de préciser
pour la suite qu'un individu de la paire de
frères numéro trois a été séquencé 2 fois par
erreur. La première étape du travail a été le
réalignement des données et l'appel des
SNPs, puis, nous avons appliqué deux filtres
aux polymorphismes trouvés. Pour finir,
nous avons tenté d'améliorer les résultats
obtenus et nous les avons analysés.
a. Alignement et appel des SNPs
Ainsi, la première étape a consisté à
aligner les données issues du séquençage sur
le génome de référence humain. Cette étape
a été permise grâce au logiciel MAGIC
développé par un organisme américain, le
NCBI. L'alignement doit faire face à
plusieurs difficultés. Tout d'abord, le
logiciel doit savoir faire la différence entre
des variations dues à une erreur
expérimentale issues du séquençage et un
vrai polymorphisme. Les zones répétées du
génome sont aussi difficile à aligner. En
effet, une séquence donnée peut être
présente plusieurs fois dans le génome de
petites variations près), à la suite
(microsatellites) ou à des positions
différentes. Il est donc difficile voire
impossible de savoir d'où provient un read
issu d'une telle séquence répétée. Lorsque
les séquences sont successives la difficulté
réside dans le fait que le nombre de
répétitions varie entre individu et entre
chromosomes homologues.
Pour pallier à ces complications,
l'ADN a été séquencé de manière
particulière, dite "paired end": pour chaque
segment d'ADN traité, le séquençage a été
réalisé à chaque extrémité. Il en ressort ainsi
deux lectures différentes qui doivent se
placer sur le génome à une faible distance
l'une de l'autre et en sens inverse, ce qui
permet de résoudre des ambiguïtés lors de
l'alignement.
La réalisation de nos analyses, en
particulier l'alignement, a pris du temps car
le logiciel MAGIC est en constante
évolution. Les chercheurs du NCBI
développent et améliorent ce logiciel en
prenant en compte les besoins de leur
laboratoire. Les modifications apportées au
logiciel introduisent parfois des bogues au
niveau de l'utilisation faite par le laboratoire
TIMC-IMAG. Une première partie de mon
travail a consisté à identifier et corriger
certains de ces bogues.
A la fin de l'alignement, plusieurs
reads (ou lectures) différents recouvrent une
même position. Le nombre de reads à une
position donnée définit sa couverture. Le
logiciel n'a ensuite retenu que les SNPs
contenus dans de larges zones du génome
ayant une couverture suffisante. L'ADN a
une double hélice, il est composé de deux
brins et le dernier rôle du logiciel a été de
compter le nombre de versions variantes et
de versions de référence rencontrées pour
chaque individu, pour chaque brin et pour
chaque position des zones sélectionnées.
b. Sélection des SNPs les plus
prometteurs
Une fois l'utilisation du logiciel terminée,
nous avons pu commencer à trier les SNPs
selon plusieurs critères que je vais
énumérer. J'expliquerai ensuite comment ces
critères ont été pris en compte en pratique.
Elimination des SNPs non fiable : Du point
de vu qualitatif, le critère de tri s'est porté
sur la couverture des polymorphismes
retenus. Plus il y a de fragments à une
position donnée, moins il y a de chances de
faire une erreur quand on détermine la
présence ou non de SNPs. Ainsi, un
polymorphisme observé sur une position
peu couverte n'est pas retenu. En effet, si
une position n'est couverte que par trois
reads dont deux comportent un
polymorphisme alors que le troisième porte
la séquence du génome de référence,
conclure qu'il y a une mutation semble
erroné. Par ailleurs, les reads sur les deux
brins doivent en théorie être identiques
(mais en sens inverse). Cependant ce n'est
pas toujours le cas, car les séquenceurs
peuvent produire des erreurs systématiques
qui dépendant de la séquence lue. Pour
qu'un SNP puisse être appelé de manière
fiable, nous imposons donc que le
nucléotide sujet de la mutation soit couvert
au moins dix fois sur chaque brin, et que les
deux brins soient en accord. Ainsi, les
individus étant hétérozygotes, la probabilité
de n'avoir séquencé qu'un allèle sur les deux
présents est suffisamment faible. [4]
Elimination de SNPs par exploitation des
liens de parenté : Le deuxième critère de tri
que nous avons choisi d'appliquer est une
méthode exploitant les liens de parenté entre
individus touchés par une même pathologie.
Cette méthode est appelée la linkage
strategy [3]. On s'attend à ce que, si plusieurs
individus d'une même famille sont atteints,
un même polymorphisme soit responsable
de leur maladie : on va donc chercher des
polymorphismes présents chez tous les
patients d'une même famille. En
complément, des membres sains de la
famille peuvent aussi faire séquencer leur
ADN : cela permet d'exclure des mutations
bénignes. Je n'avais pas de données
supplémentaires d'autres individus sains de
la famille, je n'ai donc vérifiée que la
première obligation : un polymorphisme
1 / 11 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !