Introduction à la Recherche en Laboratoire Analyse bioinformatique

Téléchargement

Introduction à la Recherche en Laboratoire

Analyse bioinformatique de données de séquençage NGS

médicale

Dupouy Maylis – Mai 2013

1. Introduction :

Dans le cadre de ma deuxième année au

sein de l'Ecole Nationale Supérieure

d'Informatique et de Mathématiques

Appliquées de Grenoble (ENSIMAG), j'ai

suivi le module d'introduction à la recherche

en laboratoire au sein du laboratoire en

Techniques de l'Ingénierie Médicale et de la

Complexité – Informatique, Mathématiques

et Applications de Grenoble (TIMC-IMAG).

Le TIMC-IMAG dépend du CNRS et de

l'université Joseph Fourier de Grenoble mais

aussi de Grenoble INP et Vet'Agro Sup. Ce

laboratoire utilise l'informatique et les

mathématiques appliquées pour répondre à

des problématiques de biologie et de santé.

Huit équipes sont présentes dans cette

structure avec pour chacune une spécialité.

J'ai pour ma part intégré l'équipe de Biologie

Computationnelle et Mathématique (BCM).

Ses recherches s'organisent en trois axes : la

génomique, la biologie des systèmes et la

modélisation mathématique de systèmes

biologiques complexes. Le but de cette

équipe est de développer des méthodes

informatiques ou mathématiques permettant

le traitement non-erroné de données

biologiques ou encore la modélisation de

systèmes biologiques en prenant en compte

toute leur complexité. Chaque axe de

recherche a un domaine d'études varié. Par

exemple la génomique comprend à la fois la

génétique des populations et l'épidémiologie

moléculaire. De même, les travaux sur les

systèmes biologiques peuvent s'appliquer

sur les réseaux génétiques ou sur le cancer.

Pendant un semestre, j'ai travaillé sur

des données génétiques fournies par le

laboratoire d'Andrologie, Gérontechnologie,

Inflammation et Modélisation. Cette

structure a été créée en 2011 pour une durée

de deux ans. Elle dépend du CNRS, de

l'Université Joseph Fourier de Grenoble, de

l'Université Pierre-Mendès France de

Grenoble et de l'Ecole Pratique des Hautes

Etudes. Ce laboratoire se divise en trois

équipes : le Groupe de Recherche et d'Etude

du processus inflammatoire, l'équipe de

Gérontechnologie, Modélisation et e-Santé

et l'équipe Andrologie, Génétique et Cancer.

Mon projet s'inscrit dans les travaux de cette

dernière équipe et plus précisément du

groupe génétique infertilité et

thérapeutiques. Ce groupe à plusieurs axes

de recherches visant à comprendre

l'infertilité masculine, le vieillissement du

sperme et d'augmenter les chances de

réussite de la Procréation Médicalement

Assistée.

Les données génétiques fournies

correspondaient au séquençage de

l'information génétique de trois paires de

frères. Chaque paire souffre d'une

pathologie très rare entraînant l'infertilité.

L'infertilité de la première paire est due à

une anomalie de flagelles et celles des autres

paires sont dues à l'absence de

spermatozoïdes dans le sperme. Le but de

mon travail a donc été de mettre en évidence

des polymorphismes de leur ADN pouvant

être responsables de ces pathologies.

Je vais dans un premier temps

présenter la problématique dans laquelle

s'inscrit ce sujet ainsi que le contexte

général d'étude et je finirai par expliquer

plus précisément le travail que j'ai effectué

pendant ce module.

2. Problématique et état de l'art

a. Problématique

De nos jours, plusieurs types de maladies

sont connus, chacun ayant des causes

différentes. Par exemple, une maladie peut

être due à une infection bactérienne ou

encore virale. D'autres maladies sont

génétiques et c'est dans ce cadre là que le

projet s'inscrit.

En effet, de nombreuses

caractéristiques d'un individu sont définies

par son matériel génétique, qui est constitué

d'acide désoxyribonucléique (ADN). A

travers divers processus biologiques, l'ADN

est responsable du fonctionnement de notre

corps et influence notre aspect physique par

exemple. Au sein des noyaux de nos

cellules, l'ADN ne se présente pas sous la

forme d'une seule séquence; il se présente

sous forme de différents fragments : les

chromosomes. Chimiquement parlant,

l'ADN se compose de quatre bases azotées :

l'adénine (A), la guanine (G), la cytosine (C)

et la thymine (T). Ces bases sont appelées

nucléotides et forment pour chaque

chromosome une séquence particulière. Les

cellules humaines sont dites diploïdes, c'est-

à-dire que chaque chromosome est présent

en deux exemplaires, l'un étant hérité du

père, l'autre de la mère. Ces deux copies

forment une paire de chromosomes dits

« homologues ». Deux chromosomes

homologues contiennent globalement la

même information génétique, différente de

celles des autres chromosomes de

l'organisme. Cette information est contenue

dans des sous-parties du chromosome

appelées gènes. Chaque gène détermine un

ou plusieurs caractères héréditaires

spécifiques.

Ainsi, les maladies génétiques

peuvent s'expliquer par des modifications de

la séquence nucléotidique (des mutations

ponctuelles, des délétions ou des insertions

par exemple) qui entraînent le

dysfonctionnement du caractère héréditaire

déterminé par le gène ayant subi une ou

plusieurs variations.

Une branche de la recherche en

génomique consiste à chercher, chez des

individus atteints d'une pathologie donnée,

des gènes qui portent un polymorphisme

responsable de cette pathologie. Cela permet

tout d'abord de connaître la cause exacte de

la maladie et donc permettre un diagnostic

futur. De plus, connaître un gène

responsable d'un dysfonctionnement d'une

caractéristique donnée démontre aussi que le

gène participe à la définition de cette

caractéristique chez l'ensemble des êtres

humains et on peut donc lui attribuer une

nouvelle fonction. Enfin, c'est un pré-requis

au développement de la fameuse « médecine

personnalisée », où le traitement est adapté à

chaque patient en fonction des causes

moléculaires de sa pathologie.

Dans ce projet, les patients

considérés sont atteints de trois types rares

d'infertilité masculine et le but était donc

d'essayer de trouver des gènes modifiés

responsables de ces pathologies.

Je vais maintenant parler plus

précisément de la démarche utilisée pour

répondre à cette problématique.

b. Etat de l'art

La plupart des approches mises en

œuvre pour identifier des gènes responsables

de maladies se basent sur le séquençage de

l'ADN [5][6][7][8][9]. Cette technique consiste à

trouver dans quel ordre s’enchaînent les

nucléotides dans les chromosomes. Les

premières méthodes mises au point ne

permettaient pas l'identification d'un grand

nombre de bases, elles étaient de plus

coûteuses en temps, et ce malgré leur

automatisation. Appliquer une de ces

méthodes à notre problématique nécessitait

donc d'avoir sélectionné au préalable des

gènes susceptibles d'être impliqués dans la

maladie étudiée. Le séquençage est devenu

accessible pour l'analyse de pathologies lors

de l'apparition des méthodes de séquençage

de nouvelle génération. Elles ont permis de

lire des fragments d'ADN plus courts mais

en bien plus grand nombre. Le séquençage

rapide d'un génome entier à un coût

raisonnable est donc devenu possible. Avoir

accès à un génome entier permet d'étudier

non pas quelques gènes présélectionnés

mais l'ensemble des gènes et augmente donc

les chances de trouver un gène responsable

d'une maladie. Cependant, en général, pour

déterminer une variation génétique

responsable d'une maladie le génome n'est

pas entièrement séquencé car le coût reste

onéreux pour être utiliser couramment dans

le domaine de la recherche. Une stratégie

consiste à séquencer les exons, c'est-à-dire

les parties de gène qui interviennent dans la

synthèse des protéines (principaux acteurs

de notre métabolisme). En effet, les gènes se

présentent comme des successions d'exons

et d'introns. Les exons représentent 1 à 2%

du génome et le rôle fonctionnel des introns

est encore mal connu de nos jours. Le

séquençage des exons uniquement a un coût

réduit par rapport au séquençage d'un

génome complet. Cette méthode à déjà fait

ses preuves pour identifier les gènes

responsables de certains troubles

mendéliens. [1]

Le séquençage de l'ADN est suivi de

l'alignement. Pour chaque read (longueur de

l'ordre de 50 bases) produit par le

séquenceur, cette étape consiste à identifier

le site d'où il provient dans le génome de

référence. Le but de cette étape est de

permettre la détection de polymorphismes

pour pouvoir étudier leur impact sur les

différents gènes et savoir s'ils pourraient être

responsables de la pathologie.

Figure 1 - Exemple d'alignement. Les portions

vertes représentent les reads, les portions rouges

les polymorphismes, et la séquence en bleu est la

séquence de référence

Suite à l'alignement, pour une

position donnée, il y a trois possibilités (voir

figure 1): soit les nucléotides des deux

séquences sont identiques, soit elles sont

différentes, soit le séquençage de l'ADN

effectué ne permet pas d'avoir l'information

de manière fiable. L'étape qui suit, l'appel

des Single-Nucléotide Polymorphisms

(SNPs) [2], détecte l'ensemble des

polymorphismes d'un seul nucléotide entre

l'individu étudié et le génome de référence

et détermine son génotype. Comme cela est

expliqué précédemment, les humains ont des

paires de chromosomes homologues. Les

gènes sont donc aussi présents sous deux

versions nommées allèles. Pour une position

donnée, il y a deux possibilités de génotype

: l'individu est homozygote si les deux

allèles sont identiques et hétérozygote sinon.

A ce stade, les polymorphismes rencontrés à

des positions où la fiabilité de l'alignement

est remise en cause ne sont pas retenus. Le

critère de fiabilité sera expliqué dans la

partie suivant. Cependant, la liste de SNPs

restants est encore trop importante et n'est

donc pas exploitable.

Une étape de tri est nécessaire avant

d'étudier l'impact des SNPs. Le tri ne doit

conserver que les SNPs cohérents avec la

pathologie du patient. Par exemple, si on

étudie une maladie pour laquelle le

polymorphisme responsable est supposé

dominant, l'individu peut être hétérozygote

pour les SNPs candidats alors que dans le

cas d'un polymorphisme récessif il ne peut

pas. (Voir Annexes pour une définition plus

approfondie des termes génétiques). Il y a

différentes stratégies pour traiter cette étape

[3].

3. Travail effectué:

Comme cela est expliqué dans

l'introduction, l'équipe du Docteur Pierre

Ray a fourni au laboratoire TIMC-IMAG

des données génétiques issues du

séquençage de six patients. Ces patients sont

atteints de formes rares d'infertilité

masculine. Les six patients se divisaient en

trois paires de frères, chaque paire ayant une

pathologie différente. Une des pathologies

correspond à une anomalie sur les flagelles

des spermatozoïdes. Les deux autres sont

des cas d'azoospermie (absence de

spermatozoïdes). Il est important de préciser

pour la suite qu'un individu de la paire de

frères numéro trois a été séquencé 2 fois par

erreur. La première étape du travail a été le

réalignement des données et l'appel des

SNPs, puis, nous avons appliqué deux filtres

aux polymorphismes trouvés. Pour finir,

nous avons tenté d'améliorer les résultats

obtenus et nous les avons analysés.

a. Alignement et appel des SNPs

Ainsi, la première étape a consisté à

aligner les données issues du séquençage sur

le génome de référence humain. Cette étape

a été permise grâce au logiciel MAGIC

développé par un organisme américain, le

NCBI. L'alignement doit faire face à

plusieurs difficultés. Tout d'abord, le

logiciel doit savoir faire la différence entre

des variations dues à une erreur

expérimentale issues du séquençage et un

vrai polymorphisme. Les zones répétées du

génome sont aussi difficile à aligner. En

effet, une séquence donnée peut être

présente plusieurs fois dans le génome (à de

petites variations près), à la suite

(microsatellites) ou à des positions

différentes. Il est donc difficile voire

impossible de savoir d'où provient un read

issu d'une telle séquence répétée. Lorsque

les séquences sont successives la difficulté

réside dans le fait que le nombre de

répétitions varie entre individu et entre

chromosomes homologues.

Pour pallier à ces complications,

l'ADN a été séquencé de manière

particulière, dite "paired end": pour chaque

segment d'ADN traité, le séquençage a été

réalisé à chaque extrémité. Il en ressort ainsi

deux lectures différentes qui doivent se

placer sur le génome à une faible distance

l'une de l'autre et en sens inverse, ce qui

permet de résoudre des ambiguïtés lors de

l'alignement.

La réalisation de nos analyses, en

particulier l'alignement, a pris du temps car

le logiciel MAGIC est en constante

évolution. Les chercheurs du NCBI

développent et améliorent ce logiciel en

prenant en compte les besoins de leur

laboratoire. Les modifications apportées au

logiciel introduisent parfois des bogues au

niveau de l'utilisation faite par le laboratoire

TIMC-IMAG. Une première partie de mon

travail a consisté à identifier et corriger

certains de ces bogues.

A la fin de l'alignement, plusieurs

reads (ou lectures) différents recouvrent une

même position. Le nombre de reads à une

position donnée définit sa couverture. Le

logiciel n'a ensuite retenu que les SNPs

contenus dans de larges zones du génome

ayant une couverture suffisante. L'ADN a

une double hélice, il est composé de deux

brins et le dernier rôle du logiciel a été de

compter le nombre de versions variantes et

de versions de référence rencontrées pour

chaque individu, pour chaque brin et pour

chaque position des zones sélectionnées.

b. Sélection des SNPs les plus

prometteurs

Une fois l'utilisation du logiciel terminée,

nous avons pu commencer à trier les SNPs

selon plusieurs critères que je vais

énumérer. J'expliquerai ensuite comment ces

critères ont été pris en compte en pratique.

Elimination des SNPs non fiable : Du point

de vu qualitatif, le critère de tri s'est porté

sur la couverture des polymorphismes

retenus. Plus il y a de fragments à une

position donnée, moins il y a de chances de

faire une erreur quand on détermine la

présence ou non de SNPs. Ainsi, un

polymorphisme observé sur une position

peu couverte n'est pas retenu. En effet, si

une position n'est couverte que par trois

reads dont deux comportent un

polymorphisme alors que le troisième porte

la séquence du génome de référence,

conclure qu'il y a une mutation semble

erroné. Par ailleurs, les reads sur les deux

brins doivent en théorie être identiques

(mais en sens inverse). Cependant ce n'est

pas toujours le cas, car les séquenceurs

peuvent produire des erreurs systématiques

qui dépendant de la séquence lue. Pour

qu'un SNP puisse être appelé de manière

fiable, nous imposons donc que le

nucléotide sujet de la mutation soit couvert

au moins dix fois sur chaque brin, et que les

deux brins soient en accord. Ainsi, les

individus étant hétérozygotes, la probabilité

de n'avoir séquencé qu'un allèle sur les deux

présents est suffisamment faible. [4]

Elimination de SNPs par exploitation des

liens de parenté : Le deuxième critère de tri

que nous avons choisi d'appliquer est une

méthode exploitant les liens de parenté entre

individus touchés par une même pathologie.

Cette méthode est appelée la linkage

strategy [3]. On s'attend à ce que, si plusieurs

individus d'une même famille sont atteints,

un même polymorphisme soit responsable

de leur maladie : on va donc chercher des

polymorphismes présents chez tous les

patients d'une même famille. En

complément, des membres sains de la

famille peuvent aussi faire séquencer leur

ADN : cela permet d'exclure des mutations

bénignes. Je n'avais pas de données

supplémentaires d'autres individus sains de

la famille, je n'ai donc vérifiée que la

première obligation : un polymorphisme

1 / 11 100%

Documents connexes

Lire l'article complet

Un être vivant dont le génome vient d`être - iPubli

Le noyau : le centre de commande de la cellule

Où la technique nous ramène à l`éthique. Le progrès scientifique et

Trichostatine A - Encyclopédie sur le développement des jeunes

LES GÈNES ET LES ALLÈLES

BIENVENUE A GATTACA ET BIOETHIQUE

Résumé

Diagnostique génétique du cancer du sein

Lire la brève / full text

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Introduction à la Recherche en Laboratoire Analyse bioinformatique

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Introduction à la Recherche en Laboratoire Analyse bioinformatique

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib