l'une de l'autre et en sens inverse, ce qui
permet de résoudre des ambiguïtés lors de
l'alignement.
La réalisation de nos analyses, en
particulier l'alignement, a pris du temps car
le logiciel MAGIC est en constante
évolution. Les chercheurs du NCBI
développent et améliorent ce logiciel en
prenant en compte les besoins de leur
laboratoire. Les modifications apportées au
logiciel introduisent parfois des bogues au
niveau de l'utilisation faite par le laboratoire
TIMC-IMAG. Une première partie de mon
travail a consisté à identifier et corriger
certains de ces bogues.
A la fin de l'alignement, plusieurs
reads (ou lectures) différents recouvrent une
même position. Le nombre de reads à une
position donnée définit sa couverture. Le
logiciel n'a ensuite retenu que les SNPs
contenus dans de larges zones du génome
ayant une couverture suffisante. L'ADN a
une double hélice, il est composé de deux
brins et le dernier rôle du logiciel a été de
compter le nombre de versions variantes et
de versions de référence rencontrées pour
chaque individu, pour chaque brin et pour
chaque position des zones sélectionnées.
b. Sélection des SNPs les plus
prometteurs
Une fois l'utilisation du logiciel terminée,
nous avons pu commencer à trier les SNPs
selon plusieurs critères que je vais
énumérer. J'expliquerai ensuite comment ces
critères ont été pris en compte en pratique.
Elimination des SNPs non fiable : Du point
de vu qualitatif, le critère de tri s'est porté
sur la couverture des polymorphismes
retenus. Plus il y a de fragments à une
position donnée, moins il y a de chances de
faire une erreur quand on détermine la
présence ou non de SNPs. Ainsi, un
polymorphisme observé sur une position
peu couverte n'est pas retenu. En effet, si
une position n'est couverte que par trois
reads dont deux comportent un
polymorphisme alors que le troisième porte
la séquence du génome de référence,
conclure qu'il y a une mutation semble
erroné. Par ailleurs, les reads sur les deux
brins doivent en théorie être identiques
(mais en sens inverse). Cependant ce n'est
pas toujours le cas, car les séquenceurs
peuvent produire des erreurs systématiques
qui dépendant de la séquence lue. Pour
qu'un SNP puisse être appelé de manière
fiable, nous imposons donc que le
nucléotide sujet de la mutation soit couvert
au moins dix fois sur chaque brin, et que les
deux brins soient en accord. Ainsi, les
individus étant hétérozygotes, la probabilité
de n'avoir séquencé qu'un allèle sur les deux
présents est suffisamment faible. [4]
Elimination de SNPs par exploitation des
liens de parenté : Le deuxième critère de tri
que nous avons choisi d'appliquer est une
méthode exploitant les liens de parenté entre
individus touchés par une même pathologie.
Cette méthode est appelée la linkage
strategy [3]. On s'attend à ce que, si plusieurs
individus d'une même famille sont atteints,
un même polymorphisme soit responsable
de leur maladie : on va donc chercher des
polymorphismes présents chez tous les
patients d'une même famille. En
complément, des membres sains de la
famille peuvent aussi faire séquencer leur
ADN : cela permet d'exclure des mutations
bénignes. Je n'avais pas de données
supplémentaires d'autres individus sains de
la famille, je n'ai donc vérifiée que la
première obligation : un polymorphisme