
Journal Identification = ABC Article Identification = 0930 Date: January 27, 2014 Time: 1:36 pm
Ann Biol Clin, vol. 72, n◦1, janvier-février 2014 29
La médecine génomique, une réalité en pleine évolution
que la base lue par la machine soit la bonne [10, 11]. Ce
score Phred est donné pour toutes les bases de la séquence
lues par la machine. Par exemple, si le séquenceur lit la
séquence 5’-ACGTGGA.... et que le A souligné a un score
Phred de 20, cela signifie que la base allouée à la séquence
présente 1/100 d’être fausse (99 % de chance d’être cor-
recte). S’il est de 30, la probabilité d’être fausse est de
1/1 000 (99,9 % de chances d’être correcte). Le score mini-
mum d’un Phred doit être de 20. Certains estiment qu’il est
souhaitable d’obtenir un score de 30 au minimum. À noter
que pour les séquenceurs capillaires (méthode de Sanger)
les utilisateurs jugent qu’une séquence est bonne si le Phred
est de 20 au minimum.
Le taux de couverture : il représente le nombre de fois
qu’une séquence est lue (par exemple, un taux de couverture
de 10 fois se dit 10X). Ainsi, lorsqu’il s’agit d’un échan-
tillon de sang, pour qu’une base d’une séquence ait une
exactitude de 1/1 million, le taux de couverture doit être de
50X au minimum. Certains fixent ce taux à 100X [12]. Bien
qu’aucun consensus officiel n’existe, il semble que dans le
cas de la génétique constitutionnelle (génome diploïde), un
taux moyen de couverture de 50X permette de génotyper
correctement le génome avec 95 % d’exactitude. Dans le cas
de la génétique somatique où le tissu cancéreux se trouve
au sein de tissu normal, ce taux de couverture est large-
ment insuffisant. La détection de mutations somatiques est
ainsi plus ardue. Par ailleurs, pour complexifier un peu plus,
on sait qu’il existe une hétérogénéité génétique des diffé-
rents clones tumoraux dans un grand nombre de cancers.
Il n’existe pas de consensus pour le taux de couverture.
On estime qu’au minimum il faut 500X (et pour certains,
1 000X) pour éviter un taux d’erreurs important dans le
séquenc¸age des tumeurs.
Le taux de détection : classiquement, la technique de Sanger
permet de détecter des variants présents à un taux faible (par
exemple, mélange d’un tissu muté et d’un tissu sain) avec
un seuil de détection supérieur à 15-20 % alors que les
séquenceurs nouvelles génération descendent à un seuil de
1-2 % [13].
Différencier un polymorphisme d’une mutation somatique
(en oncogénétique) : chacun d’entre nous possédant 3-
4 millions de SNP, il est nécessaire de les différencier
des mutations somatiques. Ainsi, dans une analyse génome
entier, il est nécessaire d’avoir du tissu normal (par exemple
salive ou sang) pour comparer l’ADN normal de l’ADN
tumoral. La complexité de l’analyse est encore accrue par
la présence de variation du nombre de copies de gènes dont
certaines sont normales.
L’analyse des résultats : il n’existe pas un mais plu-
sieurs logiciels d’analyse des résultats du séquenc¸age. Ces
nombreux logiciels ont été développés pour la recherche
essentiellement. Cependant, un certain nombre d’entre eux
ont été adaptés pour l’analyse clinique bien qu’aucun
à notre connaissance n’ait fait l’objet d’une évaluation.
Il n’existe d’ailleurs pas à ce jour de consensus sur la
méthodologie d’analyse dans le cadre du domaine clinique.
La standardisation tant de l’analyse bio-informatique que
dans l’interprétation est un manque majeur. Par ailleurs,
il n’existe pas une base de données unique permettant
l’interprétation des résultats (mutations, polymorphismes,
variant du nombre de copies) (exemples : 1 000 génomes,
Exome Variant Server, HGMD). Plusieurs bases de données
doivent être interrogées afin de connaître la pathogénicité
ou la bénignité d’un variant (exemples : Alamut, SIFT,
PolyPhen2).
Le problème du stockage des données : selon le type de
séquenc¸age (tout génome, exome, séquenc¸age ciblé), la
quantité de données par patient varie de quelques gigaoc-
tets à plusieurs téraoctets de données informatiques. Les
ressources informatiques non seulement d’analyse des don-
nées mais aussi de stockage vont rapidement devenir un réel
problème. Le stockage « dans les nuages » (Cloud) est une
solution. Mais, elle constitue un risque en cas de fermeture,
de piratage ou de panne du site « dans les nuages ». Par
ailleurs, les problèmes de l’archivage, de l’accession aux
données, de la sécurité des données, de leur sauvegarde, de
leur destruction éventuelle ne sont pas résolus (pas de loi
tant nationale qu’internationale claires sur ce sujet). Enfin,
l’analyse des données d’un patient tant pour le diagnostic
que le pronostic, la surveillance thérapeutique (entre autres)
doit pouvoir être interopérable d’un système informatique
à l’autre et accessible pour le médecin. Le génome indivi-
duel doit donc être accessible (et compréhensible) pour le
médecin soignant et le patient.
De nombreux logiciels d’analyse et d’aide à l’interprétation
sont disponibles. Dans la jungle des logiciels, comme il a
été écrit ci-dessus, il est parfois difficile de s’y retrouver
d’autant plus que les formations en bio-informatique pour
les médecins sont quasi inexistantes. Une revue récente
résume les principaux logiciels utilisables [14].
Considérations analytiques des séquenceurs
de nouvelle génération [15]
Outre les problèmes informatiques exposés ci-dessus, les
problèmes d’ordre analytique ne doivent pas être oubliés.
On peut en citer quelques exemples :
– il n’existe pas de protocole consensuel de validation tech-
nique des appareils. Celui-ci doit porter entre autres sur
l’exactitude, la précision, la sensibilité, la spécificité, les
limites de détection, les régions analysées, la technique de
référence actuelle étant toujours la méthode de Sanger ;
– des contrôles de qualité sont actuellement mis en place
tant sur le plan national qu’international. L’établissement
d’un matériel ADN de référence est indispensable ;
– la nécessité de guides de bonne pratique de ces machines,
en cours de rédaction.
Copyright © 2017 John Libbey Eurotext. Téléchargé par un robot venant de 88.99.165.207 le 04/06/2017.