de la représentativité de la base de données utilisée. Une base de départ peut être
représentée par la banque taxonomique du NCBI. Le problème est que le code de
nomenclature utilisé par le NCBI contient un certain nombre d’erreurs ou
d’incohérences. Le bilan, en termes d’espèces recensées, est de 13 625 pour les
bactéries, (seulement) 533 pour les archées et 312 932 pour les eucaryotes !
Par ailleurs, le problème avec les séquences provenant de GenBank est qu’une
proportion importante d’entre elles contiennent des annotations erronées, en
particulier au niveau taxonomique. C’est ainsi qu’une séquence annotée comme
appartenant au genre Streptococcus dans GenBank s’est en fait avérée provenir d’un
Psychrobacter selon leBiBiQBPP. Pour indiquer les problèmes éventuels, GenBank
utilise le tag UNVERIFIED au niveau du nom d’espèce / de souche. Le caractère
permanent des erreurs d’annotations taxonomique est en particulier lié au fait que
seules les personnes ayant effectué le dépôt d’une séquence dans GenBank ont le droit
d’effectuer des corrections et ceci depuis la mise en place de cette collection.
Une solution est d’utiliser la banque RefSeq dans laquelle les erreurs d’assignation
sont corrigées et ou une séquence représentative pour chaque type de souche est
définie. Le problème est que RefSeq ne couve qu’une petite partie des séquences de
GenBank.
Mise en place d’une banque de données d’ARNr 16S
Pour l’instant, les différentes banques d’ARNr 16S utilisée par leBiBiQBPP sont mises
à jour tous les six mois et l’objectif est de parvenir à automatiser suffisamment le
processus afin d’avoir une MàJ par semaine. En effet, leBiBiQBPP utilise non pas une
mais plusieurs banques construites en fonction de la « stringence » taxonomique. La
banque la plus stringente contient ainsi une seule séquence (séquence « type ») par
espèce.
Dans le pipeline de construction en cours de développement, les séquences sont
sélectionnées dans GenBank et RefSeq à l’aide du système ACNUC. Le programme
CD-HIT est ensuite utilisé en deux temps pour : i) effectuer une déréplication des
séquences ; puis ii) pour construire des clusters à 80 %. Les séquences de chaque
cluster sont ensuite alignées avec MAFFT et un arbre est construit avec FastTree.
Chaque arbre est ensuite parsé afin de créer des groupes. Un nœud de l’arbre constitue
un groupe si la médiane des distances patristiques séparant les différentes feuilles de
l’arbre est < 0,01 (distance GTR+4) et si le support aLRT > 0,90.
Dans le cas de séquences qui ne se placent dans aucun groupe, l’hypothèse la plus
parcimonieuse est que ce sont des erreurs de séquençage. Exemple : Streptococcus
agalactiae, séquence JX154576 qui « part à l’ouest » car annotation du taxon erronée
(il s’agit en fait d’une Psychrobacter).
Conclusions – Perspectives
Il faut désormais en théorie moins d’une nuit pour mettre à jour la base de données de
taxonomie. D’un autre côté, les annotations ne sont pas toujours mises à jour aussi
régulièrement (besoin de développer une procédure automatique).
Il est envisagé d’utiliser le cloud IFB pour réaliser une partie des calculs car le cluster
n’est pas approprié du fait de la façon dont sont gérées les files d’attente.
Enfin, il reste de nombreux problèmes concernant la taxonomie du NCBI pour les
eucaryotes (notamment chez les champignons).