Compte-rendu réunion WP 2.7.2

publicité
Compte-rendu réunion WP 2.7.2
Mardi 30/06/2015 de 10h à 16h30
Organisateurs/Coordinateurs: Guy Perrière et Claudine Médigue
Participants (22)
GENOSCOPE : Sébastien Faye, Quentin Cadarec, Eric Pelletier
MICROSCOPE : Stéphane Cruveiller, Marine Séjourné, Alexandra Calteau, Claudine
Médigue
PRABI : Christine Oger, Jean François Taly, Guy Perrière
PACA_Bioinfo : Damien Desmarais, Olivier Poirot
CBiB : Aurélien Barre
LIRMM : Vincent Lefart, Anne-Muriel Chifolleau
MetaGenoPolis : Nicolas Pons, Ndeye Aram, Amine Ghozlane
INRIA/Irisa: Dominique Lavenier, Gaetan Benoit
MIGALE: Jean François Gibrat
GeneOuest/Roscoff: Christophe Caron (après midi)
Introduction
Tour de table
Contenu de la journée (C. Médigue)
Exposé 1
Metagenomics: Building a taxonomic markers collection – Jean François Taly (PRABI)
Au cours de la première tranche de CDD accordée par France Génomique, François
Bartolo (IE) et Clément Lionnet (étudiant M1) ont développé un prototype de pipeline
d’assignation taxonomique qui a été présenté au cours de la réunion de l’année
dernière. Ces développements ont constitué le point de départ des travaux de l’actuel
CDD, Jean-François Taly.
Dans un premier temps, présentation de leBiBIQBPP, un système d’identification
taxonomique dédié aux bactéries et aux archées et fondé sur l’utilisation de critères
phylogénétiques (https://umr5558-bibiserv/lebibi/lebibi.cgi). Ce système permet de
construire des phylogénies « à la volée » à partir de différents marqueurs (ARNr 16S,
rpoB, recA, etc.) et il s’affranchit donc de l’utilisation d’une banque de données
contenant des séquences préalignées. Les étapes sont : i) une recherche de similarité
au moyen de BLAST ; ii) la récupération d’un sous-ensemble de séquences
homologues puis leur alignement au moyen de MAFFT ; iii) la construction d’une
phylogénie au moyen de FastTree. Le séquence requête est affectée à la séquence ou
au groupe de séquences le plus proche du point de vue de la distance patristique
(Diapo. 5). Il est possible d’utiliser le service sur données provenant d’un séquenceur
de type MiSeq (7 sec. pour une identification, les accès disques constituant la partie
limitante du processus).
Objectif du travail
Construction d’une base de données de référence qui soit représentative de la diversité
taxonomique des procaryotes puis utilisation des développements déjà réalisés qui
seront encapsulés dans Galaxy. Une bonne assignation taxonomique dépend en effet
1
de la représentativité de la base de données utilisée. Une base de départ peut être
représentée par la banque taxonomique du NCBI. Le problème est que le code de
nomenclature utilisé par le NCBI contient un certain nombre d’erreurs ou
d’incohérences. Le bilan, en termes d’espèces recensées, est de 13 625 pour les
bactéries, (seulement) 533 pour les archées et 312 932 pour les eucaryotes !
Par ailleurs, le problème avec les séquences provenant de GenBank est qu’une
proportion importante d’entre elles contiennent des annotations erronées, en
particulier au niveau taxonomique. C’est ainsi qu’une séquence annotée comme
appartenant au genre Streptococcus dans GenBank s’est en fait avérée provenir d’un
Psychrobacter selon leBiBiQBPP. Pour indiquer les problèmes éventuels, GenBank
utilise le tag UNVERIFIED au niveau du nom d’espèce / de souche. Le caractère
permanent des erreurs d’annotations taxonomique est en particulier lié au fait que
seules les personnes ayant effectué le dépôt d’une séquence dans GenBank ont le droit
d’effectuer des corrections et ceci depuis la mise en place de cette collection.
Une solution est d’utiliser la banque RefSeq dans laquelle les erreurs d’assignation
sont corrigées et ou une séquence représentative pour chaque type de souche est
définie. Le problème est que RefSeq ne couve qu’une petite partie des séquences de
GenBank.
Mise en place d’une banque de données d’ARNr 16S
Pour l’instant, les différentes banques d’ARNr 16S utilisée par leBiBiQBPP sont mises
à jour tous les six mois et l’objectif est de parvenir à automatiser suffisamment le
processus afin d’avoir une MàJ par semaine. En effet, leBiBiQBPP utilise non pas une
mais plusieurs banques construites en fonction de la « stringence » taxonomique. La
banque la plus stringente contient ainsi une seule séquence (séquence « type ») par
espèce.
Dans le pipeline de construction en cours de développement, les séquences sont
sélectionnées dans GenBank et RefSeq à l’aide du système ACNUC. Le programme
CD-HIT est ensuite utilisé en deux temps pour : i) effectuer une déréplication des
séquences ; puis ii) pour construire des clusters à 80 %. Les séquences de chaque
cluster sont ensuite alignées avec MAFFT et un arbre est construit avec FastTree.
Chaque arbre est ensuite parsé afin de créer des groupes. Un nœud de l’arbre constitue
un groupe si la médiane des distances patristiques séparant les différentes feuilles de
l’arbre est < 0,01 (distance GTR+4) et si le support aLRT > 0,90.
Dans le cas de séquences qui ne se placent dans aucun groupe, l’hypothèse la plus
parcimonieuse est que ce sont des erreurs de séquençage. Exemple : Streptococcus
agalactiae, séquence JX154576 qui « part à l’ouest » car annotation du taxon erronée
(il s’agit en fait d’une Psychrobacter).
Conclusions – Perspectives
Il faut désormais en théorie moins d’une nuit pour mettre à jour la base de données de
taxonomie. D’un autre côté, les annotations ne sont pas toujours mises à jour aussi
régulièrement (besoin de développer une procédure automatique).
Il est envisagé d’utiliser le cloud IFB pour réaliser une partie des calculs car le cluster
n’est pas approprié du fait de la façon dont sont gérées les files d’attente.
Enfin, il reste de nombreux problèmes concernant la taxonomie du NCBI pour les
eucaryotes (notamment chez les champignons).
2
Exposé 2
Assignation taxonomique et détection de chimères dans les données génomiques complexes
et les métagénomes: prototype d'un outil interactif – Damien Desmarais (IGS/PACA-Bioinfo)
Développement d’un outil de fouille de données métagénomique permettant de
détecter des chimères afin de corriger les erreurs d’assignation taxonomique.
Problématique
Porte sur l’analyse de données de séquençage de cellules uniques bruitées et de
métagénomes. Dans le premier cas, exemple d ‘une séquence de virus géant du lac
Washington aux USA faussement annotée comme une séquence d’archée.
Pipeline et interface graphique
Suit une description du pipeline de traitement des données permettant d’effectuer une
assignation taxonomique sur l’ensemble des contigs analysés pour application aux
microbiomes environnementaux. A partir des contigs : i) prédiction de gènes avec
MetaGeneMark, ou l’option « Virus » de GeneMark ; ii) recherche de similarités avec
BLASTP ; iii) assignation taxonomique. Le pipeline est écrit écrit en Perl, avec de
nombreuses bibliothèques appelées et des liens entre les langages de programmation
utilisés pour les différentes briques. Utilisation du format SVG pour les graphiques.
Sont ensuite présentées des captures d’écran montrant les différentes étapes de la
réalisation d’une analyse. Question : pourquoi passer par la séquence protéique pour
faire de l’assignation taxonomique (plus rapide MAIS moins sensible que le
nucléique) ?
Conclusions
Le traitement des données prend 25 min pour annoter les 505 ORFs. Réflexion en
cours pour la mise à disposition de ce service : TGCC ou Cloud IFB ? Uniquement en
local ?
Exposé 3
Simka: méthode rapide pour estimer la similarité entre de nombreux échantillons
métagénomiques – Gaëtan Benoit (IRISA, ANR Hydrogen)
Le point de départ de Simka c’est une matrice de similarité entre deux
échantillons métagénomiques: un clustering est présenté sous forme de dendogramme
pour voir quel échantillon est proche de quel autre.
TARA : 200 sites plusieurs profondeurs – 4000 échantillons au total.
Problématique
Comment estimer la similarité entre deux échantillons à partir de l’ensemble des
lectures de chaque métagénome ? Avec 100 millions de lectures une approche de type
BLAST mettrait des mois pour calculer l’intersection. L’outil, publié en 2014, utilise
sur les k-mer et calcul les intersection en quelques heures. La taille des mots utilisés
doit être k ≥ 30 au minimum pour que ce soit pertinent.
Simka
Le programme utilise une fonction basée sur les k-mers partagés et les mesures de
similarités proposées sont la Jaccard similarity et l’abondance based Jaccard
similarity. Pour le comptage des k-mers sur N échantillons, utilisation de KMC2
(Deorowicz et al., 2014). Puis mesure de présence absence en transformant en
3
booléen. Le test sur 21 échantillons de TARA nécessite 4h de calcul avec Simka
(valeur pour la présence/absence de k-mers et pour l’abondance des k-mers).
Questions
Problème de validation car on ne sait pas vraiment quels résultats on doit avoir. Tout
ce que l’on sait pour l’instant est que ça colle en général avec ce que l’on connaît des
échantillons (leur provenance ?) Une possibilité serait de passer par des simulations.
Les seuils sont très stringent donc on voit des parties très fortes du signal. Beaucoup
de configurations ont été testées au niveau de la longueur des k-mers (on retrouve
partout des k-mers de trop petites tailles). Comparaison des matrices : pas de formules
mathématiques pour l’instant – c’est visuel. Simka tourne au CCRT. Remarque sur le
fait que la bibliothèque GATB est aussi très efficace.
Perspectives
Quelques k-mers par read devraient suffire pour avoir les mêmes résultats.
Exposé 4
BigData accelerated computing in R : an application in metagenomics – Ndeye Aram
GAYE (MetaGenoPolis)
Qu’est-ce que le big data ? Cette appellation, à la fois ambiguë et vague, implique des
concepts variés touchant au volume, la vélocité (fréquence de production), la variété,
la véracité, la complexité. Il existe des solutions aussi bien au niveau matériel (tout ce
qui touche au High Performance Computing – HPC) que logiciel (Message Passing
Interface – MPI, Hadoop, Spark).
Les données en génomique sont désormais du big data. Un exemple : une matrice de
comptage sur un catalogue de gènes peut comprendre 10 000 gènes et 1000 ou plus
individus et 3000 échantillons de ce type peuvent être produits par an, soit 200 Tb de
données.
Pour traiter les données de génomique, il existe des bibliothèques R, qui est un
langage répandu et relativement facile à utiliser mais qui est interprété et donc lent. La
bibliothèque MetaOMiner a ainsi été développée à MetaGenoPolis. Cette bibliothèque
comprend deux niveaux : un pour le préprocessing (normalisation, etc) et un pour le
processing (comptage de gènes, clustering, etc.) des données. Les demandes des
utilisateurs, sont donc de faire des analyses big data sous R sans changer les
habitudes, mais ce langage n’est pas fait pour ça !
Une première solution trouvée pour répondre aux besoins des utilisateurs a consisté
en le développement d’un langage de programmation spécifique au domaine de la
métagénomique : DSL. Par ailleurs, mise en place du projet Mach (Massive
calculations on heterogeneous systems). Il s’agit d’un projet européen de trois ans
dont l’objectif est de transformer du code R en binaire exécutable. Plusieurs cibles
architecturales sont envisagées (Clusters de calcul, Cloud computing, etc.)
Parmi les développements en cours figure la mise en place de la bibliothèque R
Megapack, codée en C. Par ailleurs, la bibliothèque PARConnector permet de faire du
HPC facilement via la soumission à un scheduler. Enfin, la bibliothèque gpuStat est
consacrée à la distribution des données sur des systèmes à base de GPU.
4
Exposé 5
Développements bioinformatiques pour l'analyse de données métagénomiques –
AMALGAM, vers un outil d'assemblage automatique – Stéphane Cruveiller et
Marine Séjourné (LABGeM/PF MicroScope)
Tout d’abord un point est fait sur le pipeline DIGEST déjà présenté en 2014.
L’objectif de ce pipeline est de compléter les gènes partiels (soit 56 %) du catalogue
du microbiome intestinal humain à partir des données de séquence de capture. Un
rappel est effectué sur la stratégie de séquençage par capture ainsi que sur la stratégie
d’analyse du pipeline développé (Diapos. 7 à 10).
Suit une présentation des résultats obtenus à l’issue du départ du premier CDD
(Arnaud Felten). L’analyse de sept individus (sur les 50 de départ) a permis de
compléter plus de deux millions de gènes du catalogue soit 25 % des gènes
initialement incomplets. Le pipeline est fonctionnel, déployé au CCRT, et disponible
à la communauté. L’analyse des 43 individus restants devrait être réalisée dans le
courant de l’année 2016. Travailler aussi avec les assemblages initiaux aussi pour
s’affranchir des chimères.
La deuxième partie de l’exposé est tout d’abord consacrée à la présentation d’un état
de l’art sur les assembleurs de génomes et de métagénomes. A la première place en
termes de nombre de citations, on trouve Velvet et son complémentaire MetaVelvet,
dédié aux métagénomes (trois publication en 2008, 2012 et 2015). En deuxième
position se trouve ABySS (publication en 2009). Lorsque l’on regarde les approches
utilisées par les différents programmes il apparaît que l’assemblage brut des données
de métagénomes est très difficile car les données sont hétérogènes.
Suit une présentation d’AMALGAM (Automatic MicrobiAL Genome Assembler), un
pipeline développé au LABGeM et basé sur l’assembleur commercial Newbler de 454
Roche LifeSciences). Ce système permet d’améliorer la finition du génome grâce à
l’utilisation de l’outil GapCloser provenant de la bibliothèque SOAP. Qui plus est, il
permet de réaliser des statistiques d’assemblage via QUAST (Quality Assessment
Tool for Genome Assemblies). Une comparaison de ABySS et Newbler montre que ce
dernier est plus long mais propose des résultats nettement meilleurs. Le problème est
que Newbler est un produit commercial.
Pour finir la plateforme SynBioWatch dédiée à la détection détecter et l’identification
des agents pathogènes dans un échantillon métagénomique est présentée. Cette
plateforme permet non seulement de faire de l’assignation taxonomique mais aussi de
détecter des gènes de résistance aux antibiotiques et de virulence et/ou des toxines.
SynBioWatch a été déployée au sein du cloud IFB sous la forme d’une Machine
Virtuelle.
Exposé 6
Méthodes d’analyses à grande échelle des métatranscriptomes eucaryotes dans le
projet TARA Océans – Quentin Carradec (Genoscope)
L’approche métatranscriptome permet d’assembler les données de séquence plus
facilement, et la prédiction de gènes n’est pas nécessaire. Le but de l’analyse
présentée consiste en la création d’un catalogue d’unigènes (beaucoup de gènes sont
fractionnés). Une fois ce catalogue établit, on calcule les occurrences des unigènes
pour avoir une idée de l’abondance de chaque gène par échantillon.
5
Analyse de quatre stations marines avec concentration en chlorophylle différente qui
ont montré l’existence d’une corrélation avec taux de fer dans l’eau. Au total,
assemblage de 7,9 milliards de lectures en 16 millions de contigs ayant permis
l’identification de 9,4 millions d’unigènes dont 19 % seulement possèdent un match
dans Pfam.
Pour étudier l’impact du fer sur la prolifération d’un stramenopile, analyse d’une
espèce donnée (Pelagomonas calceolata) dont on a trois transcriptomes de référence.
Etude des fonctions Pfam moins exprimées dans la station avant bloom (absence de
fer) que pendant le bloom (présence de fer). Les fonctions impliquées dans la
photosynthèse mais aussi dans la production d’acides aminés et la traduction ont ainsi
des activités plus important pendant le bloom. Une fonction est par contre plus
exprimée avant le bloom que pendant, il s’agit du gène de flavodoxine impliquée dans
la photosynthèse (tout comme la ferredoxine, mais l’enzyme n’utilise pas de fer
comme co-facteur). L’organisme utilise la ferredoxine quand il y en a dans le milieu,
c’est-à-dire pendant le bloom. La glycolyse est également impactée ce qui montre une
adaption de P. calceolata à l’absence de fer.
Perspectives
Faire ce genre d’analyse sur l’ensemble des échantillons de toutes les stations afin
d’avoir une description globale du transcriptome des eucaryotes présent dans les
métagénomes des stations séquencées.
Quid des 80% de données qui n’ont pas de match Pfam ? pour Eric l’exploitation des
données avec les modules de KEGG pose des problèmes lié à la taille des fragments.
Exposé 7
Travaux et problématiques en métagénomique bactérienne au CBiB – Aurélien Barre
(CBiB)
Trois thématiques en métagénomique sont abordées dans le groupe : Virus de plantes
(classsification), Santé (CHU de bordeaux pour la polyartrite rhumatoïde) et paléométagénomique. Les questions posées sont classiques en métagénomique : i)
obtention de listes d’espèces ; ii) comparaison d’échantillons ; et iii) fonctionnement
du milieu (établissement d’un catalogue de gènes).
Classification
Question du déterminisme de la polyartrite rhumatoïde en terme de phylogénie
(existe-t’il un déséquilibre des populations bactériennes responsables de
l’inflammation ?) Analyses d’échantillons métagénomiques avec des patients sains et
des malades puis, en fonction de la population bactérienne, détermination du
traitement approprié.
La classification des lectures se fait en utilisant la la banque GreenGenes et le système
Tango (phases 1 et 2) puis utilisation d’un autre outil pour passer dans l’espace de
nommage du NCBI. Une alternative est l’utilisation du système Phylosift qui fait de
l’assignation taxonomique après un mapping réalisé au moyen de BWA (phase 3).
Utilisation de Cytoscape pour intégrer les résultats d’analyse et effectuer une
représentation sous forme de graphes d’espèces sur-représentées chez les malades =>
est ce que cela peut expliquer l’apparition de la maladie ? (travail en cours)
Pour l’analyse
MetagenAssist.
comparative,
utilisation
du
pipeline
d’origine
canadienne
6
Un workflow éventuellement intégrable sous Galaxy est également en cours de
développement. Ce workflow serait dans l’esprit de MetagenAssist mais il servirait
également à effectuer des assignations taxonomiques et permettrait de visualiser les
résultats d’une phylogénie.
Métagénomique Fonctionnelle
Projet Biomines avec IFP Energie Nouvelles. L’objectif de ce projet est de déterminer
un bioprocess (i.e., un ensemble d’enzymes) permettant de produire du bioéthanol.
Test de la bibliothèque R mmnet (microbiome metabolic network) intégrée dans
Bioconductor qui utilise les données KEGG ainsi que les prédictions enzymatiques
issues de de MG-RAST pour constuire les réseaux qui peuvent être ensuite comparés.
L’annotation fonctionnelle est faite en réalisant des prédictions d’ORF sur les lectures
au moyen de FragGeneScan (remarque de GP sur le fait que Glimmer-MG a une bien
meilleure sensibilité que FragGeneScan, aujourd’hui obsolète).
Les moyens de calcul utilisés sont ceux du CBiB, c’est-à-dire le mésocentre de calcul
intensif Aquitaine.
Exposé 8
Technologies de séquençage et stratégies d'assemblage de novo – Faye Sebastien
(Genoscope, WP 2.3)
L’exposé commence par une présentation des différents paramètres pouvant jouer sur
le degré de difficulté des analyses (complexité du génome, technologie de
séquençage, méthode d’assemblage, etc.) La complexité d’un génome est estimée par
comptage des k-mers pour déterminer : i) ceux qui sont très répétés ; ii) ceux qui sont
« uniques » ; et iii) ceux qui sont rares du fait d’erreurs de séquençage. Une fois que
l’on a une idée de la complexité des données on peut choisir la méthode d’assemblage
(algorithme glouton, OLC ou graphes de de Bruijn).
Suit une discussion sur l’utilisation et l’intégration de méthodes de séquençage
permettant d’obtenir des lectures longues :



PacBio reads (85% identité).
Moleculo qualité top (95% identité).
Nanopore (longues lectures mais qualité très médiocre).
Un assemblage avec des lectures longues est presque indispensable dans le cas de
génomes « complexes ». Pour des génomes non complexes la technologie de
séquençage « short read » est largement suffisante pour obtenir un assemblage solide
avec une approche type de Bruijn.
Discussion : école d’été en métagénomique
Présentation par GP d’un projet d’école d’été 2016 sur l’analyse de données
métagénomique. L’appel à projet d’écoles thématiques lancé par l’INEE et relayé par
le GdR de Génomique Environnementale est passé, mais il faudrait tout de même
mettre en place cette école le plus rapidement possible car les besoins sont vraiment
importants (essentiellement au niveau pratique).
Existant
Tour d’horizon de quelques formations/workshops en Europe et dans le monde :
7



Formation
de
l’EBI
organisée
par
Rob
Finn
(http://www.ebi.ac.uk/training/course/metagenomics2015). La prochaine
édition se tient en septembre 2015 et les diapositives des conférenciers et des
travaux pratiques sont disponibles sur le site.
Workshop du TGAC, plus basé sur des exposés que des exercices pratiques
(http://www.tgac.ac.uk/metagenomics-bench-to-analysis/).
Canadian Bioinformatics Workshop Series : voir site du CBW
(http://bioinformatics.ca/workshops/2015/analysis-metagenomic-data-2015).
Bilan : peu de « training » mais pas mal de workshops avec exposés sur l’état de l’art.
GP mentionne la sortie du livre « La Métagénomique » aux éditions Quae
(http://www.quae.com/fr/r4101-la-metagenomique.html) qui pourrait donner quelques
idées d’intervenants dans la future école.
Lieu
Proposition initiale d’organisation à Evry/Paris par GP. Contre-propositions
d’organisation en résidentiel. Nicolas Pons a une adresse pas chère et Christophe
Caron a aussi testé deux adresses :


Oléron (http://www.caes.cnrs.fr/vacances/nos-villages/la-vieille-perrotine)
o Les + : super site (vélo, salles très pratique, piscine, mer pas loin, etc.)
Accueil vraiment de qualité (souplesse, etc.). Repas standard mais
option dîner ++. Il faut y aller en mai / juin / septembre / octobre.
o Les – : connexion internet moyenne.
Nantes : devis joint de 14 k€ pour trois jours.
o Les + : réseau internet 100 Mbps symétrique ; repas et cadre ; desserte
de Nantes ; hôtel + salle sur le même campus.
o Les – : peut-être le côté hôtel (moins chaleureux que le site d'Oléron
par exemple même si le cadre est vraiment pas mal).
Organisation
 Partie théorique : en amphi pour pouvoir être nombreux.
 Partie pratique : 30 personnes environ.
Pour permettre aux personnes de n’assister qu’à la partie théorique, il faudra
rassembler les exposés sur deux jours, puis passer à la pratique sur les deux derniers
jours.
Dates et durée
En 2016, JOBIM se déreoulera du 28 au 30 juin à Lyon et il faut donc éviter
d’organiser l’école aux alentours de cette date, ceci d’autant plus que la coupe
d’Europe de football se déroulera en France durant le printemps 2016 ! Proposition
d’une durée de quatre jours, allant de lundi midi au vendredi midi. La date
approximative serait début septembre.
Choix des thématiques
Nous devons échanger par mail au cours de l’automne 2015 afin de définir des
thématiques précises sans essayer de tout couvrir. Deux grands domaines : analyses
de tag / analyse globale. Une fois les thèmes définis, il faudra établir une liste
d’intervenants et procéder à leur invitation le plus rapidement possible.
8
Public visé
Cette formation doit pouvoir permettre aux personnes y assistant de traiter par la suite
des jeux de données en taille « réelle » (c’est-à-dire de très grande taille) ce qui
semble proscrire l’emploi d’un outil comme Galaxy. Du fait de ce prérequis, le public
visé serait donc plutôt constitué de bioinformaticiens.
Actions/décisions
Les personnes ayant des informations pour une organisation en résidentielle envoient
un mail à CM et GP pour pouvoir décider rapidement du lieu d’organisation. CM
s’occupe de rassembler les informations sur le financement de cette école (via l’IFB et
France Génomique et éventuellement les tutelles). GP initie un premier mail pour
décider des thématiques à aborder et avoir une liste d’intervenants étrangers à inviter
+ intervenants de notre réseau à solliciter. Ce premier canevas d’organisation
permettra de faire circuler un doodle (au minimum aux intervenants identifiés) afin de
statuer rapidement sur les dates auxquelles cette école devrait être organisée.
Compte-rendu rédigé par C. Médigue et G. Perrière
9
Téléchargement