Compte-rendu réunion WP 2.7.2

Téléchargement

Mardi 30/06/2015 de 10h à 16h30

Organisateurs/Coordinateurs: Guy Perrière et Claudine Médigue

Participants (22)

GENOSCOPE : Sébastien Faye, Quentin Cadarec, Eric Pelletier

MICROSCOPE : Stéphane Cruveiller, Marine Séjourné, Alexandra Calteau, Claudine

Médigue

PRABI : Christine Oger, Jean François Taly, Guy Perrière

PACA_Bioinfo : Damien Desmarais, Olivier Poirot

CBiB : Aurélien Barre

LIRMM : Vincent Lefart, Anne-Muriel Chifolleau

MetaGenoPolis : Nicolas Pons, Ndeye Aram, Amine Ghozlane

INRIA/Irisa: Dominique Lavenier, Gaetan Benoit

MIGALE: Jean François Gibrat

GeneOuest/Roscoff: Christophe Caron (après midi)

Introduction

Tour de table

Contenu de la journée (C. Médigue)

Exposé 1

Metagenomics: Building a taxonomic markers collection – Jean François Taly (PRABI)

Au cours de la première tranche de CDD accordée par France Génomique, François

Bartolo (IE) et Clément Lionnet (étudiant M1) ont développé un prototype de pipeline

d’assignation taxonomique qui a été présenté au cours de la réunion de l’année

dernière. Ces développements ont constitué le point de départ des travaux de l’actuel

CDD, Jean-François Taly.

Dans un premier temps, présentation de leBiBIQBPP, un système d’identification

taxonomique dédié aux bactéries et aux archées et fondé sur l’utilisation de critères

phylogénétiques (https://umr5558-bibiserv/lebibi/lebibi.cgi). Ce système permet de

construire des phylogénies « à la volée » à partir de différents marqueurs (ARNr 16S,

rpoB, recA, etc.) et il s’affranchit donc de l’utilisation d’une banque de données

contenant des séquences préalignées. Les étapes sont : i) une recherche de similarité

au moyen de BLAST ; ii) la récupération d’un sous-ensemble de séquences

homologues puis leur alignement au moyen de MAFFT ; iii) la construction d’une

phylogénie au moyen de FastTree. Le séquence requête est affectée à la séquence ou

au groupe de séquences le plus proche du point de vue de la distance patristique

(Diapo. 5). Il est possible d’utiliser le service sur données provenant d’un séquenceur

de type MiSeq (7 sec. pour une identification, les accès disques constituant la partie

limitante du processus).

Objectif du travail

Construction d’une base de données de référence qui soit représentative de la diversité

taxonomique des procaryotes puis utilisation des développements déjà réalisés qui

seront encapsulés dans Galaxy. Une bonne assignation taxonomique dépend en effet

de la représentativité de la base de données utilisée. Une base de départ peut être

représentée par la banque taxonomique du NCBI. Le problème est que le code de

nomenclature utilisé par le NCBI contient un certain nombre d’erreurs ou

d’incohérences. Le bilan, en termes d’espèces recensées, est de 13 625 pour les

bactéries, (seulement) 533 pour les archées et 312 932 pour les eucaryotes !

Par ailleurs, le problème avec les séquences provenant de GenBank est qu’une

proportion importante d’entre elles contiennent des annotations erronées, en

particulier au niveau taxonomique. C’est ainsi qu’une séquence annotée comme

appartenant au genre Streptococcus dans GenBank s’est en fait avérée provenir d’un

Psychrobacter selon leBiBiQBPP. Pour indiquer les problèmes éventuels, GenBank

utilise le tag UNVERIFIED au niveau du nom d’espèce / de souche. Le caractère

permanent des erreurs d’annotations taxonomique est en particulier lié au fait que

seules les personnes ayant effectué le dépôt d’une séquence dans GenBank ont le droit

d’effectuer des corrections et ceci depuis la mise en place de cette collection.

Une solution est d’utiliser la banque RefSeq dans laquelle les erreurs d’assignation

sont corrigées et ou une séquence représentative pour chaque type de souche est

définie. Le problème est que RefSeq ne couve qu’une petite partie des séquences de

GenBank.

Mise en place d’une banque de données d’ARNr 16S

Pour l’instant, les différentes banques d’ARNr 16S utilisée par leBiBiQBPP sont mises

à jour tous les six mois et l’objectif est de parvenir à automatiser suffisamment le

processus afin d’avoir une MàJ par semaine. En effet, leBiBiQBPP utilise non pas une

mais plusieurs banques construites en fonction de la « stringence » taxonomique. La

banque la plus stringente contient ainsi une seule séquence (séquence « type ») par

espèce.

Dans le pipeline de construction en cours de développement, les séquences sont

sélectionnées dans GenBank et RefSeq à l’aide du système ACNUC. Le programme

CD-HIT est ensuite utilisé en deux temps pour : i) effectuer une déréplication des

séquences ; puis ii) pour construire des clusters à 80 %. Les séquences de chaque

cluster sont ensuite alignées avec MAFFT et un arbre est construit avec FastTree.

Chaque arbre est ensuite parsé afin de créer des groupes. Un nœud de l’arbre constitue

un groupe si la médiane des distances patristiques séparant les différentes feuilles de

l’arbre est < 0,01 (distance GTR+4) et si le support aLRT > 0,90.

Dans le cas de séquences qui ne se placent dans aucun groupe, l’hypothèse la plus

parcimonieuse est que ce sont des erreurs de séquençage. Exemple : Streptococcus

agalactiae, séquence JX154576 qui « part à l’ouest » car annotation du taxon erronée

(il s’agit en fait d’une Psychrobacter).

Conclusions – Perspectives

Il faut désormais en théorie moins d’une nuit pour mettre à jour la base de données de

taxonomie. D’un autre côté, les annotations ne sont pas toujours mises à jour aussi

régulièrement (besoin de développer une procédure automatique).

Il est envisagé d’utiliser le cloud IFB pour réaliser une partie des calculs car le cluster

n’est pas approprié du fait de la façon dont sont gérées les files d’attente.

Enfin, il reste de nombreux problèmes concernant la taxonomie du NCBI pour les

eucaryotes (notamment chez les champignons).

Exposé 2

Assignation taxonomique et détection de chimères dans les données génomiques complexes

et les métagénomes: prototype d'un outil interactif – Damien Desmarais (IGS/PACA-Bioinfo)

Développement d’un outil de fouille de données métagénomique permettant de

détecter des chimères afin de corriger les erreurs d’assignation taxonomique.

Problématique

Porte sur l’analyse de données de séquençage de cellules uniques bruitées et de

métagénomes. Dans le premier cas, exemple d ‘une séquence de virus géant du lac

Washington aux USA faussement annotée comme une séquence d’archée.

Pipeline et interface graphique

Suit une description du pipeline de traitement des données permettant d’effectuer une

assignation taxonomique sur l’ensemble des contigs analysés pour application aux

microbiomes environnementaux. A partir des contigs : i) prédiction de gènes avec

MetaGeneMark, ou l’option « Virus » de GeneMark ; ii) recherche de similarités avec

BLASTP ; iii) assignation taxonomique. Le pipeline est écrit écrit en Perl, avec de

nombreuses bibliothèques appelées et des liens entre les langages de programmation

utilisés pour les différentes briques. Utilisation du format SVG pour les graphiques.

Sont ensuite présentées des captures d’écran montrant les différentes étapes de la

réalisation d’une analyse. Question : pourquoi passer par la séquence protéique pour

faire de l’assignation taxonomique (plus rapide MAIS moins sensible que le

nucléique) ?

Conclusions

Le traitement des données prend 25 min pour annoter les 505 ORFs. Réflexion en

cours pour la mise à disposition de ce service : TGCC ou Cloud IFB ? Uniquement en

local ?

Exposé 3

Simka: méthode rapide pour estimer la similarité entre de nombreux échantillons

métagénomiques – Gaëtan Benoit (IRISA, ANR Hydrogen)

Le point de départ de Simka c’est une matrice de similarité entre deux

échantillons métagénomiques: un clustering est présenté sous forme de dendogramme

pour voir quel échantillon est proche de quel autre.

TARA : 200 sites plusieurs profondeurs – 4000 échantillons au total.

Problématique

Comment estimer la similarité entre deux échantillons à partir de l’ensemble des

lectures de chaque métagénome ? Avec 100 millions de lectures une approche de type

BLAST mettrait des mois pour calculer l’intersection. L’outil, publié en 2014, utilise

sur les k-mer et calcul les intersection en quelques heures. La taille des mots utilisés

doit être k ≥ 30 au minimum pour que ce soit pertinent.

Simka

Le programme utilise une fonction basée sur les k-mers partagés et les mesures de

similarités proposées sont la Jaccard similarity et l’abondance based Jaccard

similarity. Pour le comptage des k-mers sur N échantillons, utilisation de KMC2

(Deorowicz et al., 2014). Puis mesure de présence absence en transformant en

booléen. Le test sur 21 échantillons de TARA nécessite 4h de calcul avec Simka

(valeur pour la présence/absence de k-mers et pour l’abondance des k-mers).

Questions

Problème de validation car on ne sait pas vraiment quels résultats on doit avoir. Tout

ce que l’on sait pour l’instant est que ça colle en général avec ce que l’on connaît des

échantillons (leur provenance ?) Une possibilité serait de passer par des simulations.

Les seuils sont très stringent donc on voit des parties très fortes du signal. Beaucoup

de configurations ont été testées au niveau de la longueur des k-mers (on retrouve

partout des k-mers de trop petites tailles). Comparaison des matrices : pas de formules

mathématiques pour l’instant – c’est visuel. Simka tourne au CCRT. Remarque sur le

fait que la bibliothèque GATB est aussi très efficace.

Perspectives

Quelques k-mers par read devraient suffire pour avoir les mêmes résultats.

Exposé 4

BigData accelerated computing in R : an application in metagenomics – Ndeye Aram

GAYE (MetaGenoPolis)

Qu’est-ce que le big data ? Cette appellation, à la fois ambiguë et vague, implique des

concepts variés touchant au volume, la vélocité (fréquence de production), la variété,

la véracité, la complexité. Il existe des solutions aussi bien au niveau matériel (tout ce

qui touche au High Performance Computing – HPC) que logiciel (Message Passing

Interface – MPI, Hadoop, Spark).

Les données en génomique sont désormais du big data. Un exemple : une matrice de

comptage sur un catalogue de gènes peut comprendre 10 000 gènes et 1000 ou plus

individus et 3000 échantillons de ce type peuvent être produits par an, soit 200 Tb de

données.

Pour traiter les données de génomique, il existe des bibliothèques R, qui est un

langage répandu et relativement facile à utiliser mais qui est interprété et donc lent. La

bibliothèque MetaOMiner a ainsi été développée à MetaGenoPolis. Cette bibliothèque

comprend deux niveaux : un pour le préprocessing (normalisation, etc) et un pour le

processing (comptage de gènes, clustering, etc.) des données. Les demandes des

utilisateurs, sont donc de faire des analyses big data sous R sans changer les

habitudes, mais ce langage n’est pas fait pour ça !

Une première solution trouvée pour répondre aux besoins des utilisateurs a consisté

en le développement d’un langage de programmation spécifique au domaine de la

métagénomique : DSL. Par ailleurs, mise en place du projet Mach (Massive

calculations on heterogeneous systems). Il s’agit d’un projet européen de trois ans

dont l’objectif est de transformer du code R en binaire exécutable. Plusieurs cibles

architecturales sont envisagées (Clusters de calcul, Cloud computing, etc.)

Parmi les développements en cours figure la mise en place de la bibliothèque R

Megapack, codée en C. Par ailleurs, la bibliothèque PARConnector permet de faire du

HPC facilement via la soumission à un scheduler. Enfin, la bibliothèque gpuStat est

consacrée à la distribution des données sur des systèmes à base de GPU.

Exposé 5

Développements bioinformatiques pour l'analyse de données métagénomiques –

AMALGAM, vers un outil d'assemblage automatique – Stéphane Cruveiller et

Marine Séjourné (LABGeM/PF MicroScope)

Tout d’abord un point est fait sur le pipeline DIGEST déjà présenté en 2014.

L’objectif de ce pipeline est de compléter les gènes partiels (soit 56 %) du catalogue

du microbiome intestinal humain à partir des données de séquence de capture. Un

rappel est effectué sur la stratégie de séquençage par capture ainsi que sur la stratégie

d’analyse du pipeline développé (Diapos. 7 à 10).

Suit une présentation des résultats obtenus à l’issue du départ du premier CDD

(Arnaud Felten). L’analyse de sept individus (sur les 50 de départ) a permis de

compléter plus de deux millions de gènes du catalogue soit 25 % des gènes

initialement incomplets. Le pipeline est fonctionnel, déployé au CCRT, et disponible

à la communauté. L’analyse des 43 individus restants devrait être réalisée dans le

courant de l’année 2016. Travailler aussi avec les assemblages initiaux aussi pour

s’affranchir des chimères.

La deuxième partie de l’exposé est tout d’abord consacrée à la présentation d’un état

de l’art sur les assembleurs de génomes et de métagénomes. A la première place en

termes de nombre de citations, on trouve Velvet et son complémentaire MetaVelvet,

dédié aux métagénomes (trois publication en 2008, 2012 et 2015). En deuxième

position se trouve ABySS (publication en 2009). Lorsque l’on regarde les approches

utilisées par les différents programmes il apparaît que l’assemblage brut des données

de métagénomes est très difficile car les données sont hétérogènes.

Suit une présentation d’AMALGAM (Automatic MicrobiAL Genome Assembler), un

pipeline développé au LABGeM et basé sur l’assembleur commercial Newbler de 454

Roche LifeSciences). Ce système permet d’améliorer la finition du génome grâce à

l’utilisation de l’outil GapCloser provenant de la bibliothèque SOAP. Qui plus est, il

permet de réaliser des statistiques d’assemblage via QUAST (Quality Assessment

Tool for Genome Assemblies). Une comparaison de ABySS et Newbler montre que ce

dernier est plus long mais propose des résultats nettement meilleurs. Le problème est

que Newbler est un produit commercial.

Pour finir la plateforme SynBioWatch dédiée à la détection détecter et l’identification

des agents pathogènes dans un échantillon métagénomique est présentée. Cette

plateforme permet non seulement de faire de l’assignation taxonomique mais aussi de

détecter des gènes de résistance aux antibiotiques et de virulence et/ou des toxines.

SynBioWatch a été déployée au sein du cloud IFB sous la forme d’une Machine

Virtuelle.

Exposé 6

Méthodes d’analyses à grande échelle des métatranscriptomes eucaryotes dans le

projet TARA Océans – Quentin Carradec (Genoscope)

L’approche métatranscriptome permet d’assembler les données de séquence plus

facilement, et la prédiction de gènes n’est pas nécessaire. Le but de l’analyse

présentée consiste en la création d’un catalogue d’unigènes (beaucoup de gènes sont

fractionnés). Une fois ce catalogue établit, on calcule les occurrences des unigènes

pour avoir une idée de l’abondance de chaque gène par échantillon.

1 / 9 100%

Documents connexes

S.I.N.-1.1.2_3

AàP – scé nario avéc utilisation dé BIST

Designing Oilseeds for Tomorrow`s Markets

Guide du Deuxième Module

Type de poste : Stage en Biostatistique -‐ Analyse

Résumé

Département des Sciences des Denrées alimentaires - ULg

Etape 2 : Préparez votre Contenu

Le Téléthon est national. Ce mot est composé de deux autres mots

Rapport de l`Académie de médecine « Maladies rares, le

Phoenicurus ochruros

L`eugénisme est une théorie, et une pratique, qui consiste en l

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d'utilisation

Compte-rendu réunion WP 2.7.2

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Compte-rendu réunion WP 2.7.2

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib