Analyse bioinformatique à visée diagnostique Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 1 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest Objectifs 7 Décembre 2012 Rouen • Utilisation du séquençage Haut débit – Diagnostic sur BRCA 1 et BRCA 2 • Un rendu des résultats plus rapide • Rendu d'un Cas index : max 3 mois – Recherche mutation ponctuelle et réarrangement de grande taille • Etude sur les variants dans les autres gènes • Objectifs du laboratoire 1 Run par mois 1 Run = 80 patients + 8 témoins Nombre de patients traités annuellement : 960 Automatisation de l’analyse bioinformatique Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 2 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest Le set de capture CASOv3 7 Décembre 2012 Rouen CASO : – Version 1 : • 21 gènes – Version 2 : • 16 gènes – Version 3 : • 28 gènes • Amélioration de la capture sur certaines zones Gènes utilisés pour le rendu de diagnostique – BRCA 1 : NM_007294.3 – BRCA 2 : NM_000059.3 Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 3 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest 7 Décembre 2012 Rouen Mai Juin Etape 1 Manuelle Sept Etape 2 Semi-automatique Nov Etape 3 Automatique Séminaire d’Animation de l’axe Cancéropole Nord – Ouest Étape 1 7 Décembre 2012 Rouen Fin du séquençage o Présence du bioinformaticien Début de l’analyse bioinformatique Analyse CASAVA : Démultiplexage + Alignement + Variant Calling NextGENe : Alignement + Variant Calling CNV-seq : réarrangement de grande taille Création manuelle des rapports CNV-seq Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 5 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest Étape 1 7 Décembre 2012 Rouen CASAVA o Démultiplexage • Convertir les fichiers basecalling en FASTQ o Alignement • Alignement sur le génome hg19 o Variant Calling • Recherche de variants o Copie des bam • Analyse NextGENe Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 6 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest Étape 1 7 Décembre 2012 Rouen CASAVA – Démultiplexage Sample Sheet PathToFolder/Unaligned FASTQ / ligne / patients Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 7 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest Étape 1 7 Décembre 2012 Rouen CASAVA o Démultiplexage • Convertir les fichiers basecalling en FASTQ o Alignement • Alignement sur le génome hg19 o Variant Calling • Recherche de variants o Copie des bam • Analyse NextGENe Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 8 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest Étape 1 7 Décembre 2012 Rouen CASAVA o Alignement Config.txt PathToFolder/Aligned PathToFolder/Unaligned Assemblage : hg19 Algorithme : Eland Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 9 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest Étape 1 7 Décembre 2012 Rouen CASAVA o Démultiplexage • Convertir les fichiers basecalling en FASTQ o Alignement • Alignement sur le génome hg19 o Variant Calling • Recherche de variants o Copie des bam • Analyse NextGENe Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 10 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest Étape 1 7 Décembre 2012 Rouen Bam du génome CASAVA o Variant Calling PathToFolder/Aligned PathToFolder/Variants Ex : chr13.fa Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 11 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest Étape 1 7 Décembre 2012 Rouen NextGENe o Alignement o Variant Calling o Fin d'analyse – Ouvrir le projet – Générer les 4 rapports Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 12 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest Étape 1 7 Décembre 2012 Rouen NextGENe Conversion de format FASTQ → FASTA Alignement Variant Calling Pour chaque patient 88 échantillons Dossier de sortie Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 13 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest Étape 1 7 Décembre 2012 Rouen NextGENe o Alignement o Variant Calling o Fin d'analyse – Ouvrir le projet pour chaque patient – Générer 4 rapports – Expression Report : pour analyser la couverture » Sur les exons de BRCA 1 et BRCA 2 » Sur les exons des gènes de la capture » Sur les gènes (introns + exons) de la capture – Mutation Report » Rapport contenant les variations Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 14 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest Étape 1 7 Décembre 2012 Rouen NextGENe Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 15 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest Étape 1 7 Décembre 2012 Rouen NextGENe X3: Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen - BRCA - Tous les exons de la capture - Tous les gènes 16 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest Étape 1 7 Décembre 2012 Rouen CNV-seq o Convertir le fichier bam du chromosome à analyser en fichiers hit $ samtools view file.bam | perl -lane 'print \"$F[2]\t$F[3]\"' > pathTo/CNVseq o Analyse CNV-seq $ perl /home/ngs/cnv-seq/cnv-seq.pl --test file.hits --ref file_ref.hits --log2threshold 20 --genome-size TailleGenome --window-size 800 o Ecriture d'un script R pour générer le rapport sur la zone d'intérêt o Mise en forme des rapports • Conversion de format txt → xls avec macro 88 fois x 2 (BRCA 1 et BRCA 2) = 176 Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 17 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest 7 Décembre 2012 Rouen Mai Juin Etape 1 Manuelle Sept Etape 2 Semi-automatique Nov Etape 3 Automatique Séminaire d’Animation de l’axe Cancéropole Nord – Ouest Étape 2 : Architecture matérielle 7 Décembre 2012 Rouen GAIIx Démultiplexage Serveur d'analyse Casava (Linux) Serveur de séquençage Stockage des fichiers bruts (bcl) Copie des FASTQ Serveur d'analyse NexGENe (windows) Rapports finaux Rapports finaux Serveur du Laboratoire : résultats Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 19 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest Étape 2 : Pipeline automatisé Objectifs 7 Décembre 2012 Rouen GAIIx Fin du séquençage Démultiplexage Copie des FASTQ Alignement Paramétrage Analyse Variant Calling Analyse sur le fichier bam du génome obtenu après variant calling CNV-seq BRCA1 CNV-seq BRCA2 Rapport CNV-seq Mise en forme des rapports CNV-seq Création des rapports Mise en forme des rapports Envoie sur serveur de Résultat Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 20 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest Étape 2 : Automatisation premier pas 7 Décembre 2012 Rouen • Langage o Python • Casava • CNV-seq o Java • Création avec mise en forme des rapports au format Excel Pas de gestion des erreurs Code désorganisé, maintenance, évolution difficile Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 21 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest 7 Décembre 2012 Rouen Étape 2 : Automatisation premier pas • Pipeline CASAVA o Lancement automatique o Enchainement des différentes étapes • Pipeline CNV-seq o Exécution automatique o Génération + Mise en forme des rapports automatiques • Pipeline NextGENe o Copies sur le serveur o Mise en forme des rapports automatiques Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 22 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest Étape 2 : Automatisation premier pas 7 Décembre 2012 Rouen • CASAVA o Résultats du Variant Calling non utilisés o Analyse des fichiers bam de CASAVA dans NextGENe : mauvais résultats • NextGENe o Beaucoup de tâches manuelles Importation des fichiers bam de CASAVA Génération des rapports depuis l'interface de NextGENe Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 23 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest 7 Décembre 2012 Rouen Mai Juin Etape 1 Manuelle Sept Nov Etape 2 Etape 3 Semi-automatique Automatique Séminaire d’Animation de l’axe Cancéropole Nord – Ouest Étape 3 7 Décembre 2012 Rouen • NextGENe : nouvelle version 2.30 o Nouvelles fonctionnalités Génération automatique des rapports lors de l'analyse • Alamut Ht o Annotation de variants • CASAVA2VCF o Résultats du variant calling de CASAVA → VCF • Samtools pileup o Analyse de la couverture Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 25 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest Étape 3 : DiagCaso 7 Décembre 2012 Rouen • Refactoring du code • Création d'un pipeline unique DiagCaso (Diagnostic Cancer Sein Ovaire) • choix du programme à exécuter • Gestion des erreurs, reprise sur erreurs • Vérification des pré requis • Un fichier de configuration • Monitoring complet du pipeline • Complétement automatisé Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 26 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest Étape 3 : DiagCaso 7 Décembre 2012 Rouen C A S A V A Démultiplexage Alignement Génération du fichier job Variant Calling Copie des rapports CNV-seq : - BRCA1 - BRCA 2 Création VCF Alamut Ht Création des rapports CNVseq Analyse de la couverture Création des rapports Alamut Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen N e x t G E N e Création des rapports NextGENe 27 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest Étape 3 : DiagCaso 7 Décembre 2012 Rouen • Exemple de commande $ python bin/DiagCaso.py -c /stockage/ngs-client/Run10/Run.conf –w y $ python bin/DiagCaso.py -c /stockage/ngs-client/Run10/Run.conf –p alamutht –b y $ python bin/DiagCaso.py -c /stockage/ngs-client/Run10/Run.conf –p cnvseq –b B1 • Les options o -p : Casava, CNVseq, AlamutHT, NextGENe o -w : lancement en fin de séquençage o différentes options par programme Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 28 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest 7 Décembre 2012 Rouen Étape 3 : DiagCaso Fichier de configuration Commun à tous les programmes CASAVA NextGENe Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 29 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest 7 Décembre 2012 Rouen Étape 3 : DiagCaso Fichier de configuration CNV-seq pour 1 gène (BRCA2) CNV-seq Analyse de la couverture Utilisation lors de la génération des rapports Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 30 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest 7 Décembre 2012 Rouen Étape 3 : DiagCaso Monitoring • 1 fichier de log par analyse • 1 fichier file.completed : créer en fin d’analyse Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 31 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest Étape 3 : DiagCaso Analyse de la couverture / Qualité 7 Décembre 2012 Rouen • NextGENe o Rapport Contrôle qualité (Cq) • 1 Rapport général – Seuil minimal par base à atteindre Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 32 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest 7 Décembre 2012 Rouen Étape 3 : DiagCaso Analyse de la couverture / Qualité Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 33 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest Étape 3 : DiagCaso Analyse de la couverture / Qualité 7 Décembre 2012 Rouen • NextGENe o Rapport Contrôle qualité (Cq) • 1 Rapport général – Seuil minimal par base a atteindre • 1 Rapport par patient – Seuil minimal par base à atteindre – Analyse de la couverture (% On Target) – Plusieurs onglets : » BRCA, Exons de la capture, l'ensemble de la capture Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 34 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest 7 Décembre 2012 Rouen Étape 3 : DiagCaso Analyse de la couverture / Qualité Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 35 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest 7 Décembre 2012 Rouen Étape 3 : DiagCaso Analyse de la couverture / Qualité • CASAVA – Alamut Ht • Rapport Contrôle qualité (Cq) – 1 Rapport Global (même présentation) – + 1 Onglet : Position de la base avec un seuil inférieur au seuil de couverture Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 36 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest 7 Décembre 2012 Rouen Étape 3 : DiagCaso Variants dans BRCA 1 et BRCA 2 • Interrogation base de données o Ajout d'un commentaire pour les variants connus • Délétère, Neutre : basées sur les données du groupe génétique et cancer • SNP : expérience du laboratoire – Avec mise en page particulière Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 37 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest Étape 3 : DiagCaso Variants dans BRCA 1 et BRCA 2 7 Décembre 2012 Rouen • NextGENe Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 38 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest 7 Décembre 2012 Rouen Étape 3 : DiagCaso Variants dans BRCA 1 et BRCA 2 • NextGENe après validation Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 39 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest 7 Décembre 2012 Rouen Étape 3 : DiagCaso Variants dans BRCA 1 et BRCA 2 • CASAVA – AlamutHt Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 40 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest 7 Décembre 2012 Rouen Étape 3 : DiagCaso Variants dans BRCA 1 et BRCA 2 • CASAVA – AlamutHt après validation Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 41 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest 7 Décembre 2012 Rouen Étape 3 : DiagCaso Rapport : CNV-seq • Duplication Ex13 sur BRCA1 Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 42 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest Étape 3 : DiagCaso Rapport : CNV-seq 7 Décembre 2012 Rouen • Délétion Ex22 sur BRCA1 Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 43 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest 7 Décembre 2012 Rouen Étape 3 : DiagCaso Rapport : Qualité du Run Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 44 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest 7 Décembre 2012 Rouen Étape 3 : DiagCaso Rapport : Qualité du Run Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 45 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest 7 Décembre 2012 Rouen Étape 3 : DiagCaso Rapport : Qualité du Run Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 46 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest 7 Décembre 2012 Rouen Étape 3 : DiagCaso Rapport : Qualité du Run Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 47 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest Étape 3 : DiagCaso Temps d'analyse 7 Décembre 2012 Rouen < 5 jours pour 88 échantillons ~2,5 jours ~30 minutes NextGENe ~9h/gène démultiplexage CNVseq ~1h 2gènes ~3 j CASAVA ~30 mn AlamutHt VCF ~1h30 Serveur Linux : 8 processeurs Coverage Serveur Windows : 6 processeurs Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 48 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest 7 Décembre 2012 Rouen Étape 3 : DiagCaso Perpectives • Nouvelles fonctionnalités du pipeline o Amélioration de la qualité : biais de PCR • Etudes des variants dans les autres gènes o Base de donnée avec l'ensemble des variations sur les gènes de la capture o Insertions automatisées des résultats • Interface de la validation de série o Sécurisation des données o Eviter la multiplication de fichiers Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 49 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest DiagCaso 7 Décembre 2012 Rouen python bin/DiagCaso.py -c Run.conf –w y python bin.DiagCaso.py -p Casava.py -c Run.conf demultiplexing.completed casava.completed python bin/DiagCaso.py -p nextgene.py -c Run.conf nextgene.completed python bin/DiagCaso.py -pVCF -c Run.conf vcf.completed python bin/DiagCaso.py -p coverage -c Run.conf coverage.completed java -jar -t nextgene -r cq -c Run.conf python bin/DiagCaso.py -p alamutht -c Run.conf alamutht.completed java -jar -t alamut -r variant -c Run.conf java -jar -t nextgene -r variant -c Run.conf java -jar -t alamut -r cq -c Run.conf Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 50 Séminaire d’Animation de l’axe Cancéropole Nord – Ouest 7 Décembre 2012 Rouen Remerciements Jean-Jacques Baumann Olivia Bruet Angélina Legros Antoine Rousselin Robin Fouillet Jean-Pierre Lohier Laurent Castéra L’équipe de l’U1079 - T.Frebourg Sophie Krieger Interactive Biosoftware - A.Blavier Agnès Hardouin Dominique Vaur Olivier Letac Dons et legs Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 51