Analyse bioinformatique à visée diagnostique Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen 1

publicité
Analyse bioinformatique à visée
diagnostique
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
1
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
Objectifs
7 Décembre 2012
Rouen
• Utilisation du séquençage Haut débit
– Diagnostic sur BRCA 1 et BRCA 2
• Un rendu des résultats plus rapide
• Rendu d'un Cas index : max 3 mois
– Recherche mutation ponctuelle et réarrangement de grande taille
• Etude sur les variants dans les autres gènes
• Objectifs du laboratoire
 1 Run par mois
 1 Run = 80 patients + 8 témoins
 Nombre de patients traités annuellement : 960
Automatisation de l’analyse bioinformatique
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
2
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
Le set de capture CASOv3
7 Décembre 2012
Rouen
CASO :
– Version 1 :
• 21 gènes
– Version 2 :
• 16 gènes
– Version 3 :
• 28 gènes
• Amélioration de la capture sur certaines zones
Gènes utilisés pour le rendu de diagnostique
– BRCA 1 : NM_007294.3
– BRCA 2 : NM_000059.3
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
3
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
7 Décembre 2012
Rouen
Mai
Juin
Etape 1
Manuelle
Sept
Etape 2
Semi-automatique
Nov
Etape 3
Automatique
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
Étape 1
7 Décembre 2012
Rouen
Fin du séquençage
o Présence du bioinformaticien
 Début de l’analyse bioinformatique
 Analyse
 CASAVA : Démultiplexage + Alignement + Variant Calling
 NextGENe : Alignement + Variant Calling
 CNV-seq : réarrangement de grande taille
 Création manuelle des rapports
CNV-seq
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
5
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
Étape 1
7 Décembre 2012
Rouen
CASAVA
o Démultiplexage
• Convertir les fichiers basecalling en FASTQ
o Alignement
• Alignement sur le génome hg19
o Variant Calling
• Recherche de variants
o Copie des bam
• Analyse NextGENe
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
6
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
Étape 1
7 Décembre 2012
Rouen
CASAVA
– Démultiplexage
Sample Sheet
PathToFolder/Unaligned
FASTQ / ligne / patients
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
7
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
Étape 1
7 Décembre 2012
Rouen
CASAVA
o Démultiplexage
• Convertir les fichiers basecalling en FASTQ
o Alignement
• Alignement sur le génome hg19
o Variant Calling
• Recherche de variants
o Copie des bam
• Analyse NextGENe
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
8
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
Étape 1
7 Décembre 2012
Rouen
CASAVA
o Alignement
Config.txt
PathToFolder/Aligned
PathToFolder/Unaligned
Assemblage : hg19
Algorithme : Eland
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
9
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
Étape 1
7 Décembre 2012
Rouen
CASAVA
o Démultiplexage
• Convertir les fichiers basecalling en FASTQ
o Alignement
• Alignement sur le génome hg19
o Variant Calling
• Recherche de variants
o Copie des bam
• Analyse NextGENe
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
10
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
Étape 1
7 Décembre 2012
Rouen
Bam du génome
CASAVA
o Variant Calling
PathToFolder/Aligned
PathToFolder/Variants
Ex : chr13.fa
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
11
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
Étape 1
7 Décembre 2012
Rouen
NextGENe
o Alignement
o Variant Calling
o Fin d'analyse
– Ouvrir le projet
– Générer les 4 rapports
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
12
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
Étape 1
7 Décembre 2012
Rouen
NextGENe
Conversion de
format
FASTQ → FASTA
Alignement
Variant Calling
Pour chaque patient
88 échantillons
Dossier de sortie
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
13
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
Étape 1
7 Décembre 2012
Rouen
NextGENe
o Alignement
o Variant Calling
o Fin d'analyse
– Ouvrir le projet pour chaque patient
– Générer 4 rapports
– Expression Report : pour analyser la couverture
» Sur les exons de BRCA 1 et BRCA 2
» Sur les exons des gènes de la capture
» Sur les gènes (introns + exons) de la capture
– Mutation Report
» Rapport contenant les variations
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
14
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
Étape 1
7 Décembre 2012
Rouen
NextGENe
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
15
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
Étape 1
7 Décembre 2012
Rouen
NextGENe
X3:
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
- BRCA
- Tous les exons de
la capture
- Tous les gènes
16
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
Étape 1
7 Décembre 2012
Rouen
CNV-seq
o Convertir le fichier bam du chromosome à analyser en fichiers hit
$ samtools view file.bam | perl -lane 'print \"$F[2]\t$F[3]\"' > pathTo/CNVseq
o Analyse CNV-seq
$ perl /home/ngs/cnv-seq/cnv-seq.pl --test file.hits --ref file_ref.hits --log2threshold 20 --genome-size TailleGenome --window-size 800
o Ecriture d'un script R pour générer le rapport sur la zone d'intérêt
o Mise en forme des rapports
• Conversion de format txt → xls avec macro
88 fois x 2 (BRCA 1 et BRCA 2) = 176
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
17
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
7 Décembre 2012
Rouen
Mai
Juin
Etape 1
Manuelle
Sept
Etape 2
Semi-automatique
Nov
Etape 3
Automatique
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
Étape 2 : Architecture matérielle
7 Décembre 2012
Rouen
GAIIx
Démultiplexage
Serveur d'analyse
Casava
(Linux)
Serveur de séquençage
Stockage des fichiers
bruts (bcl)
Copie des FASTQ
Serveur d'analyse
NexGENe
(windows)
Rapports finaux
Rapports finaux
Serveur du Laboratoire : résultats
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
19
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
Étape 2 : Pipeline automatisé
Objectifs
7 Décembre 2012
Rouen
GAIIx
Fin du séquençage
Démultiplexage
Copie des FASTQ
Alignement
Paramétrage Analyse
Variant Calling
Analyse sur le fichier
bam du génome obtenu
après variant calling
CNV-seq BRCA1
CNV-seq BRCA2
Rapport CNV-seq
Mise en forme des
rapports CNV-seq
Création des rapports
Mise en forme des
rapports
Envoie sur serveur de
Résultat
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
20
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
Étape 2 : Automatisation premier pas
7 Décembre 2012
Rouen
• Langage
o Python
• Casava
• CNV-seq
o Java
• Création avec mise en forme des rapports au format Excel
Pas de gestion des erreurs
Code désorganisé, maintenance, évolution difficile
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
21
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
7 Décembre 2012
Rouen
Étape 2 : Automatisation premier pas
• Pipeline CASAVA
o Lancement automatique
o Enchainement des différentes étapes
• Pipeline CNV-seq
o Exécution automatique
o Génération + Mise en forme des rapports automatiques
• Pipeline NextGENe
o Copies sur le serveur
o Mise en forme des rapports automatiques
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
22
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
Étape 2 : Automatisation premier pas
7 Décembre 2012
Rouen
• CASAVA
o Résultats du Variant Calling non utilisés
o Analyse des fichiers bam de CASAVA dans NextGENe : mauvais
résultats
• NextGENe
o Beaucoup de tâches manuelles
  Importation des fichiers bam de CASAVA
Génération des rapports depuis l'interface de NextGENe
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
23
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
7 Décembre 2012
Rouen
Mai
Juin
Etape 1
Manuelle
Sept
Nov
Etape 2
Etape 3
Semi-automatique
Automatique
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
Étape 3
7 Décembre 2012
Rouen
• NextGENe : nouvelle version 2.30
o Nouvelles fonctionnalités
 Génération automatique des rapports lors de l'analyse
• Alamut Ht
o Annotation de variants
• CASAVA2VCF
o Résultats du variant calling de CASAVA → VCF
• Samtools pileup
o Analyse de la couverture
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
25
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
Étape 3 : DiagCaso
7 Décembre 2012
Rouen
• Refactoring du code
• Création d'un pipeline unique
DiagCaso (Diagnostic Cancer Sein Ovaire)
• choix du programme à exécuter
• Gestion des erreurs, reprise sur erreurs
• Vérification des pré requis
• Un fichier de configuration
• Monitoring complet du pipeline
• Complétement automatisé
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
26
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
Étape 3 : DiagCaso
7 Décembre 2012
Rouen
C
A
S
A
V
A
Démultiplexage
Alignement
Génération du fichier job
Variant Calling
Copie des rapports
CNV-seq :
- BRCA1
- BRCA 2
Création VCF
Alamut Ht
Création des
rapports CNVseq
Analyse de la
couverture
Création des
rapports Alamut
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
N
e
x
t
G
E
N
e
Création des
rapports
NextGENe
27
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
Étape 3 : DiagCaso
7 Décembre 2012
Rouen
• Exemple de commande
$ python bin/DiagCaso.py -c /stockage/ngs-client/Run10/Run.conf –w y
$ python bin/DiagCaso.py -c /stockage/ngs-client/Run10/Run.conf –p alamutht –b y
$ python bin/DiagCaso.py -c /stockage/ngs-client/Run10/Run.conf –p cnvseq –b B1
• Les options
o -p : Casava, CNVseq, AlamutHT, NextGENe
o -w : lancement en fin de séquençage
o différentes options par programme
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
28
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
7 Décembre 2012
Rouen
Étape 3 : DiagCaso
Fichier de configuration
Commun à
tous les
programmes
CASAVA
NextGENe
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
29
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
7 Décembre 2012
Rouen
Étape 3 : DiagCaso
Fichier de configuration
CNV-seq pour 1 gène (BRCA2)
CNV-seq
Analyse
de la
couverture
Utilisation lors de la
génération des rapports
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
30
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
7 Décembre 2012
Rouen
Étape 3 : DiagCaso
Monitoring
• 1 fichier de log par analyse
• 1 fichier file.completed : créer en fin d’analyse
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
31
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
Étape 3 : DiagCaso
Analyse de la couverture / Qualité
7 Décembre 2012
Rouen
• NextGENe
o Rapport Contrôle qualité (Cq)
• 1 Rapport général
– Seuil minimal par base à atteindre
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
32
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
7 Décembre 2012
Rouen
Étape 3 : DiagCaso
Analyse de la couverture / Qualité
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
33
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
Étape 3 : DiagCaso
Analyse de la couverture / Qualité
7 Décembre 2012
Rouen
• NextGENe
o Rapport Contrôle qualité (Cq)
• 1 Rapport général
– Seuil minimal par base a atteindre
• 1 Rapport par patient
– Seuil minimal par base à atteindre
– Analyse de la couverture (% On Target)
– Plusieurs onglets :
» BRCA, Exons de la capture, l'ensemble de la capture
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
34
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
7 Décembre 2012
Rouen
Étape 3 : DiagCaso
Analyse de la couverture / Qualité
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
35
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
7 Décembre 2012
Rouen
Étape 3 : DiagCaso
Analyse de la couverture / Qualité
• CASAVA – Alamut Ht
• Rapport Contrôle qualité (Cq)
– 1 Rapport Global (même présentation)
– + 1 Onglet : Position de la base avec un seuil inférieur au seuil
de couverture
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
36
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
7 Décembre 2012
Rouen
Étape 3 : DiagCaso
Variants dans BRCA 1 et BRCA 2
• Interrogation base de données
o Ajout d'un commentaire pour les variants connus
• Délétère, Neutre : basées sur les données du groupe génétique et
cancer
• SNP : expérience du laboratoire
– Avec mise en page particulière
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
37
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
Étape 3 : DiagCaso
Variants dans BRCA 1 et BRCA 2
7 Décembre 2012
Rouen
• NextGENe
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
38
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
7 Décembre 2012
Rouen
Étape 3 : DiagCaso
Variants dans BRCA 1 et BRCA 2
• NextGENe après validation
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
39
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
7 Décembre 2012
Rouen
Étape 3 : DiagCaso
Variants dans BRCA 1 et BRCA 2
• CASAVA – AlamutHt
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
40
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
7 Décembre 2012
Rouen
Étape 3 : DiagCaso
Variants dans BRCA 1 et BRCA 2
• CASAVA – AlamutHt après validation
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
41
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
7 Décembre 2012
Rouen
Étape 3 : DiagCaso
Rapport : CNV-seq
• Duplication Ex13 sur BRCA1
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
42
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
Étape 3 : DiagCaso
Rapport : CNV-seq
7 Décembre 2012
Rouen
• Délétion Ex22 sur BRCA1
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
43
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
7 Décembre 2012
Rouen
Étape 3 : DiagCaso
Rapport : Qualité du Run
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
44
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
7 Décembre 2012
Rouen
Étape 3 : DiagCaso
Rapport : Qualité du Run
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
45
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
7 Décembre 2012
Rouen
Étape 3 : DiagCaso
Rapport : Qualité du Run
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
46
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
7 Décembre 2012
Rouen
Étape 3 : DiagCaso
Rapport : Qualité du Run
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
47
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
Étape 3 : DiagCaso
Temps d'analyse
7 Décembre 2012
Rouen
< 5 jours pour 88 échantillons
~2,5 jours
~30 minutes
NextGENe
~9h/gène
démultiplexage
CNVseq
~1h 2gènes
~3 j
CASAVA
~30 mn
AlamutHt
VCF
~1h30
Serveur Linux : 8 processeurs
Coverage
Serveur Windows : 6 processeurs
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
48
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
7 Décembre 2012
Rouen
Étape 3 : DiagCaso
Perpectives
• Nouvelles fonctionnalités du pipeline
o Amélioration de la qualité : biais de PCR
• Etudes des variants dans les autres gènes
o Base de donnée avec l'ensemble des variations sur les gènes de
la capture
o Insertions automatisées des résultats
• Interface de la validation de série
o Sécurisation des données
o Eviter la multiplication de fichiers
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
49
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
DiagCaso
7 Décembre 2012
Rouen
python bin/DiagCaso.py -c Run.conf –w y
python bin.DiagCaso.py -p Casava.py -c Run.conf
demultiplexing.completed
casava.completed
python bin/DiagCaso.py -p nextgene.py -c Run.conf
nextgene.completed
python bin/DiagCaso.py -pVCF -c Run.conf
vcf.completed
python bin/DiagCaso.py -p coverage -c Run.conf
coverage.completed
java -jar -t nextgene -r cq -c Run.conf
python bin/DiagCaso.py -p alamutht -c Run.conf
alamutht.completed
java -jar -t alamut -r variant -c Run.conf
java -jar -t nextgene -r variant -c Run.conf
java -jar -t alamut -r cq -c Run.conf
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
50
Séminaire d’Animation
de l’axe Cancéropole
Nord – Ouest
7 Décembre 2012
Rouen
Remerciements
Jean-Jacques Baumann
Olivia Bruet
Angélina Legros
Antoine Rousselin
Robin Fouillet
Jean-Pierre Lohier
Laurent Castéra
L’équipe de l’U1079 - T.Frebourg
Sophie Krieger
Interactive Biosoftware - A.Blavier
Agnès Hardouin
Dominique Vaur
Olivier Letac
Dons et legs
Bioinformatique, LBCO-CLCC François Baclesse, Plateforme SéSAME, Caen
51
Téléchargement