Pipelines MUGQIC - Wiki de Calcul Québec

publicité
Pipelines
MUGQIC
2014-12-08
Pipeline
Application qui permet de coordonnées l’exécution d’un
groupe de logiciels en série de telle façon que la sortie d'un
logiciel sert d'entrée pour le suivant.
exemple : Galaxy “workflows”
Pipelines MUGQIC
● Développé par l’équipe de bioinformatique du Centre d’
Innovation Génome Québec et Université McGill
● Programmes PERL
qui génèrent une liste de
commandes bash spécifiques aux serveurs HPC.
● Commandes pour soumettre les tâches à l’
ordonnanceur.
● Gestion des dépendances entre les étapes d’un
pipeline.
● Configurable par le biais d’un fichier d’initialisation.
/(Python)
DNA-seq
RNA-seq
ChIP–seq
Logiciels utilisés par MUGQIC
Utilisation d’applications bioinformatiques reconnues :
BWA
- logiciel d’alignement
Picard
- suite d’outils pour manipuler les fichiers SAM/BAM
Samtools
- utilitaire pour manipuler les fichiers SAM/BAM
Trimmomatic - élagage des séquences NextGen Illumina
MACS
etc….
- détection des sites de liaisons des facteurs de transcription
Modules
●
Les modules permettent d’ajuster correctement les chemins d’accès
(PATH).
●
Ils permettent de charger toutes les dépendances nécessaires.
●
Ils favorise la réplicabilité.
●
Permet d’utiliser des versions antérieures.
Disponibilité des logiciels
En chargeant le module MUGQIC, ces logiciels deviennent
disponibles.
[fred@colosse3 ~]$ module swap compilers/intel compilers/gcc
[fred@colosse3 ~]$ module load apps/mugqic_pipeline/1.3
[fred@colosse3 ~]$ module avail mugqic
------------------------------ /software6/bioinfo/apps/mugqic_space/modulefiles -----------------------------mugqic/bamtools/2.3.0
mugqic/beagle/4.r1274
mugqic/ghostscript/9.15
mugqic/homer/4.7
mugqic/R/3.0.2
mugqic/rnaseqc/1.1.8
mugqic/bedtools/2.21.0
mugqic/bowtie2/2.2.3
mugqic/mutect/1.1.5
mugqic/MACS/2.1.0.20140616
mugqic/jellyfish/2.1.3
mugqic/samtools/1.1
mugqic/blast/2.2.29+
mugqic/java/jdk1.7.0_60
mugqic/tophat/2.0.13
Modules
●
Dans le cas des logiciels en Java dont le fichier .jar doit être appelé
directement, une variable d’environnement permet d’éviter d’avoir à
spécifier le chemin d’accès absolu. (i.e.: Trimmomatic)
[cjolybea12@colosse2 ~]$ module load mugqic/trimmomatic
[cjolybea12@colosse2 ~]$ java -jar $TRIMMOMATIC_JAR -h
Usage:
PE [-threads <threads>] [-phred33|-phred64] [-trimlog <trimLogFile>] [-basein
<inputBase> | <inputFile1> <inputFile2>] [-baseout <outputBase> | <outputFile1P>
<outputFile1U> <outputFile2P> <outputFile2U>] <trimmer1>...
or:
SE [-threads <threads>] [-phred33|-phred64] [-trimlog <trimLogFile>] <inputFile>
<outputFile> <trimmer1>...
Génomes
Plusieurs génomes de références sont présents sur Colosse.
La variable $MUGQIC_GENOME_PATH permet d’accéder au réperoire qui les
contient.
Pour chaque génome :
●
●
●
index bwa et bowtie
index samtools
annotations de base (si disponibles)
Disponibilité des génomes
Variable $MUGQIC_GENOMES_PATH
[fred@colosse3 ~]$ echo $MUGQIC_GENOMES_PATH
/software6/bioinfo/apps/mugqic_space/genomes/species/
[fred@colosse3 ~]$ ls -1 $MUGQIC_GENOMES_PATH
Arabidopsis_thaliana.TAIR10
Bos_taurus.UMD3.1
Homo_sapiens.GRCh37_1000Genomes
Homo_sapiens.GRCh37_1000Genomes_decoy
Homo_sapiens.GRCh38
Mus_musculus.GRCm38
Mus_musculus.NCBIM37
MUGQIC code et wiki
https://bitbucket.org/mugqic/mugqic_pipelines
https://biowiki.atlassian.net/wiki/display/PS/Pipeline+Space+Home
Calcul Québec wiki
https://wiki.calculquebec.ca/w/G%C3%A9nomique_computationnelle
N'hésitez pas à nous contacter
[email protected]
Téléchargement