Merge branch 'cwl' into 'main'

Cwl See merge request !14

Merge branch 'cwl' into 'main'
Cwl See merge request !14
bb650946 · Dominik Brilhaus · 57794e2f · 943e5e52 · bb650946 · 57794e2f
Commit bb650946 authored 3 months ago by Dominik Brilhaus
--- a/.gitattributes
+++ b/.gitattributes
@@ -32,4 +32,16 @@ runs/kallisto_sleuth/sleuth_dge.csv filter=lfs diff=lfs merge=lfs -text
 studies/TalinumGenomeDraft/resources/Talinum.gm.CDS.nt.fa filter=lfs diff=lfs merge=lfs -text
 runs/sleuth/kallisto_sleuthObject.RData filter=lfs diff=lfs merge=lfs -text
 runs/sleuth/out/kallisto_sleuthObject.RData filter=lfs diff=lfs merge=lfs -text
 runs/kallisto/kallisto_results/** filter=lfs diff=lfs merge=lfs -text
\ No newline at end of file
+runs/fastqc/results/DB_097_CAMMD_CAGATC_L001_R1_001_fastqc.zip filter=lfs diff=lfs merge=lfs -text
+runs/fastqc/results/DB_163_reC3MD_GTGAAA_L001_R1_001_fastqc.html filter=lfs diff=lfs merge=lfs -text
+runs/fastqc/results/DB_097_CAMMD_CAGATC_L001_R1_001_fastqc.html filter=lfs diff=lfs merge=lfs -text
+runs/fastqc/results/DB_099_CAMMD_CTTGTA_L001_R1_001_fastqc.html filter=lfs diff=lfs merge=lfs -text
+runs/fastqc/results/DB_099_CAMMD_CTTGTA_L001_R1_001_fastqc.zip filter=lfs diff=lfs merge=lfs -text
+runs/fastqc/results/DB_103_CAMMD_AGTCAA_L001_R1_001_fastqc.html filter=lfs diff=lfs merge=lfs -text
+runs/fastqc/results/DB_103_CAMMD_AGTCAA_L001_R1_001_fastqc.zip filter=lfs diff=lfs merge=lfs -text
+runs/fastqc/results/DB_161_reC3MD_GTCCGC_L001_R1_001_fastqc.html filter=lfs diff=lfs merge=lfs -text
+runs/fastqc/results/DB_161_reC3MD_GTCCGC_L001_R1_001_fastqc.zip filter=lfs diff=lfs merge=lfs -text
+runs/fastqc/results/DB_163_reC3MD_GTGAAA_L001_R1_001_fastqc.zip filter=lfs diff=lfs merge=lfs -text
+runs/fastqc/results/DB_165_re-C3MD_GTGAAA_L002_R1_001_fastqc.html filter=lfs diff=lfs merge=lfs -text
+runs/fastqc/results/DB_165_re-C3MD_GTGAAA_L002_R1_001_fastqc.zip filter=lfs diff=lfs merge=lfs -text
--- a/assays/Talinum_RNASeq_minimal/dataset/.gitkeep
+++ b/assays/Talinum_RNASeq_minimal/dataset/.gitkeep
--- a/runs/fastqc/results/DB_097_CAMMD_CAGATC_L001_R1_001_fastqc.html
+++ b/runs/fastqc/results/DB_097_CAMMD_CAGATC_L001_R1_001_fastqc.html
--- a/runs/fastqc/results/DB_097_CAMMD_CAGATC_L001_R1_001_fastqc.zip
+++ b/runs/fastqc/results/DB_097_CAMMD_CAGATC_L001_R1_001_fastqc.zip
--- a/runs/fastqc/results/DB_099_CAMMD_CTTGTA_L001_R1_001_fastqc.html
+++ b/runs/fastqc/results/DB_099_CAMMD_CTTGTA_L001_R1_001_fastqc.html
--- a/runs/fastqc/results/DB_099_CAMMD_CTTGTA_L001_R1_001_fastqc.zip
+++ b/runs/fastqc/results/DB_099_CAMMD_CTTGTA_L001_R1_001_fastqc.zip
--- a/runs/fastqc/results/DB_103_CAMMD_AGTCAA_L001_R1_001_fastqc.html
+++ b/runs/fastqc/results/DB_103_CAMMD_AGTCAA_L001_R1_001_fastqc.html
--- a/runs/fastqc/results/DB_103_CAMMD_AGTCAA_L001_R1_001_fastqc.zip
+++ b/runs/fastqc/results/DB_103_CAMMD_AGTCAA_L001_R1_001_fastqc.zip
--- a/runs/fastqc/results/DB_161_reC3MD_GTCCGC_L001_R1_001_fastqc.html
+++ b/runs/fastqc/results/DB_161_reC3MD_GTCCGC_L001_R1_001_fastqc.html
--- a/runs/fastqc/results/DB_161_reC3MD_GTCCGC_L001_R1_001_fastqc.zip
+++ b/runs/fastqc/results/DB_161_reC3MD_GTCCGC_L001_R1_001_fastqc.zip
--- a/runs/fastqc/results/DB_163_reC3MD_GTGAAA_L001_R1_001_fastqc.html
+++ b/runs/fastqc/results/DB_163_reC3MD_GTGAAA_L001_R1_001_fastqc.html
--- a/runs/fastqc/results/DB_163_reC3MD_GTGAAA_L001_R1_001_fastqc.zip
+++ b/runs/fastqc/results/DB_163_reC3MD_GTGAAA_L001_R1_001_fastqc.zip
--- a/runs/fastqc/results/DB_165_re-C3MD_GTGAAA_L002_R1_001_fastqc.html
+++ b/runs/fastqc/results/DB_165_re-C3MD_GTGAAA_L002_R1_001_fastqc.html
--- a/runs/fastqc/results/DB_165_re-C3MD_GTGAAA_L002_R1_001_fastqc.zip
+++ b/runs/fastqc/results/DB_165_re-C3MD_GTGAAA_L002_R1_001_fastqc.zip
--- a/runs/fastqc/run.cwl
+++ b/runs/fastqc/run.cwl
+cwlVersion: v1.2
+class: Workflow
+requirements:
+  SubworkflowFeatureRequirement: {}
+  ScatterFeatureRequirement: {}
+  MultipleInputFeatureRequirement: {}
+inputs:
+  fastq: File[]
+  finaloutdir: string
+steps:
+  fastqc:
+    run: ../../workflows/fastqc/workflow.cwl
+    in:
+      fastq: fastq
+      finaloutdir: finaloutdir
+    out: [outdir]
+outputs:
+  outdir:
+    type: Directory
+    outputSource: fastqc/outdir
\ No newline at end of file
--- a/runs/fastqc/run.yml
+++ b/runs/fastqc/run.yml
+finaloutdir: "results"
+fastq:
+  - class: File
+    path: ../../assays/Talinum_RNASeq_minimal/dataset/DB_097_CAMMD_CAGATC_L001_R1_001.fastq.gz
+  - class: File
+    path: ../../assays/Talinum_RNASeq_minimal/dataset/DB_099_CAMMD_CTTGTA_L001_R1_001.fastq.gz
+  - class: File
+    path: ../../assays/Talinum_RNASeq_minimal/dataset/DB_103_CAMMD_AGTCAA_L001_R1_001.fastq.gz
+  - class: File
+    path: ../../assays/Talinum_RNASeq_minimal/dataset/DB_161_reC3MD_GTCCGC_L001_R1_001.fastq.gz
+  - class: File
+    path: ../../assays/Talinum_RNASeq_minimal/dataset/DB_163_reC3MD_GTGAAA_L001_R1_001.fastq.gz
+  - class: File
+    path: ../../assays/Talinum_RNASeq_minimal/dataset/DB_165_re-C3MD_GTGAAA_L002_R1_001.fastq.gz
\ No newline at end of file
--- a/runs/kallisto/run.cwl
+++ b/runs/kallisto/run.cwl
@@ -4,16 +4,20 @@ class: Workflow
 requirements:
  SubworkflowFeatureRequirement: {}
+  MultipleInputFeatureRequirement: {}
 inputs:
  IndexInput: File[]
-  InputReadsMultipleSamples:
+  sampleRecord:
-    type: 
+    type:
      type: array
-      items: 
+      items:
-        type: array
+        type: record
-        items: File
+        fields:
-  numUnderscoresFileName: int
+          readsOfOneSample:
+            type: File[]
+          sampleName:
+            type: string?
  isSingle: boolean
  FragmentLength: double?  
  StandardDeviation: double?
@@ -25,8 +29,7 @@ steps:
    run:  ../../workflows/kallisto/workflow.cwl
    in:
      IndexInput: IndexInput
-      InputReadsMultipleSamples: InputReadsMultipleSamples
+      sampleRecord: sampleRecord
-      numUnderscoresFileName: numUnderscoresFileName
      isSingle: isSingle
      FragmentLength: FragmentLength
      StandardDeviation: StandardDeviation

--- a/runs/kallisto/run.yml
+++ b/runs/kallisto/run.yml
@@ -5,44 +5,47 @@ IndexInput:
    format: edam:format_1929 # FASTA
 ## Fastq files to be mapped
-# The `InputReadsMultipleSamples` looks more complicated than needed
+# The `readsOfOneSample` looks more complicated than needed
-# It's an array of File arrays to generically allow multiple fastq files per sample
+# It's an array of records (each with one or mupltiple files and a sample name) to generically allow multiple fastq files per sample
-InputReadsMultipleSamples:
+sampleRecord:
-  - 
+  - readsOfOneSample:
    - class: File
      path: ../../assays/Talinum_RNASeq_minimal/dataset/DB_097_CAMMD_CAGATC_L001_R1_001.fastq.gz
-      format: edam:format_1930 # FASTQ
+      format: edam:format_1930
-  - 
+    sampleName: 'DB_097'
+  - readsOfOneSample:  
+    - class: File
+      path: ../../assays/Talinum_RNASeq_minimal/dataset/DB_163_reC3MD_GTGAAA_L001_R1_001.fastq.gz
+      format: edam:format_1930
+    sampleName: 'DB_163'
+  - readsOfOneSample:
    - class: File
      path: ../../assays/Talinum_RNASeq_minimal/dataset/DB_099_CAMMD_CTTGTA_L001_R1_001.fastq.gz
-      format: edam:format_1930 # FASTQ
+      format: edam:format_1930
-  # - 
+    sampleName: 'DB_099'
-  #   - class: File
+  - readsOfOneSample:
-  #     path: ../../assays/Talinum_RNASeq_minimal/dataset/DB_103_CAMMD_AGTCAA_L001_R1_001.fastq.gz
+    - class: File
-  #     format: edam:format_1930 # FASTQ
+      path: ../../assays/Talinum_RNASeq_minimal/dataset/DB_103_CAMMD_AGTCAA_L001_R1_001.fastq.gz
-  # - 
+      format: edam:format_1930
-  #   - class: File
+    sampleName: 'DB_103'
-  #     path: ../../assays/Talinum_RNASeq_minimal/dataset/DB_161_reC3MD_GTCCGC_L001_R1_001.fastq.gz
+  - readsOfOneSample:
-  #     format: edam:format_1930 # FASTQ
+    - class: File
-  # - 
+      path: ../../assays/Talinum_RNASeq_minimal/dataset/DB_161_reC3MD_GTCCGC_L001_R1_001.fastq.gz
-  #   - class: File
+      format: edam:format_1930
-  #     path: ../../assays/Talinum_RNASeq_minimal/dataset/DB_163_reC3MD_GTGAAA_L001_R1_001.fastq.gz
+    sampleName: 'DB_161'
-  #     format: edam:format_1930 # FASTQ
+  - readsOfOneSample:
-  # - 
+    - class: File
-  #   - class: File
+      path: ../../assays/Talinum_RNASeq_minimal/dataset/DB_165_re-C3MD_GTGAAA_L002_R1_001.fastq.gz
-  #     path: ../../assays/Talinum_RNASeq_minimal/dataset/DB_165_re-C3MD_GTGAAA_L002_R1_001.fastq.gz
+      format: edam:format_1930
-  #     format: edam:format_1930 # FASTQ
+    sampleName: 'DB_165'
-numUnderscoresFileName: 2
 ### Kallisto quant Parameters
 isSingle: true
 FragmentLength: 200
 StandardDeviation: 20
 BootstrapSamples: 30
+resultsFolder: kallisto_results
-resultsFolder: test
 $namespaces:
  edam: https://edamontology.org/
\ No newline at end of file
--- a/workflows/fastqc/collectFilesInDir.cwl
+++ b/workflows/fastqc/collectFilesInDir.cwl
+cwlVersion: v1.2
+class: ExpressionTool
+label: Collect files in a directory
+doc: |
+  Takes Files (e.g. from a workflow step) and yields them in a desired directory.
+requirements:
+  - class: InlineJavascriptRequirement
+inputs:
+  files: File[]
+  destination: string
+expression: |
+  ${
+    return {"outDir": {
+      "class": "Directory", 
+      "basename": inputs.destination,
+      "listing": inputs.files
+    } };
+  }
+outputs:
+  outDir: Directory
\ No newline at end of file
--- a/workflows/fastqc/fastqc.cwl
+++ b/workflows/fastqc/fastqc.cwl
+#!/usr/bin/env cwl-runner
+cwlVersion: v1.2
+class: CommandLineTool
+label: Run fastqc on raw reads in FASTQ format (single or paired end) or aligned reads in BAM.
+doc: |
+  simplified from: https://github.com/common-workflow-library/bio-cwl-tools/blob/66f620da5b0a11e934a6da83272205a2516bcd91/fastqc/fastqc_1.cwl
+  Run fastqc on raw reads in FASTQ format (single or paired end) or aligned reads in BAM.
+hints:
+  ResourceRequirement:
+    coresMin: 1
+    ramMin: 5000
+  DockerRequirement:
+    dockerPull: quay.io/biocontainers/fastqc:0.11.9--hdfd78af_1
+  SoftwareRequirement:
+    packages:
+      fastqc:
+        specs: [ https://identifiers.org/biotools/fastqc ]
+        version: [ "0.11.9" ]
+baseCommand: "fastqc"
+arguments: 
+  - valueFrom: $(runtime.outdir)
+    prefix: "-o"
+  - valueFrom: "--noextract"
+inputs:
+  fastq:
+    type: File
+    inputBinding:
+      position: 1
+outputs:
+  fastqc_zip:
+    doc: all data e.g. figures
+    type: File
+    outputBinding:
+      glob: "*_fastqc.zip"
+  fastqc_html:
+    doc: html report showing results from zip
+    type: File
+    outputBinding:
+      glob: "*_fastqc.html"