如何收集与输入函数匹配通配符的Snakemake输入文件？

# Sample 1 BAM files OVCA-1-FRESH-1_S16_L001_realigned.bam OVCA-1-FRESH-1_S16_L002_realigned.bam OVCA-1-FRESH-1_S16_L003_realigned.bam OVCA-1-FRESH-1_S16_L004_realigned.bam # Sample 2 BAM files OVCA-2-FRESH-1_S16_L001_realigned.bam OVCA-2-FRESH-1_S16_L002_realigned.bam OVCA-2-FRESH-1_S16_L003_realigned.bam OVCA-2-FRESH-1_S16_L004_realigned.bam

rule samtools_merge: input: OVCA-1-FRESH-1_S16_L001_realigned.bam, OVCA-1-FRESH-1_S16_L002_realigned.bam, OVCA-1-FRESH-1_S16_L003_realigned.bam, OVCA-1-FRESH-1_S16_L004_realigned.bam, OVCA-1-FRESH-1_S16_L001_realigned.bam, OVCA-1-FRESH-1_S16_L002_realigned.bam, OVCA-1-FRESH-1_S16_L003_realigned.bam, OVCA-1-FRESH-1_S16_L004_realigned.bam, OVCA-1-FRESH-1_S16_L001_realigned.bam, OVCA-1-FRESH-1_S16_L002_realigned.bam, OVCA-1-FRESH-1_S16_L003_realigned.bam, OVCA-1-FRESH-1_S16_L004_realigned.bam, OVCA-1-FRESH-1_S16_L001_realigned.bam, OVCA-1-FRESH-1_S16_L002_realigned.bam, OVCA-1-FRESH-1_S16_L003_realigned.bam, OVCA-1-FRESH-1_S16_L004_realigned.bam, OVCA-2-FRESH-1_S4_L001_realigned.bam, OVCA-2-FRESH-1_S4_L002_realigned.bam, OVCA-2-FRESH-1_S4_L003_realigned.bam, OVCA-2-FRESH-1_S4_L004_realigned.bam, OVCA-2-FRESH-1_S4_L001_realigned.bam, OVCA-2-FRESH-1_S4_L002_realigned.bam, OVCA-2-FRESH-1_S4_L003_realigned.bam, OVCA-2-FRESH-1_S4_L004_realigned.bam, OVCA-2-FRESH-1_S4_L001_realigned.bam, OVCA-2-FRESH-1_S4_L002_realigned.bam, OVCA-2-FRESH-1_S4_L003_realigned.bam, OVCA-2-FRESH-1_S4_L004_realigned.bam, OVCA-2-FRESH-1_S4_L001_realigned.bam, OVCA-2-FRESH-1_S4_L002_realigned.bam, OVCA-2-FRESH-1_S4_L003_realigned.bam, OVCA-2-FRESH-1_S4_L004_realigned.bam output: OVCA-1-FRESH-1_S16_realigned.bam jobid: 18 wildcards: run_id=OVCA-1-FRESH-1_S16

rule samtools_merge: input: OVCA-1-FRESH-1_S16_L001_realigned.bam, OVCA-1-FRESH-1_S16_L002_realigned.bam, OVCA-1-FRESH-1_S16_L003_realigned.bam, OVCA-1-FRESH-1_S16_L004_realigned.bam output: OVCA-1-FRESH-1_S16_realigned.bam jobid: 18 wildcards: run_id=OVCA-1-FRESH-1_S16

1条回答

网友

1楼 · 发布于 2024-06-16 11:45:37

您的函数在这里不使用通配符。应该是这样的：

def samtools_merge_inputs(wildcards):
    files = expand(wildcards.run_id+'_L{line}_realigned.bam', line=LINES)
    return files

当然，如果你在所有车道上都有样品。调用函数时，所有通配符都作为函数的wildcards参数中的对象传递。在

您还可以执行以下操作：

^{pr2}$

您的snakefile中有多个不起作用的内容。
首先，在samtools合并规则中缺少一个“'”：

rule samtools_merge:
    input:
        samtools_merge_inputs
    output:
        '{run_id}_realigned.bam'<  -
    shell:
        'samtools merge -h {input} {output}'

注意变量名（行与行）

其次，函数glob_wildcards()将返回找到的所有值的列表，这意味着您的两个变量将如下所示：

RUN_ID, LINES = glob_wildcards('{run_id}_L{line}_realigned.bam')

print(RUN_ID)
['OVCA-2-FRESH-1_S16', 'OVCA-2-FRESH-1_S16', 'OVCA-1-FRESH-1_S16', 'OVCA-1-FRESH-1_S16', 'OVCA-1-FRESH-1_S16', 'OVCA-1-FRESH-1_S16', 'OVCA-2-FRESH-1_S16', 'OVCA-2-FRESH-1_S16']

print(LINES)
['002', '001', '001', '002', '004', '003', '003', '004']

我敢肯定这不是你想要的。解决办法是用正确的结构来描述你的样品。例如（如果所有样本都在所有车道上）：

RUN_ID = ["OVCA-1-FRESH-1_S16","OVCA-2-FRESH-1_S16"]
LINES = ["1","2","3","4"]

最后一件事：您的输入和输出不能用通配符区分，这意味着您将以错误Cyclic dependency on rule samtools_merge或{}结束。我建议您为输出选择一个不同的名称。总而言之：

# Map start input files
RUN_ID = ["OVCA-1-FRESH-1_S16","OVCA-2-FRESH-1_S16"]
LINES = ["001","002","003","004"]

rule all:
   input:
      expand('{run_id}_realignedFinal.bam', run_id=RUN_ID)

# Map input files for merging. This function should collect all
# BAM files that match the {run_id} wildcard.
def samtools_merge_inputs(wildcards):
   files = expand('{run_id}_L{line}_realigned.bam', run_id=wildcards.run_id, line=LINES)
   return files

# Perform BAM merging.
rule samtools_merge:
   input:
      samtools_merge_inputs
   output:
      '{run_id}_realignedFinal.bam'
   shell:
      'samtools merge -h {input} {output}'

还没有检查你的shell命令，但我的医生说：
Usage: samtools merge [-nurlf] [-h inh.sam] [-b <bamlist.fofn>] <out.bam> <in1.bam> [<in2.bam> ... <inN.bam>]

相关问题更多 >

编程相关推荐

热门问题

热门文章