Snakemake带有自定义脚本，可通过contig分割床图

input_handle = FILE path = PATH import csv import re contigs = {} with open(input_handle) as data: data_reader = csv.reader(data, delimiter='\t') contigs = {row[0] for row in data_reader} for c in contigs: with open(input_handle) as data: data_reader = csv.reader(data, delimiter='\t') out_file = path + re.search(r".+\/(.+)(?=.bedgraph)", input_handle).group(1) + "-" + c + ".bedgraph" f_out = open(out_file, 'w') for row in data_reader: if row[0] == c: f_out.write("\t".join(row)+"\n")

input_bedgraph = snakemake.input[0] import csv import re contigs = {} with open(input_bedgraph) as data: data_reader = csv.reader(data, delimiter='\t') contigs = {row[0] for row in data_reader} for c in contigs: with open(input_bedgraph) as data: data_reader = csv.reader(data, delimiter='\t') ----> out_file = snakemake.output[0] f_out = open(out_file, 'w') for row in data_reader: if row[0] == c: f_out.write("\t".join(row)+"\n")

2条回答

网友

1楼 · 编辑于 2024-05-16 19:18:21

在得到一些知道他们在做什么的人的帮助后，问题变得更容易解决

我最终使用了检查点（谢谢@Luigi）。我相信使用awk one liner而不是脚本可能会简化问题，但使用下面的代码以及修改的all规则最终会得到我需要的所有文件

checkpoint split_bed:
    input:
        "bedgraphs/{sample}.bedgraph"
    output:
        directory("split_beds/{sample}/")
    shell:
        "mkdir split_beds/{wildcards.sample}; awk \'{{print $0 > \"split_beds/{wildcards.sample}/{wildcards.sample}_\"$1\".bedgraph\"}}\' {input}"

def aggregate_input(wildcards):
    checkpoint_output = checkpoints.split_bed.get(**wildcards).output[0]
    return expand("split_beds/{sample}/{contig}.bedgraph",
           sample=wildcards.sample,
           contig=glob_wildcards(os.zpath.join(checkpoint_output, "{contig}.bedgraph")).contig)

rule aggregate:
    input:
        aggregate_input
    output:
        "split_beds/{sample}/{contig}"

“所有”规则是：

rule all:
    input:
        expand("split_beds/{sample}/", sample=config["samples"])

网友

2楼 · 编辑于 2024-05-16 19:18:21

您是否需要在蛇形管道下游使用contigs？如果是这样的话，dynamic()无疑是一条路要走This related question是dynamic()的一个非常容易访问的介绍。它可能看起来像这样：

rule split_bed:
    input:
        "bam_coverage/{sample}.bedgraph"
    output:
        dynamic("split_beds/{sample}/{contig}.fasta")
    script:
        "scripts/split_bed.py"

rule process_contigs:
    input:
        dynamic("split_beds/{sample}/{contig}.fasta")
    ...

如果我的理解是正确的，snakemake将其理解为“process_contigs需要一些名称与模式'split_beds/{sample}/{contig}.fasta'匹配的文件，这些文件将由split_bed生成”

或者，如果您只想散开分割的contigs，而不需要在snakemake中单独处理这些文件，那么一种不太优雅的方法是在处理完contigs后只需触摸一个文件，然后将其用作snakemake规则的输出（使用pathlib）

您的样本处理代码：

input_handle = FILE
path = PATH

...

from pathlib import Path

...

for c in contigs:

    ...

Path('split_beds/status/{sample}_completed.txt').touch()

你的规则：

rule split_bed:
    input:
        "bam_coverage/{sample}.bedgraph"
    output:
        "split_beds/status/{sample}_completed.txt"
    script:
        "scripts/split_bed.py"

如果分割的重叠是管道的终点，并且您不想麻烦制定另一个规则以将动态重叠文件作为输入，那么我只会真正执行第二个操作

编辑：

我刚刚想起checkpoints的存在。我认为这些被替换的dynamic()检查点基本上允许snakemake在工作流的某些点重新评估DAG，我认为这是您所需要的，因为您将为每个样本生成数量可变的单个重叠文件。因此，DAG不能在运行开始时完成（我认为这就是设计检查点要解决的问题）。我自己没有使用过它们，所以我不会试图通过伪代码编写一个示例来误导您，但希望这能为您指明正确的方向

相关问题更多 >

编程相关推荐

热门问题

热门文章