在一个bed或sequence dictfile中分块和分散区域
chunked-scatter的Python项目详细描述
分块散布
此工具以bed文件或序列字典为输入,并将 把染色体连接成一定大小的重叠块。这些块会 然后放入新的床文件,每个文件一个染色体。小染色体 将被放在一起,以避免创建数千个文件。
安装
从github安装:
- 克隆存储库:
git clone https://github.com/biowdl/chunked-scatter.git
- 输入存储库:
cd chunked-scatter
- 使用pip安装:
pip install .
用法
chunked-scatter -p output_prefix -i input.bed
输入应以.bed
或.dict
结尾!
option | arguments | definition |
---|---|---|
-c | a number | The size of the chunks. |
-o | a number | The size of the overlap. |
-m | a number | The minimum number of bases to be put in a single output file, before a new scatter will be made. |
示例
床单
给定位于/data/regions.bed
:
chr1 100 1000
chr1 2000 16000
chr2 5000 10000
命令:
chunked-scatter -p /data/scatter_ -i /data/regions.bed -m 1000 -c 5000
将生成以下两个输出文件:
/data/scatter_0.bed
:chr1 100 1000 chr1 2000 7000 chr1 6850 12000 chr1 11850 16000
/data/scatter_1.bed
:chr2 5000 10000
dict文件
给定位于/data/ref.dict
:
@SQ SN:chr1 LN:3000000
@SQ SN:chr2 LN:500000
命令:
chunked-scatter -p /data/scatter_ -i /data/regions.bed
将在/data/scatter_0.bed
生成以下输出文件:
chr1 0 1000000
chr1 999850 2000000
chr1 1999850 3000000
chr2 0 500000