Covest估计覆盖率和基因组大小,只是根据DNA序列读取的K-mer丰度直方图。
covest的Python项目详细描述
估计DNA序列覆盖率(和基因组大小)的工具 阅读。
要求
- Python3.4+
- Python3 dev
- 海合会
安装
我们建议在python3虚拟环境中安装covest。
pip install covest
用于开发:
pip install -e .来自项目目录
用法
键入covest --help以了解用法。
基本用法:
covest histogram -m model -k K -r read_length
- 可以使用-s reads.fa参数指定读取文件,以进行更精确的基因组大小计算。
- 默认值k为21
- 默认读取长度为100
- 目前,支持的型号是:
- 基本:用于不重复的简单基因组
- 重复:对于具有重复序列的基因组
输入直方图规格:
可以使用jellyfish从读取的数据生成输入直方图。
- jellyfish count -m K -C reads.fa -o table.jf
- jellyfish histo table.jf -o reads.hist
直方图的格式只是行的列表。每行包含一个索引和一个用空格分隔的值。
输出规格:
covest将其结果输出为yaml格式的简单子集,以获得最佳的人类可读性和机器处理的可能性。
输出是包含key: value的行。最重要的键是coverage和genome_size(如果指定了读取大小,则为genome_size_reads)。
其他附带工具
- geset.py用于根据读取大小和已知大小估计基因组大小的工具 覆盖范围
- reads_size.py用于计算总读取大小的工具
- kmer_hist.py自定义高棉直方图计算,它比其他工具慢得多,因此只有在没有其他选项的情况下才使用它。
- read_sampler.py用于子采样读取的脚本,如果您有非常高的覆盖率数据并希望使其变小,则非常有用。
- fasta_length.py获取fasta文件中所有序列的总长度。
版权和引用
Covest获得GNU GPLv3许可。
- Covest是一个研究软件,所以当你在科学出版物中使用它时,你应该引用我们!
- Hozza,M.,Vina_,T.,&Brejová,B.(2015年9月)。基因组有多大?利用k-mer丰度谱估计基因组大小和覆盖率。字符串处理和信息检索(199-209页)。斯普林格国际出版公司。