用minhash草图比较dna序列的工具
sourmash的Python项目详细描述
苏尔马什
计算核苷酸(dna/rna)和蛋白质序列的minhash特征。
用法:
sourmash compute *.fq.gz
sourmash compare *.sig -o distances
sourmash plot distances
sourmash 1.0是published on JOSS;如果您使用sourmash(doi: 10.21105/joss.00027
),请引用这篇文章。
名字是Mash的即兴模仿, 加上@ctb对威士忌的喜爱。 (Sour mash用于 制作威士忌。)
主要作者:C. Titus Brown(@ctb)和Luiz C. Irber, Jr(@luizirber)。
苏尔马什是 Lab for Data-Intensive Biology在 UC Davis School of Veterinary Medicine。
安装
我们建议使用Bioconda安装Sourmash:
conda install -c conda-forge -c bioconda sourmash
这将安装最新稳定版本的Sourmash 2。
您也可以使用pip安装sourmash:
pip install sourmash
快速入门教程is available。
要求
Sourmash在Python2.7.x和Python3.5+下运行。基地 要求是SRIDED和IJSON,再加上C++开发 环境和cpython开发头和库(用于 C++扩展。
比较代码(sourmash compare
)使用numpy,并绘制
代码使用matplotlib和scipy,但是大多数代码在没有
这些。
对于search
和gather
,您还需要khmer
版本2.1+。
安装conda
bioconda是conda包管理器的一个通道,重点是生物信息软件。安装conda之后,您需要添加bioconda通道以及other channelsbioconda所依赖的。一旦安装了bioconda,就可以通过运行以下命令安装sourmash:
$ conda create -n sourmash_env -c conda-forge -c bioconda sourmash python=3.7 $ source activate sourmash_env $ sourmash compute -h
它将安装最新的alpha版本。
支架
请提出问题并归档问题 on Github。
开发
在Github上进行开发 dib-lab/sourmash。
安装后,sourmash
是主要的命令行入口点;
使用python -m sourmash
运行它,或执行pip install -e /path/to/repo
以
在虚拟环境中安装开发人员。
sourmash/
目录包含库代码。
测试需要py.test,可以使用make test
运行。
有关详细信息,请参见the developer notes。
CTB公司 2018年12月