从kraken输出创建biom格式表。
kraken-biom的Python项目详细描述
从kraken输出创建biom格式表(http://biom-format.org) (http://ccb.jhu.edu/software/kraken/)。
安装
来自PYPI:
$ pip install kraken-biom
来自github:
$ pip install git+http://github.com/smdabdoub/kraken-biom.git
来源:
$ python setup.py install
要求
- 生物模型格式>;=2.1.5
文档
该程序接受来自Kraken报告的一个或多个文件作为输入 工具。每个文件都被解析,每个otu的计数(操作分类法 记录单元)以及数据库ID(例如NCBI)和沿袭。这个 提取的数据然后存储在biom表中,其中每个计数都是链接的 它属于样本和otu。从输入中提取样本id 文件名(直到“.”为止)。
otu由–max和–min参数定义。默认情况下,这些是 分别设置为“顺序”和“种类”。这意味着分配的计数 直接记录到一个目、科或属的 otu id,以及在物种级别或更低级别分配的计数被分配给 物种的otu id。设定低于物种的最低等级还没有 可用。
biom格式目前有两个主要版本。版本1.0使用 json(javascript对象表示法)格式作为基础。版本2.x使用 以hdf5(分层数据格式v5)为基础。输出格式可以是 使用–fmt选项指定。注意,tab分隔(tsv)输出 格式也可用。生成的文件将不包含 元数据,但可以通过电子表格程序打开。
默认情况下,biom格式的版本2用于输出,但需要 python库“h5py”。如果图书馆没有安装,Kraken Biom会 自动切换到使用版本1.0。注意输出可以 对于版本1.0和TSV文件,可以选择使用gzip(–gzip)压缩。 版本2文件将自动压缩。
目前,每个otu id的分类法作为行元数据存储在biom中。 使用标准七级qiime格式的表:k_u k;p_u p;..s_u s.if 您希望支持其他格式,请提交问题或发送请求 请求(注意捐款指南)。
usage: kraken-biom.py [-h] [--max {D,P,C,O,F,G,S}] [--min {D,P,C,O,F,G,S}] [-o OUTPUT_FP] [--fmt {hdf5,json,tsv}] [--gzip] [--version] [-v] kraken_reports [kraken_reports ...]
用法示例
默认参数的基本用法:
$ kraken-biom.py S1.txt S2.txt
This produces a compressed BIOM 2.1 file: table.biom
Biom v1.0输出:
$ kraken-biom.py S1.txt S2.txt --fmt json
Produces a BIOM 1.0 file: table.biom
压缩TSV输出:
$ kraken-biom.py S1.txt S2.txt --fmt tsv --gzip -o table.tsv
Produces a TSV file: table.tsv.gz
将最大和最小otu级别更改为类和属:
$ kraken-biom.py S1.txt S2.txt --max C --min G
程序参数
位置参数:
kraken_reports Results files from the kraken-report tool.
可选参数:
-h, --help show this help message and exit --max {D,P,C,O,F,G,S} Assigned reads will be recorded only if they are at or below max rank. Default: O. --min {D,P,C,O,F,G,S} Reads assigned at and below min rank will be recorded as being assigned to the min rank level. Default: S. -o OUTPUT_FP, --output_fp OUTPUT_FP Path to the BIOM-format file. By default, the table will be in the HDF5 BIOM 2.x format. Users can output to a different format using the --fmt option. The output can also be gzipped using the --gzip option. Default path is: ./table.biom --fmt {hdf5,json,tsv} Set the output format of the BIOM table. Default is HDF5. --gzip Compress the output BIOM table with gzip. HDF5 BIOM (v2.x) files are internally compressed by default, so this option is not needed when specifying --fmt hdf5. --version show program's version number and exit -v, --verbose Prints status messages during program execution.