从kraken输出创建biom格式表。

kraken-biom的Python项目详细描述


从kraken输出创建biom格式表(http://biom-format.org) (http://ccb.jhu.edu/software/kraken/)。

安装

来自PYPI:

$ pip install kraken-biom

来自github:

$ pip install git+http://github.com/smdabdoub/kraken-biom.git

来源:

$ python setup.py install

要求

  • 生物模型格式>;=2.1.5

文档

该程序接受来自Kraken报告的一个或多个文件作为输入 工具。每个文件都被解析,每个otu的计数(操作分类法 记录单元)以及数据库ID(例如NCBI)和沿袭。这个 提取的数据然后存储在biom表中,其中每个计数都是链接的 它属于样本和otu。从输入中提取样本id 文件名(直到“.”为止)。

otu由–max和–min参数定义。默认情况下,这些是 分别设置为“顺序”和“种类”。这意味着分配的计数 直接记录到一个目、科或属的 otu id,以及在物种级别或更低级别分配的计数被分配给 物种的otu id。设定低于物种的最低等级还没有 可用。

biom格式目前有两个主要版本。版本1.0使用 json(javascript对象表示法)格式作为基础。版本2.x使用 以hdf5(分层数据格式v5)为基础。输出格式可以是 使用–fmt选项指定。注意,tab分隔(tsv)输出 格式也可用。生成的文件将不包含 元数据,但可以通过电子表格程序打开。

默认情况下,biom格式的版本2用于输出,但需要 python库“h5py”。如果图书馆没有安装,Kraken Biom会 自动切换到使用版本1.0。注意输出可以 对于版本1.0和TSV文件,可以选择使用gzip(–gzip)压缩。 版本2文件将自动压缩。

目前,每个otu id的分类法作为行元数据存储在biom中。 使用标准七级qiime格式的表:k_u k;p_u p;..s_u s.if 您希望支持其他格式,请提交问题或发送请求 请求(注意捐款指南)。

usage: kraken-biom.py [-h] [--max {D,P,C,O,F,G,S}] [--min {D,P,C,O,F,G,S}]
                      [-o OUTPUT_FP] [--fmt {hdf5,json,tsv}] [--gzip]
                      [--version] [-v]
                      kraken_reports [kraken_reports ...]

用法示例

  1. 默认参数的基本用法:

    $ kraken-biom.py S1.txt S2.txt
    
This produces a compressed BIOM 2.1 file: table.biom
  1. Biom v1.0输出:

    $ kraken-biom.py S1.txt S2.txt --fmt json
    
Produces a BIOM 1.0 file: table.biom
  1. 压缩TSV输出:

    $ kraken-biom.py S1.txt S2.txt --fmt tsv --gzip -o table.tsv
    
Produces a TSV file: table.tsv.gz
  1. 将最大和最小otu级别更改为类和属:

    $ kraken-biom.py S1.txt S2.txt --max C --min G
    

程序参数

位置参数:

kraken_reports        Results files from the kraken-report tool.

可选参数:

-h, --help            show this help message and exit
--max {D,P,C,O,F,G,S}
                      Assigned reads will be recorded only if they are at or
                      below max rank. Default: O.
--min {D,P,C,O,F,G,S}
                      Reads assigned at and below min rank will be recorded
                      as being assigned to the min rank level. Default: S.
-o OUTPUT_FP, --output_fp OUTPUT_FP
                      Path to the BIOM-format file. By default, the table
                      will be in the HDF5 BIOM 2.x format. Users can output
                      to a different format using the --fmt option. The
                      output can also be gzipped using the --gzip option.
                      Default path is: ./table.biom
--fmt {hdf5,json,tsv}
                      Set the output format of the BIOM table. Default is
                      HDF5.
--gzip                Compress the output BIOM table with gzip. HDF5 BIOM
                      (v2.x) files are internally compressed by default, so
                      this option is not needed when specifying --fmt hdf5.
--version             show program's version number and exit
-v, --verbose         Prints status messages during program execution.

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java不支持ArrayList。clear()方法释放内存?   java有一种保持测试的方法。Bat文件打开并运行其余的代码?   java XMLSocketReceiver和SocketReceiver是如何工作的?   Java ArrayList StringBuilder附加   java Jsoup从html表中提取数据   java JAXB通用XmlAdapter实现   java在半秒钟后更新JLabel中包含的图片   java如何在组织中打印整个标记结构。jdom。文档对象?   java我的公共int没有使用正确的参数,我的调用是否错误?   mysql与Java Rest Webservice的手动数据库连接(jersey)   java这个同步代码是如何中断的?   java试图在关闭的EntityManager上执行操作(在命名查询上调用setParameter()函数时)   java在使用流生成映射时忽略重复项   java使用整数创建日期并显示在文本框中   java在运行时动态更改类字段的注释