Python accession包_程序模块 - PyPI

向编码门户提交基因组管道输出的访问工具

accession的Python项目详细描述

加入

python模块和命令行工具，用于向encode门户提交基因组学管道分析输出文件和元数据

安装

用PIP安装模块：

$ pip install accession

设置环境变量

您将需要从编码门户对DCC凭据进行编码。在命令行工具中设置它们，如下所示：

$ export DCC_API_KEY=XXXXXXXX
$ export DCC_SECRET_KEY=yyyyyyyyyyy

您的环境中还需要Google Application Credentials。获取并设置您的服务帐户凭据：

$ export GOOGLE_APPLICATION_CREDENTIALS=<path_to_service_account_file>

用法

$ accession --accession-metadata metadata.json \
            --accession-steps steps.json \
            --server dev \
            --lab /labs/encode-processing-pipeline/ \
            --award U41HG007000

参数

元数据json

此文件是管道分析运行的输出。The example file包含所有任务和生成的文件。

加入步骤

访问步骤configuration file指定输出元数据json中的任务和文件名，以及提交文件和元数据的顺序。访问代码将有选择地将指定的文件提交到编码门户。单个步骤的配置方式如下：

{
        "dcc_step_version":     "/analysis-step-versions/kundaje-lab-atac-seq-trim-align-filter-step-v-1-0/",
        "dcc_step_run":         "atac-seq-trim-align-filter-step-run-v1",
        "wdl_task_name":        "filter",
        "wdl_files":            [
            {
                "filekey":                  "nodup_bam",
                "output_type":              "alignments",
                "file_format":              "bam",
                "quality_metrics":          ["cross_correlation", "samtools_flagstat"],
                "derived_from_files":       [{
                    "derived_from_task":        "trim_adapter",
                    "derived_from_filekey":     "fastqs",
                    "derived_from_inputs":      "true"
                }]
            }
        ]
}

门户上必须存在p>^ {< CD1>}和^ {CD2>}。

wdl_task_name是要访问文件的任务的名称。

wdl_files指定要访问的文件集。

filekey是一个变量，它将文件路径存储在元数据文件中。

output_type、file_format和file_format_type是对门户所需的特定元数据进行编码的

quality_metrics是访问期间将调用的方法的列表，用于将质量度量附加到文件

possible_duplicate表示可能存在具有相同内容的文件。如果设置了possible_duplicate标志，并且正在访问的当前文件的md5sum与同一任务中另一个文件的md5sum相同，则不会访问当前文件。最优idr峰值和保守idr峰值是一组可以具有相同md5sum的文件的示例。

derived_from_files指定当前访问的文件从中派生的文件列表。必须先访问父文件，然后才能提交当前文件。

derived_from_inputs用于指示在管道分析期间未生成父文件。相反，这些文件是管道的初始输入。原始fastqs和基因组引用就是这样的文件的例子。

derived_from_output_type在父文件可能重复的情况下是必需的。

服务器

prod和dev表示访问文件的服务器。dev指向test.encodedcc.org。服务器参数可以显式地作为test.encodedcc.org或encodeproject.org传递。

实验室和奖励

这些是唯一的标识符，预期已存在于编码门户上。

欢迎加入QQ群-->： 979659372

accession 0.0.35

accession的Python项目详细描述

加入

目录

安装

设置环境变量

用法

参数

元数据json

加入步骤

服务器

实验室和奖励

推荐PyPI第三方库

wmm2020

maicos

ae-sys-data

pylone

more-properties

pretty-tables

modernize-fissix

nettools

odoo13-addon-hr-attendance-reason

douyuquiz

lifx-photons-interactor

Autogit

zkit

Flask-Neo4j4

python-expression

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

accession 0.0.35

accession的Python项目详细描述

加入

目录

安装

设置环境变量

用法

参数

元数据json

加入步骤

服务器

实验室和奖励

推荐PyPI第三方库

wmm2020

maicos

ae-sys-data

pylone

more-properties

pretty-tables

modernize-fissix

nettools

odoo13-addon-hr-attendance-reason

douyuquiz

lifx-photons-interactor

Autogit

zkit

Flask-Neo4j4

python-expression

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签