向编码门户提交基因组管道输出的访问工具

accession的Python项目详细描述


加入

python模块和命令行工具,用于向encode门户提交基因组学管道分析输出文件和元数据

目录

安装

用PIP安装模块:

$ pip install accession

设置环境变量

您将需要从编码门户对DCC凭据进行编码。在命令行工具中设置它们,如下所示:

$ export DCC_API_KEY=XXXXXXXX
$ export DCC_SECRET_KEY=yyyyyyyyyyy

您的环境中还需要Google Application Credentials。获取并设置您的服务帐户凭据:

$ export GOOGLE_APPLICATION_CREDENTIALS=<path_to_service_account_file>

用法

$ accession --accession-metadata metadata.json \
            --accession-steps steps.json \
            --server dev \
            --lab /labs/encode-processing-pipeline/ \
            --award U41HG007000

参数

元数据json

此文件是管道分析运行的输出。The example file包含所有任务和生成的文件。

加入步骤

访问步骤configuration file指定输出元数据json中的任务和文件名,以及提交文件和元数据的顺序。访问代码将有选择地将指定的文件提交到编码门户。单个步骤的配置方式如下:

{
        "dcc_step_version":     "/analysis-step-versions/kundaje-lab-atac-seq-trim-align-filter-step-v-1-0/",
        "dcc_step_run":         "atac-seq-trim-align-filter-step-run-v1",
        "wdl_task_name":        "filter",
        "wdl_files":            [
            {
                "filekey":                  "nodup_bam",
                "output_type":              "alignments",
                "file_format":              "bam",
                "quality_metrics":          ["cross_correlation", "samtools_flagstat"],
                "derived_from_files":       [{
                    "derived_from_task":        "trim_adapter",
                    "derived_from_filekey":     "fastqs",
                    "derived_from_inputs":      "true"
                }]
            }
        ]
}
门户上必须存在p>^ {< CD1>}和^ {CD2>}。

wdl_task_name是要访问文件的任务的名称。

wdl_files指定要访问的文件集。

filekey是一个变量,它将文件路径存储在元数据文件中。

output_typefile_formatfile_format_type是对门户所需的特定元数据进行编码的

quality_metrics是访问期间将调用的方法的列表,用于将质量度量附加到文件

possible_duplicate表示可能存在具有相同内容的文件。如果设置了possible_duplicate标志,并且正在访问的当前文件的md5sum与同一任务中另一个文件的md5sum相同,则不会访问当前文件。最优idr峰值和保守idr峰值是一组可以具有相同md5sum的文件的示例。

derived_from_files指定当前访问的文件从中派生的文件列表。必须先访问父文件,然后才能提交当前文件。

derived_from_inputs用于指示在管道分析期间未生成父文件。相反,这些文件是管道的初始输入。原始fastqs和基因组引用就是这样的文件的例子。

derived_from_output_type在父文件可能重复的情况下是必需的。

服务器

proddev表示访问文件的服务器。dev指向test.encodedcc.org。服务器参数可以显式地作为test.encodedcc.org或encodeproject.org传递。

实验室和奖励

这些是唯一的标识符,预期已存在于编码门户上。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
Java程序运行时错误   JavaAndroidStudio:与往常一样,四舍五入到next.5或.0   apache使用Java以表单数据形式上载文件   带矢量的java Freeflight相机如何正确旋转?   java如何以编程方式检索有关当前项目的语言、操作系统、体系结构等信息   java Twitter4J tweet实体?   java PdfBox编码异常   java在拖动未装饰的舞台时,如何强制光标停留在窗口上   JavaSpring注释扫描优化   java无法通过IntelliJ Idea在tomcat上运行服务   java在生命周期中如何拦截请求?   java中的数组返回错误