向编码门户提交基因组管道输出的访问工具
accession的Python项目详细描述
加入
python模块和命令行工具,用于向encode门户提交基因组学管道分析输出文件和元数据
目录
安装
用PIP安装模块:
$ pip install accession
设置环境变量
您将需要从编码门户对DCC凭据进行编码。在命令行工具中设置它们,如下所示:
$ export DCC_API_KEY=XXXXXXXX
$ export DCC_SECRET_KEY=yyyyyyyyyyy
您的环境中还需要Google Application Credentials。获取并设置您的服务帐户凭据:
$ export GOOGLE_APPLICATION_CREDENTIALS=<path_to_service_account_file>
用法
$ accession --accession-metadata metadata.json \
--accession-steps steps.json \
--server dev \
--lab /labs/encode-processing-pipeline/ \
--award U41HG007000
参数
元数据json
此文件是管道分析运行的输出。The example file包含所有任务和生成的文件。
加入步骤
访问步骤configuration file指定输出元数据json中的任务和文件名,以及提交文件和元数据的顺序。访问代码将有选择地将指定的文件提交到编码门户。单个步骤的配置方式如下:
{
"dcc_step_version": "/analysis-step-versions/kundaje-lab-atac-seq-trim-align-filter-step-v-1-0/",
"dcc_step_run": "atac-seq-trim-align-filter-step-run-v1",
"wdl_task_name": "filter",
"wdl_files": [
{
"filekey": "nodup_bam",
"output_type": "alignments",
"file_format": "bam",
"quality_metrics": ["cross_correlation", "samtools_flagstat"],
"derived_from_files": [{
"derived_from_task": "trim_adapter",
"derived_from_filekey": "fastqs",
"derived_from_inputs": "true"
}]
}
]
}
门户上必须存在p>^ {< CD1>}和^ {CD2>}。wdl_task_name
是要访问文件的任务的名称。
wdl_files
指定要访问的文件集。
filekey
是一个变量,它将文件路径存储在元数据文件中。
output_type
、file_format
和file_format_type
是对门户所需的特定元数据进行编码的
quality_metrics
是访问期间将调用的方法的列表,用于将质量度量附加到文件
possible_duplicate
表示可能存在具有相同内容的文件。如果设置了possible_duplicate
标志,并且正在访问的当前文件的md5sum与同一任务中另一个文件的md5sum相同,则不会访问当前文件。最优idr峰值和保守idr峰值是一组可以具有相同md5sum的文件的示例。
derived_from_files
指定当前访问的文件从中派生的文件列表。必须先访问父文件,然后才能提交当前文件。
derived_from_inputs
用于指示在管道分析期间未生成父文件。相反,这些文件是管道的初始输入。原始fastqs和基因组引用就是这样的文件的例子。
derived_from_output_type
在父文件可能重复的情况下是必需的。
服务器
prod
和dev
表示访问文件的服务器。dev
指向test.encodedcc.org。服务器参数可以显式地作为test.encodedcc.org或encodeproject.org传递。
实验室和奖励
这些是唯一的标识符,预期已存在于编码门户上。