生物标志物候选排序的预测能力评价。
epc的Python项目详细描述
引用:
- EPCY:对生物标记基因候选排序的预测能力评估。ISMB ECCB 2019海报:https://f1000research.com/posters/8-1349
简介:
该工具被开发用来评估每个特征的预测能力,以成为候选的生物标志物。在
要求:
- Python3
- (可选)virtualenv
安装:
python3 -m venv $HOME/.virtualenvs/epcy source$HOME/.virtualenvs/epcy/bin/activate cd[your_epcy_folder]CFLAGS=-std=c99 pip3 install numpy==1.17.0 python3 setup.py install epcy -h
用法:
概述:
来源:
^{pr2}$安装后:
epcy -h
一般情况:
- EPCY设计用于处理任何定量数据,前提是每个特征值在每个样本之间具有可比性(标准化)。在
- 要进行比较分析,epcy pred需要两个表格文件: 在
# Run epcy on any normalized quantification data epcy pred -d ./data/small_for_test/design.tsv -m ./data/small_for_test/exp_matrix.tsv -o ./data/small_for_test/default_subgroup # If your data require a log2 transforamtion, add --log epcy pred --log -d ./data/small_for_test/design.tsv -m ./data/small_for_test/exp_matrix.tsv -o ./data/small_for_test/default_subgroup
- 结果将保存在预测中_能力.xls文件,详情如下。在
- 您可以使用–subgroup–query对设计文件进行个性化设置
epcy pred_rna -d ./data/small_for_test/design.tsv -m ./data/small_for_test/exp_matrix.tsv -o ./data/small_for_test/subgroup2 --subgroup subgroup2 --query A
要对未进行mormalized的readcounts运行EPCY,请使用pred\u rna工具,如下所示: # To run on read count not normalized, add --cpm --log
epcy pred_rna --cpm --log -d ./data/small_for_test/design.tsv -m ./data/small_for_test/exp_matrix.tsv -o ./data/small_for_test/default_subgroup
# To run on read count not normalized, add --cpm --log
epcy pred_rna --cpm --log -d ./data/small_for_test/design.tsv -m ./data/small_for_test/exp_matrix.tsv -o ./data/small_for_test/default_subgroup
正在进行kallisto量化:
- EPCY允许使用h5文件直接在kallisto Quantification上工作,以访问引导样本。为此,需要在设计文件中添加一个kallisto列(为每个示例指定查找profentity.h5文件的目录路径)和epcy pred_rna如下所示:
# To run on kallisto quantification, add --kall (+ --cpm --log) epcy pred_rna --kal --cpm --log -d ./data/small_leucegene/5_inv16_vs_5/design.tsv -o ./data/small_leucegene/5_inv16_vs_5/ # !!! Take care kallisto quantification is on transcript not on gene
- 为了在基因水平上运行,需要一个基因组注释的gff3文件,以获得转录本和基因之间的对应关系。此文件可在ensembl上下载
# To run on kallisto quantification and gene level, add --gene --anno [file.gff] (+ --kall --cpm --log)
epcy pred_rna --kal --cpm --log --gene --anno ./data/small_genome/Homo_sapiens.GRCh38.84.reduce.gff3 -d ./data/small_leucegene/5_inv16_vs_5/design.tsv -o ./data/small_leucegene/5_inv16_vs_5/
- kallisto量化允许在TPM上工作:
# work on TPM, replace --cpm by --tpm
epcy pred_rna --kal --tpm --log --gene --anno ./data/small_genome/Homo_sapiens.GRCh38.84.reduce.gff3 -d ./data/small_leucegene/5_inv16_vs_5/design.tsv -o ./data/small_leucegene/5_inv16_vs_5/
输出:
预测性_能力.xls
这个文件是主要的输出,其中包含对每个特征(基因,蛋白质,…)的评估。它是一个表格文件9列:
- 默认列: 在
- 使用–正常:
- 正态分布:用normal分布计算一个预测器。在
- 使用–auc–utest:
- 曲线下面积
- 用MannWhitney秩检验计算值
- 使用–ttest:
- tüpv:p由ttest_ind计算值
子组_预测.xls
Using–full一个辅助输出文件(子组_预测.xls)如果样本预测正确,则为每个特征指定。用这个输出构建一个热图可以帮助您探索您的数据。 更多细节即将公布。在
装袋:
为了提高计算MCC的稳定性和准确性,可以添加nbagging(使用-bn)
#Take care, it's take n time more longer!!!, use multiprocess (-t) seems a good idea :). epcy pred_rna -b 4 -t 4 --cpm --log -d ./data/small_for_test/design.tsv -m ./data/small_for_test/exp_matrix.tsv -o ./data/small_for_test/default_subgroup
- 项目
标签: