无标记蛋白质定量的联合识别与定量误差模型
triqler的Python项目详细描述
要求
python 2或3安装
所需套餐:
- 纽比1.12+
- scipy 0.17+
通过pip
安装pip install triqler
从源安装
git clone https://github.com/statisticalbiotechnology/triqler.git cd triqler pip install .
用法
usage: python -m triqler [-h] [--out_file OUT] [--fold_change_eval F] [--decoy_pattern P] [--min_samples N] [--num_threads N] [--ttest] IN_FILE positional arguments: IN_FILE List of PSMs with abundances (not log transformed!) and search engine score. See README for a detailed description of the columns. optional arguments: -h, --help show this help message and exit --out_file OUT Path to output file (writing in TSV format). N.B. if more than 2 treatment groups are present, suffixes will be added before the file extension. (default: proteins.tsv) --fold_change_eval F log2 fold change evaluation threshold. (default: 1.0) --decoy_pattern P Prefix for decoy proteins. (default: decoy_) --min_samples N Minimum number of samples a peptide needed to be quantified in. (default: 2) --num_threads N Number of threads, by default this is equal to the number of CPU cores available on the device. (default: auto detect) --ttest Use t-test for evaluating differential expression instead of posterior probabilities. (default: False)
示例
示例文件iPRG2016.tsv位于example文件夹中。你可以 运行以下命令,在此文件上运行triqler:
python -m triqler --fold_change_eval 0.8 example/iPRG2016.tsv
接口
最简单的输入格式是由标题行组成的制表符分隔的文件 每行接一个psm,格式如下:
run <tab> condition <tab> charge <tab> searchScore <tab> intensity <tab> peptide <tab> proteins r1 <tab> 1 <tab> 2 <tab> 1.345 <tab> 21359.123 <tab> A.PEPTIDE.A <tab> proteinA <tab> proteinB r2 <tab> 1 <tab> 2 <tab> 1.945 <tab> 24837.398 <tab> A.PEPTIDE.A <tab> proteinA <tab> proteinB r3 <tab> 2 <tab> 2 <tab> 1.684 <tab> 25498.869 <tab> A.PEPTIDE.A <tab> proteinA <tab> proteinB ... r1 <tab> 1 <tab> 3 <tab> 0.452 <tab> 13642.232 <tab> A.NTPEPTIDE.- <tab> decoy_proteinA
或者,如果运行概率匹配,则 复杂的输入格式可用作输入:
run <tab> condition <tab> charge <tab> searchScore <tab> spectrumId <tab> linkPEP <tab> featureClusterId <tab> intensity <tab> peptide <tab> proteins r1 <tab> 1 <tab> 2 <tab> 1.345 <tab> 3 <tab> 0.0 <tab> 1 <tab> 21359.123 <tab> A.PEPTIDE.A <tab> proteinA <tab> proteinB r2 <tab> 1 <tab> 2 <tab> 1.345 <tab> 3 <tab> 0.021 <tab> 1 <tab> 24837.398 <tab> A.PEPTIDE.A <tab> proteinA <tab> proteinB r3 <tab> 2 <tab> 2 <tab> 1.684 <tab> 4 <tab> 0.0 <tab> 1 <tab> 25498.869 <tab> A.PEPTIDE.A <tab> proteinA <tab> proteinB ... r1 <tab> 1 <tab> 3 <tab> 0.452 <tab> 6568 <tab> 0.15 <tab> 9845 <tab> 13642.232 <tab> A.NTPEPTIDE.- <tab> decoy_proteinA
一些备注:
- 为了使triqler工作,它还需要诱饵psm,最好是由 连接反向蛋白质序列数据库的搜索引擎搜索 到目标数据库。
- 强度应该not进行日志转换,triqler将执行此操作 你的转变。
- 搜索引擎的分数应该是这样的:分数越高表示 对psm的信心。
- 我们建议使用经过良好校准的搜索引擎分数,例如 SVM从Percolator得到分数。
- 多个蛋白质可以在行的末尾指定,用标签隔开。 然而,需要注意的是,triqler目前丢弃了共享肽。
输出格式是一个以制表符分隔的文件,由后跟的标题行组成 每行一个蛋白质,格式如下:
q_value <tab> posterior_error_prob <tab> protein <tab> num_peptides <tab> protein_id_PEP <tab> log2_fold_change <tab> diff_exp_prob_<FC> <tab> <condition1>:<run1> <tab> <condition1>:<run2> <tab> ... <tab> <conditionM>:<runN> <tab> peptides
一些备注:
- 所报告的蛋白质表达是 运行中的表达式。它们是根据蛋白质的平均值计算出来的 表达式和是not日志转换的。
- 所报告的折叠变化是对数2转换的,并且是基于预期值的 关于褶皱的后向分布变化。
- 如果有两个以上的治疗组,将分别写入文件 与文件前添加的后缀进行成对比较 延伸,例如蛋白质。1vs3.tsv。