拼接ai:一种基于深度学习的识别拼接变体的工具
spliceai的Python项目详细描述
拼接ai:一个基于深入学习的工具,用于识别拼接变体
这个包用他们对剪接的预测效果注释遗传变异,如Jaganathan et al, Cell 2019 in press所述。
安装
安装拼接组件的最简单方法是通过pip:
pip install spliceai
或者,可以从github repository:
安装接头ai。git clone https://github.com/Illumina/SpliceAI.git
cd SpliceAI
python setup.py install
拼接需要tensorflow>;=1.2.0,最好通过pip:pip install tensorflow
单独安装。有关其他安装选项,请参见TensorFlow网站。
使用量
接头可以从命令行运行:
spliceai -I input.vcf -O output.vcf -R genome.fa -A grch37 # or you can pipe the input and output VCFs cat input.vcf | spliceai -R genome.fa -A grch37 > output.vcf
选项:
- -i:输入带有感兴趣变量的vcf。
- -o:输出包含拼接预测的vcf
SpliceAI=ALLELE|SYMBOL|DS_AG|DS_AL|DS_DG|DS_DL|DP_AG|DP_AL|DP_DG|DP_DL
包含在info列中(有关详细信息,请参见下表)。基因中只有snv和简单的indel(ref或alt必须是一个碱基)被注释。多个基因的变异对每个基因都有不同的预测。 - -r:参考基因组fasta文件。
- -a:基因注释文件。可以提供
grch37
或grch38
来使用包中包含的gencode规范注释文件。要创建自定义注释文件,请使用存储库中的spliceai/annotations/grch37.txt
作为模板。
注意:基因中所有可能的snv的注释都可以here下载。
拼接信息字段的详细信息:
ID | Description |
---|---|
ALLELE | Alternate allele |
SYMBOL | Gene symbol |
DS_AG | Delta score (acceptor gain) |
DS_AL | Delta score (acceptor loss) |
DS_DG | Delta score (donor gain) |
DS_DL | Delta score (donor loss) |
DP_AG | Delta position (acceptor gain) |
DP_AL | Delta position (acceptor loss) |
DP_DG | Delta position (donor gain) |
DP_DL | Delta position (donor loss) |
delta score变量的范围从0到1,可以解释为变量被剪接改变的概率。本文给出了0.2(高召回率/可能致病性)、0.5(推荐/致病性)和0.8(高精度/致病性)截止值的详细特征。delta position传递有关拼接相对于变体位置变化的位置的信息(正值位于变体的上游,负值位于下游)。
示例
示例输入文件和相应的输出文件分别位于examples/input.vcf
和examples/output.vcf
(grch37
注释)。变量19:38958362 C>T
的输出SpliceAI=T|RYR1|0.22|0.00|0.91|0.70|-107|-46|-2|90
可以解释如下:
- 位置
19:38958255
用作剪接受体的概率增加了0.22
。 - 位置
19:38958360
用作剪接供体的概率增加了0.91
。 - 位置
19:38958452
用作剪接供体的概率降低了0.70
。
接触
基肖尔贾加纳坦:kishorejaganathan@gmail.com