从肿瘤序列数据预测肿瘤表位
topiar的Python项目详细描述
从(1)体细胞中预测突变来源的肿瘤t细胞表位 变异(2)肿瘤rna表达数据,和(3)患者hla类型。
示例
./topiary \ --vcf somatic.vcf \ --mhc-predictor netmhcpan \ --mhc-alleles HLA-A*02:01,HLA-B*07:02 \ --ic50-cutoff 500\ --percentile-cutoff 2.0 \ --mhc-epitope-lengths 8-11 \ --rna-gene-fpkm-tracking-file genes.fpkm_tracking \ --rna-min-gene-expression 4.0 \ --rna-transcript-fpkm-tracking-file isoforms.fpkm_tracking \ --rna-min-transcript-expression 1.5 \ --output-csv epitopes.csv \ --output-html epitopes.html
安装
您可以安装topiary及其依赖的所有库 跑步:
pip install topiary
你需要下载参考基因组序列和注释 对于最近的Ensembl版本(例如81),请运行:
pyensembl install --release 81 --species human
如果要使用与旧版本对齐的变体 参考GRCH37,你还需要下载它的注释数据, 包含在Ensembl版本75中:
pyensembl install --release 75 --species human
命令行参数
基因组变异
通过提供以下至少一个选项来指定某些变体。 它们可以组合使用,也可以重复使用。
输出格式
- --output-csv OUTPUT_CSV_FILENAME:输出csv文件的路径
- --output-html OUTPUT_HTML_FILENAME:输出HTML文件的路径
rna表达过滤
使用袖扣表达式估计值删除的可选标志 由基因或转录产物产生的表位 表达。
- --rna-gene-fpkm-tracking-file RNA_GENE_FPKM_TRACKING_FILE: 袖扣fpkm跟踪文件包含基因表达估计。
- --rna-min-gene-expression RNA_MIN_GENE_EXPRESSION:最小fpkm 对于基因
- --rna-transcript-fpkm-tracking-file RNA_TRANSCRIPT_FPKM_TRACKING_FILE: 包含转录表达式的袖扣fpkm跟踪文件 估计。
- --rna-min-transcript-expression RNA_MIN_TRANSCRIPT_EXPRESSION: 成绩单的最小fpkm
- --rna-transcript-fpkm-gtf-file RNA_TRANSCRIPT_FPKM_GTF_FILE: 包含转录表达式估计的Stringtie GTF文件。
选择mhc结合预测因子
您必须使用以下方法之一选择mhc绑定预测器 --mhc-predictor标志的值:
- netmhc:本地 NetMHC 预测器(Topiary将尝试自动检测 Netmhc 3.x或4.0可用)
- netmhcpan:本地 NetMHCpan 预测值
- netmhciipan:本地 NetMHCIIpan 预测值
- netmhccons:本地 NetMHCcons
- random:随机ic50值
- smm:本地{a7}预测值
- smm-pmbec:本地 SMM-PMBEC预测值
- netmhcpan-iedb:通过iedb web api使用netmhcpan
- netmhccons-iedb:通过iedb web api使用netmhccons
- smm-iedb:通过iedb web api使用smm
- smm-pmbec-iedb:通过iedb web api使用smm-pmbec
mhc等位基因
必须指定等位基因才能使用一个等位基因执行绑定预测 下列标志中的:
- --mhc-alleles-file MHC_ALLELES_FILE:包含一个 每行等位基因名称
- --mhc-alleles MHC_ALLELES:以逗号分隔的等位基因名称列表, 例如,“hla-a02:01,hla-b07:02”
肽长
- --mhc-epitope-lengths MHC_EPITOPE_LENGTHS:逗号分隔列表 指定用于mhc结合的肽长度的整数 预测
绑定预测过滤
- --only-novel-epitopes:topiary通常将保留所有预测值 表位,即使是那些出现在给定的自我韧带中或不存在的表位 重叠蛋白质的突变区域。使用此标志可以删除任何 不含突变的表位或发生在 自我约束。
- --ic50-cutoff IC50_CUTOFF:预测ic50 nm的滴落肽 大于此值(典型值为500.0)
- --percentile-cutoff PERCENTILE_CUTOFF:将肽滴入 他们预测的IC50的百分位等级(在 特定等位基因)低于这个阈值(较低的值是 更严格的过滤器,典型值为2.0)
其他
- --padding-around-mutation PADDING_AROUND_MUTATION:包含更多 突变周围的未突变残基(不使用时有用 --only-novel-epitopes)
- --self-filter-directory SELF_FILTER_DIRECTORY:文件目录 由mhc等位基因命名,该等位基因包含一个自肽连接体(肽 应排除在结果之外)
- --skip-variant-errors:如果特定的突变导致 在注释期间引发的异常,你可以用这个跳过它 旗帜。