从肿瘤序列数据预测肿瘤表位

topiar的Python项目详细描述


从(1)体细胞中预测突变来源的肿瘤t细胞表位 变异(2)肿瘤rna表达数据,和(3)患者hla类型。

示例

./topiary \
  --vcf somatic.vcf \
  --mhc-predictor netmhcpan \
  --mhc-alleles HLA-A*02:01,HLA-B*07:02 \
  --ic50-cutoff 500\
  --percentile-cutoff 2.0 \
  --mhc-epitope-lengths 8-11 \
  --rna-gene-fpkm-tracking-file genes.fpkm_tracking \
  --rna-min-gene-expression 4.0 \
  --rna-transcript-fpkm-tracking-file isoforms.fpkm_tracking \
  --rna-min-transcript-expression 1.5 \
  --output-csv epitopes.csv \
  --output-html epitopes.html

安装

您可以安装topiary及其依赖的所有库 跑步:

pip install topiary

你需要下载参考基因组序列和注释 对于最近的Ensembl版本(例如81),请运行:

pyensembl install --release 81 --species human

如果要使用与旧版本对齐的变体 参考GRCH37,你还需要下载它的注释数据, 包含在Ensembl版本75中:

pyensembl install --release 75 --species human

命令行参数

基因组变异

通过提供以下至少一个选项来指定某些变体。 它们可以组合使用,也可以重复使用。

  • --vcf VCF_FILENAME:加载 VCF 文件
  • --maf MAF_FILENAME:加载tcga MAF 文件
  • --variant CHR POS REF ALT : Specify an individual variant (requires --ensembl-version)

输出格式

  • --output-csv OUTPUT_CSV_FILENAME:输出csv文件的路径
  • --output-html OUTPUT_HTML_FILENAME:输出HTML文件的路径

rna表达过滤

使用袖扣表达式估计值删除的可选标志 由基因或转录产物产生的表位 表达。

  • --rna-gene-fpkm-tracking-file RNA_GENE_FPKM_TRACKING_FILE: 袖扣fpkm跟踪文件包含基因表达估计。
  • --rna-min-gene-expression RNA_MIN_GENE_EXPRESSION:最小fpkm 对于基因
  • --rna-transcript-fpkm-tracking-file RNA_TRANSCRIPT_FPKM_TRACKING_FILE: 包含转录表达式的袖扣fpkm跟踪文件 估计。
  • --rna-min-transcript-expression RNA_MIN_TRANSCRIPT_EXPRESSION: 成绩单的最小fpkm
  • --rna-transcript-fpkm-gtf-file RNA_TRANSCRIPT_FPKM_GTF_FILE: 包含转录表达式估计的Stringtie GTF文件。

选择mhc结合预测因子

必须使用以下方法之一选择mhc绑定预测器 --mhc-predictor标志的值:

  • netmhc:本地 NetMHC 预测器(Topiary将尝试自动检测 Netmhc 3.x或4.0可用)
  • netmhcpan:本地 NetMHCpan 预测值
  • netmhciipan:本地 NetMHCIIpan 预测值
  • netmhccons:本地 NetMHCcons
  • random:随机ic50值
  • smm:本地{a7}预测值
  • smm-pmbec:本地 SMM-PMBEC预测值
  • netmhcpan-iedb:通过iedb web api使用netmhcpan
  • netmhccons-iedb:通过iedb web api使用netmhccons
  • smm-iedb:通过iedb web api使用smm
  • smm-pmbec-iedb:通过iedb web api使用smm-pmbec

mhc等位基因

必须指定等位基因才能使用一个等位基因执行绑定预测 下列标志中的:

  • --mhc-alleles-file MHC_ALLELES_FILE:包含一个 每行等位基因名称
  • --mhc-alleles MHC_ALLELES:以逗号分隔的等位基因名称列表, 例如,“hla-a02:01,hla-b07:02”

肽长

  • --mhc-epitope-lengths MHC_EPITOPE_LENGTHS:逗号分隔列表 指定用于mhc结合的肽长度的整数 预测

绑定预测过滤

  • --only-novel-epitopes:topiary通常将保留所有预测值 表位,即使是那些出现在给定的自我韧带中或不存在的表位 重叠蛋白质的突变区域。使用此标志可以删除任何 不含突变的表位或发生在 自我约束。
  • --ic50-cutoff IC50_CUTOFF:预测ic50 nm的滴落肽 大于此值(典型值为500.0)
  • --percentile-cutoff PERCENTILE_CUTOFF:将肽滴入 他们预测的IC50的百分位等级(在 特定等位基因)低于这个阈值(较低的值是 更严格的过滤器,典型值为2.0)

其他

  • --padding-around-mutation PADDING_AROUND_MUTATION:包含更多 突变周围的未突变残基(不使用时有用 --only-novel-epitopes
  • --self-filter-directory SELF_FILTER_DIRECTORY:文件目录 由mhc等位基因命名,该等位基因包含一个自肽连接体(肽 应排除在结果之外)
  • --skip-variant-errors:如果特定的突变导致 在注释期间引发的异常,你可以用这个跳过它 旗帜。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
javai是JAXB的新手。如何将两个具有不同名称空间的不同xml合并为一个具有根元素的xml并将其解组?   JDO中的java应该是可传递的DefaultFetchGroup吗   java服务器配置问题   java在理解JList时遇到困难   java何时将RequestContextFilter用于Jersey?   java从数据库中读取文本文件。jar文件   Java正则表达式,仅适用于不包括零的正数   爪哇番石榴。类路径中的jar   JavaEE:关于设计的问题   java GUI,在面板中排列按钮   java Android为什么使用接口被认为是活动和片段之间通信的最佳实践?   java如何获取wicket图像的url以在开放图元标记中使用它   从Java字节[]>Base64>Javascript数组缓冲>Base64>byte[]   java正则表达式帮助字符串JWE766。1.pdf格式摘录766   java Hibernate,JPA忽略@Formula