用str变量注释vcf文件

stranger的Python项目详细描述


陌生人Build StatusCoverage StatusPyPI Version

用重复大小的病理含义注释ExpansionHunter的输出文件。

安装

git clone github.com/moonso/stranger
cd stranger
pip install --editable .

用法

stranger --help
Usage: stranger [OPTIONS] VCF

  Annotate str variants with str status

Options:
  -f, --repeats-file PATH         Path to a file with repeat definitions. See
                                  README for explanation  [default: /Users/man
                                  smagnusson/Projects/stranger/stranger/resour
                                  ces/repeatexpansionsloci.tsv]
  --version
  --loglevel [DEBUG|INFO|WARNING|ERROR|CRITICAL]
                                  Set the level of log output.  [default:
                                  INFO]
  --help                          Show this message and exit.

重复定义

如前所述,在expansion hunter中调用repeats。expansion hunter将注释在每个个体的bam文件中看到重复的次数,以及变体的重复id。 陌生人会为重复数标注致病性水平。包附带的间隔是从文献中手动收集的,因为没有可以收集此信息的来源。 在stranger/resources/repeatexpansionsloci.tsv中有一个陌生人附带的重复定义文件。这是一个TSV格式的文件,格式如下:

hgnc_idhgnc_symbolrepidrunormal_maxpathologic_mindisease
10548ATXN1ATXN1CAG3545SCA1
10555ATXN2ATXN2CAG3139SCA2
7106ATXN3ATXN3CAG4460SCA3
1388CACNA1ACACNA1ACAG1820SCA6
10560ATXN7ATXN7CAG1937SCA7
10561ATXN8OSATXN8OSCAG5080SCA8
10549ATXN10ATXN10ATTCT32800SCA10
9305PPP2R2BPPP2R2BCAG3549SCA12
11588TBPTBPCAG3149SCA17
3951FXNFXNCAG3551FRDA
4851HTTHTTCCG3637Huntington
3775FMR1FMR1CGG65200FragileX
3776AFF2AFF2CCG25200FRAXE
13164CNBPCNBPCCTG3075DM2
2933DMPKDMPKCAG3750DM1
3033ATN1ATN1CAG3449DRPLA
15911NOP56NOP56GGCCTG14650SCA36
28337C9ORF72C9ORF72GGCCCC2540FTDALS1
8565PABPN1PABPN1GCG610OPMD
2482CSTBCSTBCGCGGGGCGGGG330EPM1
1541CBLCBLCGG79100FRAX11B
14203JPH3JPH3CTG2840HDL2
644ARARCAG3538SBMA

该文件的结构类似于scout基因面板,具有str特定的列。

ColumnContent
HGNC_IDHGNC identifier for the repeat or most associated gene.
HGNC_SYMBOLHGNC symbol for the repeat or most associated gene.
REPIDExpansionHunter repeat ID.
RUBasic repeat unit, as seen in ExpansionHunter. Unused.
Normal_Max(#copies) Longest repeat expected for normal individual; higher are marked pre- or full-mutation
Pathologic_Min(#copies) Shortest repeat expected for pathology. This and higher is annotated as full-mutation.
DiseaseAssociated disease.

默认情况下,将使用分发后的文件,但用户可以创建自己的文件。 标题行前面应该有一个#

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
解释java选择方法   连接到127.0.0.1的java间歇性故障,连接到IP(eth0)时没有故障   java如何优雅地杀死hadoop作业/intercept`hadoop作业杀死`   java如何通过引导类加载器以编程方式加载另一个类?   url Java:在查询参数之前使用片段构建URI   在BroadLeaf表blc_order_属性中保存OrderAttributes值时发生java错误   安卓将功能从xml转换为java   java如何将数据写入文件?   java JPA SQL结果映射   Java中整数对象比较运算符的引用安全性   Spring测试失败:java。lang.NoClassDefFoundError:org/springframework/cglib/transform/impl/memorysafuendecaredthrowableStrategy   rich:extendedDataTable中的java行选择和数据处理   java为什么我需要在volatile上对多个线程使用synchronized?   java尽管构建成功,但为什么会出现此错误?   数组$ArrayList不能转换为java。util。java中的ArrayList   java如何根据泛型类型调用方法?   java将JLabel添加到JPanel,将JPanel添加到JFrame   如果MapStruct中的源为null,则java将父目标设置为null   JavaJBossDrools从DRL插入事实   java不同的JRE安装(windows)