计算基因组特征
bgsignature的Python项目详细描述
bgsignature是用于计算签名的包。
最基本的计算类型是计算 不同k-mer的计数(如3或5)。 这个计算可以对一组突变进行, 一组区域或一组突变 属于某些地区。
bgSignature由3个工具组成:
- count:计算不同的k-mer
- 频率:将计数除以总计数
- normalize:将计数除以获得的计数 分别对结果进行规范化。
高级功能包括:
- 计数分组的能力(例如,按样本分组突变)
- 按区域文件中的上下文规范化计数
- 折叠(加在一起)反向互补序列
安装
这个项目是一个python包 可以用pip安装。 下载源代码,进入这个 项目目录和执行:
pip install .
用法
命令行界面
这三种工具可以使用
- bg签名计数
- bg签名频率
- bg签名规范化
一些示例:
获取帮助:
bgsignature -h bgsignature frequency -h
用hg38计数某些区域突变的三胞胎:
bgsignature count -m my/muts/file -r my/regions/file -g hg38 -o my/output.json --cores 4
Python
另外,命令行选项在Python中有一个等价的选项:
frombgsignatureimportcount,relative_frequency,normalize
接受除输出之外的类似参数的。 返回对象可以用作字典
如果您已经在python中加载了文件 您可以使用直接计数功能 在相应的模块中。 例如:
frombgsignature.countimportmutationmutation.count(mutations,'hg38',3)
另外,你也可以 使用“低级”函数 计数(^{tt2})$ 以及count_group) 简单得多 执行任何类型的并行化。 例如:
frombgsignature.countimportmutationmutation.count_all(mutations,'hg38',3)# or to group mutations by samplemutation.count_group(mutations,'hg38',3,'SAMPLE')
返回对象可以规范化为1, 使用sum1()方法 或除以一些标准化计数 使用normalize()方法。
重要
有一些行为特征 必须考虑到:
- bgsignature筛选出其参考核苷酸的突变 (如文件中所述),以及 参考基因组中对应的一个不匹配。
- 使用collapse选项(默认情况下已启用)时, bgsignature不会删除其中一个折叠的序列,但同时保留这两个序列。 这意味着您需要手动删除 不感兴趣。
- 使用^{tt7}时$ 或bgsignature.count.region.count函数 还有一些cores用于并行化, 必须选择chunk参数 充分地说,作为一个it可以对性能产生巨大的影响。
文件格式
突变文件
制表符分隔文件 (可以压缩成gz、bgz或xz格式) 带有标题和至少这些列: CHROMOSOME,POSITION,REF,ALT。 另外,SAMPLE,CANCER_TYPE和SIGNATURE 是可选列,可用于 对签名进行分组
区域文件
制表符分隔文件 (可以压缩成gz、bgz或xz格式) 带有标题和至少这些列: CHROMOSOME,START,END,ELEMENT。 另外,SYMBOL,和SEGMENT 是可选列,可用于 对签名进行分组
支架
如果你有问题,请告诉我们。 您可以联系我们:bbglab@irbbarcelona.org