python基因组的特点是从原始文件中提取。
gfeat的Python项目详细描述
gfeat
python genomic提供了来自原始文件(fasta、gtf和vcf)的提取器。
gfeat是提取不同dna特征用于基因组建模和分析的便捷工具。它允许得到, 例如,转录子kozak序列和gc含量、基因组密码子对偏差等,也可以注入 使用vcf文件的snp,获取位置类型变量矩阵并研究不同组合的序列 杂合子变异的(当纯合子始终保持在序列中注入时)。
您可以在文档的教程部分找到几个简短的用法示例。
- 自由软件:麻省理工学院许可证
- 文档:https://i12g-gagneurweb.in.tum.de/public/docs/gfeat
功能
绿色基因组:
- gfgenome.获得一致意见
- 一致性kozak序列
- gfgenome.get_kozak_matrix()
- Kozak序列矩阵(行-转录本)
- gfgenome.get_commonsis_stop_codon_context(seq=false)
- 一致性终止密码子上下文序列
- gfgenome.get_stop_codon_context_matrix()
- 停止密码子上下文矩阵(行-转录)
- gfgenome.get_codon_pair_bias() 密码子对偏倚
- gfgenome.get_nuclearbase_generation_table()
- 碱基突变矩阵(在kozak序列和终止密码子上下文中包含变异位置及其类型的表)
gf成绩单:
- gfcript.codon_counts()
- 编码序列密码子数
- gfcript.utr5基序计数(模式)
- 5'utr基序计数
- gfcript.utr3_基序计数(模式)
- 3'utr基序计数
- gfcript.codon_usage()
- 编码序列密码子用法
- gfcript.gcu含量(地区)
- 编码序列,5'utr或3'utr g和c内容
- gfcript.get_kozak_seq()
- 科扎克序列
- gfcript.get_stop_codon_context()
- 停止密码子上下文
- gfcript.get_codon_pairs_frequency() 编码序列密码子对频率
上游8月:
- 上游预测样本(seq)
- 在样本上预测(获取所有aug的信息,包括它们是否在帧中以及它们是否有终止密码子)
- 上游。用位置(seq)对样本进行预测
- 用位置预测样本(预测样本加上augs的位置)
- 使用pos熊猫对样本进行上游预测
- 使用位置预测样本并将其附加到通过的字典中
- 上游预测批次(序列列表)
- 批次预测
5'UTR类:
- FivePrimeutrSeq(数据,反向补码,contig=none,strand=none)
- 一个对象包含所有5'utr序列的列表、它们的位置、外显子、外显子的位置和相应的转录本
辅助函数:
- vcfmutator.mutate序列(区间,fasta=none,seq=whole=none)
- 突变序列
- vcfmutator.mutate密码子上下文(间隔、序列、列名)
- 变异密码子上下文
- 反向补体(dna)
- 反补
- 具有标准样本偏差标度的主成分分析(df,n_comp=2)
- 具有缩放功能的PCA
学分
这个包是用Cookiecutter和audreyr/cookiecutter-pypackage项目模板创建的。gfeat基于 在pyensembl包上,可以是p艺术上被看作是它的延伸。
历史记录
0.1.0(2018-09-27)
- pypi上的第一个版本。
1.0.0(2018-09-28)
- 第一次稳定释放。