scikitbio从gff3 fi中提取基因组特征

2024-05-23 19:35:57 发布

您现在位置:Python中文网/ 问答频道 /正文

在scikit bio中,是否可以从基因组fasta文件中提取存储在gff3格式文件中的基因组特征?在

示例:


在基因组.fasta在

>sequence1
ATGGAGAGAGAGAGAGAGAGGGGGCAGCATACGCATCGACATACGACATACATCAGATACGACATACTACTACTATGA

在注释.gff3在

^{pr2}$

mRNA特征(转录本1)所需的序列是两个子CDS特征的结合。所以在本例中,这将是'ATGGAGCTATGA'。在


Tags: 文件示例基因组序列特征scikitfastabio
1条回答
网友
1楼 · 发布于 2024-05-23 19:35:57

此功能已添加到scikit bio中,但bioconda中提供的版本尚未支持(2017-12-15)。gff3的格式文件存在于Github repository

您可以使用以下方法克隆回购并在本地安装它:

$ git clone https://github.com/biocore/scikit-bio.git
$ cd scikit-bio
$ python setup.py install

以下是文件中给出的示例,以下代码应正常工作:

^{pr2}$

对于我来说,这会引发^{{cd1>},但正确报告了条目:

^{pr3}$

在代码中的示例中,GFF3和FASTA文件在用于读取函数的输入字符串中连接。也许这可以解决这个问题。另外,我不确定如何使用返回的间隔提取功能。

相关问题 更多 >