我只需要从NCBI(GenBank(full)格式)下载完整的基因组序列。我感兴趣的是‘全基因组’而不是‘全基因组’。
我的剧本:
from Bio import Entrez
Entrez.email = "asiakXX@wp.pl"
gatunek='Escherichia[ORGN]'
handle = Entrez.esearch(db='nucleotide',
term=gatunek, property='complete genome' )#title='complete genome[title]')
result = Entrez.read(handle)
结果我只得到小片段的基因组,大小约为484bp:
LOCUS NZ_KE350773 484 bp DNA linear CON 23-AUG-2013
DEFINITION Escherichia coli E1777 genomic scaffold scaffold9_G, whole genome
shotgun sequence.
我知道如何通过NCBI网站手动完成,但非常耗时,我在那里使用的查询:
escherichia[orgn] AND complete genome[title]
结果我得到了多个基因组,大小范围约为5154862bp,这是我需要通过ENTREZ.esearch做的。
你的问题很清楚,但完整的答案很长。我提供的代码为您所需的每一个大肠杆菌基因组序列生成一个.fasta文件,是的,只有NCBI中的“完整基因组”。
您将看到NCBI中只有6个完整的大肠杆菌参考基因组(http://www.ncbi.nlm.nih.gov/genome/167):
为了帮助您,这里是Genbank/Refseq到它们基因组的链接:
http://www.ncbi.nlm.nih.gov/nuccore/NC_000913.3
http://www.ncbi.nlm.nih.gov/nuccore/NC_002695.1
http://www.ncbi.nlm.nih.gov/nuccore/NC_011750.1
http://www.ncbi.nlm.nih.gov/nuccore/NC_011751.1
http://www.ncbi.nlm.nih.gov/nuccore/NC_017634.1
http://www.ncbi.nlm.nih.gov/nuccore/NC_018658.1
这是我的代码,用于将完整的基因组序列解析为.FASTA文件…
告诉我事情的经过! 安迪
你已经完成了最困难的部分并解决了问题
所以也可以通过Biopython将其用作搜索查询!
目前这给了我140个结果,从545778205开始,和网站一样: http://www.ncbi.nlm.nih.gov/nuccore/?term=escherichia%5Borgn%5D+AND+complete+genome%5Btitle%5D
这对我有用。。。
相关问题 更多 >
编程相关推荐