我不明白如何在Python中指定要打开文件的路径
我刚开始学习Python,想导入genbank和fasta格式的文件。在它们的文档里,有个例子说明了我们怎么把数据集导入到Python里。具体来说,它们在《Biopython教程与食谱》第16页提供了以下例子:
from Bio import SeqIO
for seq_record in SeqIO.parse("ls_orchid.gbk", "genbank"):
print seq_record.id
print repr(seq_record.seq)
print len(seq_record)
现在,它们在第14页提到Biopython的源代码里包含了这个文件,这确实是对的。但是,Python是怎么通过Bio导入SeqIO来知道这个文件具体在哪里的呢?我在安装了biopython及其组件后尝试了上面的代码,但一直没成功。
另外,我能不能直接指定genbank文件的路径,然后以某种方式打开它呢?
谢谢!
3 个回答
我把Genbank和FASTA文件放在了C:\Python27这个文件夹里。
我可以解析其他各种文件格式,比如Newick、PhyloXML等等。
如果你想了解更多信息,建议你联系开发者。
看起来你需要把 ls_orchid.gbk 这个文件保存在和你的 Python 脚本同一个文件夹里,不然你就得写出这个文件的完整路径。你也可以直接从 NCBI 网站下载任何一个 genbank 文件,然后把它放到那个文件夹里,或者像这样指定它的位置:
for seq_record in SeqIO.parse("~/文件位置/文件名", "genbank")
根据 这个链接
你需要把文件复制到你自己的电脑目录里
当这个教程最初写的时候,搜索结果只有94条,我们把这些结果保存成了两种格式的文本文件,一个是FASTA格式,另一个是GenBank格式(文件名分别是ls_orchid.fasta和ls_orchid.gbk,这些文件也包含在Biopython的源代码中,路径是docs/tutorial/examples/)。
如果你今天进行同样的搜索,你会得到几百条结果!在跟着教程的时候,如果你想看到相同的基因列表,只需下载上面提到的两个文件,或者从Biopython源代码中的docs/examples/目录复制它们。在第2.5节中,我们会学习如何在Python中进行这样的搜索。