从fasta序列创建表格,python

1 投票
1 回答
803 浏览
提问于 2025-04-17 15:44

我有大约500个蛋白质序列,都是从blastp搜索中得到的,格式是fasta。我需要从这些序列中提取出蛋白质名称、所属生物、Uniprot ID,以及如果可以的话,还想知道蛋白质家族的信息,这样我就可以把这些信息整理成一个表格。

请问有没有什么方法可以用Python来实现这个?有没有什么函数可以和Uniprot进行沟通?我该如何从fasta的头部信息中提取这些信息呢?

1 个回答

5

你可以看看 Biopython,它有一个可以解析FASTA格式的工具。解析完数据后,你可以用 pandasDataFrame 来创建一个表格。如果没有一些示例数据,就很难给出更详细的回答,但大概用五行代码就能搞定这个问题 :)

from Bio import SeqIO
with open("example.fasta", "rU") as handle:
    print list(SeqIO.parse(handle, "fasta"))

撰写回答