将之前序列的长度相加后计算序列的长度

2024-04-25 09:00:52 发布

您现在位置:Python中文网/ 问答频道 /正文

我想确定multifasta文件中各个序列的长度。我从生物手册上得到的生物电话代码是:

from Bio import SeqIO
import sys
cmdargs = str(sys.argv)
for seq_record in SeqIO.parse(str(sys.argv[1]), "fasta"):
 output_line = '%s\t%i' % \
(seq_record.id, len(seq_record))
 print(output_line)

我的输入文件如下:

>Protein1
MNT
>Protein2
TSMN
>Protein3
TTQRT

代码生成:

Protein1        3
Protein2        4
Protein3        5

但是我想计算一个序列的长度加上之前序列的长度。就像:

Protein1        1-3
Protein2        4-7
Protein3        8-12

我不知道代码中的哪一行需要更改才能获得输出。我很感激在这个问题上的任何帮助,谢谢!!!!你知道吗


Tags: 文件代码importoutputsys生物序列record
1条回答
网友
1楼 · 发布于 2024-04-25 09:00:52

很容易得到总长度:

from Bio import SeqIO
import sys
cmdargs = str(sys.argv)
total_len = 0
for seq_record in SeqIO.parse(str(sys.argv[1]), "fasta"):
    total_len += len(seq_record)
    output_line = '%s\t%i' % (seq_record.id, total_len))
    print(output_line)

要获得范围:

from Bio import SeqIO
import sys
cmdargs = str(sys.argv)
total_len = 0
for seq_record in SeqIO.parse(str(sys.argv[1]), "fasta"):
    previous_total_len = total_len
    total_len += len(seq_record)
    output_line = '%s\t%i - %i' % (seq_record.id, previous_total_len + 1, total_len)
    print(output_line)

相关问题 更多 >