比较Fasta序列和多播文件的子串并更改ID名称

from Bio import SeqIO for mature in SeqIO.parse("mature_microRNAs_final.txt", "fasta"): mature.id repr(mature.seq) len(mature) for precursors in SeqIO.parse("precursors_microRNAs_final.txt", "fasta"): precursors.id, precursors.seq, len(precursors.seq) precursors_5p = precursors.seq[0:20] for seq in mature: if mature.seq == precursors_5p: print(mature.id+"_5p" , "\n" + mature.seq)

1条回答

网友

1楼 · 发布于 2024-05-23 15:26:48

这里不需要嵌套循环（这会导致重复输出），而是存储相关的前体序列并与成熟序列进行比较：

from Bio import SeqIO

precursors = {
    record.seq[:20] for record in SeqIO.parse("precursors_microRNAs_final.txt", "fasta")
}

for record in SeqIO.parse("mature_microRNAs_final.txt", "fasta"):
    if record.seq[:20] in precursors:
        record.id += "_5p"
        record.description = record.id + " " + record.description.split(" ", 1)[1]
    print(record.format("fasta"))

注意，这里我假设你只希望成熟记录的前20个核苷酸与游标前记录的前20个核苷酸相同。此解可用于其它标准

相关问题更多 >

编程相关推荐

热门问题

热门文章