如何利用生物ython的翻译功能跟踪起始密码子（ATG）在核苷酸序列中的位置？

def find_largest_polypeptide_in_DNA(seq, translationTable=1): allPossibilities = [] for frame in range(3): trans = str(seq[frame:].translate(translationTable)) framePossibilitiesF = [i[i.find("M"):] for i in trans.split("*") if "M" in i] allPossibilities += framePossibilitiesF allPossibilitiesLengths = [len(i) for i in allPossibilities] if len(allPossibilitiesLengths) == 0: raise Exception("no candidate ORFs") proteinAsString = allPossibilities[allPossibilitiesLengths.index(max(allPossibilitiesLengths))] return Seq(proteinAsString, alphabet=ProteinAlphabet)

1条回答

网友

1楼 · 发布于 2024-05-16 02:57:59

我认为遵循类似的原则编写一个新函数是最容易的。你的想法是“跟踪i.find（'M'）中每种蛋氨酸的位置”基本上就是下面所做的。用你开始的代码做这件事的困难在于序列被split('*')分割，所以DNA起始位置是读取帧偏移量加上相关序列之前的所有片段的密码子之和。根据您的澄清，我添加了一个封闭循环来遍历前后方向。在

def find_largest_polypeptide_in_DNA(seq, translationTable=1):
    # Set the record to start with, then try to beat it
    longest_DNA = ''
    longest_amino_acid_sequence = 0

    for direction in [-1, 1]:
        forward_DNA = seq[::direction]
        # Check all three reading frames in this direction.
        for frame in range(3):
            trans = str(forward_DNA[frame:].translate(translationTable))
            cut_codons = 0
            while 'M' in trans:
                codons_before_Met = trans.find('M')
                cut_codons += codons_before_Met
                trans = trans[codons_before_Met:]
                if '*' in trans:
                    length = trans.find('*') + 1 
                    if length > longest_amino_acid_sequence:
                        longest_amino_acid_sequence = length
                        first_bp = frame + 3*cut_codons
                        last_bp = frame + 3*cut_codons + 3*(length)
                        longest_DNA = str(forward_DNA[first_bp:last_bp+1])
                    trans = trans[length:]
                else:
                    # Ignore sequence M... if ORF extends beyond FASTA?
                    trans = ''
    return longest_DNA

相关问题更多 >

编程相关推荐

热门问题

热门文章