我试图找到一种方法来读取一组三个列表中的项目,并找到三个项目的组合(密码子)来确定片段的开始,另一个三个项目的组合来找到片段的结束(停止密码子)
因此,读取帧和列表应由程序读取,如下所示:
清单1:XXXXX-start-FRAGENT of interest-stop-XXXXXX
我想做的只是提取感兴趣的片段并将其附加到另一个列表中,然后去掉其余的部分。
这是一个更具体的例子:
起始密码子:ATG
终止密码子:标签
基因_1='ACGGACTATTC'
基因2='GGCCATGAGTAACGCATAGGGCCC
基因3=GGGCCCATGACGTACTAGGGGCCCATGCATTCATAG
因此,第一个列表不包含任何感兴趣的片段,而第二个列表包含1,第三个列表包含2。我试图摆脱这些阅读框架之外的一切,并将这些感兴趣的片段添加到一个列表中,该列表应该是这样的
frag_int=['AGTAACGCA','ACGTAC','CATTCA']
这就是我到目前为止所做的:
#这些是str 基因列表=[]
gene_1= 'A','C','G','G','A','C','T','A','T','T','C'
gene_2= 'G','G','C','C','A','T','G','A','G','T','A','A','C','G','C','A','T','A','G','G','G','C','C','C'
gene_3='G','G','G','C','C','C','A','T','G','A','C','G','T','A','C','T','A','G','G','G','G','C','C','C','A','T','G','C','A','T','T','C','A','T','A','G'
genelist.append(gene_1)
genelist.append(gene_2)
genelist.append(gene_3)
def transcription(ORF):
mRNA= ''
for i in range(0, len(ORF), 3):
codon= ORF[i:i+3]
if codon != 'ATG':
next(codon)
if codon == 'ATG':
mRNA=codon.transcribe()
if codon == 'TAG':
break
return(mRNA)
mRNAs=[]
for gene in genelist:
for codon in gene:
mRNA= transcription(codon)
mRNAs.append(mRNA)
print(mRNAs)
但是它并没有什么回报,我想知道代码是否太冗余了,我真的不需要在这里定义函数,你知道更好的方法吗? Thaaanks
谢谢大家的评论,我去了生物信息学部分,得到了@terdon的帮助。 这是我在问题中描述的最基本的方法,但是,请注意,如果有人试图找到ORF并转录基因,在使用python的程序中,需要考虑一些生物学规则,并且应该考虑读取和终止密码,但是,这只是一个如何开始构建代码的示例: 另外,请注意,此代码使用biopython
从生物序列导入序列 从Bio.Seq导入转录
与其列出每种氨基酸,不如试着把基因变成一个字符串,然后用正则表达式找到起始和结束位点? 基因3不是一个多顺反子基因,而不是一个带有外显子的基因吗
大概是这样的:
相关问题 更多 >
编程相关推荐