给出一个FASTA文本文件(Rosalind_gc.txt文件),我应该检查每个DNA记录并确定鸟嘌呤胞嘧啶(GC)含量的百分比(%)。你知道吗
例如:
示例数据集:
>Rosalind_6404
CCTGCGGAAGATCGGCACTAGAATAGCCAGAACCGTTTCTCTGAGGCTTCCGGCCTTCCC
TCCCACTAATAATTCTGAGG
>Rosalind_5959
CCATCGGTAGCGCATCCTTAGTCCAATTAAGTCCCTATCCAGGCGCTCCGCCGAAGGTCT
ATATCCATTTGTCAGCAGACACGC
>Rosalind_0808
CCACCCTCGTGGTATGGCTAGGCATTCAGGAACCGGAGAACGCTTCAGACCAGCCCGGAC
TGGGAACCTGCGGGCAGTAGGTGGAAT
样本输出:
罗莎琳德0808 60.919540美元
所以基本上遍历每个字符串,计算G/C出现的次数,然后除以每个字符串的长度。我的问题是学习如何识别代码中的中断(即>;Rosalind_)。我想要一个不使用Biopython和Biopython方法的代码示例。你知道吗
既然你在寻找生物粒子解决方案,这里有一个非常简单的解决方案:
输出:
您可以逐行读取文件,并将序列数据累积到以“>;”开头的下一行(再加一次文件结尾)
为了解决性能问题,您可能希望尽可能多地使用预编译的C模块。使用regex有一个解决方案:
并处理“>;”行:
相关问题 更多 >
编程相关推荐