我该如何解析一个包含数千个DNA碱基的文本文件？

2024-05-15 14:04:28 发布

男 | 程序猿一只，喜欢编程写python代码。

这是我要做的，我会有一个由一堆dna碱基（a，T，C，G）组成的大量文本文件，我想做的是每60个字符（任意）取一行，这样碱基就可以被分块。但是，我也希望每个区块有一定数量的碱基重叠。例如，如果给出了这个10个字母的块ATGGCTGCTA，并且最初的4块块块是ATGG，如果重叠参数被指定为2，那么下一个4块块块将是GGCT，然后是CTGC，依此类推。我知道我可能需要研究如何用python读取、打开和编写文本文件。如果有任何资源，他们可以指点我实现这一点和任何提示和指示，将是伟大的

我将使用的文本格式示例：

https://www.ncbi.nlm.nih.gov/nuccore/NC_000017.11?report=fasta&from=7661779&to=7687550

Tags：参数数量字母区块分块 dna 文本文件我会

1条回答

网友

1楼 · 发布于 2024-05-15 14:04:28

data = 'GAGACAGAGTCTCACTCTGTTGCACAGGCTGGAGTGCAGTGGCACAATCTCTGCTCACTGCAACCTCCTC'
chunk_size = 5
overlap = 2

for pos in range(0, len(data), chunk_size - overlap):
    print(data[pos:pos+chunk_size])

结果是：

GAGAC
ACAGA
GAGTC
TCTCA
CACTC
TCTGT
...

我该如何解析一个包含数千个DNA碱基的文本文件？

相关问题更多 >

编程相关推荐

热门问题

热门文章

我该如何解析一个包含数千个DNA碱基的文本文件？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >