使用python搜索特定的重复

import csv import re list=[] with open('sequences.txt', 'r') as f: reader = csv.reader(f,delimiter="\t") seq=re.findall(r'[Aa]{6, }','sequences.txt') for line in reader: if line.__contains__(seq): print(list.append(line))

2条回答

网友

1楼 · 编辑于 2024-04-19 20:24:21

更新：使用正则表达式的部分解决方案已经被提出。请注意，下面的解决方案不能使用regex，而是查找长度为6或更多的任何字符的任何序列。在

试验数据：

number,sequence,status
1,kjhfklashfkldflkhasdfl,0
2,aaaaaljgkldfkjgldkfjgfldj,0
3,bbbbbbjigdfsjgjg,0
4,ccCccCCcjjfijsdfjsdf,0
5,klsjdflsjdfhdddddjnjlkhngjk,0
6,kjkljfhnlasjkdfheeeeeeejjjeeeeeeeeeekjdkljfleeef,0
7,jhfshffFffFFFFffkljjjj908u89,0

查找长度为6或更大的MNR的代码：

^{pr2}$

请注意，CSV方言可能需要根据运行代码和生成数据文件的系统进行调整。在

输出上述给定测试数据：

"number","sequence","status"
"3","bbbbbbjigdfsjgjg","0"
"4","ccCccCCcjjfijsdfjsdf","0"
"6","kjkljfhnlasjkdfheeeeeeejjjeeeeeeeeeekjdkljfleeef","0"
"7","jhfshffFffFFFFffkljjjj908u89","0"

网友

2楼 · 编辑于 2024-04-19 20:24:21

这里有一个紧凑的解决方案可以满足您的需求：

import csv
with open('sequences.txt', 'r') as f:
    reader = csv.reader(f, delimiter=",")
    for line in reader:
        seq_lower = line[1].lower()
        if 'aaaaaa' in seq_lower or 'cccccc' in seq_lower or 'tttttt' in seq_lower or 'gggggg' in seq_lower:
            print(line)

在这里，我假设您只考虑a,c,g,t的mnrs，因为您正在处理一个DNA序列。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用python搜索特定的重复

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >