DNA搜索序列正则表达式中的多个不匹配

Question

我写了一个比较粗糙的脚本，用来生成一个字符串中包含 n 个 $ 的所有可能排列（最多 n=4）。最后我会用 .replace('$','(\\w)') 来处理 DNA 搜索序列中的不匹配情况。因为我写这个脚本的方式，有些排列的 $ 的数量少于我要求的数量。于是我又写了一个脚本来删除这些排列，但效果似乎不太好，每次运行删除脚本时，反而会删除更多不需要的排列。在下面的代码中，你会看到我用一个简单的序列测试这个函数，这个序列有 4 个不匹配的地方。然后我运行了一系列删除脚本，统计每次删除了多少个表达式……根据我的经验，通常需要大约 8 次才能删除所有少于 4 个通配符 $ 的表达式。我有几个问题想问：

有没有内置的函数可以处理 'n' 个不匹配的搜索？也许在 biopython 中有？到目前为止，我看到的 Paul_McGuire_regex 函数：
允许在字符串的任何位置有一个不匹配的字符串搜索,
似乎只能生成一个不匹配。我必须承认，我对那页上其他函数的代码并不是很理解，因为我还是个新手。
我觉得这是个不错的练习，有没有更好的方法来写这个脚本？……我可以根据需要多次调用 Paul_McGuire_regex 函数吗？
让我最困惑的是，为什么删除脚本第一次运行时不能 100% 有效？

谢谢你能提供的任何帮助！

def Mismatch(Search,n):
    List = []
    SearchL = list(Search)
    if n > 4:
        return("Error: Maximum of 4 mismatches")
    for i in range(0,len(Search)):
        if n == 1:
            SearchL_i = list(Search)
            SearchL_i[i] = '$'
            List.append(''.join(SearchL_i))
        if n > 1:
            for j in range (0,len(Search)):
                if n == 2:
                    SearchL_j = list(Search)
                    SearchL_j[i] = '$'
                    SearchL_j[j] = '$'
                    List.append(''.join(SearchL_j))
                if n > 2:
                    for k in range(0,len(Search)):
                        if n == 3:
                            SearchL_k = list(Search)
                            SearchL_k[i] = '$'
                            SearchL_k[j] = '$'
                            SearchL_k[k] = '$'
                            List.append(''.join(SearchL_k))
                        if n > 3:
                            for l in range(0,len(Search)):
                                if n ==4:
                                    SearchL_l = list(Search)
                                    SearchL_l[i] = '$'
                                    SearchL_l[j] = '$'
                                    SearchL_l[k] = '$'
                                    SearchL_l[l] = '$'
                                    List.append(''.join(SearchL_l))
    counter=0
    for el in List:
        if el.count('$') < n:
            counter+=1
            List.remove(el)
    return(List) 

List_RE = Mismatch('abcde',4)

counter = 0
for el in List_RE:
    if el.count('$') < 4:
        List_RE.remove(el)
        counter+=1

print("Filter2="+str(counter))

通配符正则表达式字符串处理模式匹配脚本优化 DNA序列 biopython 不匹配

DNA搜索序列正则表达式中的多个不匹配

1 个回答

第三个问题

问题 1 和 2

撰写回答