Python正则表达式：如何重复模式的重复？

2条回答

网友

1楼 · 编辑于 2024-06-01 00:34:33

使用positive lookahead assertion。这允许您在字符串中的每个字符处重新应用regex，从而可以找到所有重叠的匹配项，因为lookahead断言不会像正常匹配那样使用任何字符。因为您仍然需要匹配一些实际的文本，所以可以使用capturing group进行匹配。

由于re.findall()返回捕获组的内容，而不是完整的regex匹配（它们都是''），因此可以使用：

>>> import re
>>> re.findall(r"(?=(AAA(?:\w{3})*?CCC))", "AAAAGGCCCC")
['AAAAGGCCC', 'AAAGGCCCC']

作为注释的Python函数：

def find_overlapping(sequence):
    return re.findall(
    """(?=        # Assert that the following regex could be matched here:
     (            # Start of capturing group number 1.
      AAA         # Match AAA.
      (?:         # Start of non-capturing group, matching...
       [AGCT]{3}  # a DNA triplet
      )*?         # repeated any number of times, as few as possible.
      CCC         # Match CCC.
     )            # End of capturing group number 1. 
    )             # End of lookahead assertion.""", 
    sequence, re.VERBOSE)

网友

2楼 · 编辑于 2024-06-01 00:34:33

想到的最简单的模式是：

'AAA(\w{3})*CCC'
            ^^^ stop code
           ^ zero or more of…
    ^     ^ a group of…
     ^^^^^ three characters
 ^^^ start code

如果您对三个字符组的数量有额外的要求，比如“至少有两个这样的组”，那么现在可以很容易地用所需的内容替换正则表达式中的星型字符。

至于最长的匹配和不同的帧，我不确定。从技术上讲，星型字符已经是贪婪的，也就是说将匹配尽可能长的字符串，所以这应该满足您的要求。但是我担心这个特性和在一个帧中不共享子串的要求会产生不好的交互。

我认为最清楚的方法是让regex引擎为您提供所有匹配项，而不考虑长度和帧（只要内部部分的长度可以被3整除），然后在正则表达式之外解决问题。

如果您真的想使用regex引擎来实现这一点，有一种方法我可以考虑运行一个特定的regex三次，每帧一次。这些正则表达式将是：

^(?:\w{3})*AAA(\w{3})*CCC
^(?:\w{3})*\wAAA(\w{3})*CCC
^(?:\w{3})*\w\wAAA(\w{3})*CCC

如您所见，它们中的每一个首先匹配3k、3k+1或3k+2个字符，这样AAA开始代码将在不同的帧开始。要获得匹配的部分，您需要检查返回的match对象。我真的不知道重叠的序列会发生什么。

相关问题更多 >

编程相关推荐

热门问题

热门文章