正则表达式中的Python正则表达式求反

3条回答

网友

1楼 · 编辑于 2024-04-26 11:13:16

编辑

所以在阅读了你的进一步解释之后，我想说我之前的提议和MRAB的提议在某种程度上是相似的，在这里没有任何帮助。你的问题是实际上嵌套结构的问题。在

把你的“前缀”和“后缀”当作符号。你可以很容易地用一个左括号和一个右括号或者其他什么来代替它们，你想要的是能够只匹配最小的（然后是最深的）一对。。。在

例如，如果前缀是“ABC”，后缀是“XYZ”：

ABChello worldABCfooABCbarXYZ

您只想得到ABCbarXYZ。在

如果前缀是(，后缀是)，那么字符串：

^{pr2}$

理想情况下它只能匹配(bar)。。。在

当然，您必须使用context free grammar（就像编程语言一样：C grammar，Python grammar）和parser，或者使用regex以及编程语言的迭代和存储机制来创建自己的程序。在

但只有正则表达式是不可能做到的。它们可能会对你的算法有所帮助，但它们并不是为单独处理而设计的。不是那份工作的好工具。。。你不能用螺丝刀给轮胎充气。因此，您将不得不使用一些不复杂的外部机制来存储上下文，即您在嵌套堆栈中的位置。在每个上下文中使用正则表达式仍然是可能的。在

有限状态机是有限的，嵌套结构有一个任意深度，需要您的自动机任意增长，因此它们不是regular languages。在

Since recursion in a grammar allows the definition of nested syntactic structures, any language (including any programming language) which allows nested structures is a context-free language, not a regular language. For example, the set of strings consisting of balanced parentheses [like a LISP program with the alphanumerics removed] is a context-free language see here

以前的提议（不再相关）

如果我这样做：

>>> s = """ABC
content 1
123
content 2
ABC
content 3
XYZ"""
>>> r = re.compile(r'A+B+C+[^A]+[^B]+[^C]+XYZ', re.I)
>>> re.findall(r,s)

我明白了

['ABC\ncontent 3\nXYZ']

这就是你想要的吗？在

网友

2楼 · 编辑于 2024-04-26 11:13:16

regex解决方案是带有DOTALL标志的ABC(?:(?!ABC).)*?XYZ。在

网友

3楼 · 编辑于 2024-04-26 11:13:16

还有另一种解决此问题的方法：不尝试在一个正则表达式中执行此操作。您可以用第一个正则表达式拆分字符串，然后在最后一个部分使用第二个正则表达式。在

代码是最好的解释：

s = """ABC
content 1
123
content 2
ABC
content 3
XYZ
content 4
XYZ"""

# capturing groups to preserve the matched section
prefix = re.compile('(ABC)')
suffix = re.compile('(XYZ)')

# prefix.split(s) == ['', 'ABC', [..], 'ABC', '\ncontent 3\nXYZ\ncontent 4\nXYZ']
#                          prefixmatch ^^^^^  ^^^^^^^^^^^^ rest ^^^^^^^^^^^^^^^^
prefixmatch, rest = prefix.split(s)[-2:]

# suffix.split(rest,1) == ['\ncontent 3\n', 'XYZ', '\ncontent 4\nXYZ']
#                          ^^ interior ^^   ^^^^^ suffixmatch
interior, suffixmatch = suffix.split(rest,1)[:2]

# join the parts up.
result = '%s%s%s' % (prefixmatch, interior, suffixmatch)

# result == 'ABC\ncontent 3\nXYZ'

一些要点：

应该有适当的错误处理（甚至只是try: ... except ValueError: ..）来处理任何一个regex根本不匹配，从而导致列表解包失败的情况。在
这假设所需的片段将在最后一次出现prefix之后立即出现，如果不是，那么您可以一次迭代prefix.split(s)两个结果（从索引1开始），并使用suffix执行相同的拆分技巧，以找到所有匹配项。在
这可能相当低效，因为它创建了相当多的中间数据结构。在

编辑

以前的提议（不再相关）

相关问题更多 >

编程相关推荐

热门问题

热门文章