查找重叠匹配项

2 投票

2 回答

581 浏览

数据工程师

提问于 2025-04-18 14:31

给定一个字符串（来自文本文件的一行），我想找到所有像这样构建的子字符串：

[[ words ]]

例如：

[[foo [[ bar ]]

应该返回这两个：

[[foo [[ bar ]]

和

[[ bar ]]

另一个例子：

[[foo]] 和 [[bar]]

应该产生：

[[foo]]

和

[[bar]]

我想到了一个公式：

\[\[.+\]\]

但它工作得不太好（匹配得太多了）。

谢谢大家的帮助！

正则表达式数据提取字符串匹配算法优化文本解析模式识别嵌套结构子字符串查找

2 个回答

这个内容使用了正向前瞻的方式来捕捉并返回你重叠的匹配结果：

>>> re.findall(r'(?=(\[\[.*?\]\]))', '[[foo [[ bar ]]')
# ['[[foo [[ bar ]]', '[[ bar ]]']

>>> re.findall(r'(?=(\[\[.*?\]\]))', '[[foo]] and [[bar]]')
# ['[[foo]]', '[[bar]]']

注意在*这个量词后面有一个?，这让你的匹配变得不贪婪，也就是说它会尽量匹配最少的内容。

回答于 2025-04-18 由 Python大师

分享举报

重叠匹配：使用前瞻

如果你想要懒惰的重叠匹配，可以使用这个正则表达式：

(?=(\[\[.?*\]\]))

在Python中：

import re
pattern = r"(?=(\[\[.*?\]\]))"
print(re.findall(pattern, "[[foo [[ bar ]]"))
print(re.findall(pattern, "[[foo]] and [[bar]]"))

输出结果：

['[[foo [[ bar ]]', '[[ bar ]]']
['[[foo]]', '[[bar]]']

如果你想要“贪婪的重叠”，可以使用 (?=(\[\[.*\]\]))