Regex在Python中以未知的出现顺序捕获不同的元素

2条回答

网友

1楼 · 编辑于 2024-04-25 06:02:50

一种可能是从不使用任何字符，并使用lookahead在可选组中捕获所需的所有内容：

(?=(?:.*^From\s*:\s*)(.*?$)|)(?=(?:.*^Sent\s*:\s*)(.*?$)|)(?=(?:.*^To\s*:\s*)(.*?$)|)(?=(?:.*^Subject\s*:\s*)(.*?$)|)

https://regex101.com/r/pOThDP/2

间隔，这只是4个类似的模式，看起来像：

(?=(?:.*^From\s*:\s*)(.*?$)|)
(?=(?:.*^Sent\s*:\s*)(.*?$)|)
(?=(?:.*^To\s*:\s*)(.*?$)|)
(?=(?:.*^Subject\s*:\s*)(.*?$)|)

此外，为了清楚起见，您还可以考虑命名捕获组：

(?=(?:.*^From\s*:\s*)(?P<From>.*?$)|)(?=(?:.*^Sent\s*:\s*)(?P<Sent>.*?$)|)(?=(?:.*^To\s*:\s*)(?P<To>.*?$)|)(?=(?:.*^Subject\s*:\s*)(?P<Subject>.*?$)|)

https://regex101.com/r/pOThDP/3

编辑：python代码中的示例：

text = '''To: totext
Sent: sent text
this text has no no "from" label
Subject: subject text'''
pattern = re.compile(r'(?=(?:.*^From\s*:\s*)(.*?$)|)(?=(?:.*^Sent\s*:\s*)(.*?$)|)(?=(?:.*^To\s*:\s*)(.*?$)|)(?=(?:.*^Subject\s*:\s*)(.*?$)|)', flags=re.S | re.M)
match = re.search(pattern, text)
print(match.groups())

输出为：

(None, 'sent text', 'totext', 'subject text')

网友

2楼 · 编辑于 2024-04-25 06:02:50

尝试以下模式：\G(From:|Subject:|Sent:|To:)(.+)\n

它应该只捕获第一个块的要求由\G锚点实现，它确保在上一个块之后满足下一个匹配（Sent/To/From/Subject），所以另一个邮件的头不匹配，因为它将被电子邮件的内容分隔开。你知道吗

Alternation确保它将独立于Sent/To/From/Subject的顺序来匹配报头。你知道吗

Demo

相关问题更多 >

编程相关推荐

热门问题

热门文章

Regex在Python中以未知的出现顺序捕获不同的元素

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >