正则表达式输出有我无法理解的空字符串

2024-04-29 17:03:53 发布

您现在位置:Python中文网/ 问答频道 /正文

我对正则表达式有点陌生,我的输出列表中有一些我无法理解的空字符串。我有以下字符串:

string ='[-1, <samp>clear</samp>, -1, None, -1] [-1, None, -1, None, -1, <time class="text-nowrap" datetime="2021-03-22T17:06:03.000Z" id="availability-time"></time>, -1, None, -1'

我试图提取<samp> tags (which is "clear")和日期2021-03-22T17:06:03.000Z之间的单词。虽然我的模式似乎运行良好,但当我将它们与逻辑运算符或(|)组合在一起时,输出列表中会出现空字符串

示例:

import re

pattern = '\>([a-zA-Z]+)\<'
pattern2= '(\d{4}-\d{2}-\d{2}[a-zA-Z][\d:\.[a-zA-Z]+)'

string = '[-1, <samp>clear</samp>, -1, None, -1] [-1, None, -1, None, -1, <time class="text-nowrap" datetime="2021-03-22T17:06:03.000Z" id="availability-time"></time>, -1, None, -1'

print(re.findall(pattern,string))
print(re.findall(pattern2,string))

输出

['clear']
['2021-03-22T17:06:03.000Z']

现在,当我将patternpattern2|组合时,我得到以下结果:

import re
pattern = '\>([a-zA-Z]+)\<|(\d{4}-\d{2}-\d{2}[a-zA-Z][\d:\.[a-zA-Z]+)'

string = '[-1, <samp>clear</samp>, -1, None, -1] [-1, None, -1, None, -1, <time class="text-nowrap" datetime="2021-03-22T17:06:03.000Z" id="availability-time"></time>, -1, None, -1'

print(re.findall(pattern,string))

输出

[('clear', ''), ('', '2021-03-22T17:06:03.000Z')]

这些空字符串是从哪里来的?请帮忙


Tags: 字符串textrenoneiddatetimestringtime
1条回答
网友
1楼 · 发布于 2024-04-29 17:03:53

当您定义了捕获组时,您观察到的输出正是re.findall的预期行为。在这种情况下,每个元组中的第一个条目是第一个捕获组(来自模式的<samp>部分),而第二个条目是第二个捕获组(来自时间戳)。您的替换将只匹配这两个捕获组中的一个,因此输出将始终是带有一个空字符串的2元组

一种可能的解决方法是完全避免捕获组:

pattern = '(?<=>)[a-zA-Z]+(?=<)|\d{4}-\d{2}-\d{2}[a-zA-Z][\d:\.[a-zA-Z]+'
string = '[-1, <samp>clear</samp>, -1, None, -1] [-1, None, -1, None, -1, <time class="text-nowrap" datetime="2021-03-22T17:06:03.000Z" id="availability-time"></time>, -1, None, -1'
print(re.findall(pattern,string))  # ['clear', '2021-03-22T17:06:03.000Z']

通过稍微改变模式的<samp>部分以使用lookarounds,我们可以避免捕获组。然后,来自re.findall的每个匹配项将成为列表中的单个条目

相关问题 更多 >