正则表达式输出有我无法理解的空字符串

import re pattern = '\>([a-zA-Z]+)\<' pattern2= '(\d{4}-\d{2}-\d{2}[a-zA-Z][\d:\.[a-zA-Z]+)' string = '[-1, <samp>clear</samp>, -1, None, -1] [-1, None, -1, None, -1, <time class="text-nowrap" datetime="2021-03-22T17:06:03.000Z" id="availability-time"></time>, -1, None, -1' print(re.findall(pattern,string)) print(re.findall(pattern2,string))

import re pattern = '\>([a-zA-Z]+)\<|(\d{4}-\d{2}-\d{2}[a-zA-Z][\d:\.[a-zA-Z]+)' string = '[-1, <samp>clear</samp>, -1, None, -1] [-1, None, -1, None, -1, <time class="text-nowrap" datetime="2021-03-22T17:06:03.000Z" id="availability-time"></time>, -1, None, -1' print(re.findall(pattern,string))

1条回答

网友

1楼 · 发布于 2024-05-16 19:06:36

当您定义了捕获组时，您观察到的输出正是re.findall的预期行为。在这种情况下，每个元组中的第一个条目是第一个捕获组（来自模式的<samp>部分），而第二个条目是第二个捕获组（来自时间戳）。您的替换将只匹配这两个捕获组中的一个，因此输出将始终是带有一个空字符串的2元组

一种可能的解决方法是完全避免捕获组：

pattern = '(?<=>)[a-zA-Z]+(?=<)|\d{4}-\d{2}-\d{2}[a-zA-Z][\d:\.[a-zA-Z]+'
string = '[-1, <samp>clear</samp>, -1, None, -1] [-1, None, -1, None, -1, <time class="text-nowrap" datetime="2021-03-22T17:06:03.000Z" id="availability-time"></time>, -1, None, -1'
print(re.findall(pattern,string))  # ['clear', '2021-03-22T17:06:03.000Z']

通过稍微改变模式的<samp>部分以使用lookarounds，我们可以避免捕获组。然后，来自re.findall的每个匹配项将成为列表中的单个条目

相关问题更多 >

编程相关推荐

热门问题

热门文章