我对正则表达式有点陌生,我的输出列表中有一些我无法理解的空字符串。我有以下字符串:
string ='[-1, <samp>clear</samp>, -1, None, -1] [-1, None, -1, None, -1, <time class="text-nowrap" datetime="2021-03-22T17:06:03.000Z" id="availability-time"></time>, -1, None, -1'
我试图提取<samp> tags (which is "clear")
和日期2021-03-22T17:06:03.000Z
之间的单词。虽然我的模式似乎运行良好,但当我将它们与逻辑运算符或(|)组合在一起时,输出列表中会出现空字符串
示例:
import re
pattern = '\>([a-zA-Z]+)\<'
pattern2= '(\d{4}-\d{2}-\d{2}[a-zA-Z][\d:\.[a-zA-Z]+)'
string = '[-1, <samp>clear</samp>, -1, None, -1] [-1, None, -1, None, -1, <time class="text-nowrap" datetime="2021-03-22T17:06:03.000Z" id="availability-time"></time>, -1, None, -1'
print(re.findall(pattern,string))
print(re.findall(pattern2,string))
输出
['clear']
['2021-03-22T17:06:03.000Z']
现在,当我将pattern
与pattern2
与|
组合时,我得到以下结果:
import re
pattern = '\>([a-zA-Z]+)\<|(\d{4}-\d{2}-\d{2}[a-zA-Z][\d:\.[a-zA-Z]+)'
string = '[-1, <samp>clear</samp>, -1, None, -1] [-1, None, -1, None, -1, <time class="text-nowrap" datetime="2021-03-22T17:06:03.000Z" id="availability-time"></time>, -1, None, -1'
print(re.findall(pattern,string))
输出
[('clear', ''), ('', '2021-03-22T17:06:03.000Z')]
这些空字符串是从哪里来的?请帮忙
当您定义了捕获组时,您观察到的输出正是
re.findall
的预期行为。在这种情况下,每个元组中的第一个条目是第一个捕获组(来自模式的<samp>
部分),而第二个条目是第二个捕获组(来自时间戳)。您的替换将只匹配这两个捕获组中的一个,因此输出将始终是带有一个空字符串的2元组一种可能的解决方法是完全避免捕获组:
通过稍微改变模式的
<samp>
部分以使用lookarounds,我们可以避免捕获组。然后,来自re.findall
的每个匹配项将成为列表中的单个条目相关问题 更多 >
编程相关推荐