Python regex:（.+）和（.+？）之间的区别

import urllib import re url = urllib.urlopen("http://finance.yahoo.com/q?s=SBUX") htmltext = url.read() regex = re.compile('(.+?)') found = re.findall(regex, htmltext)

3条回答

网友

1楼 · 编辑于 2024-05-29 03:09:50

.+是贪婪的——它匹配到无法匹配为止，并且只根据需要返回。

.+?不是——它一有机会就停下来。

示例：

假设您有这个HTML：

<span id="yfs_l84_sbux">foo bar</span><span id="yfs_l84_sbux2">foo bar</span>

这个正则表达式与整个匹配：

<span id="yfs_l84_sbux">(.+)<\/span>

它一直到最后，然后“返回”一个，但是其余的regex与最后一个匹配，所以完整的regex与整个HTML块匹配。

但是这个正则表达式在第一个处停止：

<span id="yfs_l84_sbux">(.+?)<\/span>

网友

2楼 · 编辑于 2024-05-29 03:09:50

(.+)是贪婪的。它会尽其所能，并在需要时给予回报。

(.+?)是不清晰的。它需要尽可能少的。

见：

delegate

[delegate] /^(.+)e/
[de]legate /^(.+?)e/

此外，比较“Regex调试器日志”here和here将显示ungreedy修饰符更有效的作用。

网友

3楼 · 编辑于 2024-05-29 03:09:50

?是一个非贪婪修饰符。*默认情况下是一个贪婪的重复运算符-它将吞噬它所能吞噬的一切；当被?修改时，它将变为非贪婪的，并且只会吃掉满足它的所有东西。

因此

<span id="yfs_l84_sbux">want</span>text<span id="somethingelse">dontwant</span>

.*?将吃光want，然后点击-这满足了regexp的最小重复.，导致want匹配。然而，.*将尝试看看它是否能吃得更多-它将去寻找另一个，与.*?匹配的wanttextdontwant，结果你得到的-远远超过你想要的。

相关问题更多 >

编程相关推荐

热门问题

热门文章