如何编写与非贪心匹配的正则表达式？

3条回答

网友

1楼 · 编辑于 2024-05-16 02:00:32

这里的其他答案假定您有一个支持非贪婪匹配的regex引擎，这是Perl 5中引入的一个扩展，并被广泛复制到其他现代语言中；但它决不是无处不在的。

许多旧的或更保守的语言和编辑器只支持传统的正则表达式，它们没有控制重复运算符*贪婪的机制-它总是匹配尽可能长的字符串。

接下来的诀窍是首先限制允许匹配的内容。你似乎在寻找的不是.*

[^>]*

它仍然尽可能多地匹配某物；但是某物不仅仅是.“任何字符”，而是“任何不是>的字符”。

根据您的应用程序，您可以启用或不希望启用允许“任何字符”包含换行符的选项。

即使正则表达式引擎支持非贪婪匹配，也最好说明您的实际意思。如果这个是你的意思，你可能应该这么说，而不是依赖非贪婪匹配（希望，可能）做我的意思。

例如，在通配符后面有尾随上下文的正则表达式（如.*?><br/>）将跳过任何嵌套的>，直到找到尾随上下文（这里是><br/>），即使这需要跨接多个>实例和换行（如果允许的话），其中[^>]*><br/>（如果必须显式禁止换行，甚至是[^\n>]*><br/>）显然不能也不会那样做。

当然，如果您需要处理<img title="quoted string with > in it" src="other attributes"> and perhaps <img title="nested tags">，这仍然不是您想要的，但是在这一点上，您应该最终放弃使用正则表达式来处理这一点，就像我们一开始就告诉您的那样。

网友

2楼 · 编辑于 2024-05-16 02:00:32

非贪婪的?工作得非常好。只是您需要选择regex引擎中的dot matches all选项（regexpal，您使用的引擎，也有这个选项）来测试。这是因为，当您使用.时，正则表达式引擎通常不匹配换行符。您需要明确地告诉他们，您还想用.匹配换行符

例如

<img\s.*?>

很好用！

检查results here。

另外，阅读各种regex口味的how dot behaves。

网友

3楼 · 编辑于 2024-05-16 02:00:32

操作数?使match不贪婪。E、 g..*是贪婪的，而.*?不是贪婪的。因此可以使用类似<img.*?>的东西来匹配整个标记。或者<img[^>]*>。

但是请记住，整组HTML实际上不能用正则表达式解析。

相关问题更多 >

编程相关推荐

热门问题

热门文章