帮忙用Python正则表达式查找不以符号结尾的字符串

0 投票

1 回答

547 浏览

提问于 2025-04-16 21:13

我正在尝试解析网页，以找到指向特定页面的链接。

比如，如果我们有下面这个输入：

flowers that never end.')" onmouseout="return nd();" href="/flowers/images/download/01d6ac.html"><img src="http://static.rarbg.com/over/01d6acc21110e68af7476bce50dec3c234343032.jpg" border="0

然后在另一个页面上有：

flowers that never end')" onmouseout="return nd();" href="/flowers/01d6acc21110e68af7476bce50dec3c234343032.html" src="http://static.rarbg.com/over/01d6acc21110e68af7476bce50dec3c234343032.jpg" border="0

我试着用下面的正则表达式来提取链接：

'href="/flowers/(.+?)"[^>]

但是它还是从两个输入中都提取了链接，而不仅仅是第二个！有人能帮我吗？

正则表达式字符串处理网页解析数据匹配链接提取

1 个回答

如果因为某些原因你必须使用正则表达式，最好用这个表达式：

'href="/flowers/([^"]+)"[^>]'

不过，正如评论中所说的，你的痛苦会持续，直到你使用一个解析器为止。

回答于 2025-04-16 由 Python大师

分享举报

帮忙用Python正则表达式查找不以符号结尾的字符串

1 个回答

撰写回答