帮忙用Python正则表达式查找不以符号结尾的字符串

0 投票
1 回答
547 浏览
提问于 2025-04-16 21:13

我正在尝试解析网页,以找到指向特定页面的链接。

比如,如果我们有下面这个输入:

flowers that never end.')" onmouseout="return nd();" href="/flowers/images/download/01d6ac.html"><img src="http://static.rarbg.com/over/01d6acc21110e68af7476bce50dec3c234343032.jpg" border="0

然后在另一个页面上有:

flowers that never end')" onmouseout="return nd();" href="/flowers/01d6acc21110e68af7476bce50dec3c234343032.html" src="http://static.rarbg.com/over/01d6acc21110e68af7476bce50dec3c234343032.jpg" border="0

我试着用下面的正则表达式来提取链接:

'href="/flowers/(.+?)"[^>]

但是它还是从两个输入中都提取了链接,而不仅仅是第二个!有人能帮我吗?

1 个回答

3

如果因为某些原因你必须使用正则表达式,最好用这个表达式:

'href="/flowers/([^"]+)"[^>]'

不过,正如评论中所说的,你的痛苦会持续,直到你使用一个解析器为止。

撰写回答