帮忙用Python正则表达式查找不以符号结尾的字符串
我正在尝试解析网页,以找到指向特定页面的链接。
比如,如果我们有下面这个输入:
flowers that never end.')" onmouseout="return nd();" href="/flowers/images/download/01d6ac.html"><img src="http://static.rarbg.com/over/01d6acc21110e68af7476bce50dec3c234343032.jpg" border="0
然后在另一个页面上有:
flowers that never end')" onmouseout="return nd();" href="/flowers/01d6acc21110e68af7476bce50dec3c234343032.html" src="http://static.rarbg.com/over/01d6acc21110e68af7476bce50dec3c234343032.jpg" border="0
我试着用下面的正则表达式来提取链接:
'href="/flowers/(.+?)"[^>]
但是它还是从两个输入中都提取了链接,而不仅仅是第二个!有人能帮我吗?
1 个回答
3
如果因为某些原因你必须使用正则表达式,最好用这个表达式:
'href="/flowers/([^"]+)"[^>]'
不过,正如评论中所说的,你的痛苦会持续,直到你使用一个解析器为止。