python url获取帮助regex

网友

1楼 · 编辑于 2024-04-25 17:57:01

如果您有问题，并决定使用regex，现在您有两个问题

如果您正在阅读一个特定的网页，并且您知道它是如何格式化的，那么regex就可以了——您可以使用S.Mark的答案。要解析一个特定的链接，可以使用Kimvai的答案。但是，要从一个页面获取所有链接，最好使用更严肃的内容。你提出的任何正则表达式解决方案都会有缺陷

我推荐mechanize。如果您注意到，那里的Browser类有一个links方法，它可以获取页面中的所有链接。它的另一个好处是可以为您下载页面=）。在

网友

2楼 · 编辑于 2024-04-25 17:57:01

不管你的链接是如何格式化的（例如，如果有些链接看起来像<a href="foo=123"/>，而有些看起来像<A TARGET="_blank" HREF='foo=123'/>），这都是有效的。在

import re
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup(html)
p = re.compile('^.*=([\d]*)$')
for a in soup.findAll('a'):
   m = p.match(a["href"])
   if m:
      print m.groups()[0]

网友

3楼 · 编辑于 2024-04-25 17:57:01

import re
re.findall("\?read\.php=(\d+)",data)

相关问题更多 >

编程相关推荐

热门问题

热门文章

python url获取帮助regex

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >