Python HTML 抓取

3 投票
7 回答
3876 浏览
提问于 2025-04-15 16:21

其实我并不是在做网页抓取,我只是想在一个网页中找到那些类名有特定值的链接地址。比如说:

<a class="myClass" href="/url/7df028f508c4685ddf65987a0bd6f22e">

我想获取这些链接的href值。有没有什么好办法?也许可以用正则表达式?能不能给我一些示例代码?我觉得像BeautifulSoup这样的网页抓取库,光为了这个功能可能有点太复杂了……

非常感谢!

7 个回答

2

用正则表达式来处理HTML不是个好主意。因为HTML并不是一种规则很简单的语言。你可以试试Beautiful Soup这个工具。

9

哎呀,不要用正则表达式来解析HTML

幸运的是,在Python中我们有BeautifulSoup或者lxml来帮我们完成这个任务。

16

使用正则表达式通常不是个好主意,建议你试试BeautifulSoup这个工具。

这里有个简单的例子:

html = #get html
soup = BeautifulSoup(html)
links = soup.findAll('a', attrs={'class': 'myclass'})
for link in links:
    #process link

撰写回答