Python HTML 抓取

3 投票

7 回答

3876 浏览

提问于 2025-04-15 16:21

其实我并不是在做网页抓取，我只是想在一个网页中找到那些类名有特定值的链接地址。比如说：

<a class="myClass" href="/url/7df028f508c4685ddf65987a0bd6f22e">

我想获取这些链接的href值。有没有什么好办法？也许可以用正则表达式？能不能给我一些示例代码？我觉得像BeautifulSoup这样的网页抓取库，光为了这个功能可能有点太复杂了……

非常感谢！

正则表达式网页抓取 beautifulsoup 链接提取类名选择

7 个回答

用正则表达式来处理HTML不是个好主意。因为HTML并不是一种规则很简单的语言。你可以试试Beautiful Soup这个工具。

回答于 2025-04-15 由 Python大师

分享举报

幸运的是，在Python中我们有BeautifulSoup或者lxml来帮我们完成这个任务。

回答于 2025-04-15 由 Python大师

分享举报

使用正则表达式通常不是个好主意，建议你试试BeautifulSoup这个工具。

这里有个简单的例子：

html = #get html
soup = BeautifulSoup(html)
links = soup.findAll('a', attrs={'class': 'myclass'})
for link in links:
    #process link

回答于 2025-04-15 由 Python大师

分享举报