如何在Python中爬取密码保护的网站？

1 投票

2 回答

2007 浏览

提问于 2025-04-16 00:47

我现在有一个用Java写的爬虫，它可以登录到一个供应商的网站并抓取网站上的内容。（使用htmlunit）

这个爬虫可以保持会话（也就是cookie），而且还让我可以开启或关闭JavaScript等功能。

我还使用htmlparser（Java）来帮助解析HTML，并提取相关信息。

请问Python有没有类似的工具可以做到这些？

cookie处理会话管理爬虫技术网站抓取 htmlparser JavaScript支持

2 个回答

Scrapy 是一个网络爬虫框架，它在使用 urllib2 的基础上，还增加了一些不同的解析器和辅助工具。

回答于 2025-04-16 由 Python大师

分享举报

Python有一个叫做 urllib2 的工具，可以用来抓取网页，它支持密码认证和使用cookies。

另外，还有一个叫 HTMLParser 的工具可以用来提取HTML内容，但有些人更喜欢功能更强大的 BeautifulSoup。

回答于 2025-04-16 由 Python大师

分享举报