如何在Python中爬取密码保护的网站?
我现在有一个用Java写的爬虫,它可以登录到一个供应商的网站并抓取网站上的内容。(使用htmlunit)
这个爬虫可以保持会话(也就是cookie),而且还让我可以开启或关闭JavaScript等功能。
我还使用htmlparser(Java)来帮助解析HTML,并提取相关信息。
请问Python有没有类似的工具可以做到这些?
2 个回答
1
Scrapy 是一个网络爬虫框架,它在使用 urllib2 的基础上,还增加了一些不同的解析器和辅助工具。
4
Python有一个叫做 urllib2 的工具,可以用来抓取网页,它支持密码认证和使用cookies。
另外,还有一个叫 HTMLParser 的工具可以用来提取HTML内容,但有些人更喜欢功能更强大的 BeautifulSoup。