Python 网络爬虫,如何开始,应该遵循什么?- 需要帮助
我对Python有一些中等水平的了解。如果我想用Python写一个网络爬虫,我应该遵循哪些步骤,应该从哪里开始呢?有没有什么特别的教程?任何建议都会很有帮助,谢谢!
8 个回答
5
你肯定需要一个用来解析html的库。为此,你可以使用BeautifulSoup。你可以在它的官方网站上找到很多关于如何获取网址和处理返回的html的示例和教程,网址是:http://www.crummy.com/software/BeautifulSoup/
5
如果你还是想从头开始写一个程序,你可以使用 mechanize 这个模块。它包含了模拟浏览器和自动获取网址所需的一切工具。我再啰嗦一句,获取到的任何HTML内容可以用BeautifulSoup来解析。否则,我推荐使用Scrapy……
7
我强烈推荐你看看 Scrapy 这个库。它可以和 BeautifulSoup 以及你喜欢的任何 HTML 解析器一起使用。我个人是用它和 lxml.html 一起搭配的。
使用这个库,你可以轻松获得几个很棒的功能:
- 可以同时发送多个请求,这要感谢 Twisted 这个工具
CrawlSpider
对象可以在整个网站中递归地查找链接- 数据提取和处理有很好的分离,这样可以充分利用并行处理的能力