编写更快的Python爬虫
我正在用Python写一个爬虫程序,目的是去抓取一个网站的内容。问题是,我需要检查大约250万页,所以我真的希望能有一些方法来提高速度。
我需要做的是检查这些页面是否包含某个特定的数字,如果找到了,就记录下这个页面的链接。这个爬虫程序非常简单,主要就是需要处理大量的页面。
我对Python完全是个新手,但之前用过Java和C++。我还没开始写代码,所以如果有推荐的库或者框架,那就太好了。同时,任何优化的建议我也非常感激。
6 个回答
5
你把结果存在哪里了?你可以使用PiCloud的云库,这样可以很方便地在一组服务器上同时进行数据抓取。
5
既然你刚接触Python,我觉得以下内容可能对你有帮助 :)
- 如果你在写正则表达式(regex)来查找页面中的某些模式,尽量在可以的地方先编译你的正则表达式,然后重复使用这个编译好的对象。
- BeautifulSoup 是一个可以解析HTML和XML的工具,可能对你的项目有用。