Python 2.6: 使用urllib2进行并行解析
我现在正在用 urllib2
从一个网站获取和解析页面。不过,页面数量很多(超过1000个),一个一个处理起来实在太慢了。
我希望能找到一种方法,可以同时获取和解析多个页面。如果这样做是个好主意,那有没有可能?我该怎么做呢?
另外,处理多个页面时,"合理"的并行处理数量是多少呢?我不想给服务器带来太大压力,也不想因为连接太多而被封禁。
谢谢!
我现在正在用 urllib2
从一个网站获取和解析页面。不过,页面数量很多(超过1000个),一个一个处理起来实在太慢了。
我希望能找到一种方法,可以同时获取和解析多个页面。如果这样做是个好主意,那有没有可能?我该怎么做呢?
另外,处理多个页面时,"合理"的并行处理数量是多少呢?我不想给服务器带来太大压力,也不想因为连接太多而被封禁。
谢谢!