使用Scrapy管理多个爬虫
我正在创建一个聚合器,最开始我用的是scrapy这个工具。最开始我只有几个爬虫,但随着项目的发展,似乎我可能会有几百甚至上千个不同的爬虫,因为我会抓取越来越多的网站。 那么,管理这些爬虫的最佳方法是什么呢?有些网站只需要抓取一次,有些则需要更频繁地抓取。 在处理这么多网站时,scrapy还是一个好工具吗?还是你会推荐其他的技术呢?
1 个回答
0
你可以看看这个项目 scrapely,它是由scrapy的创作者开发的。不过,听说它不太适合解析那些包含javascript的网站(更准确地说,如果你想提取的数据不是由javascript生成的,就不太合适)。