2024-04-20 06:39:57 发布
网友
我使用scrapyd在同一个域中运行多个spider作为作业。我假设scrapy有一个访问过的url的哈希表,当它爬行时,它会与其他spider共享和协调。当我通过
curl http://localhost:6800/schedule.json -d project=projectname -d spider=spidername.
它相当于爬行相同的网址和重复的数据被刮。以前有人处理过类似的问题吗?在
我的建议是尝试将站点分成多个start_urls。然后,you can pass the different values for ^{} to each spider。在
start_urls
如果你想变得特别花哨(或者如果你想爬网的页面经常变化),你可以创建一个蜘蛛来爬行站点地图,把链接分成n块,然后启动n其他蜘蛛来实际抓取站点。。。在
n
我的建议是尝试将站点分成多个} to each spider 。在
start_urls
。然后,you can pass the different values for ^{如果你想变得特别花哨(或者如果你想爬网的页面经常变化),你可以创建一个蜘蛛来爬行站点地图,把链接分成
n
块,然后启动n
其他蜘蛛来实际抓取站点。。。在相关问题 更多 >
编程相关推荐