在scrapy中共享多个蜘蛛访问的url？

2024-04-20 06:39:57 发布

男 | 程序猿一只，喜欢编程写python代码。

我使用scrapyd在同一个域中运行多个spider作为作业。我假设scrapy有一个访问过的url的哈希表，当它爬行时，它会与其他spider共享和协调。当我通过

curl http://localhost:6800/schedule.json -d project=projectname -d spider=spidername.

它相当于爬行相同的网址和重复的数据被刮。以前有人处理过类似的问题吗？在

Tags：数据 project json localhost http url 作业 curl

1条回答

网友

1楼 · 发布于 2024-04-20 06:39:57

我的建议是尝试将站点分成多个start_urls。然后，you can pass the different values for ^{} to each spider。在

如果你想变得特别花哨（或者如果你想爬网的页面经常变化），你可以创建一个蜘蛛来爬行站点地图，把链接分成n块，然后启动n其他蜘蛛来实际抓取站点。。。在