在scrapy中共享多个蜘蛛访问的url?

2024-04-20 06:39:57 发布

您现在位置:Python中文网/ 问答频道 /正文

我使用scrapyd在同一个域中运行多个spider作为作业。我假设scrapy有一个访问过的url的哈希表,当它爬行时,它会与其他spider共享和协调。当我通过

curl http://localhost:6800/schedule.json -d project=projectname -d spider=spidername.

它相当于爬行相同的网址和重复的数据被刮。以前有人处理过类似的问题吗?在


Tags: 数据projectjsonlocalhosthttpurl作业curl
1条回答
网友
1楼 · 发布于 2024-04-20 06:39:57

我的建议是尝试将站点分成多个start_urls。然后,you can pass the different values for ^{} to each spider。在

如果你想变得特别花哨(或者如果你想爬网的页面经常变化),你可以创建一个蜘蛛来爬行站点地图,把链接分成n块,然后启动n其他蜘蛛来实际抓取站点。。。在

相关问题 更多 >