使用scrapyd一次运行多个scrapy spider

2条回答

网友

1楼 · 编辑于 2024-05-14 03:35:00

抱歉，我知道这是一个老话题，但我最近开始学习scrapy，并在这里绊倒了，我还没有足够的代表发表评论，所以张贴一个答案。

从the common scrapy practices可以看出，如果需要同时运行多个Spider，则必须启动多个scrapyd服务实例，然后在这些实例之间分发Spider运行。

网友

2楼 · 编辑于 2024-05-14 03:35:00

我一次运行200多个spider的解决方案是为项目创建一个自定义命令。有关实现自定义命令的详细信息，请参见http://doc.scrapy.org/en/latest/topics/commands.html#custom-project-commands。

您的项目名/commands/allcrawl.py：

from scrapy.command import ScrapyCommand
import urllib
import urllib2
from scrapy import log

class AllCrawlCommand(ScrapyCommand):

    requires_project = True
    default_settings = {'LOG_ENABLED': False}

    def short_desc(self):
        return "Schedule a run for all available spiders"

    def run(self, args, opts):
        url = 'http://localhost:6800/schedule.json'
        for s in self.crawler.spiders.list():
            values = {'project' : 'YOUR_PROJECT_NAME', 'spider' : s}
            data = urllib.urlencode(values)
            req = urllib2.Request(url, data)
            response = urllib2.urlopen(req)
            log.msg(response)

请确保在设置中包含以下内容.py

COMMANDS_MODULE = 'YOURPROJECTNAME.commands'

然后从命令行（在项目目录中）只需键入

scrapy allcrawl

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用scrapyd一次运行多个scrapy spider

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >