刮擦分析器。有点老练

2024-03-29 06:42:33 发布

您现在位置:Python中文网/ 问答频道 /正文

我需要从一个网站分析所有的文章。这个网站有1000多家商店。 为了得到任何一篇文章,我需要一个饼干店。我是通过请求模块来完成的 为了获得所有1000多个id\u商店,我需要解析Ajax表单。 然后我用这种方式为每个商店运行1000+个蜘蛛:

def setup_crawler(domain):
    spider = MySpider(domain=domain)
    settings = get_project_settings()
    crawler = Crawler(settings)
    crawler.configure()
    crawler.crawl(spider)
    crawler.start()

所以我有一个.py脚本来完成所有这些步骤,我通过python MySpider.py运行它。一切正常。 问题是:我不能同时运行我的蜘蛛和另一个蜘蛛。我遵循这个规则(这里列出了http://doc.scrapy.org/en/latest/topics/practices.html):

for domain in ['scrapinghub.com', 'insophia.com']:
    setup_crawler(domain)
log.start()
reactor.run()

我使用的不是setup\u crawler()MySpider.run文件(). 我让那家伙等着别人。 我有两个理由: 1如何同时运行MySpider和另一个MySpider? 2我想从ajax解析id\u商店,并在一个spider中为每个id\u商店运行1000多个spider。有可能吗?你知道吗


Tags: runpycomidsettings网站domainsetup