我需要从一个网站分析所有的文章。这个网站有1000多家商店。 为了得到任何一篇文章,我需要一个饼干店。我是通过请求模块来完成的 为了获得所有1000多个id\u商店,我需要解析Ajax表单。 然后我用这种方式为每个商店运行1000+个蜘蛛:
def setup_crawler(domain):
spider = MySpider(domain=domain)
settings = get_project_settings()
crawler = Crawler(settings)
crawler.configure()
crawler.crawl(spider)
crawler.start()
所以我有一个.py脚本来完成所有这些步骤,我通过python MySpider.py
运行它。一切正常。
问题是:我不能同时运行我的蜘蛛和另一个蜘蛛。我遵循这个规则(这里列出了http://doc.scrapy.org/en/latest/topics/practices.html):
for domain in ['scrapinghub.com', 'insophia.com']:
setup_crawler(domain)
log.start()
reactor.run()
我使用的不是setup\u crawler()MySpider.run文件(). 我让那家伙等着别人。 我有两个理由: 1如何同时运行MySpider和另一个MySpider? 2我想从ajax解析id\u商店,并在一个spider中为每个id\u商店运行1000多个spider。有可能吗?你知道吗
目前没有回答
相关问题 更多 >
编程相关推荐