在scraperwiki运行scrapy的助手集合
scrapyrwiki的Python项目详细描述
运行由 Scrapy在ScraperWiki
在不使用scrapy cli的情况下启动scraper
示例:
fromscrapy.confimportsettingsfromscrapyrwikiimportrun_spiderdefmain():run_spider(MySpider(),settings)if__name__=='__main__':main()
将生成的数据保存到scraperwiki
只需将“scrapyrwiki.pipelines.scraperwikipipeline”添加到项目管道
示例:
fromscrapy.confimportsettingsfromscrapyrwikiimportrun_spiderdefscraperwiki():options={'SW_SAVE_BUFFER':5,'SW_UNIQUE_KEYS':{"MyItem":['url']},'ITEM_PIPELINES':['scrapyrwiki.pipelines.ScraperWikiPipeline'],}settings.overrides.update(options)run_spider(MySpider(),settings)if__name__=='scraper':scraperwiki()
检查ci中的spider合同
只需使用run_测试启动spider即可
示例:
fromscrapyrwikiimportrun_testsfromscrapy.confimportsettingsrun_tests(MySpider(),"output.xml",settings)
注意:用于测试http缓存。在脚本所在的目录中 启动时必须有scrapy.cfg(scrapy需要它来识别这是一个scraper 目录)和带有http缓存数据库的.scrapy目录。
输出是xunit格式,在Jenkins
记录哨兵的刮刀错误
安装scrapy-sentry并设置 环境变量sentry_dsn,带有sentry键。scrapyrwiki将处理 一切为了你。