废品保存统计:废品保存统计扩展
scrapy-save-statistics的Python项目详细描述
将统计数据保存到mongo进行分析。
安装
快捷方式:
pip install scrapy-save-statistics
或从github安装:
pip install git+git://github.com/light4/scrapy-save-statistics.git@master
或者签出源并运行:
python setup.py install
设置.py
mongodb设置保存统计信息,需要一个statistics数据库。
MONGO_HOST = "127.0.0.1" MONGO_PORT = 27017 MONGO_DB = "myspider" MONGO_STATISTICS = "statistics" EXTENSIONS = { 'scrapy_save_statistics.SaveStatistics': 100, }
卡盘
spider必须具有statistics属性并包含spider URL。 我们会把这些信息保存到MongoDB。
class TestSpider(scrapy.Spider): name = "test" def __init__(self, name=None, **kwargs): super(TestSpider, self).__init__(name=name, **kwargs) self.statistics = [] def parse(self, response): crawl_info = {'spider_url': spider_url, 'expected_crawl_num': expected_crawl_num, 'pages': total_page} self.statistics.append(crawl_info)