分类扒数据的简易框架
newspider的Python项目详细描述
##示例.py
#--编码:utf-8-。- 从pyquery导入pyquery作为pq
从newspider.interfaces导入* 从newspider.spider导入newspider
- 类demofetcher(intfetcher):
- 定义初始化(自身):
- self.下一页=[]
- def fetch_detail_url(self,html):
- 对于d中的a('.post title a'):
d=pq(HTML) 列表=[]
url=d(a).attr('Href') extras={“category”:“测试%s”%url} list.append((url,extras)) - 对于d中的l('.page navigator a'):
返回列表
- 定义解析(self、tag、html、extras):
- 打印“从url%s接收标记%s%s”%(extras.get(''u url')、extras.get('category')、tag)的内容”
sp=Newspider() sp.config('保护间隔',0)
sp.add_parser(demoparser()) sp.add_fetcher(demofetcher())
sp.run()