分类扒数据的简易框架

newspider的Python项目详细描述


##示例.py

#--编码:utf-8-。- 从pyquery导入pyquery作为pq

从newspider.interfaces导入* 从newspider.spider导入newspider

类demofetcher(intfetcher):
定义初始化(自身):
self.下一页=[]
def fetch_detail_url(self,html):

d=pq(HTML) 列表=[]

对于d中的a('.post title a'):
url=d(a).attr('Href') extras={“category”:“测试%s”%url} list.append((url,extras))
对于d中的l('.page navigator a'):
自我.下一页.附加(d(l).attr('ref'))

返回列表

定义起始页(自):
返回['http://www.typechodev.com/’,’http://www.typechodev.com/index.php/category/questions/]
定义下一页(自):
返回self.下一页
类DemoParser(IntParser):
定义解析(self、tag、html、extras):
打印“从url%s接收标记%s%s”%(extras.get(''u url')、extras.get('category')、tag)的内容”
如果u name_uuu=''uu main_uu':

sp=Newspider() sp.config('保护间隔',0)

sp.add_parser(demoparser()) sp.add_fetcher(demofetcher())

sp.run()

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java HikariCP连接池Tomcat调试启用   java如何在javascript中访问JSON数组的元素?   jasper使用HttpServlet报告Java空白PDF   用于存储海量数据的java最佳集合   JBPM&springboot组织。流口水。坚持不懈jta。JtaTransactionManager在JNDI位置[java:comp/UserTransaction]未找到任何UserTransaction   java Grails maven插件需要Groovy 2.4.2   获取列表中访问最少的元素(Java 8)   java在IntelliJ中下载cn1lib不起作用   java Akka构造函数通过spring进行布线   swing在Java中创建JList时,如何更改条目的背景颜色?   为什么Java8Lambda允许访问非最终类变量?   javajavax。邮政MessaginException:无法连接到SMTP主机   java Android Webview高度在滚动后增加