异步web抓取框架

xpaw的Python项目详细描述


https://travis-ci.org/jadbin/xpaw.svg?branch=masterhttps://coveralls.io/repos/jadbin/xpaw/badge.svg?branch=masterhttps://img.shields.io/badge/license-Apache2-blue.svg

Key Features

  • A web scraping framework used to crawl web pages
  • Data extraction tools used to extract structured data from web pages

Spider Example

以下是我们的一个爬虫类示例,其作用为爬取 百度新闻 的热点要闻:

fromxpawimportSpider,HttpRequest,Selector,run_spiderclassBaiduNewsSpider(Spider):defstart_requests(self):yieldHttpRequest("http://news.baidu.com/",callback=self.parse)defparse(self,response):selector=Selector(response.text)hot=selector.css("div.hotnews a").textself.log("Hot News:")foriinrange(len(hot)):self.log("%s: %s",i+1,hot[i])if__name__=='__main__':run_spider(BaiduNewsSpider)

在爬虫类中我们定义了一些方法:

  • start_requests: 返回爬虫初始请求。
  • parse: 处理请求得到的页面,这里借助 Selector 及CSS Selector语法提取到了我们所需的数据。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java Cassandra复制因子大于节点数   java J2EE JTA事务回滚不适用于OSE Glassfish 4.0(Build 89)   java spring安全预认证用户登录   org的java类文件。反应流。从RxJava编译示例时未找到Publisher?   java在使用dataFormat作为POJO通过Camel调用Web服务时无法设置SOAP标头   Javafx类的java静态实例   java如何防止一个部件在关闭时覆盖另一个部件的位置   sql server无法从我的java代码连接到数据库   java在JList(Swing)中显示带有的ArrayList   从Java中的CXF服务获取WSAddressing数据   使用资产文件夹进行java简单json解析(本地)   java LDAPException未绑定的无效凭据   JavaJSFspring部署到weblogic   JAVA中字符数组中的特定元素排列?   如果脚本位于不同的目录中,则ant不会使用exec标记运行Javashell脚本