异步web抓取框架
xpaw的Python项目详细描述
Key Features
- A web scraping framework used to crawl web pages
- Data extraction tools used to extract structured data from web pages
Spider Example
以下是我们的一个爬虫类示例,其作用为爬取 百度新闻 的热点要闻:
fromxpawimportSpider,HttpRequest,Selector,run_spiderclassBaiduNewsSpider(Spider):defstart_requests(self):yieldHttpRequest("http://news.baidu.com/",callback=self.parse)defparse(self,response):selector=Selector(response.text)hot=selector.css("div.hotnews a").textself.log("Hot News:")foriinrange(len(hot)):self.log("%s: %s",i+1,hot[i])if__name__=='__main__':run_spider(BaiduNewsSpider)
在爬虫类中我们定义了一些方法:
- start_requests: 返回爬虫初始请求。
- parse: 处理请求得到的页面,这里借助 Selector 及CSS Selector语法提取到了我们所需的数据。