parsel是一个使用xpath和css选择器从html和xml中提取数据的库。
parsel的Python项目详细描述
功能
- 使用css或xpath选择器提取文本
- 正则表达式助手方法
示例:
>>> from parsel import Selector >>> sel = Selector(text=u"""<html> <body> <h1>Hello, Parsel!</h1> <ul> <li><a href="http://example.com">Link 1</a></li> <li><a href="http://scrapy.org">Link 2</a></li> </ul> </body> </html>""") >>> >>> sel.css('h1::text').get() 'Hello, Parsel!' >>> >>> sel.css('h1::text').re('\w+') ['Hello', 'Parsel'] >>> >>> for e in sel.css('ul > li'): ... print(e.xpath('.//a/@href').get()) http://example.com http://scrapy.org