使用xpath或css选择器读取yml文件并使用它们从html页面提取数据的库。
selectorlib的Python项目详细描述
选择lib
使用xpath或css选择器读取yml文件并使用它们从html页面提取数据的库
- 自由软件:麻省理工学院许可证
- 文档:https://selectorlib.readthedocs.io。
示例
>>> from selectorlib import Extractor >>> yaml_string = """ title: css: "h1" type: Text link: css: "h2 a" type: Link """ >>> extractor = Extractor.from_yaml_string(yaml_string) >>> html = """ <h1>Title</h1> <h2>Usage <a class="headerlink" href="http://test">¶</a> </h2> """ >>> extractor.extract(html) {'title': 'Title', 'link': 'http://test'}