lib通过保存祖先和清除css来提取html元素
chopper的Python项目详细描述
chopper是一个通过保留祖先和css规则从html中提取元素的工具。
与python兼容>;=2.6,<;=3.4
安装
pip install chopper
快速启动
fromchopper.extractorimportExtractorHTML=""" <html> <head> <title>Test</title> </head> <body> <div id="header"></div> <div id="main"> <div class="iwantthis"> HELLO WORLD <a href="/nope">Do not want</a> </div> </div> <div id="footer"></div> </body> </html> """CSS=""" div { border: 1px solid black; } div#main { color: blue; } div.iwantthis { background-color: red; } a { color: green; } div#footer { border-top: 2px solid red; } """extractor=Extractor.keep('//div[@class="iwantthis"]').discard('//a')html,css=extractor.extract(HTML,CSS)
结果是:
>>>html""" <html> <body> <div id="main"> <div class="iwantthis"> HELLO WORLD </div> </div> </body> </html>""">>>css""" div{border:1px solid black;} div#main{color:blue;} div.iwantthis{background-color:red;} """