提取两个HTML页面之间的差异
extract-html-diff的Python项目详细描述
此包允许您提取两个HTML页面之间的差异: 给定页面a和b,它将尝试提取a中在b中更改的部分。 它在引擎盖下使用lxml.html.diff。但只提供作为html的更改部分。
目前它需要python 3。
许可证是麻省理工学院的。
安装
您可以从pypi安装包:
pip install extract-html-diff
用法
您可以将diff提取为文本:
import extract_html_diff html = '<div> <h1>My site</h1> <div>My content</div> </div>' other_html = '<div> <h1>My site</h1> <div>Other content</div> </div>' extract_html_diff.as_string(html, other_html)
这将给您:
'<div><div>My content</div> </div>'
如果 您计划执行其他转换或更改序列化:
extract_html_diff.as_tree(html, other_html)
您可以将输入html作为str或^{tt4}传递$ (在本例中,它将用lxml.html.fromstring解析),或者作为已经解析的 lxml.html.HtmlElement。