提取两个HTML页面之间的差异

extract-html-diff的Python项目详细描述


PyPI VersionBuild StatusCode Coverage

此包允许您提取两个HTML页面之间的差异: 给定页面a和b,它将尝试提取a中在b中更改的部分。 它在引擎盖下使用lxml.html.diff。但只提供作为html的更改部分。

目前它需要python 3。

许可证是麻省理工学院的。

安装

您可以从pypi安装包:

pip install extract-html-diff

用法

您可以将diff提取为文本:

import extract_html_diff

html = '<div> <h1>My site</h1> <div>My content</div> </div>'
other_html = '<div> <h1>My site</h1> <div>Other content</div> </div>'

extract_html_diff.as_string(html, other_html)

这将给您:

'<div><div>My content</div>  </div>'

如果 您计划执行其他转换或更改序列化:

extract_html_diff.as_tree(html, other_html)

您可以将输入html作为str或^{tt4}传递$ (在本例中,它将用lxml.html.fromstring解析),或者作为已经解析的 lxml.html.HtmlElement

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java为扫描器的输入生成字符序列   hibernate中的java实体合并   如何使变量在Java文件中成为全局变量   java JVM崩溃“异常访问冲突”   向MediaMetadataRetriever中的setDataSource()发送Uri时发生java IllegalArgumentException   java没有节约协议?   用户界面java gui帮助actionlistener   java索引越界异常,即使大小小于索引?   在C++中使用java的困惑   在普通java编码中插入图像   JDBC上的java缓存数据   在Java中,在字符串的特定位置替换子字符串   java在运行elasticsearch集群时遇到Perm Gen空间问题   java Soap故障跟踪   java拆分器。固定长度(int)。拆分(字符串)   java获取jar内部包的路径