html和xml文档的结构感知diff
html-tree-diff的Python项目详细描述
XML和HTML文档的结构感知差异。
其目的是简明地显示在 文档,以便HTML内容的作者可以查看他们的工作。
“HTML树差异”是什么意思?
- HTML格式: diff函数的输入是html文档
- 树: 它考虑输入的完整xml树结构,而不仅仅是基于文本的更改。
- 差异: 输出是人类可读的html,使用<;ins>;和<;del>;标记显示更改。
命令行界面
您可以作为python模块直接执行htmltreediff.cli,将html文件传递给diff:
$ python -m htmltreediff.cli one.html two.html <h1> <del> one </del> <ins> two </ins> </h1>
python api
您还可以将来自python程序的htmltreediff用作库。
对于HTML更改:
>>> from htmltreediff import diff >>> print diff('<h1>...one...</h1>', '<h1>...two...</h1>', pretty=True) <h1> ... <del> one </del> <ins> two </ins> ... </h1>
也适用于纯文本更改:
>>> print diff( ... 'The quick brown fox jumps over the lazy dog.', ... 'The very quick brown foxes jump over the dog.', ... html=False, ... ) The <ins>very </ins>quick brown <del>fox jumps</del><ins>foxes jump</ins> over the<del> lazy</del> dog.
运行单元测试
单元测试套件需要运行包nose和coverage。只要运行run_tests.sh脚本,所有测试都将运行,代码覆盖率为。代码覆盖率应始终为100%。