用于html tidy(tidylib)的python包装器,与python 2和3兼容
pytidylib6的Python项目详细描述
0.2.0:在Windows上工作!有关可用的dll下载,请参阅文档 位置。重写和扩展文档。
PyTidyLib是包装HTML Tidy库的python包。这个 允许您从python代码“修复”无效(x)html标记。一些 库的许多功能包括:
- 清除未关闭的标记和未转换的字符,如与号
- 输出HTML 4或XHTML,严格的或过渡的,并添加缺少的文档类型
- 将命名实体转换为数字实体,然后可以在XML中使用 没有HTML文档类型的文档。
- 清除Word等程序中的HTML(在一定程度上)
- 缩进输出,包括pre元素的正确缩进(即否), 一些(x)html缩进代码忽略了这一点。
使用小示例
以下代码将清除无效的HTML文档并设置一个选项:
from tidylib import tidy_document document, errors = tidy_document('''<p>fõo <img src="bar.jpg">''', options={'numeric-entities':1}) print document print errors
文档
文档随源发行版一起提供,可在 网页PyTidyLib。