用python整理HTML

2021-12-08 06:28:37 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在处理格式不好的html页面,因此需要做一些清理。http://validator.w3.org/Tidy函数生成我想要的确切输出。但是,我想把HTML文件作为一个更大的Python脚本的一部分来清理。我试过了:

from tidylib import tidy_document
tidy, errors = tidy_document(html)

但是,虽然tidylib工作得很好,但是输出并不像w3那样“漂亮”。我还找到了library for w3c markup validation service,但我没有找到一个方法来清理HTML。 我的问题是:使用Python脚本(可以称为外部程序/web解决方案)清理HTML的最佳方法是什么?w3生成的输出是最好的方式。我应该在tidylib中使用其他选项,w3c标记验证服务库中是否有合适的方法,或者我应该尝试其他方法。指针/代码片段非常受欢迎。在