智能地漂亮地打印带有内联标记的html/xml。
prettierfier的Python项目详细描述
更漂亮
虽然我喜欢用Beautiful Soup作为解析器,BeautifulSoup.prettify()
在every标记之间添加换行符。
这会在应该内联的标记之间产生多余的空白,例如<sup>
、<a>
、<span>
,等等:
<p>Introducing GitHub<sup>®</sup></p>
介绍Github
对
<p>
Introducing GitHub
<sup>
®
</sup>
</p>
Github简介 ?。
此模块将HTML/XML解析为原始字符串,以便更智能地格式化标记。
安装
您有两个选项:
pip install prettierfier
在命令行中- 将prettierfier.py的内容复制到您自己的模块中。
此模块仅使用python标准库构建,不包含外部第三方依赖项。
功能
prettify_xml(xml_string,indent=2,debug=false)
- 无需预先格式化即可使用。
Args:
xml_string (str): XML text to prettify.
indent (int, optional): Set size of XML tag indents.
Test-only args:
debug (bool, optional): Show results of each regexp application.
Returns:
str: Prettified XML.
prettify_html(html_string,debug=false)
- 最初创建用于处理
BeautifulSoup.prettify()
输出。 - 不添加或删除常规换行符。如果常规HTML已经有您要保留的换行符,则可以将其与之一起使用。
Args:
html_string (str): HTML string to parse.
Test-only args:
debug (bool, optional): Show results of each regexp application.
Returns:
str: Prettified HTML.
示例
import prettierfier
ugly_html = """<p>
Introducing GitHub
<sup>
®
</sup>
</p>"""
pretty_html = prettierfier.prettify_html(ugly_html)
print(pretty_html)
# Output
>>> <p>Introducing GitHub<sup>®</sup></p>