将html实体转换为tex

2024-03-29 12:21:34 发布

您现在位置:Python中文网/ 问答频道 /正文

我的HTML文件中有’(这是一个右引号),我想把它转换成文本(如果可能的话)。在

我尝试使用HTMLParser和beauthoulsoup,但是没有成功。在

>>> h = HTMLParser.HTMLParser()
>>> h.unescape("'")
u"'"
>>> h.unescape("’")
u'\x92' # I was hoping for a right curly quote here.

我的目标很简单:使用html输入和输出所有文本(不包含任何html代码)。在


Tags: 文件文本rightforhtml引号quotewas
1条回答
网友
1楼 · 发布于 2024-03-29 12:21:34

“右引号”不是ascii字符。u'\x92'是代表它的unicode字符的python表示,而不是一些“html代码”。在

要在终端中正确显示它,请使用print h.unescape("’").encode('utf-8')(或任何终端的字符集)。在

相关问题 更多 >