python ascii码到u

2024-06-16 11:25:25 发布

您现在位置:Python中文网/ 问答频道 /正文

因此,当我用我的母语在mod_nupython中发布名称或文本时,我得到:

македонија

我还得到:

^{pr2}$

当我使用:

hparser = HTMLParser.HTMLParser() 
    req.write(hparser.unescape(text)) 

我该怎么解码呢?在


Tags: text文本名称mod解码reqwrite母语
1条回答
网友
1楼 · 发布于 2024-06-16 11:25:25

如果您不了解底层机制,很难解释UnicodeErrors。你真的应该读其中的一个或两个

简而言之,Unicode码位是一个抽象的“东西”,表示一个字符1。程序员喜欢使用它们,因为我们喜欢把字符串看作一次只出现一个字符。不幸的是,很久以前就有规定,一个字符必须能容纳一个字节的内存,因此最多只能有256个不同的字符。这对普通英语来说很好,但对其他任何东西都不管用。有一个全局的代码点列表,数千个代码点是用来存放所有可能的字符的,但是很明显它们不适合一个字节。在

解决方案:组成一个字符串的代码点的有序列表与其作为字节序列的编码有区别。当你处理一个字符串时,你必须清楚它应该是哪种形式。在

要在两种形式之间进行转换,可以.encode()将代码点列表(Unicode字符串)作为字节列表,.decode()字节转换为代码点列表。为此,您需要知道如何将代码点映射为字节,反之亦然,这就是编码。如果您不指定一个,Python2.x将猜测您的意思是ASCII。如果这个猜测是错误的,您将得到一个UnicodeError。在

请注意,Python3.x在处理Unicode字符串方面要好得多,因为字节和代码点之间的区别更加明确。在

1差不多。在


编辑:我想我应该指出这有什么帮助。但你真的应该看看上面的链接!在任何地方都加入.encode()s和.decode()s是一种糟糕的编码方式,总有一天你会被更糟糕的问题缠住。在

不管怎样,如果你一步一步地完成你在shell中所做的事情,你会看到的

>>> from HTMLParser import HTMLParser
>>> text = "македонија"
>>> hparser = HTMLParser()
>>> text = hparser.unescape(text)
>>> text
u'\u043c\u0430\u043a\u0435\u0434\u043e\u043d\u0438\u0458\u0430'

我在这里使用的是python2.7,因此这是一个Unicode字符串,即Unicode代码点的序列。我们可以把它们编码成一个普通的字符串(即字节列表),比如

^{pr2}$

但我们也可以选择不同的编码方式!在

>>> text.encode("utf-16")
'\xff\xfe<\x040\x04:\x045\x044\x04>\x04=\x048\x04X\x040\x04'

您需要决定使用什么编码。在

你做的时候出了什么问题?不是每个编码都能理解每个代码点。尤其是,"ascii"编码只理解前256个!所以如果你尝试

>>> text.encode("ascii")
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-9: ordinal not in range(128)

你只会得到一个错误,因为你不能用ASCII编码这些代码点。在

当您执行req.write操作时,您正试图在请求中写下代码点列表。但是HTML请求不理解代码点:它们只是使用ASCII。python2将尝试通过自动对Unicode字符串进行ASCII编码来提供帮助,如果它们真的是ASCII的话,这是很好的,但如果不是ASCII字符串就不行了

所以你需要做req.write(hparser.unescape(text).encode("some-encoding"))。在

相关问题 更多 >