查找编码类型

2024-04-20 07:07:22 发布

您现在位置:Python中文网/ 问答频道 /正文

我想知道我们能否找出编码字符串的编码类型?或者至少在python3.x中找出给定的实体或单词是字符串还是字节。 提前谢谢。在


Tags: 字符串实体类型编码字节单词python3
2条回答

要确定它是字符串还是字节很简单:

isinstance(x, str)

^{pr2}$

一旦您确定它是字节,那么您就可以,正如Daniel在他的回答中所说的那样,使用chardet让它猜测它是什么编码。这在短文本中是非常不可靠的,但是对于较长的文本来说,它可以很好地工作。在

我推荐^{}库。它基于some work from Mozilla,似乎满足了您的需要。在

Usage is pretty easy

>>> import urllib
>>> rawdata = urllib.urlopen('http://yahoo.co.jp/').read()
>>> import chardet
>>> chardet.detect(rawdata)
{'encoding': 'EUC-JP', 'confidence': 0.99}

还有一些更复杂的用例也在这个页面上,但是在核心部分,你可以简单地传入一个字符串,让它返回一组潜在的编码以及它们对猜测的信心。在

相关问题 更多 >