以未知编码读取包含非ASCII字符的文本文件

2条回答

网友

1楼 · 编辑于 2024-04-26 11:14:45

你需要知道文本是用哪个字符编码的。如果您事先不知道，可以尝试使用chardet模块猜测它。首先安装：

$ pip install chardet

然后，例如以二进制模式读取文件：

>>> import chardet
>>> chardet.detect(open("file.txt", "rb").read())
{'confidence': 0.9690625, 'encoding': 'utf-8'}

那么：

>>> import codecs
>>> import unicodedata
>>> lines = codecs.open('file.txt', 'r', encoding='utf-8').readlines()

网友

2楼 · 编辑于 2024-04-26 11:14:45

我相信文件被正确读取，但在输出时使用了错误的编码。这是基于这样一个事实，即您在空闲时得到了正确的结果。

我建议尝试使用print(line.encode('utf-8'))，但我恐怕不知道Python 3是否会正确打印bytes对象。