将unicode元素读入numpy数组

>>> np.loadtxt('new.txt', dtype=np.unicode_) Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/usr/lib64/python2.7/site-packages/numpy/lib/npyio.py", line 805, in loadtxt X = np.array(X, dtype) UnicodeDecodeError: 'ascii' codec can't decode byte 0xce in position 0: ordinal not in range(128)

2条回答

网友

1楼 · 编辑于 2024-05-20 23:56:38

如果要使用loadtxt，可以先加载原始字节数组，然后解码：

data = np.loadtxt('foo.txt', dtype='S8')
unicode_data = data.view(np.chararray).decode('utf-8')

或指定用于解码的转换器：

data = np.loadtxt('foo.txt', converters={0: lambda x: unicode(x, 'utf-8')}, dtype='U2')

然而，在Sven的答案中使用fromiter可能比loadtxt更有效。

网友

2楼 · 编辑于 2024-05-20 23:56:38

在内存中，unicode字符串表示为UCS-2或UCS-4，这取决于Python解释器的编译方式。您的文件是在UTF-8中编码的，因此在将其映射到NumPy数组之前需要重新编码。loadtxt()无法为您重新编码——毕竟NumPy主要针对数值数组。

假设每行的字符数相同，也可以使用更有效的变量

s = codecs.open("new.txt", encoding="utf-8").read()
arr = numpy.frombuffer(s, dtype="<U3")

这将在字符串中包含换行符。不包括它们，使用

arr = numpy.frombuffer(s.replace("\n", ""), dtype="<U2")

编辑：如果文件行的长度不同，并且您希望避免中间列表，则可以使用

arr = numpy.fromiter(codecs.open("new.txt", encoding="utf-8"), dtype="<U2")

不过，我不确定这是否会在内部创建一些临时列表。

相关问题更多 >

编程相关推荐

热门问题

热门文章