Python pickle：加载前修复\r字符

9 投票

4 回答

5311 浏览

提问于 2025-04-17 08:27

我有一个被“腌制”的对象（里面有几个numpy数组的列表），这个对象是在Windows上创建的，显然是以文本模式保存到文件里的，而不是以二进制模式（也就是说，用的是open(filename, 'w')而不是open(filename, 'wb')）。结果就是我现在无法解压这个对象（即使在Windows上也不行），因为它被感染了\r字符（可能还有其他问题）。主要的问题是

ImportError: No module named multiarray

因为它在寻找numpy.core.multiarray\r，而这个东西当然是不存在的。简单地删除\r字符并没有解决问题（我尝试了sed -e 's/\r//g'和在python中用s = file.read().replace('\r', '')，但这两种方法都破坏了文件，最后导致cPickle.UnpicklingError错误）。

问题是我真的需要从这些对象中提取数据。有没有什么办法可以修复这些文件？

编辑：应要求，以下是我的文件的前几百个字节，八进制格式：

\x80\x02]q\x01(}q\x02(U\r\ntotal_timeq\x03G?\x90\x15r\xc9(s\x00U\rreaction_timeq\x04NU\x0ejump_directionq\x05cnumpy.core.multiarray\r\nscalar\r\nq\x06cnumpy\r\ndtype\r\nq\x07U\x02f8K\x00K\x01\x87Rq\x08(K\x03U\x01<NNNJ\xff\xff\xff\xffJ\xff\xff\xff\xffK\x00tbU\x08\x025\x9d\x13\xfc#\xc8?\x86Rq\tU\x14normalised_directionq\r\nh\x06h\x08U\x08\xf0\xf9,\x0eA\x18\xf8?\x86Rq\x0bU\rjump_distanceq\x0ch\x06h\x08U\x08\x13\x14\xea&\xb0\x9b\x1a@\x86Rq\rU\x04jumpq\x0ecnumpy.core.multiarray\r\n_reconstruct\r\nq\x0fcnumpy\r\nndarray\r\nq\x10K\x00\x85U\x01b\x87Rq\x11(K\x01K\x02\x85h\x08\x89U\x10\x87\x16\xdaEG\xf4\xf3?\x06`OC\xe7"\x1a@tbU\x0emovement_speedq\x12h\x06h\x08U\x08\\p\xf5[2\xc2\xef?\x86Rq\x13U\x0ctrial_lengthq\x14G@\t\x98\x87\xf8\x1a\xb4\xbaU\tconditionq\x15U\x0bhigh_mentalq\x16U\x07subjectq\x17K\x02U\x12movement_directionq\x18h\x06h\x08U\x08\xde\x06\xcf\x1c50\xfd?\x86Rq\x19U\x08positionq\x1ah\x0fh\x10K\x00\x85U\x01b\x87Rq\x1b(K\x01K\x02\x85h\x08\x89U\x10K\xb7\xb4\x07q=\x1e\xc0\xf2\xc2YI\xb7U&\xc0tbU\x04typeq\x1ch\x0eU\x08movementq\x1dh\x0fh\x10K\x00\x85U\x01b\x87Rq\x1e(K\x01K\x02\x85h\x08\x89U\x10\xad8\x9c9\x10\xb5\xee\xbf\xffa\xa2hWR\xcf?tbu}q\x1f(h\x03G@\t\xba\xbc\xb8\xad\xc8\x14h\x04G?\xd9\x99%]\xadV\x00h\x05h\x06h\x08U\x08\xe3X\xa9=\xc1\xb1\xeb?\x86Rq h\r\nh\x06h\x08U\x08\x88\xf7\xb9\xc1\t\xd6\xff?\x86Rq!h\x0ch\x06h\x08U\x08v\x7f\xeb\x11\xea5\r@\x86Rq"h\x0eh\x0fh\x10K\x00\x85U\x01b\x87Rq#(K\x01K\x02\x85h\x08\x89U\x10\xcd\xd9\x92\x9a\x94=\x06@]C\xaf\xef\xeb\xef\x02@tbh\x12h\x06h\x08U\x08-\x9c&\x185\xfd\xef?\x86Rq$h\x14G@\r\xb8W\xb2`V\xach\x15h\x16h\x17K\x02h\x18h\x06h\x08U\x08\x8e\x87\xd1\xc2

你也可以下载整个文件（22k）。

字符编码 numpy 文件格式数据提取数据恢复二进制模式文本模式对象序列化

4 个回答

在Windows上，难道不能直接以文本模式打开这个文件吗？就像它被写入时那样，先读进来，然后再正确地以二进制模式写入到另一个文件里吗？

回答于 2025-04-17 由 Python大师

分享举报

在Windows系统中，换行符不仅仅是 '\r'，而是CRLF，也就是 '\r\n'。

可以试试 file.read().replace('\r\n', '\n') 这个方法。之前你可能删除了那些实际上并不算换行的回车符。

回答于 2025-04-17 由 Python大师

分享举报

假设这个文件是用默认的协议0，也就是ASCII兼容的方法创建的，你应该可以通过使用 open('pickled_file', 'rU') 来在任何地方加载它，也就是使用通用换行符。

如果这样不行，给我们看看文件的前几百个字节： print repr(open('pickled_file', 'rb').read(200))，然后把结果粘贴到你问题的编辑中。

更新在文件内容被发布后：

你的文件开头是 '\x80\x02'；这说明它是用协议2创建的，这是最新的、最好的。协议1和2都是二进制协议。你的文件是在Windows的文本模式下写的。这导致每个 '\n' 被C运行时转换成了 '\r\n'。文件应该以二进制模式打开，像这样：

with open('result.pickle', 'wb') as f: # b for binary
    pickle.dump(obj, f, pickle.HIGHEST_PROTOCOL)

with open('result.pickle', 'rb') as f: # b for binary
    obj = pickle.load(f)

文档可以在这里找到。这段代码在Windows和非Windows系统上都能正常工作。

你可以通过以二进制模式读取文件来恢复原始的pickle图像，然后通过把所有的 '\r\n' 替换成 '\n' 来修复这个问题。注意：这个恢复过程在Windows上和其他系统上都是必要的。

回答于 2025-04-17 由 Python大师

分享举报

Python pickle：加载前修复\r字符

4 个回答

撰写回答