pandas无法从大StringIO对象读取

Question

我正在使用pandas来管理一个很大的8字节整数数组。这些整数作为一个列中的空格分隔元素，包含在一个用逗号分隔的CSV文件里，数组的大小大约是10000x10000。

pandas可以快速读取前几列的逗号分隔数据，并将空格分隔的字符串轻松存储到另一个DataFrame中。但是，当我尝试将这个表从一个包含空格分隔字符串的单列转换为8位整数的DataFrame时，就遇到了麻烦。

我尝试了以下方法：

intdata = pd.DataFrame(strdata.columnname.str.split().tolist(), dtype='uint8')

但是内存使用量太大了——10MB的整数却消耗了2GB的内存。有人告诉我这是语言的限制，我在这种情况下无能为力。

作为一个可能的解决办法，有人建议我将字符串数据保存到一个CSV文件中，然后再将这个CSV文件重新加载为一个包含空格分隔整数的DataFrame。这种方法效果很好，但为了避免写入磁盘时的速度慢，我尝试将数据写入一个StringIO对象。

这里有一个简单的但不工作的例子：

import numpy as np
import pandas as pd
from cStringIO import StringIO

a = np.random.randint(0,256,(10000,10000)).astype('uint8')
b = pd.DataFrame(a)
c = StringIO()
b.to_csv(c, delimiter=' ', header=False, index=False)
d = pd.io.parsers.read_csv(c, delimiter=' ', header=None, dtype='uint8')

这导致了以下错误信息：

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/usr/lib64/python2.7/site-packages/pandas/io/parsers.py", line 443, in parser_f
    return _read(filepath_or_buffer, kwds)
  File "/usr/lib64/python2.7/site-packages/pandas/io/parsers.py", line 228, in _read
    parser = TextFileReader(filepath_or_buffer, **kwds)
  File "/usr/lib64/python2.7/site-packages/pandas/io/parsers.py", line 533, in __init__
    self._make_engine(self.engine)
  File "/usr/lib64/python2.7/site-packages/pandas/io/parsers.py", line 670, in _make_engine
    self._engine = CParserWrapper(self.f, **self.options)
  File "/usr/lib64/python2.7/site-packages/pandas/io/parsers.py", line 1032, in __init__
    self._reader = _parser.TextReader(src, **kwds)
  File "parser.pyx", line 486, in pandas.parser.TextReader.__cinit__ (pandas/parser.c:4494)
ValueError: No columns to parse from file

这让我很困惑，因为如果我用 'c.csv' 代替 c 来运行完全相同的代码，代码就能正常工作。而且，如果我使用以下代码片段：

file = open('c.csv', 'w')
file.write(c.getvalue())

CSV文件保存得没有任何问题，所以写入StringIO对象并不是问题所在。

可能我需要在read_csv那一行把 c 替换成 c.getvalue()，但这样做时，解释器会试图在终端打印 c 的内容！肯定有办法解决这个问题。

提前感谢你的帮助。

内存管理数据处理 stringio 整数数组 csv文件数据帧 pandas性能空格分隔

pandas无法从大StringIO对象读取

1 个回答

撰写回答