除了“泡菜”之外，序列化数据帧的最快方法是什么？

In [107]: from pandas.io.packers import pack In [108]: df = pd.DataFrame(np.random.rand(1000, 100)) In [109]: %timeit buf = pack(df) 100 loops, best of 3: 15.5 ms per loop In [110]: import pickle In [111]: %timeit buf = pickle.dumps(df) 1000 loops, best of 3: 241 µs per loop

1条回答

网友

1楼 · 发布于 2024-05-29 10:51:53

它现在与PR:https://github.com/pydata/pandas/pull/5498（很快将合并为0.13）非常有竞争力

In [1]: from pandas.io.packers import pack

In [2]: import cPickle as pkl

In [3]: df = pd.DataFrame(np.random.rand(1000, 100))

以上示例

^{pr2}$

更大的框架

In [8]: df = pd.DataFrame(np.random.rand(100000, 100))

In [9]:  %timeit buf = pack(df)
10 loops, best of 3: 192 ms per loop

In [10]: %timeit buf = pkl.dumps(df,pkl.HIGHEST_PROTOCOL)
10 loops, best of 3: 119 ms per loop

另一个选择是使用内存中的hdf文件

请看这里：http://pytables.github.io/cookbook/inmemory_hdf5_files.html；在pandas中还没有支持添加驱动程序arg（但是可以通过简单的猴子补丁来完成）。在

另一种可能性是ctable，见https://github.com/FrancescAlted/carray。但熊猫自动取款机还不支持。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

除了“泡菜”之外，序列化数据帧的最快方法是什么？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >