将Pandas数据帧写入HDF5

2024-06-08 21:40:57 发布

您现在位置:Python中文网/ 问答频道 /正文

我用python处理大量文件,需要直接在HDF5中编写输出(每个输入文件对应一个数据帧)。 我想知道从我的脚本直接将pandas数据帧快速地写入HDF5的最佳方法是什么?我不确定像hdf5、hadoopy这样的python模块是否能做到这一点。在这方面的任何帮助都将不胜感激。在


Tags: 模块文件数据方法脚本pandashdf5hadoopy
1条回答
网友
1楼 · 发布于 2024-06-08 21:40:57

很难给你一个很一般的问题一个好的答案。在

不清楚您将如何使用(读取)HDF5文件-是否要有条件地选择数据(使用where参数)?在

打开存储对象所需的全部信息:

store = pd.HDFStore('/path/to/filename.h5')

现在您可以写入(或追加)到存储区(我在这里使用blosc压缩-它非常快速和高效),除此之外,我将使用data_columns参数来指定必须索引的列(因此,您可以在以后读取HDF5文件时在where参数中使用这些列):

^{pr2}$

相关问题 更多 >