2024-06-08 21:40:57 发布
网友
我用python处理大量文件,需要直接在HDF5中编写输出(每个输入文件对应一个数据帧)。 我想知道从我的脚本直接将pandas数据帧快速地写入HDF5的最佳方法是什么?我不确定像hdf5、hadoopy这样的python模块是否能做到这一点。在这方面的任何帮助都将不胜感激。在
HDF5
pandas
很难给你一个很一般的问题一个好的答案。在
不清楚您将如何使用(读取)HDF5文件-是否要有条件地选择数据(使用where参数)?在
where
打开存储对象所需的全部信息:
store = pd.HDFStore('/path/to/filename.h5')
现在您可以写入(或追加)到存储区(我在这里使用blosc压缩-它非常快速和高效),除此之外,我将使用data_columns参数来指定必须索引的列(因此,您可以在以后读取HDF5文件时在where参数中使用这些列):
blosc
data_columns
很难给你一个很一般的问题一个好的答案。在
不清楚您将如何使用(读取)HDF5文件-是否要有条件地选择数据(使用
where
参数)?在打开存储对象所需的全部信息:
现在您可以写入(或追加)到存储区(我在这里使用
^{pr2}$blosc
压缩-它非常快速和高效),除此之外,我将使用data_columns
参数来指定必须索引的列(因此,您可以在以后读取HDF5文件时在where
参数中使用这些列):相关问题 更多 >
编程相关推荐