如何降低HDFStore的大小开销？

exchtime datetime64[ns] localtime datetime64[ns] symbol object country int64 exch object currency int64 indicator int64 bid float64 bidsize int64 bidexch object ask float64 asksize int64 askexch object

1条回答

网友

1楼 · 发布于 2024-05-29 02:59:58

在PyTables中，块大小有一定的最小值。在

以下是一些建议：

您可以使用选项ptrepack该文件。这将使用chunkshape对其进行打包，该chunkshape是通过查看所有数据来计算的，并且可以将数据重新打包为更有效的块大小，从而使文件大小更小。原因是PyTables需要知道最终数组/表大小的预期行数。
您可以通过传递expectedrows=（并且只执行一次追加）来实现Table格式的最佳chunksize。但是，ptrepacking在这里仍然有好处。
您也可以尝试以表格式写入，而不是设置所有data_columns=True，只需传递format='table'；它将写入表格式（但除了按索引之外，您将无法查询）；但它存储为单个块，因此它的速度应该与固定的一样快（但空间效率更高）
在PyTables 3.1（刚刚发布）中，有一个新的blosc过滤器。这可能会减少文件大小。请参见here

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何降低HDFStore的大小开销？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >