跳过fastparqu中大二进制字段的元数据

2024-05-16 03:46:09 发布

您现在位置:Python中文网/ 问答频道 /正文

如果数据集有一列包含大量二进制数据(例如图像或声波数据),那么计算该列的最小/最大统计信息在计算和存储需求方面都会变得非常昂贵,尽管这是完全无用的(按范围查询这些值显然没有意义)。你知道吗

这会导致大型、高度分区的拼花数据集的元数据在大小上爆炸。有没有办法告诉fastparquet不要计算某些列的统计信息,或者Parquet格式要求每个列都有这些统计信息?你知道吗


Tags: 数据图像信息高度格式二进制意义分区
1条回答
网友
1楼 · 发布于 2024-05-16 03:46:09

这是在一个stale PR中实现的,这个stale PR可以在某个时候合并(它破坏了与py2的兼容性),也可以提取相关的部分。PR向writer提供了一个stats=参数,可以用来选择哪些列计算了max/min,或者选择all/none作为True/False。你知道吗

相关问题 更多 >