2024-05-16 03:46:09 发布
网友
如果数据集有一列包含大量二进制数据(例如图像或声波数据),那么计算该列的最小/最大统计信息在计算和存储需求方面都会变得非常昂贵,尽管这是完全无用的(按范围查询这些值显然没有意义)。你知道吗
这会导致大型、高度分区的拼花数据集的元数据在大小上爆炸。有没有办法告诉fastparquet不要计算某些列的统计信息,或者Parquet格式要求每个列都有这些统计信息?你知道吗
这是在一个stale PR中实现的,这个stale PR可以在某个时候合并(它破坏了与py2的兼容性),也可以提取相关的部分。PR向writer提供了一个stats=参数,可以用来选择哪些列计算了max/min,或者选择all/none作为True/False。你知道吗
stats=
这是在一个stale PR中实现的,这个stale PR可以在某个时候合并(它破坏了与py2的兼容性),也可以提取相关的部分。PR向writer提供了一个
stats=
参数,可以用来选择哪些列计算了max/min,或者选择all/none作为True/False。你知道吗相关问题 更多 >
编程相关推荐