Python:获取ParquetDataset的行数?

2024-06-16 14:03:55 发布

您现在位置:Python中文网/ 问答频道 /正文

如何获取以包含多个拼花文件的文件夹形式构造的拼花数据集的行数

我试过了

from pyarrow.parquet import ParquetDataset
a = ParquetDataset(path)
a.metadata
a.schema
a.commmon_metadata

我想在不读取数据集的情况下计算出总行数,因为它可能相当大

最好的方法是什么


Tags: 文件数据pathfromimport文件夹schema读取数据
1条回答
网友
1楼 · 发布于 2024-06-16 14:03:55

您仍然需要触摸每个文件,但幸运的是,Parquet在其页脚中保存了每个文件的总行数。因此,您只需读取每个文件的元数据即可确定其大小。下面的代码将计算ParquetDataset中的行数

nrows = 0
dataset = ParquetDataset(..)
for piece in dataset.pieces:
    nrows += piece.get_metadata().num_rows

相关问题 更多 >