2024-06-16 14:03:55 发布
网友
如何获取以包含多个拼花文件的文件夹形式构造的拼花数据集的行数
我试过了
from pyarrow.parquet import ParquetDataset a = ParquetDataset(path) a.metadata a.schema a.commmon_metadata
我想在不读取数据集的情况下计算出总行数,因为它可能相当大
最好的方法是什么
您仍然需要触摸每个文件,但幸运的是,Parquet在其页脚中保存了每个文件的总行数。因此,您只需读取每个文件的元数据即可确定其大小。下面的代码将计算ParquetDataset中的行数
ParquetDataset
nrows = 0 dataset = ParquetDataset(..) for piece in dataset.pieces: nrows += piece.get_metadata().num_rows
您仍然需要触摸每个文件,但幸运的是,Parquet在其页脚中保存了每个文件的总行数。因此,您只需读取每个文件的元数据即可确定其大小。下面的代码将计算
ParquetDataset
中的行数相关问题 更多 >
编程相关推荐