我有一个来自血浆数据存储的RecordBatch
,我可以读入pyarrow.RecordBatch
或pyarrow.Table
。我现在尝试在将行转换为pandas(to_pandas
)之前过滤掉行
有没有一种方法可以在pyarrow.Table
上使用新数据集API中的filter
方法(您可以在ParquetDataset上使用)?这将允许我为我们提供如下过滤器:
[[('date', '=', '2020-01-01')]]
查看源代码pyarrow.Table
和pyarrow.RecordBatch
似乎都有一个筛选函数,但至少RecordBatch
需要一个布尔掩码
这可能吗?原因是数据集包含大量不是零拷贝的字符串(和/或类别),因此运行to_pandas
实际上会引入显著的延迟,我只查找数据集的20%左右
问候,
尼古拉斯
现在这是可能的:
相关问题 更多 >
编程相关推荐