pyarrow可以将多个拼花文件写入一个文件夹,比如fastparquet的file-scheme='hive'选项?

2024-04-25 18:18:23 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个数百万的记录SQL表,我打算用pyarrow库把它写到一个文件夹中的许多parquet文件中。数据内容似乎太大,无法存储在单个拼花文件中。在

但是,使用参数pyt或API似乎无法指定:

file_scheme="hive"

由fastparquet python库支持。在

下面是我的示例代码:

^{pr2}$

这将引发一个错误:

File "/usr/local/lib/python2.7/dist-packages/pyarrow/parquet.py", line 912, in write_table
    os.remove(where)
OSError: [Errno 21] Is a directory: './clients/'

如果我用以下内容替换最后一行,它可以正常工作,但只写一个大文件:

pq.write_table(table, './clients.parquet' )

你知道我怎么用pyarrow实现多文件输出吗?在


Tags: 文件数据文件夹api内容sql参数记录