pyarrow可以将多个拼花文件写入一个文件夹，比如fastparquet的file-scheme='hive'选项？

2024-04-25 18:18:23 发布

您现在位置：Python中文网/ 问答频道 /正文

448

网友

男 | 程序猿一只，喜欢编程写python代码。

我有一个数百万的记录SQL表，我打算用pyarrow库把它写到一个文件夹中的许多parquet文件中。数据内容似乎太大，无法存储在单个拼花文件中。在

但是，使用参数pyt或API似乎无法指定：

file_scheme="hive"

由fastparquet python库支持。在

下面是我的示例代码：

^{pr2}$

这将引发一个错误：

File "/usr/local/lib/python2.7/dist-packages/pyarrow/parquet.py", line 912, in write_table
    os.remove(where)
OSError: [Errno 21] Is a directory: './clients/'

如果我用以下内容替换最后一行，它可以正常工作，但只写一个大文件：

pq.write_table(table, './clients.parquet' )

你知道我怎么用pyarrow实现多文件输出吗？在

Tags：文件数据文件夹 api 内容 sql 参数记录

1条回答

网友

1楼 · 发布于 2024-04-25 18:18:23

尝试pyarrow.parquet.write_to_datasethttps://github.com/apache/arrow/blob/master/python/pyarrow/parquet.py#L938。在

我打开了https://issues.apache.org/jira/browse/ARROW-1858关于添加更多关于此的文档。在

我建议在邮件列表中寻求对apachearrow的支持apache.dev.org@arrow。谢谢！在

pyarrow可以将多个拼花文件写入一个文件夹，比如fastparquet的file-scheme='hive'选项？

相关问题更多 >

编程相关推荐

热门问题

热门文章

pyarrow可以将多个拼花文件写入一个文件夹，比如fastparquet的file-scheme='hive'选项？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >