我有一个数百万的记录SQL表,我打算用pyarrow库把它写到一个文件夹中的许多parquet文件中。数据内容似乎太大,无法存储在单个拼花文件中。在
但是,使用参数pyt或API似乎无法指定:
file_scheme="hive"
由fastparquet python库支持。在
下面是我的示例代码:
^{pr2}$这将引发一个错误:
File "/usr/local/lib/python2.7/dist-packages/pyarrow/parquet.py", line 912, in write_table
os.remove(where)
OSError: [Errno 21] Is a directory: './clients/'
如果我用以下内容替换最后一行,它可以正常工作,但只写一个大文件:
pq.write_table(table, './clients.parquet' )
你知道我怎么用pyarrow实现多文件输出吗?在
尝试
pyarrow.parquet.write_to_dataset
https://github.com/apache/arrow/blob/master/python/pyarrow/parquet.py#L938。在我打开了https://issues.apache.org/jira/browse/ARROW-1858关于添加更多关于此的文档。在
我建议在邮件列表中寻求对apachearrow的支持apache.dev.org@arrow。谢谢!在
相关问题 更多 >
编程相关推荐