我们正在将数据平台从Redshift迁移到Snowflake,在将复制/卸载命令从Redshift转换到Snowflake时,我们遇到了一个问题,即Redshift卸载命令正在创建分区数据集
Snowflake在COPY into命令中确实有一个选项来指定分区列,而我们看到输出数据集中与红移相比存在一些差异:
雪花正在生成大写的标题。虽然这不是一个show-shopper,但由于Python是区分大小写的,所以它无法读取由Snowflake生成的拼花地板数据集。Snowflake中是否有方法/选项以小写形式在已卸载的文件中生成头文件
Snowflake在输出数据集/卸载文件中包含分区列。红移的工作原理与配置单元类似,默认情况下,它从输出数据集/卸载文件中排除分区列。是否有一种排除这些分区列的方法/选项,这样我们就不必修改使用这些数据集的后处理脚本
Snowflake不允许使用“分区方式”选项的覆盖模式,因此当作业多次运行时,它会创建重复的数据集/卸载的文件。我们计划在重新运行作业之前添加一个预步骤来手动清理分区文件夹,但是有没有一种方法可以在雪花级别上处理
由于这些问题正在影响我们读取分区数据的一些后处理Python脚本,我们只想了解这些问题是否可以在雪花级别处理,而不是更改脚本。如果您对此有任何意见/建议,我将不胜感激
提前谢谢
问候,, 加甘德普
我对你的3个问题的想法/答案如下:
相关问题 更多 >
编程相关推荐