使用GCP组件运行配置单元查询

2024-04-18 14:37:15 发布

您现在位置:Python中文网/ 问答频道 /正文

所以我计划使用GCP Composer来运行一些配置单元作业。在

使用Hive和Dataproc是最好的方法吗?在

数据应该存储在哪里?Dataproc能从Google云存储桶中读取数据吗?在


Tags: 数据方法google作业读取数据计划单元composer
2条回答

是的,Dataproc可以从GCS Bucket读取数据。例如读这个:https://cloud.google.com/solutions/using-apache-hive-on-cloud-dataproc#creating_a_hive_table

然后您可以使用DataProcHiveOperator使用cloudcomposer对其运行查询。在

在dataproc中,有几种方法可以提交配置单元作业。
dataproc从google bucket读取数据。我已经回答了这个问题HERE

您可以在dataporc中提交配置单元作业。
1)您可以通过选择“查询”选项直接发出命令。
2)您可以选择“查询文件”选项,然后指出文件的位置(谷歌存储)。例如Here

现在来回答第一个问题,将hive与Dataproc一起使用是最好的方法吗?-
这完全取决于您的要求。有很多工作可供选择,你必须根据你的要求选择,因此这是最好的。如果你能详细说明你的要求,我可以更清楚地回答这个问题。

我可以给你一个蜂巢作业的要点,这样你就可以理清你的要求了。在

您可以在配置单元作业中执行以下操作:

  • 一个或多个内联查询
  • 您可以从查询文件(一个或多个)中给出查询命令
  • 您可以在配置单元中添加jar文件-可以用于任何目的,例如UDF(一个或多个)
  • 可以添加其他属性来配置作业
  • 你可以自动化这项工作
    这就是基本的蜂箱作业。在

AirflowData Proc Documentation具有所有可用的运算符。在

相关问题 更多 >