2024-04-18 14:37:15 发布
网友
所以我计划使用GCP Composer来运行一些配置单元作业。在
使用Hive和Dataproc是最好的方法吗?在
数据应该存储在哪里?Dataproc能从Google云存储桶中读取数据吗?在
是的,Dataproc可以从GCS Bucket读取数据。例如读这个:https://cloud.google.com/solutions/using-apache-hive-on-cloud-dataproc#creating_a_hive_table
然后您可以使用DataProcHiveOperator使用cloudcomposer对其运行查询。在
DataProcHiveOperator
在dataproc中,有几种方法可以提交配置单元作业。是dataproc从google bucket读取数据。我已经回答了这个问题HERE
您可以在dataporc中提交配置单元作业。1)您可以通过选择“查询”选项直接发出命令。2)您可以选择“查询文件”选项,然后指出文件的位置(谷歌存储)。例如Here
现在来回答第一个问题,将hive与Dataproc一起使用是最好的方法吗?-这完全取决于您的要求。有很多工作可供选择,你必须根据你的要求选择,因此这是最好的。如果你能详细说明你的要求,我可以更清楚地回答这个问题。我可以给你一个蜂巢作业的要点,这样你就可以理清你的要求了。在
您可以在配置单元作业中执行以下操作:
AirflowData Proc Documentation具有所有可用的运算符。在
是的,Dataproc可以从GCS Bucket读取数据。例如读这个:https://cloud.google.com/solutions/using-apache-hive-on-cloud-dataproc#creating_a_hive_table
然后您可以使用
DataProcHiveOperator
使用cloudcomposer对其运行查询。在在dataproc中,有几种方法可以提交配置单元作业。
是dataproc从google bucket读取数据。我已经回答了这个问题HERE
您可以在dataporc中提交配置单元作业。
1)您可以通过选择“查询”选项直接发出命令。
2)您可以选择“查询文件”选项,然后指出文件的位置(谷歌存储)。例如Here
现在来回答第一个问题,将hive与Dataproc一起使用是最好的方法吗?-
这完全取决于您的要求。有很多工作可供选择,你必须根据你的要求选择,因此这是最好的。如果你能详细说明你的要求,我可以更清楚地回答这个问题。
我可以给你一个蜂巢作业的要点,这样你就可以理清你的要求了。在
您可以在配置单元作业中执行以下操作:
这就是基本的蜂箱作业。在
AirflowData Proc Documentation具有所有可用的运算符。在
相关问题 更多 >
编程相关推荐