使用Python的Hive UDF

4 投票
1 回答
14064 浏览
提问于 2025-04-18 10:16

我刚接触Python、Pandas和Hive,想请教一些建议。

我有下面的Python代码,我想把它变成Hive中的一个用户定义函数(UDF)。不过,我希望的是,不再用CSV文件作为输入,进行转换后再导出另一个CSV,而是想用Hive表作为输入,然后把结果导出为一个新的Hive表,里面包含转换后的数据。

Python代码:

import pandas as pd
data = pd.read_csv('Input.csv')
df = data
df = df.set_index(['Field1','Field2'])
Dummies=pd.get_dummies(df['Field3']).reset_index()
df2=Dummies.drop_duplicates()
df3=df2.groupby(['Field1','Field2']).sum()
df3.to_csv('Output.csv')

1 个回答

11

你可以使用 TRANSFORM 函数来调用用 Python 写的用户自定义函数(UDF)。具体的步骤可以在这里这里找到。

撰写回答