使用Python的Hive UDF
我刚接触Python、Pandas和Hive,想请教一些建议。
我有下面的Python代码,我想把它变成Hive中的一个用户定义函数(UDF)。不过,我希望的是,不再用CSV文件作为输入,进行转换后再导出另一个CSV,而是想用Hive表作为输入,然后把结果导出为一个新的Hive表,里面包含转换后的数据。
Python代码:
import pandas as pd
data = pd.read_csv('Input.csv')
df = data
df = df.set_index(['Field1','Field2'])
Dummies=pd.get_dummies(df['Field3']).reset_index()
df2=Dummies.drop_duplicates()
df3=df2.groupby(['Field1','Field2']).sum()
df3.to_csv('Output.csv')