确定在Hi中创建自定义项的语言

2024-05-29 04:10:39 发布

您现在位置:Python中文网/ 问答频道 /正文

概述:关注点与在配置单元中创建UDF有关

亲爱的朋友们,由于我是在Hive中创建UDF的新手(我已经通过google了解到了这一点,但还不是很清楚),我在这里的第一件事是确定哪一种可能是编写Hive UDF的最佳方式,如Java/Python或任何其他方式

另一件事是我应该根据什么来分析?我应该寻找什么样的参数

请注意,我没有下面给出的几个需要编写UDF的函数。 1.当需要“无聚合”时,选择并分组另一个函数所需的子句。 2.当需要“聚合”时,返回所需的select和group by子句。 3.对于vector_,用于数据收集查询的索引是SUM、LISTAGG字符串 4.返回其他函数使用的WHERE子句。 5以逗号分隔的字符串形式返回第n项。 6.窄数据的百分位值函数。 7.计算给定计数器名称的百分比。除百分比外,它还输出计算中使用的样本数、峰值和平均值

事先非常感谢


Tags: 数据函数字符串参数google方式朋友java
1条回答
网友
1楼 · 发布于 2024-05-29 04:10:39

这个问题可能不在指导范围内,因为你在征求意见

话虽如此,我建议:

A)你选择一种你知道的语言

B)如果您两者都知道,则根据您需要的功能进行选择

考虑到性能——我相信(但不能保证)编译的java jar将在不启动java运行时运行,只是为了支持java模块(它将运行在HIVjava实例中)。要运行Python模块,需要实例化一个新的Python解释器,并通过进程间通信传输数据。因此,java的性能可能稍好一些,尤其是在算法简单的情况下。然而,除非您正在处理庞大的数据集,否则您可能根本不会注意到

最后,您可能可以使用配置单元查询语言完成所有要求的功能

相关问题 更多 >

    热门问题