在pysp中包装java函数

package com.blu.bla; import java.util.ArrayList; import java.util.List; import org.apache.spark.sql.expressions.MutableAggregationBuffer; import org.apache.spark.sql.expressions.UserDefinedAggregateFunction; import org.apache.spark.sql.types.StructField; import org.apache.spark.sql.types.StructType; import org.apache.spark.sql.types.DataType; import org.apache.spark.sql.types.DataTypes; import org.apache.spark.sql.Row; public class MySum extends UserDefinedAggregateFunction { private StructType _inputDataType; private StructType _bufferSchema; private DataType _returnDataType; public MySum() { List<StructField> inputFields = new ArrayList<StructField>(); inputFields.add(DataTypes.createStructField("inputDouble", DataTypes.DoubleType, true)); _inputDataType = DataTypes.createStructType(inputFields); List<StructField> bufferFields = new ArrayList<StructField>(); bufferFields.add(DataTypes.createStructField("bufferDouble", DataTypes.DoubleType, true)); _bufferSchema = DataTypes.createStructType(bufferFields); _returnDataType = DataTypes.DoubleType; } @Override public StructType inputSchema() { return _inputDataType; } @Override public StructType bufferSchema() { return _bufferSchema; } @Override public DataType dataType() { return _returnDataType; } @Override public boolean deterministic() { return true; } @Override public void initialize(MutableAggregationBuffer buffer) { buffer.update(0, null); } @Override public void update(MutableAggregationBuffer buffer, Row input) { if (!input.isNullAt(0)) { if (buffer.isNullAt(0)) { buffer.update(0, input.getDouble(0)); } else { Double newValue = input.getDouble(0) + buffer.getDouble(0); buffer.update(0, newValue); } } } @Override public void merge(MutableAggregationBuffer buffer1, Row buffer2) { if (!buffer2.isNullAt(0)) { if (buffer1.isNullAt(0)) { buffer1.update(0, buffer2.getDouble(0)); } else { Double newValue = buffer2.getDouble(0) + buffer1.getDouble(0); buffer1.update(0, newValue); } } } @Override public Object evaluate(Row buffer) { if (buffer.isNullAt(0)) { return null; } else { return buffer.getDouble(0); } } }

df = sqlCtx.createDataFrame([(1.0, "a"), (2.0, "b"), (3.0, "C")], ["A", "B"]) from pyspark.sql.column import Column, _to_java_column, _to_seq from pyspark.sql import Row def myCol(col): _f = sc._jvm.com.blu.bla.MySum.apply return Column(_f(_to_seq(sc,[col], _to_java_column))) b = df.agg(myCol("A"))

--------------------------------------------------------------------------- TypeError Traceback (most recent call last) <ipython-input-24-f45b2a367e67> in <module>() ----> 1 b = df.agg(myCol("A")) <ipython-input-22-afcb8884e1db> in myCol(col) 4 def myCol(col): 5 _f = sc._jvm.com.blu.bla.MySum.apply ----> 6 return Column(_f(_to_seq(sc,[col], _to_java_column))) TypeError: 'JavaPackage' object is not callable

from py4j.java_gateway import java_import jvm = sc._gateway.jvm java_import(jvm, "com.bla.blu.MySum") def myCol2(col): _f = jvm.bla.blu.MySum.apply return Column(_f(_to_seq(sc,[col], _to_java_column)))

1条回答

网友

1楼 · 发布于 2024-05-23 18:56:21

因此，主要的问题似乎是，如果给定一个相对路径，那么添加jar（--jars，driver-class path，SPARK_CLASSPATH）的所有选项都不能正常工作。这可能是因为ipython中的工作目录有问题，而不是我运行pyspark的地方。

一旦我将其更改为绝对路径，它就可以工作（还没有在集群上测试过，但至少在本地安装上可以工作）。

另外，我不确定这是否也是答案中的一个bug，因为答案使用scala实现，但是在java实现中我需要做的是

def myCol(col):
    _f = sc._jvm.com.blu.bla.MySum().apply
    return Column(_f(_to_seq(sc,[col], _to_java_column)))

这可能不是很有效，因为它每次都会创建f，相反，我应该在函数之外定义f（同样，这需要在集群上进行测试），但至少现在它提供了正确的函数答案

相关问题更多 >

编程相关推荐

热门问题

热门文章