PySpark的Python PMML记分库作为SPARKML转换器
pypmml-spark的Python项目详细描述
PYPMML火花
pypmml spark是pyspark的python pmml评分库,它实际上是PMML4S-Spark的python api。
先决条件
- Java=1.8
- python 2.7或>;=3.5
依赖关系
- Pyspark=2.4.0
安装
pip install pypmml-spark
或者从github安装最新版本:
pip install --upgrade git+https://github.com/autodeployai/pypmml-spark.git
在那之后,您需要做更多的工作来在spark中使用它,spark必须知道包中的那些jar pypmml_spark.jars
。有几种方法可以做到这一点:
最简单的方法是运行随
pypmml-spark
提供的脚本link_pmml4s_jars_into_spark.py
:link_pmml4s_jars_into_spark.py
使用这些配置选项正确地指定依赖jar。例如
--jars
,或者spark.executor.extraClassPath
和spark.executor.extraClassPath
。有关这些参数的详细信息,请参见Spark。
用法
从各种源(如文件名、字符串或字节数组)加载模型。
frompypmml_sparkimportScoreModel# The model is from http://dmg.org/pmml/pmml_examples/KNIME_PMML_4.1_Examples/single_iris_dectree.xmlmodel=ScoreModel.fromFile('single_iris_dectree.xml')
调用
transform(dataset)
对输入数据集运行批处理分数。# The data is from http://dmg.org/pmml/pmml_examples/Iris.csvdf=spark.read.csv('Iris.csv',header='true')score_df=model.transform(df)
支架
如果您对pypmml spark库有任何疑问,请在此存储库上打开问题。
对项目的反馈和贡献,无论是哪一种,都是非常受欢迎的。
许可证
pypmml spark在APL 2.0下获得许可。