PySpark的Python PMML记分库作为SPARKML转换器

pypmml-spark的Python项目详细描述


PYPMML火花

pypmml spark是pyspark的python pmml评分库,它实际上是PMML4S-Spark的python api。

先决条件

  • Java=1.8
  • python 2.7或>;=3.5

依赖关系

  • Pyspark=2.4.0

安装

pip install pypmml-spark

或者从github安装最新版本:

pip install --upgrade git+https://github.com/autodeployai/pypmml-spark.git

在那之后,您需要做更多的工作来在spark中使用它,spark必须知道包中的那些jar pypmml_spark.jars。有几种方法可以做到这一点:

  1. 最简单的方法是运行随pypmml-spark提供的脚本link_pmml4s_jars_into_spark.py

    link_pmml4s_jars_into_spark.py
    
  2. 使用这些配置选项正确地指定依赖jar。例如--jars,或者spark.executor.extraClassPathspark.executor.extraClassPath。有关这些参数的详细信息,请参见Spark

用法

  1. 从各种源(如文件名、字符串或字节数组)加载模型。

    frompypmml_sparkimportScoreModel# The model is from http://dmg.org/pmml/pmml_examples/KNIME_PMML_4.1_Examples/single_iris_dectree.xmlmodel=ScoreModel.fromFile('single_iris_dectree.xml')
  2. 调用transform(dataset)对输入数据集运行批处理分数。

    # The data is from http://dmg.org/pmml/pmml_examples/Iris.csvdf=spark.read.csv('Iris.csv',header='true')score_df=model.transform(df)

支架

如果您对pypmml spark库有任何疑问,请在此存储库上打开问题。

对项目的反馈和贡献,无论是哪一种,都是非常受欢迎的。

许可证

pypmml sparkAPL 2.0下获得许可。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java时间戳检索方法   在Java中遍历所有HTML元素(Selenium测试)   xml将Java类更改为存储过程   java如何使用DateTime对象分割间隔对象   mysql VBA连接良好,但java没有   调试无法在Java中的简单输出程序中获取输入   如何在java中将eclipse控制台输出转换为txt文件   查询的java JPA筛选器属性   java可以使用blockingqueue实现循环缓冲区吗   在@SpringBootTest中使用类时,java@ConfigurationProperties不起作用   java Primefaces inplace editor内部动态加载的p:accordionPanel重新排序ArrayList on edit   java在使用通用图像加载器获取图像时,有没有办法指定额外的头文件?   从包外实例化受保护类的java   java Spring hibernate mysql无法获取数据   java确定给定的时间戳是否在postgresql中的同一天内   java Sonarqube多个项目的历史记录表