Orange3使用Spark ML的一系列小部件
Orange3-spark的Python项目详细描述
Orange数据挖掘套件的一组小部件,用于ApacheSparkMLAPI。
要求
- Python >= 3.4
- Pandas
- Orange 3
请按照说明先安装Orange 3。
主要的橙色项目位于:https://github.com/biolab/orange3 下载位置:http://orange.biolab.si
功能
- A Spark Context.
- A Hive Table.
- A Dataframe from an SQL Query.
- A Dataset Builder, basically a call to VectorAssembler, this is usefull before sending data to Estimators.
- Transformers from the feature module.
- Estimators from classification module.
- Estimators from regression module.
- Estimators from clustering module.
- Evaluation from evaluator module.
- A PySpark script executor + PySpark console.
- DataFrame transformes for Pandas and Orangle Tables
…很快就会有更多!
安装
首先,您需要安装apache spark。请按照以下说明操作: http://spark.apache.org/docs/latest/
然后您可以:
pip install Orange3-spark
或者从orange的options add-on s菜单安装插件。注意,如果 从“加载项”菜单安装,如果不是所有要求,安装可能会失败 是可以满足的。
如果需要ODBC连接,则需要安装pyodbc (如果使用pip构建,则需要sql.h可用。” 这是Linux上的unixodbc dev包)。
如果安装正常,您应该会看到一个橙色的新部分,其中包含来自spark ml api的一系列小部件。