随机森林分类器从Python sklearn到SparkML RandonClassifier输入参数映射

2024-04-24 06:49:52 发布

您现在位置:Python中文网/ 问答频道 /正文

我们正在将随机林分类器的skLearn Python代码传输到sparkml。我们在参数映射方面遇到了问题。你知道吗

在skLearn Python代码中,我们使用的估计器是1200,max depth=20,min samples split=5,Random State=2258。你知道吗

我试着转换成SparkML,但是我不确定我映射的参数是否正确。因为SetNumTrees=1200是估计量,但它们不是。有人能帮我把输入映射到SparkML吗。你知道吗

我试着研究https://spark.apache.org/docs/1.6.1/api/java/org/apache/spark/ml/classification/RandomForestClassifier.html#setNumTrees(int)来找出参数映射

初始Python代码:

from sklearn.ensemble import RandomForestClassifier

RandomForestClassifier(n_estimators=1200, max_depth= 20, min_samples_split=5, random_state= 2258)

在ML代码上传输:

from pyspark.ml.classification import RandomForestClassifier
RandomForestClassifier.setMaxDepth(20).setNumTrees(1200).setSeed(2258) 

Tags: 代码org参数apachesklearnminmlmax