Scikitlearn KNN(K个最近邻)使用Apache Sp并行化

2024-05-16 21:08:29 发布

您现在位置:Python中文网/ 问答频道 /正文

我一直在使用Python和Python的Scikit学习机器学习API来研究机器学习KNN(K最近邻)算法。在

我已经使用python和scikitlearn创建了玩具数据集的示例代码,我的KNN运行良好。但正如我们所知,scikitlearnapi是为在单机上工作而构建的,因此一旦我用数百万个数据集替换我的玩具数据,它将降低我的输出性能。在

我已经搜索了许多选项、帮助和代码示例,它们将使用spark和Scikit learn API分发我的机器学习处理并行程序,但没有找到任何合适的解决方案和示例。在

您能告诉我如何使用apachespark和scikitlearnapi的K近邻来实现和提高性能吗?在

提前谢谢!!在


Tags: 数据代码算法机器api示例选项scikit