Scikitlearn KNN（K个最近邻）使用Apache Sp并行化

2024-05-16 21:08:29 发布

男 | 程序猿一只，喜欢编程写python代码。

我一直在使用Python和Python的Scikit学习机器学习API来研究机器学习KNN（K最近邻）算法。在

我已经使用python和scikitlearn创建了玩具数据集的示例代码，我的KNN运行良好。但正如我们所知，scikitlearnapi是为在单机上工作而构建的，因此一旦我用数百万个数据集替换我的玩具数据，它将降低我的输出性能。在

我已经搜索了许多选项、帮助和代码示例，它们将使用spark和Scikit learn API分发我的机器学习处理并行程序，但没有找到任何合适的解决方案和示例。在

您能告诉我如何使用apachespark和scikitlearnapi的K近邻来实现和提高性能吗？在

提前谢谢！！在

Tags：数据代码算法机器 api 示例选项 scikit

1条回答

网友

1楼 · 发布于 2024-05-16 21:08:29

根据讨论，https://issues.apache.org/jira/browse/SPARK-2336这里MLLib（apachespark的机器学习库）没有KNN的实现。你可以试试https://github.com/saurfang/spark-knn。在