我一直在使用Python和Python的Scikit学习机器学习API来研究机器学习KNN(K最近邻)算法。在
我已经使用python和scikitlearn创建了玩具数据集的示例代码,我的KNN运行良好。但正如我们所知,scikitlearnapi是为在单机上工作而构建的,因此一旦我用数百万个数据集替换我的玩具数据,它将降低我的输出性能。在
我已经搜索了许多选项、帮助和代码示例,它们将使用spark和Scikit learn API分发我的机器学习处理并行程序,但没有找到任何合适的解决方案和示例。在
您能告诉我如何使用apachespark和scikitlearnapi的K近邻来实现和提高性能吗?在
提前谢谢!!在
根据讨论,
https://issues.apache.org/jira/browse/SPARK-2336
这里MLLib(apachespark的机器学习库)没有KNN的实现。 你可以试试https://github.com/saurfang/spark-knn
。在相关问题 更多 >
编程相关推荐