如何处理pythonscikit NMF中的缺失值

2024-06-07 06:55:47 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试使用pythonscikit-learn在我的数据集中应用NMF。我的数据集包含0个值和缺少的值。但scikit-learn不允许数据矩阵中存在NaN值。一些帖子说用零来代替缺失的值。在

我的问题是:

  • 如果我用零替换缺失值,算法如何区分缺失值和实际零值?

  • 是否有其他NMF实现可以处理缺失值?

  • 或者如果还有其他的矩阵分解算法可以做缺失值预测吗?


Tags: 数据算法矩阵scikitnanlearn帖子区分
2条回答

SGD将在这里完成这项工作,但scikit learn没有一个可以应用于该任务的工具。写你自己的一个可以完成这项工作,但是由于不能直接并行矩阵分解SGD,因此会非常慢。 检查所描述的分布式SGD算法。它不难实现,而且可以显著加快速度。在

在scikit-learngithub中有一个关于这个的线程和一个版本seams可以使用,但是还没有提交到主代码中。在

https://github.com/scikit-learn/scikit-learn/pull/8474

相关问题 更多 >