Python:无需输入缺失数据的机器学习

2024-03-29 15:56:49 发布

您现在位置:Python中文网/ 问答频道 /正文

我目前正在处理一个非常特殊的数据集:它有大约1000列和1M行,但是大约90%的值是Nan。 这并不是因为记录不好,而是因为数据代表了对个人的测量,只有大约100个特征与每个个体相关。因此,输入缺失值将完全破坏数据中的信息。在

对于每一个单独的组,每一个列的组合都是非常容易的(因为每一个组都有一个很小的列组合)。在

问题是,scikit learn维度缩减方法无法处理缺少的值。是否有一个包可以这样做,或者我应该使用不同的方法跳过降维? 我


Tags: 数据方法信息记录代表特征scikitnan
1条回答
网友
1楼 · 发布于 2024-03-29 15:56:49

您可以使用渐变增强包来处理丢失的值,并且非常适合您的从那以后您要求的包gbm在R和xgboost在python可以是使用。如果您想知道在xgboost中丢失的值是如何自动处理的请通过this paper的第3.4节来深入了解。在

相关问题 更多 >