您会删除集群项目中缺少值处理的特性或值吗?

2024-03-28 20:48:58 发布

您现在位置:Python中文网/ 问答频道 /正文

假设您有100多列,大约90%的功能缺少大约20%的值。整个数据集大约有10000多行。您会用最常见的值来插补Category的缺失值,还是只是简单地删除缺失值?我发现插补后的PCA图是两条垂直线,可能是因为插补。删除这些特征后,绘图似乎正常(四处散布)。你有什么建议吗?谢谢


1条回答
网友
1楼 · 发布于 2024-03-28 20:48:58

这实际上取决于数据,一个很好的解决方案是用每个特征的平均值(或中位数)填充缺失的值。如果您的数据被清除了明显的异常值并进行了缩放,则不会对它们产生太大影响

另一个可能的解决方案是确定每个元素的k个最近邻,并使用它们的平均值或中值来填充行中缺少的列,这一结果很有希望。请记住,维度诅咒将对该方法产生负面影响

相关问题 更多 >