2024-04-24 06:10:20 发布
网友
我想在Python中使用随机林来预测客户流失。我只得到了二进制变量(0&1),但大多数变量包含多达60%的缺失值。你知道吗
用-1填充nan就行了。由于随机森林模型是建立在决策树的基础上的,因此该模型能很好地处理这种情况。你知道吗
-1
替换为零不是一个选项,因为您将把实际的0值与丢失的数据混合在一起(请认为,如果您将丢失的数据替换为零,那么模型将不再能够区分哪些值是零,哪些值实际上是丢失的数据)。用一个极值代替是最好的,这样模型就可以利用缺失值这一事实作为额外信息。你知道吗
0
用
-1
填充nan就行了。由于随机森林模型是建立在决策树的基础上的,因此该模型能很好地处理这种情况。你知道吗替换为零不是一个选项,因为您将把实际的
0
值与丢失的数据混合在一起(请认为,如果您将丢失的数据替换为零,那么模型将不再能够区分哪些值是零,哪些值实际上是丢失的数据)。用一个极值代替是最好的,这样模型就可以利用缺失值这一事实作为额外信息。你知道吗相关问题 更多 >
编程相关推荐