如何处理随机林的二元变量(0&1)中的nan?

2022-09-28 21:57:07 发布

您现在位置:Python中文网/ 问答频道 /正文

我想在Python中使用随机林来预测客户流失。我只得到了二进制变量(0&1),但大多数变量包含多达60%的缺失值。你知道吗


Tags: 客户二进制
1条回答
网友
1楼 ·

-1填充nan就行了。由于随机森林模型是建立在决策树的基础上的,因此该模型能很好地处理这种情况。你知道吗

替换为零不是一个选项,因为您将把实际的0值与丢失的数据混合在一起(请认为,如果您将丢失的数据替换为零,那么模型将不再能够区分哪些值是零,哪些值实际上是丢失的数据)。用一个极值代替是最好的,这样模型就可以利用缺失值这一事实作为额外信息。你知道吗

热门问题