我正在使用属性数据集,并试图处理“土地平方英尺”列中缺少的值。数据集中有将近160000条记录。其中70000条记录丢失了陆地平方英尺。我还有一个关于建筑类型的特征。当建筑类型为CONDO/Walkup时,我在LandSquareFeet中有许多缺少的值。共有47k份公寓类型记录,其中44k份记录的LandsquareFeet值缺失。电梯/步行公寓的大多数物业也是如此。其他类别的建筑中,土地面积平方英尺的记录少之又少。我对如何处理丢失的LandSquareFoots功能感到困惑。如果删除缺少LandSquareFeet的记录,我将丢失几乎一半的数据集。我不知道删除所有记录的功能是否明智。我做了一点MCAR测试,以确定它是否是MCAR,但我得到了一个p值0.000,因此它不是MCAR。是玛尔吗?任何关于如何处理这一问题的线索都会很有帮助
首先,如果您研究数据中的缺失,这可能是一个好主意,因为解决缺失的工具和方法通常根据这些特征进行分类
MCAR缺失可以通过插补技术轻松解决,您可以搜索MICE算法,或MissForest,作为MICE的特例
MNAR和MAR丢失机制称为不可忽略机制。有一些技术,如IP加权来处理这种类型。最近还发表了一些论文,将缺失作为因果推理问题处理
坏消息是,在某些特殊情况下,理论上不可能治愈这种缺失。好消息是,已经研究和调查了几个非常复杂的案例,希望您的案例不会比这些更复杂,因此您可以应用现有的方法
我试着不去解决你的问题,而是给你一些基本的关键词,通过这些关键词你可以找到你的材料。如果你愿意花大量时间在这方面,你可以读一本关于这一主题的好书:
我最后的想法是:我有一种直觉,你可以通过对所有可能的方法和途径进行IP加权来解决你的问题。查一查
相关问题 更多 >
编程相关推荐