如何处理房地产数据中的缺失值?

2024-05-08 16:25:07 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用属性数据集,并试图处理“土地平方英尺”列中缺少的值。数据集中有将近160000条记录。其中70000条记录丢失了陆地平方英尺。我还有一个关于建筑类型的特征。当建筑类型为CONDO/Walkup时,我在LandSquareFeet中有许多缺少的值。共有47k份公寓类型记录,其中44k份记录的LandsquareFeet值缺失。电梯/步行公寓的大多数物业也是如此。其他类别的建筑中,土地面积平方英尺的记录少之又少。我对如何处理丢失的LandSquareFoots功能感到困惑。如果删除缺少LandSquareFeet的记录,我将丢失几乎一半的数据集。我不知道删除所有记录的功能是否明智。我做了一点MCAR测试,以确定它是否是MCAR,但我得到了一个p值0.000,因此它不是MCAR。是玛尔吗?任何关于如何处理这一问题的线索都会很有帮助


Tags: 数据功能类型记录特征土地公寓建筑
1条回答
网友
1楼 · 发布于 2024-05-08 16:25:07

首先,如果您研究数据中的缺失,这可能是一个好主意,因为解决缺失的工具和方法通常根据这些特征进行分类

  • Missingness模式:如果您只有一列Missingness,那么您的Missingness模式是无响应。它本来可以是单调的多元、一般形式、案例匹配等。。。该模式描述了缺失发生的分布
  • 缺失机制:正如您已经提到的,我们可能有MCAR、MNAR和MAR缺失。我不知道你所说的“MCAR测试”实际上是什么意思,基本上,如果缺失发生与其他特征相关,则会发生MNAR缺失,而MAR是指缺失发生与特征本身的屏蔽值相关。根据您的描述,您的案例显然是MNAR(按房屋类型预测)。但它也可能是MAR,假设由于任意原因,小值通常未被观察或记录

MCAR缺失可以通过插补技术轻松解决,您可以搜索MICE算法,或MissForest,作为MICE的特例

MNAR和MAR丢失机制称为不可忽略机制。有一些技术,如IP加权来处理这种类型。最近还发表了一些论文,将缺失作为因果推理问题处理

坏消息是,在某些特殊情况下,理论上不可能治愈这种缺失。好消息是,已经研究和调查了几个非常复杂的案例,希望您的案例不会比这些更复杂,因此您可以应用现有的方法

我试着不去解决你的问题,而是给你一些基本的关键词,通过这些关键词你可以找到你的材料。如果你愿意花大量时间在这方面,你可以读一本关于这一主题的好书:

  • R.J.Little和D.B.Rubin,《缺失数据的统计分析》,第793卷。威利律师事务所;儿子们,2019年

我最后的想法是:我有一种直觉,你可以通过对所有可能的方法和途径进行IP加权来解决你的问题。查一查

相关问题 更多 >