聚类缺失值指示符值以捕获缺失值模式

2024-05-13 14:42:09 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用Pandas对Python进行一些数据准备,我正在处理一个包含大约80个变量的缺失值的数据集,我想捕捉丢失的任何模式,以减少缺失值指标的数量,但我很难找到任何好的策略来做到这一点。以下是我的一个例子:

MISS_1 MISS_2 MISS_3 MISS_4 MVP1 MVP2 MVP3 MISS_STR
     0      0      1      0    0    0    1     0010
     1      0      1      0    1    0    0     1010
     1      1      1      1    0    1    0     1111
     1      1      1      1    0    1    0     1110
     1      0      1      0    1    0    0     1010
     0      0      1      0    0    0    1     0010
     0      0      1      0    0    0    1     0010
     0      0      1      0    0    0    1     0010
     1      0      1      0    1    0    0     1010

我尝试的一件事是创建一个字符串变量,将所有缺失的值指示符变量(如“MISS_STR”)串联起来,不幸的是,这个变量中唯一值的数量大约为2000个。另外,我知道我缺少一些有用的模式,因为如果变量“1”和“变量2”之间存在一个模式,变量“3”和“变量”4随机完全缺失,那么将它们作为字符串连接起来将无法捕捉变量“1”和“变量”2之间的模式。有更好的方法吗?在


Tags: 数据方法字符串pandas数量模式指标策略