我正在使用Pandas对Python进行一些数据准备,我正在处理一个包含大约80个变量的缺失值的数据集,我想捕捉丢失的任何模式,以减少缺失值指标的数量,但我很难找到任何好的策略来做到这一点。以下是我的一个例子:
MISS_1 MISS_2 MISS_3 MISS_4 MVP1 MVP2 MVP3 MISS_STR
0 0 1 0 0 0 1 0010
1 0 1 0 1 0 0 1010
1 1 1 1 0 1 0 1111
1 1 1 1 0 1 0 1110
1 0 1 0 1 0 0 1010
0 0 1 0 0 0 1 0010
0 0 1 0 0 0 1 0010
0 0 1 0 0 0 1 0010
1 0 1 0 1 0 0 1010
我尝试的一件事是创建一个字符串变量,将所有缺失的值指示符变量(如“MISS_STR”)串联起来,不幸的是,这个变量中唯一值的数量大约为2000个。另外,我知道我缺少一些有用的模式,因为如果变量“1”和“变量2”之间存在一个模式,变量“3”和“变量”4随机完全缺失,那么将它们作为字符串连接起来将无法捕捉变量“1”和“变量”2之间的模式。有更好的方法吗?在
目前没有回答
相关问题 更多 >
编程相关推荐