如何通过pandas或spark dataframe删除所有行中具有相同值的列？

index id name value value2 value3 data1 val5 0 345 name1 1 99 23 3 66 1 12 name2 1 99 23 2 66 5 2 name6 1 99 23 7 66

2条回答

网友

1楼 · 编辑于 2024-04-25 15:29:14

另一种解决方案是^{}来自未比较的列，然后将^{}由^{}选择的第一行与所有DataFrame和最后使用的^{}进行比较：

df1 = df.set_index(['index','id','name',])
print (~df1.eq(df1.iloc[0]).all())
value     False
value2    False
value3    False
data1      True
val5      False
dtype: bool

print (df1.ix[:, (~df1.eq(df1.iloc[0]).all())].reset_index())
   index   id   name  data1
0      0  345  name1      3
1      1   12  name2      2
2      5    2  name6      7

网友

2楼 · 编辑于 2024-04-25 15:29:14

我们可以做的是applynunique计算df中唯一值的数目并删除只有一个唯一值的列：

In [285]:
nunique = df.apply(pd.Series.nunique)
cols_to_drop = nunique[nunique == 1].index
df.drop(cols_to_drop, axis=1)

Out[285]:
   index   id   name  data1
0      0  345  name1      3
1      1   12  name2      2
2      5    2  name6      7

另一种方法是只diff数值列，取abs值和sums它们：

In [298]:
cols = df.select_dtypes([np.number]).columns
diff = df[cols].diff().abs().sum()
df.drop(diff[diff== 0].index, axis=1)

Out[298]:
   index   id   name  data1
0      0  345  name1      3
1      1   12  name2      2
2      5    2  name6      7

另一种方法是使用这样的属性：对于具有相同值的列，标准偏差将为零：

In [300]:
cols = df.select_dtypes([np.number]).columns
std = df[cols].std()
cols_to_drop = std[std==0].index
df.drop(cols_to_drop, axis=1)

Out[300]:
   index   id   name  data1
0      0  345  name1      3
1      1   12  name2      2
2      5    2  name6      7

实际上，上述操作可以在一行中完成：

In [306]:
df.drop(df.std()[(df.std() == 0)].index, axis=1)

Out[306]:
   index   id   name  data1
0      0  345  name1      3
1      1   12  name2      2
2      5    2  name6      7

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何通过pandas或spark dataframe删除所有行中具有相同值的列？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >