比较pandas数据框的行（行有一些重叠的值）

2条回答

网友

1楼 · 编辑于 2024-05-19 01:05:22

这里有一个快速的解决方案，只返回前两行不同的列。

In [13]: df = pd.DataFrame(zip(*[range(5), list('abcde'), list('aaaaa'),
...                              list('bbbbb')]), columns=list('ABCD'))

In [14]: df
Out[14]: 
   A  B  C  D
0  0  a  a  b
1  1  b  a  b
2  2  c  a  b
3  3  d  a  b
4  4  e  a  b

In [15]: df[df.columns[df.iloc[0] != df.iloc[1]]]
Out[15]: 
   A  B
0  0  a
1  1  b
2  2  c
3  3  d
4  4  e

以及在整个框架中查找具有多个唯一值的所有列的解决方案。

In [33]: df[df.columns[df.apply(lambda s: len(s.unique()) > 1)]]
Out[33]: 
   A  B
0  0  a
1  1  b
2  2  c
3  3  d
4  4  e

网友

2楼 · 编辑于 2024-05-19 01:05:22

您实际上不需要索引，只需比较两行，然后使用它来筛选具有列表理解功能的列。

df = pd.DataFrame({"col1": np.ones(10), "col2": np.ones(10), "col3": range(2,12)})
row1 = df.irow(0)
row2 = df.irow(1)
unique_columns = row1 != row2
cols = [colname for colname, unique_column in zip(df.columns, bools) if unique_column]
print cols # ['col3']

如果知道每列的标准值，则可以将所有行转换为布尔值列表，即：

standard_row = np.ones(3)
columns = df.columns
unique_columns = df.apply(lambda x: x != standard_row, axis=1)
unique_columns.apply(lambda x: [col for col, unique_column in zip(columns, x) if unique_column], axis=1)

相关问题更多 >

编程相关推荐

热门问题

热门文章

比较pandas数据框的行（行有一些重叠的值）

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >