在两个不同形状的数据帧中查找相同的数据

2024-04-27 07:52:09 发布

您现在位置:Python中文网/ 问答频道 /正文

我有两个熊猫数据帧,我想比较。例如

    a    b    c
A   na   na  na
B   na   1    1
C   na   1    na

以及

    a    b    c
A   1    na   1
B   na   na   na
C   na   1    na
D   na   1    na

在本例中,我想找到共享值的索引列坐标

    b
C   1

这可能吗?你知道吗


Tags: 数据na本例
2条回答

如果将keys参数传递给concat,则结果数据帧的列将由跟踪原始数据帧的多索引组成:

In [1]: c=pd.concat([df,df2],axis=1,keys=['df1','df2'])
        c

Out[1]:
   df1           df2
     a    b    c   a   b   c
A   na   na   na   1  na   1
B   na    1    1  na  na  na
C   na    1   na  na   1  na
D  NaN  NaN  NaN  na   1  na

由于底层数组现在具有相同的形状,您现在可以使用==来广播比较,并将其用作返回所有匹配值的掩码:

In [171]: m=c.df1[c.df1==c.df2];m
Out[171]:
    a   b   c
A NaN NaN NaN
B NaN NaN NaN
C NaN   1 NaN
D NaN NaN NaN

如果“na”值实际上是零,可以使用稀疏矩阵将其减少到匹配值的坐标(但会丢失索引和列名):

import scipy.sparse as sp
print(sp.coo_matrix(m.where(m.notnull(),0)))
  (2, 1)    1.0

如果您只需要不同的索引,可以执行:different_indices = [(i,j) for i in range(len((df1 != df2).columns)) for j in range(len(df1 != df2)) if (df1 != df2)[i][j]]

或者,稍微可读一点:

m = (df1 != df2)
different_indices = [(i,j) for i in range(len(m.columns)) for j in range(len(m)) if m[i][j]]

相关问题 更多 >