数据帧比较具有特定条件的多行

Id Condition var1 var2 var3 1 1 0 1 0 1 3 1 1 0 2 2 0 0 1 2 3 0 0 1 2 1 0 0 1

Id Condition var1 var2 var3 count_false 1 1 false true true 1 1 3 NaN NaN NaN NaN 2 2 true true true 0 2 3 NaN NaN NaN NaN 2 1 true true true 0

2条回答

网友

1楼 · 编辑于 2024-06-08 00:31:56

如果我理解正确，这只是一行一行地计算有多少var1 .. var2与var3不同。没有涉及分组

如果是这种情况（如果不是，很乐意修改），那么：

cols = 'var1 var2 var3'.split()  # can be extended to more variables
df['count_diff'] = (df[cols[:-1]].values != df[cols[-1]].values[:, None]).sum(axis=1)

关于修改后的示例：

df = pd.DataFrame({
    'Id': [1, 1, 2, 2, 2],
    'Condition': [1, 3, 2, 3, 1],
    'var1': [0, 1, 0, 1, 0],
    'var2': [1, 1, 0, 1, 0],
    'var3': [0, 0, 1, 1, 1]})

cols = 'var1 var2 var3'.split()
df['count_diff'] = (df[cols[:-1]].values != df[cols[-1]].values[:, None]).sum(axis=1)
print(df)

# output:
   Id  Condition  var1  var2  var3  count_diff
0   1          1     0     1     0           1
1   1          3     1     1     0           2
2   2          2     0     0     1           2
3   2          3     1     1     1           0
4   2          1     0     0     1           2

网友

2楼 · 编辑于 2024-06-08 00:31:56

#x=x、 loc[i]给出了与所需（条件）行进行比较时每行的真值。代码的其余部分如下所示：

df=pd.DataFrame([[1,1,0,1,0],[1,3,1,1,0],[2,2, 0,0,1],[2,3, 0,0,1],[2,1, 0,0,1]],columns=['ID','Condition','var1','var2','var3'])
def comp(x):
    i=x.index[x['Condition']==3][0]
    #print(x!=x.loc[i])
    truth=(x[['var1','var2','var3']]==x.loc[i,['var1','var2','var3']])
    x=pd.concat([x[['ID','Condition']],truth],axis=1)
    return x
grp=df.groupby('ID').apply(comp)
grp['count_false']=grp[['var1','var2','var3']].apply(lambda x: 3-x.sum(),axis=1)
print(grp)

相关问题更多 >

编程相关推荐

热门问题

热门文章

数据帧比较具有特定条件的多行

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >