筛选跨列具有重叠值的数据帧行

pd.DataFrame([ {'email':'de@l', 'id1':'Z7', 'id2':'Q4', 'id3':'Q4'}, {'email':'sco@g', 'id1':'Q4', 'id2':'Z7', 'id3':'Q4'}, {'email':'alpha@n', 'id1':'Q4', 'id2':'Z7', 'id3':'Z7'}, {'email':'numer@o', 'id1':'Z7', 'id2':'Z7', 'id3':'Q4'}, {'email':'endo@c', 'id1':'D8', 'id2':'D8', 'id3':'L1'}, {'email':'chrono@k','id1':'L1', 'id2':'L1', 'id3':'D8'}, ])

2条回答

网友

1楼 · 编辑于 2024-05-12 20:05:04

您可以将^{}与^{}一起使用，然后我们创建一个布尔索引

arr = df.filter(like='id').to_numpy().astype(str)
arr = np.apply_along_axis(np.unique, 1, arr)
m = (arr[1:]!=arr[:-1]).all(axis=1)
m = np.r_[False, m]

df[m]

    email id1 id2 id3
0    de@l  Z7  Q4  Q4
4  endo@c  D8  D8  L1

网友

2楼 · 编辑于 2024-05-12 20:05:04

想法是将具有id值的列转换为称为frozensets的散列集，这样就可以通过^{}中带有反转掩码的^{}进行筛选：

df = df[~df.filter(like='id').apply(frozenset, axis=1).duplicated()]
#for test all columns without first
#df = df[~df.iloc[:, 1:].apply(frozenset, axis=1).duplicated()]
print (df)
    email id1 id2 id3
0    de@l  Z7  Q4  Q4
4  endo@c  D8  D8  L1

列表理解的备选方案：

L = [frozenset(x) for x in df.filter(like='id').to_numpy()]
df = df[~pd.Series(L, index=df.index).duplicated()]

相关问题更多 >

编程相关推荐

热门问题

热门文章