当两个数据帧都包含相同的行，但一个数据帧多次包含该行时，查找两个数据帧之间的差异

2条回答

网友

1楼 · 编辑于 2024-04-23 11:10:48

您可以添加新列以捕获重复项：

df1['merge'] = df1.groupby(['0','1','2']).cumcount()

df2['merge'] = df2.groupby(['0','1','2']).cumcount()

pd.concat([df1,df2]).drop_duplicates(keep=False)

之后，可以再次删除添加的列

网友

2楼 · 编辑于 2024-04-23 11:10:48

df1 = pd.DataFrame({
    'name': ('jon', 'jon', 'james'),
    'age': (12, 12, 14),
    'city': ('NewYork', 'NewYork', 'LA'),
})

df2 = pd.DataFrame({
    'name': ('jon', 'james'),
    'age': (12, 14),
    'city': ('NewYork', 'LA'),
})


def unique_col(x):
    # generate record uniqueness criteria after grouping
    return ''.join([x['name'], str(x['age']), x['city'], str(x['counter'])])


# calculation of the same items
df1['counter'] = df1.groupby(['name', 'age', 'city']).cumcount() + 1
df2['counter'] = df2.groupby(['name', 'age', 'city']).cumcount() + 1
# unique key after grouped counters
df1['unique_key'] = df1.apply(unique_col, axis=1)
df2['unique_key'] = df2.apply(unique_col, axis=1)
# select items by unique key
df = df1[~df1['unique_key'].isin(df2['unique_key'].tolist())]
df = df.drop(columns=['counter', 'unique_key'])
print(df)

#  name  age     city
#1  jon   12  NewYork

见评论。希望这有帮助

类似问题

编辑

相关问题更多 >

编程相关推荐

热门问题

热门文章

当两个数据帧都包含相同的行，但一个数据帧多次包含该行时，查找两个数据帧之间的差异

类似问题

编辑

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >