Pandas-跨多个列删除重复项

import pandas as pd key = pd.DataFrame({'p1':['a','b','a','a','b','d','c'],'p2':['b','a','c','d','c','a','b'],'value':[1,1,2,3,5,3,5]}) df = pd.DataFrame(key,columns=['p1','p2','value']) print frame p1 p2 value 0 a b 1 1 b a 1 2 a c 2 3 a d 3 4 b c 5 5 d a 3 6 c b 5

1条回答

网友

1楼 · 发布于 2024-05-13 12:03:20

对p1和p2值重新排序，使其按规范顺序显示：

mask = df['p1'] < df['p2']
df['first'] = df['p1'].where(mask, df['p2'])
df['second'] = df['p2'].where(mask, df['p1'])

收益率

In [149]: df
Out[149]: 
  p1 p2  value first second
0  a  b      1     a      b
1  b  a      1     a      b
2  a  c      2     a      c
3  a  d      3     a      d
4  b  c      5     b      c
5  d  a      3     a      d
6  c  b      5     b      c

然后可以删除副本：

df = df.drop_duplicates(subset=['value', 'first', 'second'])

import pandas as pd
key = pd.DataFrame({'p1':['a','b','a','a','b','d','c'],'p2':['b','a','c','d','c','a','b'],'value':[1,1,2,3,5,3,5]})
df = pd.DataFrame(key,columns=['p1','p2','value'])

mask = df['p1'] < df['p2']
df['first'] = df['p1'].where(mask, df['p2'])
df['second'] = df['p2'].where(mask, df['p1'])
df = df.drop_duplicates(subset=['value', 'first', 'second'])
df = df[['p1', 'p2', 'value']]

收益率

In [151]: df
Out[151]: 
  p1 p2  value
0  a  b      1
2  a  c      2
3  a  d      3
4  b  c      5

相关问题更多 >

编程相关推荐

热门问题

热门文章

Pandas-跨多个列删除重复项

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >