Pandas：删除重复项，并在另一列中添加约束

Title URL Price Address Rental_Type 0 House URL $600 Auburn Apartment 1 House URL $600 Auburn Apartment 2 House URL $900 NY Apartment 3 Room! URL $1018 NaN Office 4 Room! URL $910 NaN Office

2条回答

网友

1楼 · 编辑于 2024-05-23 19:34:20

我会逐步建立一个你想放弃的事件列表。在

offices = df['Rental_Type'] == 'Office'
apts = df['Rental_Type'] == 'Apartment'

dup_offices = df[offices].duplicated('Title', keep=False)
dup_apts = df[apts].duplicated('Title', keep='first')

to_drop = pd.Index(dup_apts[dup_apts].index.tolist() + \
                   dup_offices[dup_offices].index.tolist())

df = df.drop(to_drop)

网友

2楼 · 编辑于 2024-05-23 19:34:20

可以使用以下方式删除具有约束的重复项：

  #drop all duplicate with Rental_Type=='Office'
  df1 = df[(df.Rental_Type=='Office')].drop_duplicates(['Title'], keep=False)

  #Capture the duplicate row with Rental_Type=='Apartment'
  df2 = df[(df.Rental_Type=='Apartment')].duplicated(['Title'], keep = 'last')
  df3=df[(df.Rental_Type=='Apartment')][df2.values][1:]

  #Put them together
  df_final = pd.concat([df1,df3])


In [1]: df_final
Out[1]:
    Title   URL Price   Address Rental_Type
1   House   URL 600     Auburn  Apartment

相关问题更多 >

编程相关推荐

热门问题

热门文章

Pandas：删除重复项，并在另一列中添加约束

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >