使用python在csv文件中添加列时删除重复项

2024-06-10 22:15:43 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个CSV文件,如下所示:

|innings |     bowler    |
|--------|---------------|                      
|1       |      P Kumar  |
|1       |      P Kumar  |
|1       |      P Kumar  |
|1       |      P Kumar  |
|1       |      Z Khan   |
|1       |      Z Khan   |
|1       |      Z Khan   |
|2       |      AB Dinda |
|2       |      AB Dinda |
|2       |      I Sharma |

所需输出

|innings |     bowler           |
|--------|----------------------|
|1       |    P Kumar,Z Khan    |
|2       |    AB Dinda,I Sharma |

我应用的代码:

df.groupby(['innings']).bowler.sum().drop_duplicates(subset="bowler",keep='first',inplace=True)

但出于某种原因,它给了我一个错误 TypeError:drop_duplicates()获得意外的关键字参数“subset”

然后我尝试不使用子集: 删除重复项(“保龄球手”,keep='first',inplace=True) 现在我得到了这个错误 TypeError:drop_duplicates()为参数“keep”获取了多个值


Tags: trueab错误dropfirstduplicatessubsetkeep
1条回答
网友
1楼 · 发布于 2024-06-10 22:15:43

首先对两列使用^{},然后聚合join

df = (df.drop_duplicates(subset=["bowler",'innings'])
        .groupby('innings')
        .bowler.agg(','.join)
        .reset_index())

print (df)
   innings             bowler
0        1     P Kumar,Z Khan
1        2  AB Dinda,I Sharma

相关问题 更多 >