在数据帧中的组内使用np.cumsum

1条回答

网友

1楼 · 发布于 2024-05-15 08:24:01

这需要一些转换。我们首先用df逐行列出每一场比赛的赢家和输家：

df2 = (df.melt(id_vars ='round', value_vars = ['winner_name','loser_name'], var_name = 'win_lose', value_name = 'name')
   .join(
 df.melt(id_vars ='round', value_vars = ['winner_games_played','loser_games_played'], value_name = 'games_won')['games_won'] 
   )
)
df2

我们得到

    round    win_lose     name               games_won
      -       -         -       -
 0  R128     winner_name  Roger Federer             22
 1  R64      winner_name  Roger Federer             21
 2  R32      winner_name  Roger Federer             18
 3  R16      winner_name  Roger Federer             18
 4  QF       winner_name  Grigor Dimitrov           24
 5  R128     loser_name   Sumit Nagal               13
 6  R64      loser_name   Damir Dzumhur             15
 7  R32      loser_name   Daniel Evans               5
 8  R16      loser_name   David Goffin               4
 9  QF       loser_name   Roger Federer             22

现在我们可以按玩家名称计算cumsum：

df2['cum_games'] = df2.groupby('name').cumsum()
df2

所以我们得到了

    round    win_lose     name               games_won    cum_games
      -       -         -       -       -
 0  R128     winner_name  Roger Federer             22           22
 1  R64      winner_name  Roger Federer             21           43
 2  R32      winner_name  Roger Federer             18           61
 3  R16      winner_name  Roger Federer             18           79
 4  QF       winner_name  Grigor Dimitrov           24           24
 5  R128     loser_name   Sumit Nagal               13           13
 6  R64      loser_name   Damir Dzumhur             15           15
 7  R32      loser_name   Daniel Evans               5            5
 8  R16      loser_name   David Goffin               4            4
 9  QF       loser_name   Roger Federer             22          101

也许这对你的目的来说已经足够了。但如果不是，我们通过groupby和unstack将其恢复（或多或少）原始形状

df2.groupby(['round','win_lose'], sort = False).first().unstack(level = 1)

得到

            name                          games_won                 cum_games
win_lose    winner_name     loser_name    winner_name   loser_name  winner_name loser_name
round                       
R128        Roger Federer   Sumit Nagal   22            13          22          13
R64         Roger Federer   Damir Dzumhur 21            15          43          15
R32         Roger Federer   Daniel Evans  18             5          61          5
R16         Roger Federer   David Goffin  18             4          79          4
QF          Grigor Dimitrov Roger Federer 24            22          24          101

除了一些不同的列名外，数据是您想要的，即（‘cum_games’、‘losser_name’）列是每轮失败者赢得的累计游戏数

相关问题更多 >

编程相关推荐

热门问题

热门文章

在数据帧中的组内使用np.cumsum

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >