Pandas在数据帧上加速缓慢的功能/动作

2024-04-19 02:54:27 发布

您现在位置：Python中文网/ 问答频道 /正文

7164

网友

男 | 程序猿一只，喜欢编程写python代码。

我以前问过一个问题（这里回答正确）：

link

简而言之，我有以下数据帧：

| winner |  loser  | tournament |
+--------+---------+------------+
| John   | Steve   |      A     |
+--------+---------+------------+
| Steve  | John    |      B     |
+--------+---------+------------+
| John   | Michael |      A     |
+--------+---------+------------+
| Steve  | John    |      A     |
+--------+---------+------------+

我想基本上以这个结束：

+--------+---------+------------+-------------+------------+---------------+--------------+--------------+-------------+
| winner |  loser  | tournament | winner wins | loser wins | winner losses | loser losses | winner win % | loser win % |
+--------+---------+------------+-------------+------------+---------------+--------------+--------------+-------------+
|  John  |  Steve  |      A     |      0      |      0     |       0       |       0      | 0/(0+0)      | 0/(0+0)     |
+--------+---------+------------+-------------+------------+---------------+--------------+--------------+-------------+
|  Steve |   John  |      B     |      0      |      0     |       0       |       0      | 0/(0+0)      | 0/(0+0)     |
+--------+---------+------------+-------------+------------+---------------+--------------+--------------+-------------+
|  John  | Michael |      A     |      1      |      0     |       0       |       0      | 1/(1+0)      | 0/(0+0)     |
+--------+---------+------------+-------------+------------+---------------+--------------+--------------+-------------+
|  Steve |   John  |      A     |      0      |      2     |       1       |       0      | 0/(0+1)      | 2/(2+0)     |
+--------+---------+------------+-------------+------------+---------------+--------------+--------------+-------------

提议的解决方案之一是这段代码：

def win_los_percent(sdf):
    sdf['winner wins'] = sdf.groupby('winner').cumcount()
    sdf['winner losses'] = [(sdf.loc[0:i, 'loser'] == sdf.loc[i, 'winner']).sum() for i in sdf.index]
    sdf['loser losses'] = sdf.groupby('loser').cumcount()
    sdf['loser wins'] = [(sdf.loc[0:i, 'winner'] == sdf.loc[i, 'loser']).sum() for i in sdf.index]
    sdf['winner win %'] = sdf['winner wins'] / (sdf['winner wins'] + sdf['winner losses'])
    sdf['loser win %'] = sdf['loser wins'] / (sdf['loser wins'] + sdf['loser losses'])
    return sdf

ddf = df.groupby('tournament').apply(win_los_percent)

这确实给出了正确的计算和答案。但是，我有一个很大的数据帧，运行它需要很长时间（>；10分钟）

有人能提出一个加速这个功能的方法吗？一般来说，我对熊猫和numpy还不熟悉，但我读到的一个解决方案是使用矢量化

我找不到一种方法来矢量化这样的函数。有人能给我指出正确的方向吗？我不介意为中间计算创建更多的列，只要答案是正确的，并且做得相当快

谢谢

Tags：数据解决方案 john win loc steve groupby sdf

0条回答

目前没有回答

Pandas在数据帧上加速缓慢的功能/动作

相关问题更多 >

编程相关推荐

热门问题

热门文章

Pandas在数据帧上加速缓慢的功能/动作

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >