映射大DF

import pandas as pd player_df = pd.read_csv('Sample Data') # replace with sample data file no_dups = player_df.drop_duplicates() no_dups.loc[:, 'USG'] = pd.Series(dtype=float) no_dups = no_dups[no_dups.Minutes != 0] grouped_teams = no_dups.groupby(['Date', 'Team']).agg({'Minutes':['sum'], 'FGA': ['sum'], 'FTA': ['sum'], 'TO': ['sum'] }) grouped_teams.columns = ['Minutes', 'FGA', 'FTA', 'TO'] grouped_teams = grouped_teams.reset_index() for index, row in no_dups.iterrows(): for i, r in grouped_teams.iterrows(): if no_dups.at[index, 'Team'] == grouped_teams.at[i, 'Team'] and no_dups.at[index, 'Date'] == grouped_teams.at[i, 'Date']: no_dups.at[index, 'USG'] = (100*((no_dups.at[index, 'FGA'] + 0.44 * no_dups.at[index, 'FTA'] + no_dups.at[index, 'TO'])*(grouped_teams.at[i, 'Minutes']/5))) / (no_dups.at[index, 'Minutes']*(grouped_teams.at[i, 'FGA']+0.44*grouped_teams.at[i, 'FTA']+grouped_teams.at[i, 'TO'])) final_df = no_dups[['Date', 'Player', 'Team', 'Position', 'Salary', 'Minutes', 'FPTS', 'USG']] print(final_df)

1条回答

网友

1楼 · 发布于 2024-05-29 10:53:21

它需要永远，因为您正在逐行迭代。我似乎找不到这篇文章，但我记得在某个地方读过一篇文章，在比较遍历数据帧的方法时，itertuples比iterrows快10倍左右，zip快100倍左右。但是，有时我想从iterrows切换到itertuples时遇到的问题是，您会丢失作为索引的列名，因此您需要特别确保使用itertuples时列的顺序（尽管现在我正在考虑，我认为有一种方法可以动态跟踪）

但最快的方法是对所有行进行计算，而不是逐个进行计算

我要做的是，在第二个数据框中，计算团队总数。因此，在['Date','Team']上进行左连接/合并，以匹配no_dups数据帧上的总数。然后，您可以使用整行列来计算它，而不是一次只计算一行。我还稍微更改了列的名称，好像您合并了，并且有同名的列，它将添加一个后缀_x和_y。有办法解决这个问题，但我想直接改变名字。我还稍微改变了列的命名方式，通过不硬编码（这意味着列必须按顺序排列），它可以以更健壮的方式处理名称

你还有另一个问题。日期列有不同的格式（即'1/1/18'和'2018-01-01'），因此在您的groupby中，这些格式不会聚合在一起。因此，我们需要首先处理这一问题。它似乎仅适用于Brooklyn网络，但在您的完整数据集中可能会更多

代码：

import pandas as pd

player_df = pd.read_csv('Sample Data.csv') # replace with sample data file

# Get the date column to be the same
player_df['Date'] = pd.to_datetime(player_df['Date'])

no_dups = player_df.drop_duplicates()
no_dups = no_dups[no_dups.Minutes != 0]

grouped_teams = no_dups.groupby(['Date', 'Team']).agg({'Minutes':['sum'], 'FGA': ['sum'], 'FTA': ['sum'], 'TO': ['sum'] })
grouped_teams.columns = ['tot_' + col[0] for col in grouped_teams.columns]
grouped_teams = grouped_teams.reset_index()


# Merge grouped_teams to no_dups on Team and Date
no_dups = no_dups.merge(grouped_teams, how='left', on=['Team','Date'])

# Do the calculations
no_dups['USG'] = (100*((no_dups['FGA'] + 0.44 * no_dups['FTA'] + no_dups['TO'])*(no_dups['tot_Minutes']/5))) / (no_dups['Minutes']*(no_dups['tot_FGA']+0.44*no_dups['tot_FTA']+no_dups['tot_TO']))
    
final_df = no_dups[['Date', 'Player', 'Team', 'Position', 'Salary',  'Minutes', 'FPTS', 'USG']]

print(final_df)

时间：

我对每种方式都进行了计时（不包括在csv中读取的时间）

在样本数据（4493行）上，iError花费了大约3 minutes 46.66 seconds。
我的代码花了大约0.0568 seconds，所以快了将近4000倍

相关问题更多 >

编程相关推荐

热门问题

热门文章

映射大DF

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >