在多处理映射中访问共享数据帧

import pandas as pd import multiprocessing def process(user): # Locate all the user sessions in the *global* sessions dataframe user_session = sessions.loc[sessions['user_id'] == user] user_session_data = pd.Series() # Make calculations and append to user_session_data return user_session_data # The DataFrame users contains ID, and other info for each user users = pd.read_csv('users.csv') # Each row is the details of one user action. # There is several rows with the same user ID sessions = pd.read_csv('sessions.csv') p = multiprocessing.Pool(4) sessions_id = sessions['user_id'].unique() # I'm passing an integer ID argument to process() function so # there is no copy of the big sessions DataFrame result = p.map(process, sessions_id)

1条回答

网友

1楼 · 发布于 2024-05-19 19:48:15

您可以尝试将流程定义为：

def process(sessions, user):
   ...

把它放在你喜欢的地方。在

然后，当您调用p.map时，您可以使用^{}函数，该函数允许递增地指定参数：

^{pr2}$

这不应该太慢的处理和回答您的问题。在

请注意，您也可以在不使用partial的情况下执行相同的操作，使用：

 p.map(lambda id: process(sessions,id)), sessions_id)

相关问题更多 >

编程相关推荐

热门问题

热门文章