在循环中合并数据帧

def segmentMatch(self, df, df_program): df_result = [] for i, rview in df.iterrows(): df_tmp = [] df1 = [] df_tmp = df_program.ix[(df_program.iD == rview['id']) & (rview['end_time'] >= df_program.START_TIME) & (rview['start_time'] <= df_program.END_TIME)] df1 = rview.to_frame().transpose() tmp = pd.merge(df1, df_tmp,how='left') df_result.append(tmp) result = pd.concat(df_result, axis=0) del(df1, df_tmp, tmp) return result

1条回答

网友

1楼 · 发布于 2024-05-14 07:32:30

一般来说，如果可以避免的话，建议不要在数据帧中循环。与任何merge或join相比，循环速度非常慢。你知道吗

条件连接在熊猫中不是很好。不过，它们在SQL中非常简单。一个小的lifehack可以是pip install pandasql并实际使用SQL。另见here。下面的例子没有经过测试。你知道吗

import pandasql as ps

sqlcode = '''
SELECT *
FROM df
JOIN df ON 1=1 
    AND df_program.iD = df.id 
    AND df.end_time >= df_program.START_TIME
    AND df.start_time <= df_program.END_TIME
'''

new_df = ps.sqldf(sqlcode, locals())

如果您不想使用pandassql，我建议您稍后合并并检查条件。当然，这需要更多的内存，这取决于id中的重叠。同样，没有数据的情况下有点棘手，但是有些东西

full_df = df.join(df, on='id', rsuffix='program_')
filtered_df = df.loc[(df.end_time >= df.program_START_TIME) & (df.start_time <= df.program_END_TIME)

如果它不适合内存，您可以尝试对dask数据帧执行相同的操作。你知道吗

import dask.dataframe as dd

# Read your CSVs in like this
df = dd.read_csv('')
df_program = dd.read_csv('')

# Now make sure your ids are index in both dataframes

# Join and filter like above 
full_df = df.join(df, on='id', rsuffix='program_')
filtered_df = df.loc[(df.end_time >= df.program_START_TIME) & (df.start_time <= df.program_END_TIME)

# Write the result to a CSV or convert to pandas (if it fits your memory anyway):
df = full_df.compute()

相关问题更多 >

编程相关推荐

热门问题

热门文章