我正在尝试在一个大数据帧上运行一个dask任务。基本上在数据帧中有两个组,我在它们之间执行模糊匹配。一组是进行匹配的组,另一组是正在匹配的组。匹配组的值为3.0,匹配组的值为1.5或2.0。在
我的代码在大部分情况下都能工作,但是在完成后(需要几个小时),它会给我一个匹配组的关键错误。在
这是我的代码:
for i in [2.0,1.5]:
FuzzyWuzzyResults = emb.map_partitions(
lambda df: df.groupby('phase').get_group(3.0)['drugs'].apply(
fuzzy_match, args=(df.groupby('phase').get_group(i)['drugs'],
fuzz.token_sort_ratio,85)), meta=('results')
).compute()
它适用于大熊猫数据帧的大多数分区,但最后,我得到了几个“keyror3.0”错误,代码在这两个错误之间中断。我该怎么解决这个问题?如果可能的话,我不想使用groupby,而是将og dataframe一分为二,然后以这种方式应用dask作业,但我不确定。在
目前没有回答
相关问题 更多 >
编程相关推荐