使用dask数据帧创建新列的更快方法

2024-06-09 03:28:00 发布

男 | 程序猿一只，喜欢编程写python代码。

我有一个函数，它使用fuzzyfuzzy从两列psn_name_x和psn_name_y中查找两个名称之间的Levenshtein距离比：

def fuzzMatcher(x, y):
    return fuzz.token_set_ratio(x, y)

然后，我在dask数据帧上创建一个新列：

data["fuzz"] = data.map_partitions(lambda df: df.apply(lambda row: fuzzMatcher(row.psn_name_x, row.psn_name_y), axis = 1)).compute(scheduler = "processes")

生成的新列只是一个介于0和100之间的整数

这工作得很好，但这个数据集是巨大的，计算时间非常缓慢。有没有更好的方法来应用一个函数，该函数从两列中获取值，并在dask数据帧上向新列返回一个新值

Tags：数据 lambda 函数 name 名称距离 df data

0条回答

目前没有回答

编程相关推荐

java我想让球知道它们在JPanel中的一个矩形内
java从TabLayout添加和删除选项卡
java Mockito拒绝抛出选中的异常
java用户输入总分、平均分、最低分和最高分（条件控制结构）
java javax ConstraintViolation：如何识别集合中违反的元素？
java如何使用ApachePOI在不同的行中创建多个自动过滤器
java在使用ifstatement和String时遇到问题。代替
java AWS describeLogGroups（）不返回日志组
java使用浏览器小程序从IP地址/端口检索数据
java更新ArrayList中匹配字母的所有实例

使用dask数据帧创建新列的更快方法

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用dask数据帧创建新列的更快方法

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >