Python Pandas - Fuzzy duplicates matching - 问答

make model 0 allard K1 1 alllard J2 2 alpine renault A110 3 alpine renualt A310 4 amc (rambler American 5 amc (rambler) Marlin 6 aries 1907 7 ariès 1932 8 austin healey 3000 9 austin-healey Sprite 10 benjamin et benova Type B3 11 benjamin/benova Type P2 12 benjmin/benova Type P3

1条回答

网友

1楼 · 发布于 2024-04-25 21:33:31

使用^{}，并假设make列的模糊性应该匹配，您可以尝试：

import pandas as pd
from itertools import product
from fuzzywuzzy.fuzz import ratio

df = pd.read_csv('data.csv')
keys = list(set(df['make']))
ratios = pd.DataFrame([{'k1': k1, 'k2': k2, 'ratio': ratio(k1, k2)} for k1, k2 in product(keys, keys) if k1 != k2])

def find_closest(make):
    return df[df['make'] == ratios.loc[ratios[ratios['k1'] == make]['ratio'].argmax(), 'k2']].index.values[0]

df['closest_index'] = df['make'].apply(find_closest)

print(df)

数据输出：

^{pr2}$

编程相关推荐

java我的应用程序崩溃，试图添加菜单
java如何创建TBase类实例
如何在java小程序中使用JMF功能？
数据结构Java中是否有用于双循环链表的内置接口？
java在使用JAXB读取XML文件时如何使用继承
在Java中获取和存储子进程的输出
从Java执行Windows命令
HQL中带日期的java限制
安卓如何使用GSON将单个JSON字段映射到多个JAVA字段？
std:random shuffle（）和Collections之间的java差异。洗牌

Python Pandas - Fuzzy duplicates matching

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python Pandas - Fuzzy duplicates matching

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >