pandas get_close_匹配返回空值

Short Description Category Device is DOWN! Server Down CPU Warning Monitoron XSSXSXSXSXSX.com CPU Utilization CPU Warning Monitoron XSSXSXSXSXSX.com CPU Utilization CPU Warning Monitoron XSSXSXSXSXSX.com CPU Utilization CPU Warning Monitoron XSSXSXSXSXSX.com CPU Utilization Device Performance Alerts was triggered on Physical memory Memory Utilization Device Performance Alerts was triggered on Physical memory Memory Utilization Device Performance Alerts was triggered on Physical memory Memory Utilization Disk Space Is Lowon ;E: Disk Space Utilization Disk Space Is Lowon;C: Disk Space Utilization Network Interface Down Interface Down Active Directory

Category Complexity Server Down Simple Network Interface down Complex Drive Cleanup Windows Medium CPU Utilization Medium Memory Utilization Medium Disk Space Utilization Unix Simple Windows Service Restart Medium UNIX Service Restart Medium Web Tomcat Instance Restart Simple Expected Output Short Description Category Complexity Device is DOWN! Server Down Simple CPU Warning Monitoron XSSXSXSXSXSX.com CPU Utilization Medium CPU Warning Monitoron XSSXSXSXSXSX.com CPU Utilization Medium CPU Warning Monitoron XSSXSXSXSXSX.com CPU Utilization Medium CPU Warning Monitoron XSSXSXSXSXSX.com CPU Utilization Medium Device Performance Alerts was triggered on Physical memory Memory Utilization Medium Device Performance Alerts was triggered on Physical memory Memory Utilization Medium Device Performance Alerts was triggered on Physical memory Memory Utilization Medium Disk Space Is Lowon ;E: Disk Space Utilization Medium Disk Space Is Lowon;C: Disk Space Utilization Medium Network Interface Down Interface Down Complex

import pandas as pd import difflib df1 = pd.read_csv('csv1.csv') df1 = df1.fillna('') df2 = pd.read_csv('reference.csv') my_dict = dict(zip(df2['Category'].values, df2['Complexity'].values)) def match_key(key, default_value): if not key: return default_value for d_key in my_dict.keys(): if key in d_key or d_key in key: return my_dict[d_key] return default_value df1['Complexity'] = df1['Category'].apply(lambda x: difflib.get_close_matches(x, list(my_dict.keys(), n=1))) df1 = df1.explode('Complexity') df1['Complexity'] = df1['Complexity'].map(my_dict) print(df1)

1条回答

网友

1楼 · 发布于 2024-06-16 11:12:38

^{}期望第一个参数是“word”，在您的例子中，x，第二个参数是“可能性”。您已将其作为空字符串提供。这就是为什么你的函数不起作用，它试图匹配一个基本上没有任何内容的单词

my_dict包含作为键的有效选项，因此我们可以将它们用作“可能性”列表

# Use n=1, so only tries to get 1 match
df1['Complexity'] = df1['Category'].apply(lambda x: difflib.get_close_matches(x, list(my_dict.keys()), n=1))
# The output of get_close_matches is a list, we use explode to convert it to a string
df1 = df1.explode('Complexity')
# We can now apply our map, to the *Complexity* column, 
# which is technically the best match *Category*, via get_close_matches
df1['Complexity'] = df1['Complexity'].map(my_dict)

原始错误答案

但是，与其继续使用difflib，我认为您可以改变您的方法。您想将my_dict应用于df1的Category列。这通常被称为应用mappandas已通过^{}准备好此实现

df1['Complexity'] = df1['Category'].map(my_dict)

相关问题更多 >

编程相关推荐

热门问题

热门文章