使用最佳匹配查找创建列

import pandas as pd lookup = pd.DataFrame({'Cat': ['A', 'A1', 'A12']} ) print("Lookup table: \n", lookup, "\n") data = pd.DataFrame({'A': ['A', 'B', 'A1', 'A2', 'A12', 'A13', 'A123', 'A132']}) print("Data table: \n", data, '\n---') key_lengths = lookup['Cat'].str.len().drop_duplicates().sort_values().values #key_lengths = [1] for c in key_lengths: data['key_1'] = data['A'].str.slice(0, c) data = data.merge(lookup, left_on=['key_1'], right_on=['Cat'], how='left') idx = data['Cat'].notnull() data.loc[idx, 'Category'] = data.loc[idx, 'Cat'] data.drop('Cat', axis=1, inplace=True) data.drop('key_1', axis=1, inplace=True) print("Result:\n", data)

Lookup table: Cat 0 A 1 A1 2 A12 Data table: A 0 A 1 B 2 A1 3 A2 4 A12 5 A13 6 A123 7 A132 --- Result: A Category 0 A A 1 B NaN 2 A1 A1 3 A2 A 4 A12 A12 5 A13 A1 6 A123 A12 7 A132 A1

1条回答

网友

1楼 · 发布于 2024-05-16 12:30:54

您需要按len从最长到最短对查找值列表进行排序，并将其连接到一个字符串模式'(A12|A1|A)'。最后，在这个模式上使用str.extract

l = ['A', 'A1', 'A12']
l = sorted(l, key=len, reverse=True)

Out[239]: ['A12', 'A1', 'A']

p = '('+'|'.join(l)+')'
data['Category'] = data['A'].str.extract(p)

Out[255]:
      A Category
0     A        A
1     B      NaN
2    A1       A1
3    A2        A
4   A12      A12
5   A13       A1
6  A123      A12
7  A132       A1

相关问题更多 >

编程相关推荐

热门问题

热门文章