使用多个数据映射规则在多个数据集中映射数据的更好方法

import pandas as pd final_NN = pd.DataFrame({ "number": [123, 456, "Unknown", "Unknown", "Unknown", "Unknown", "Unknown", "Unknown", "Unknown", "Unknown"], "ID": ["", "", "", "", "", "", "", "", 799, 813], "code": ["", "", "AA", "AA", "BB", "BB", "BB", "CC", "", ""] }) ppt_code = pd.DataFrame({ "code": ["AA", "AA", "BB", "BB", "CC"], "number": [11, 11, 22, 22, 33] }) herd_id = pd.DataFrame({ "ID": [799, 813], "number": [678, 789] }) new_column = pd.Series([]) for i in range(len(final_NN)): if final_NN["number"][i] != "" and final_NN["number"][i] != "Unknown": new_column[i] = final_NN['number'][i] elif final_NN["code"][i] != "": for p in range(len(ppt_code)): if ppt_code["code"][p] == final_NN["code"][i]: new_column[i] = ppt_code["number"][p] elif final_NN["ID"][i] != "": for h in range(len(herd_id)): if herd_id["ID"][h] == final_NN["ID"][i]: new_column[i] = herd_id["number"][h] else: new_column[i] = "" final_NN.insert(3, "MapValue", new_column) print(final_NN)

number ID code 0 123 1 456 2 Unknown AA 3 Unknown AA 4 Unknown BB 5 Unknown BB 6 Unknown BB 7 Unknown CC 8 Unknown 799 9 Unknown 813

number ID code MapValue 0 123 123 1 456 456 2 Unknown AA 11 3 Unknown AA 11 4 Unknown BB 22 5 Unknown BB 22 6 Unknown BB 22 7 Unknown CC 33 8 Unknown 799 678 9 Unknown 813 789

2条回答

网友

1楼 · 编辑于 2024-05-16 04:17:55

我们只是简单地组合了三个数据帧

原始DF删除“未知”行
“ppt_代码”更改列名
“pandas.concat（）”将它们连接在一起

final_NN['number'].replace('Unknown', np.NaN, inplace=True)
final_NN.dropna(inplace=True, how='any')
ppt_code.rename(columns={'code':'ID'}, inplace=True)
new_df = pd.concat([final_NN, ppt_code, herd_id], axis=0, ignore_index=True)

new_df
    number  ID  code
0   123.0       
1   456.0       
2   11.0    AA  NaN
3   11.0    AA  NaN
4   22.0    BB  NaN
5   22.0    BB  NaN
6   33.0    CC  NaN
7   678.0   799 NaN
8   789.0   813 NaN

网友

2楼 · 编辑于 2024-05-16 04:17:55

首先从ppt_code和herd_id数据帧创建一个映射系列，然后使用^{}创建一个新列MapNumber，方法是将number列中的Unknown值替换为np.NaN，然后根据规则使用两个连续的^{}和^{}来填充MapNumber列中缺少的值：

ppt_map = ppt_code.drop_duplicates(subset=['code']).set_index('code')['number']
hrd_map = herd_id.drop_duplicates(subset=['ID']).set_index('ID')['number']

final_NN['MapNumber'] = final_NN['number'].replace({'Unknown': np.nan})
final_NN['MapNumber'] = (
    final_NN['MapNumber']
    .fillna(final_NN['code'].map(ppt_map))
    .fillna(final_NN['ID'].map(hrd_map))
)

结果:

# print(final_NN)

    number   ID code  MapNumber
0      123                123.0
1      456                456.0
2  Unknown        AA       11.0
3  Unknown        AA       11.0
4  Unknown        BB       22.0
5  Unknown        BB       22.0
6  Unknown        BB       22.0
7  Unknown        CC       33.0
8  Unknown  799           678.0
9  Unknown  813           789.0

相关问题更多 >

编程相关推荐

热门问题

热门文章