如何使用字典映射在Python中标准化名称？

2条回答

网友

1楼 · 编辑于 2024-05-20 01:53:07

如果确实无法验证用户输入前端，则可以轻松使用字典的get方法，提供一个默认值作为回退：

def fix(user_input):
    mapping = {"Virginia": "VA", "Maryland": "MD",
               "West Virginia": "WV", "Pennsylvania": "PA"}

    return mapping.get(user_input, user_input)

print(fix("Virginia"))  # >> VA
print(fix("VA"))  # >> VA

网友

2楼 · 编辑于 2024-05-20 01:53:07

假设您的数据帧如下所示：

>>> import pandas as pd                                                         
>>> survey = pd.DataFrame( 
...     ["Virginia", "VA", "VA", "Penns.", "PA", "Pennsylvania"], 
...     columns=["State"] 
... )                                                                           
>>> survey                                                                      
          State
0      Virginia
1            VA
2            VA
3        Penns.
4            PA
5  Pennsylvania

您构造的初始映射可以是较长形式名称到规范缩写的映射。你知道吗

>>> to_abbrev = { 
...     "Virginia": "VA", 
...     "Pennsylvania": "PA", 
...     "Penns.": "PA", 
... }

然后，用缩写本身更新：

>>> to_abbrev.update({v: v for v in to_abbrev.values()})          
>>> to_abbrev                                                                                                                                                                                                                                                
{'Virginia': 'VA',
 'Pennsylvania': 'PA',
 'Penns.': 'PA',
 'VA': 'VA',
 'PA': 'PA'}

最后，调用.map()得到结果：

>>> survey["State"].map(to_abbrev)                                                                                                                                                                                                                           
0    VA
1    VA
2    VA
3    PA
4    PA
5    PA
Name: State, dtype: object

值得说明的是：您的to_abbrev必须是一个完整的映射；否则，缺少的值将是NaN：

>>> survey.append({"State": "Wisconsin"}, ignore_index=True)["State"].map(to_abbrev)                                                                                                                                                                         
0     VA
1     VA
2     VA
3     PA
4     PA
5     PA
6    NaN
Name: State, dtype: object

正如评论中所建议的，毫无疑问，有一些库是专门为您构建更完整的映射的，考虑到常见的拼写错误和小的语法差异，例如“D.C.”和“DC.”

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何使用字典映射在Python中标准化名称？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >