对Pandas系列应用多次迭代函数的最佳方法

def numberreplace(x): matches = {'FIRST':'1ST', 'SECOND':'2ND', 'THIRD':'3RD', 'FOURTH':'4TH', 'FIFTH':'5TH', 'SIXTH':'6TH', 'SEVENTH':'7TH', 'EIGTH':'8TH', 'NINTH':'9TH', 'TENTH':'10TH'} for key in matches.keys(): if (' '+key+'' in x) or (x.startswith(key)): x = x.replace(key, matches[key]) return x else: return x data['STREET REFORMAT'] = data['STREET REFORMAT'].apply(numberreplace)

def numberreplace(row,k): matches = {'FIRST':'1ST', 'SECOND':'2ND', 'THIRD':'3RD', 'FOURTH':'4TH', 'FIFTH':'5TH', 'SIXTH':'6TH', 'SEVENTH':'7TH', 'EIGTH':'8TH', 'NINTH':'9TH', 'TENTH':'10TH'} if (' '+k+'' in row) or (row.startswith(k)): row = row.replace(k, matches[k]) return row return row nummatches = ['FIRST','SECOND','THIRD','FOURTH','FIFTH','SIXTH','SEVENTH','EIGHTH','NINTH','TENTH] for match in nummatches: data['STREET REFORMAT'] = data['STREET REFORMAT'].apply(numberreplace(match))

3条回答

网友

1楼 · 编辑于 2024-05-16 05:50:29

重写函数的一种方法是使用正则表达式：

import re
def numberreplace(x):
    matches = {'FIRST':'1ST',
               'SECOND':'2ND',
               'THIRD':'3RD',
               'FOURTH':'4TH',
               'FIFTH':'5TH',
               'SIXTH':'6TH',
               'SEVENTH':'7TH',
               'EIGTH':'8TH',
               'NINTH':'9TH',
               'TENTH':'10TH'}
    for key in matches.keys():
        x = re.sub(re.compile(f"\s*{key}"), matches[key], x)
    return x
data['STREET REFORMAT'] = data['STREET REFORMAT'].apply(numberreplace)

这将用等价的matches替换任何出现的keys，如果找不到匹配项，则返回原始字符串。此解决方案比使用string.replace()方法的解决方案快约2倍，因此它可能对具有许多行和许多替换字符串的大型数据帧有用

网友

2楼 · 编辑于 2024-05-16 05:50:29

代替循环，您可以创建两个条件并使用字典执行mask：

data = pd.DataFrame({"STREET REFORMAT":["FIRST", "THIRD", "IAMNINTH", "EIGTHISME"]})

cond1 = data["STREET REFORMAT"].str.contains("|".join(fr"\b{i}\b" for i in matches))
cond2 = data["STREET REFORMAT"].str.contains("|".join(fr"^{i}" for i in matches))

print (data["STREET REFORMAT"].mask(cond1|cond2, data["STREET REFORMAT"].replace(matches, regex=True)))

0         1ST
1         3RD
2    IAMNINTH
3     8THISME
Name: STREET REFORMAT, dtype: object

网友

3楼 · 编辑于 2024-05-16 05:50:29

不需要在for循环中返回x，只需要在循环结束后返回一次。试试这个：

def numberreplace(x):
    matches = {'FIRST':'1ST',
               'SECOND':'2ND',
               'THIRD':'3RD',
               'FOURTH':'4TH',
               'FIFTH':'5TH',
               'SIXTH':'6TH',
               'SEVENTH':'7TH',
               'EIGTH':'8TH',
               'NINTH':'9TH',
               'TENTH':'10TH'}
    for key in matches.keys():
        if (' '+key+'' in x) or (x.startswith(key)):
            x = x.replace(key, matches[key])
    return x
data['STREET REFORMAT'] = data['STREET REFORMAT'].apply(numberreplace)

相关问题更多 >

编程相关推荐

热门问题

热门文章