用于搜索和替换大字符串的最快Python方法

import re def findall_replace(text, reg, rep): for match in reg.findall(text): output = text.replace(match, rep) return output def finditer_replace(text, reg, rep): cursor_pos = 0 output = '' for match in reg.finditer(text): output += "".join([text[cursor_pos:match.start(1)], rep]) cursor_pos = match.end(1) output += "".join([text[cursor_pos:]]) return output reg = re.compile(r'(dog)') rep = 'cat' text = 'dog cat dog cat dog cat' finditer_replace(text, reg, rep) findall_replace(text, reg, rep)

3条回答

网友

1楼 · 编辑于 2024-05-13 20:40:59

顺便说一下，使用findall_replace（）的代码是不安全的，它可以返回未等待的结果：

ch = 'sea sun ABC-ABC-DEF bling ranch micABC-DEF fish'

import re

def findall_replace(text, reg, rep):
    for gr in reg.findall(text):
        text = text.replace(gr, rep)
        print 'group==',gr
        print 'text==',text
    return '\nresult is : '+text

pat = re.compile('ABC-DE')
rep = 'DEFINITION'

print 'ch==',ch
print
print findall_replace(ch, pat, rep)

显示

ch== sea sun ABC-ABC-DEF bling ranch micABC-DEF fish

group== ABC-DE
text== sea sun ABC-DEFINITIONF bling ranch micDEFINITIONF fish
group== ABC-DE
text== sea sun DEFINITIONFINITIONF bling ranch micDEFINITIONF fish

result is : sea sun DEFINITIONFINITIONF bling ranch micDEFINITIONF fish

网友

2楼 · 编辑于 2024-05-13 20:40:59

你可以，我认为你必须这样做，因为它确实是一个优化函数，使用

re.sub(pattern, repl, string[, count, flags])

findall_replace（）函数之所以很长，是因为在每次匹配时，都会创建一个新的字符串对象，您将通过执行以下代码看到：

ch = '''qskfg qmohb561687ipuygvnjoihi2576871987uuiazpoieiohoihnoipoioh
opuihbavarfgvipauhbi277auhpuitchpanbiuhbvtaoi541987ujptoihbepoihvpoezi 
abtvar473727tta aat tvatbvatzeouithvbop772iezubiuvpzhbepuv454524522ueh'''

import re

def findall_replace(text, reg, rep):
    for match in reg.findall(text):
        text = text.replace(match, rep)
        print id(text)
    return text

pat = re.compile('\d+')
rep = 'AAAAAAA'

print id(ch)
print
print findall_replace(ch, pat, rep)

注意，在这段代码中，我将output = text.replace(match, rep)替换为text = text.replace(match, rep)，否则只替换最后一个出现的。

finditer_replace（）的长度与findall_replace（）的长度相同：重复创建字符串对象。但是前者使用迭代器re.finditer（），而后者则在list对象之前构造，因此它更长。这就是迭代器和非迭代器的区别。

网友

3楼 · 编辑于 2024-05-13 20:40:59

标准方法是使用内置的

re.sub(reg, rep, text)

顺便说一下，两个版本之间性能差异的原因是，第一个版本中的每个替换都会导致重新复制整个字符串。拷贝很快，但是当你一次拷贝10 MB时，足够的拷贝会变慢。

相关问题更多 >

编程相关推荐

热门问题

热门文章