import timeit
prepare = """
with open('bible.txt') as fh:
text = fh.read()
"""
presplit_prepare = """
with open('bible.txt') as fh:
text = fh.read()
lines = text.split('\\n')
"""
longsearch = """
'hello' in text
"""
splitsearch = """
for line in text.split('\\n'):
if 'hello' in line:
break
"""
presplitsearch = """
for line in lines:
if 'hello' in line:
break
"""
benchmark = timeit.Timer(longsearch, prepare)
print "IN on big string takes:", benchmark.timeit(1000), "seconds"
benchmark = timeit.Timer(splitsearch, prepare)
print "IN on splitted string takes:", benchmark.timeit(1000), "seconds"
benchmark = timeit.Timer(presplitsearch, presplit_prepare)
print "IN on pre-splitted string takes:", benchmark.timeit(1000), "seconds"
结果是:
IN on big string takes: 4.27126097679 seconds
IN on splitted string takes: 35.9622690678 seconds
IN on pre-splitted string takes: 11.815297842 seconds
第二个要快得多,下面是一些测量数据:
如果只匹配一次以查看子字符串是否在字符串中,则这两种方法几乎相同,并且将其拆分为单独的逐行搜索将获得更多开销;因此,大字符串搜索要快一些。
如果您必须进行多个匹配,那么我将标记字符串并将它们放入字典或集合并存储在内存中。
可能是当然是第二个,我认为在大字符串中搜索和在小字符串中搜索没有任何区别。由于行较短,您可能会跳过一些字符,但拆分操作也有其成本(搜索\n
,创建n个不同的字符串,创建列表),循环是在python中完成的。string
__contain__
方法是用C实现的,因此速度明显更快。还可以考虑,一旦找到第一个匹配项,第二个方法就会终止,但第一个方法在开始搜索字符串内部之前会将所有字符串分割开来。
这一点通过一个简单的基准得到了迅速的证明:
结果是:
txt文件实际上是圣经,我在这里找到的:http://patriot.net/~bmcgin/kjvpage.html(文本版本)
相关问题 更多 >
编程相关推荐