在该算法上实现多核线程
我正在寻找一种方法,让下面的算法可以在多个核心上运行,但我还没有找到好的办法。我觉得在多个进程之间使用一个锁定的迭代器并不是最有效的方式。
def sortCharset(set):
_set = ""
for c in set:
if c not in _set:
_set += c
set = _set
del _set
set = list(set)
set.sort()
return "".join(set)
def stringForInt(num, set, length):
setLen = len(set)
string = ""
string += set[num % setLen]
for n in xrange(1,length):
num //= setLen
string += set[num % setLen]
return string
def bruteforce(set, length, raw = False):
if raw is False:
set = sortCharset(set)
for n in xrange(len(set) ** length):
yield stringForInt(n, set, length)
简单解释一下:这段代码是用来从一组字符中创建所有可能的组合,也就是用来破解密码的。(当然我并不是这个意思,只是在做一些Python的练习。;-)
有什么好的方法可以让这个算法在多个核心上运行呢?
1 个回答
2
这个问题其实不是关于命名风格或者如何从字符串中获取一个排序好的字符集合。
你可能想了解一下 multiprocessing 这个模块。我对多核并行处理还不太熟悉,但我搞定了一些东西:
import multiprocessing, itertools
def stringForInt(args):
num, charset, length = args ## hack hack hack
setlen = len(charset)
s = []
s.append(charset[num % setlen])
for n in xrange(1, length):
num //= setlen
s.append(charset[num % setlen])
return ''.join(s)
def bruteforce(charset, length, mapper, raw=False):
if not raw:
charset = sorted(set(charset))
return mapper(stringForInt, ((n,charset,length) for n in xrange(len(charset)**length)))
if __name__ == '__main__':
import time, sys
if len(sys.argv) == 1 or sys.argv[1] == 'map':
mapper = map
else:
p = multiprocessing.Pool()
pfunc = {'pmap':p.map,
'imap':p.imap,
'imapu':p.imap_unordered}[sys.argv[1]]
mapper = lambda f, i: pfunc(f, i, chunksize=5)
o = bruteforce('abcdefghijk',6,mapper)
if not isinstance(o, list):
list(o)
这里的关键是,你需要使用可序列化的对象来处理 multiprocessing
中的函数,而且只有在最外层定义的函数才能被序列化。(还有其他方法可以解决这个问题,比如使用 multiprocessing.Value
或 multiprocessing.Manager
,但现在讲这些不太必要。)
以下是不同运行的输出结果:
$ for x in map pmap imap imapu ; do time python mp.py $x; done
real 0m9.351s
user 0m9.253s
sys 0m0.096s
real 0m10.523s
user 0m20.753s
sys 0m0.176s
real 0m4.081s
user 0m13.797s
sys 0m0.276s
real 0m4.215s
user 0m14.013s
sys 0m0.236s