Python 中 multiprocessing 模块的并行编程用例

Question

我对Python还是个新手，正在尝试使用Python的多进程模块来写快速的代码。其实我想问的问题很简单：我想了解多进程的不同用法，但我有点困惑，因为我不太确定这些代码是怎么工作的，所以很难做出正确的总结。

import numpy as np
from multiprocessing import Process, Pool

def sqd(x):
  return x*x.T

A = np.random.random((10000, 10000))

if __name__ == '__main__':
   pool = Pool(processes = 4)
   result = pool.apply_async(sqd, [A])
   print result.get(timeout = 1)
   print len(pool.map(sqd, A))

不过，当我尝试进行一些总结，以加速随机矩阵的生成时，结果并不太理想。

import numpy as np
from multiprocessing import Pool

def sqd(d):
  x = np.random.random((d, d))
  return x*x.T

D=100

if __name__ == '__main__':
   pool = Pool(processes = 4)
   result = pool.apply_async(sqd, [D])
   print result.get(timeout = 1)
   print pool.map(sqd, D)

所以输出结果是：

$ python prueba2.py
[[ 0.50770071  0.36508745  0.02447127 ...,  0.12122494  0.72641019
0.68209404]
[ 0.19470934  0.89260293  0.58143287 ...,  0.25042778  0.05046485
0.50856362]
[ 0.67367326  0.76929582  0.4232229  ...,  0.72910757  0.56047056
0.11873254]
..., 
[ 0.91234565  0.20216969  0.2961842  ...,  0.57539533  0.99836323
0.79875158]
[ 0.85407066  0.99905665  0.12948157 ...,  0.58411818  0.06688349
0.71026483]
[ 0.0599241   0.82759421  0.9532148  ...,  0.22463593  0.0859876
0.41072156]]
Traceback (most recent call last):
File "prueba2.py", line 14, in <module>
print pool.map(sqd, D)
File "/home/nacho/anaconda/lib/python2.7/multiprocessing/pool.py", line 251, in map
return self.map_async(func, iterable, chunksize).get()
File "/home/nacho/anaconda/lib/python2.7/multiprocessing/pool.py", line 304, in   map_async
iterable = list(iterable)
TypeError: 'int' object is not iterable

在这种情况下，我知道我给“某个东西”传递了错误的参数，但我不太清楚原因是什么。我想知道在这种特定情况下，以及其他情况下，如何正确地将列表或范围传递给多进程模块。此外，我还想了解如何在执行后释放内存，因为我之前运行时没有出现内存错误……

我想补充一些细节，除了想知道多进程的不同用例外，我问这个问题的动机是因为我拍了一张我的处理器在工作时的照片，发现有一个孤立的进程只在单个处理器上运行，我猜是因为random()的原因，所以我想把整个任务并行化。

希望我没有说得太模糊。谢谢！

性能优化内存管理参数传递多进程任务调度并行编程处理器随机矩阵

Python 中 multiprocessing 模块的并行编程用例

1 个回答

撰写回答