基于数值计算的低效率多处理

import time import numpy from multiprocessing import Pool def test_func(i): a = numpy.random.normal(size=1000000) b = numpy.random.normal(size=1000000) for i in range(2000): a = a + b b = a - b a = a - b return 1 t1 = time.time() test_func(0) single_time = time.time() - t1 print("Single time:", single_time) n_par = 4 pool = Pool() t1 = time.time() results_async = [ pool.apply_async(test_func, [i]) for i in range(n_par)] results = [r.get() for r in results_async] multicore_time = time.time() - t1 print("Multicore time:", multicore_time) print("Efficiency:", single_time / multicore_time)

3条回答

网友

1楼 · 编辑于 2024-05-29 12:05:33

提高效率的一件简单的事情应该是执行就地数组操作，如果可能，add(a,b,a)将而不是创建一个新数组，而a = a + b将创建一个新数组。如果你的for循环覆盖numpy数组可以重写为向量运算，那也应该更有效。另一种可能是使用numpy.ctypeslib来启用共享内存numpy数组（请参见：https://stackoverflow.com/a/5550156/2379433）。在

网友

2楼 · 编辑于 2024-05-29 12:05:33

我一直在为数学编程数值方法，但也遇到了同样的问题：对于一个被认为是cpu受限的问题，我没有看到任何加速。结果我的问题是达到了CPU缓存内存限制。在

我一直在使用Intel PCM（Intel®Performance Counter Monitor）查看cpu缓存的运行情况（在Linux ksysguard中显示）。我还禁用了2个处理器以获得更清晰的结果（2个处于活动状态）。在

以下是我发现的代码：

def somethinglong(b):
    n=200000
    m=5000
    shared=np.arange(n)
    for i in np.arange(m):
        0.01*shared

pool = mp.Pool(2)
jobs = [() for i in range(8)]
for i in range(5):
    timei = time.time()
    pool.map(somethinglong, jobs , chunksize=1)
    #for job in jobs:
       #somethinglong(job)
print(time.time()-timei)

未达到缓存内存限制的示例：

n=10000
m=100000
顺序执行：15s
2处理器池无缓存内存限制：8s

可以看出，没有缓存未命中（所有缓存命中），因此加速几乎是完美的：15/8。 Memory cache hits 2 pool

达到缓存内存限制的示例：

n=200000
m=5000
顺序执行：14s
2处理器池缓存内存限制：14s

在本例中，我增加了我们操作的向量的大小（并减小了循环大小，以查看合理的执行时间）。在这种情况下，我们可以看到内存已满，进程总是缺少缓存内存。因此没有得到任何加速：15/15。 Memory cache misses 2 pool

观察：将操作分配给变量（aux=0.01*shared）也会使用缓存内存，并且可以通过内存绑定问题（不增加任何向量大小）。在

网友

3楼 · 编辑于 2024-05-29 12:05:33

看起来你使用的测试函数是内存绑定的。这意味着您所看到的运行时间受到计算机将数组从内存拉入缓存的速度的限制。例如，行a = a + b实际上使用了3个数组，a，b和一个将替换a的新数组。这三个数组每个大约8MB（1e6浮点*每个浮点8字节）。我相信不同的i7都有3MB-8MB的共享L3缓存，所以你不能一次把3个数组都放在缓存中。您的cpu添加浮点数的速度快于数组加载到缓存中的速度，因此大部分时间都花在等待从内存中读取数组。因为缓存是在核心之间共享的，所以将工作分散到多个核心上看不到任何加速。在

内存受限的操作对于numpy来说是一个问题，我知道处理它们的唯一方法就是使用cython或numba之类的东西。在

相关问题更多 >

编程相关推荐

热门问题

热门文章