多处理中的共享内存对象

3条回答

网友

1楼 · 编辑于 2024-04-27 00:31:52

这是Ray的预期用例，它是一个用于并行和分布式Python的库。在引擎盖下，它使用Apache Arrow数据布局（零拷贝格式）序列化对象，并将它们存储在shared-memory object store中，以便多个进程可以访问它们，而无需创建副本。

代码如下所示。

import numpy as np
import ray

ray.init()

@ray.remote
def func(array, param):
    # Do stuff.
    return 1

array = np.ones(10**6)
# Store the array in the shared memory object store once
# so it is not copied multiple times.
array_id = ray.put(array)

result_ids = [func.remote(array_id, i) for i in range(4)]
output = ray.get(result_ids)

如果不调用ray.put，那么数组仍将存储在共享内存中，但每次调用func时都会调用一次，这不是您想要的。

请注意，这不仅适用于数组，而且也适用于包含数组的对象，例如字典将int映射到数组，如下所示。

通过在IPython中运行以下命令，可以比较Ray和pickle中序列化的性能。

import numpy as np
import pickle
import ray

ray.init()

x = {i: np.ones(10**7) for i in range(20)}

# Time Ray.
%time x_id = ray.put(x)  # 2.4s
%time new_x = ray.get(x_id)  # 0.00073s

# Time pickle.
%time serialized = pickle.dumps(x)  # 2.6s
%time deserialized = pickle.loads(serialized)  # 1.9s

使用Ray的序列化只比pickle快一点，但由于使用了共享内存，反序列化的速度要快1000倍（这个数字当然取决于对象）。

请参阅Ray documentation。您可以阅读有关fast serialization using Ray and Arrow的更多信息。注意我是Ray的开发者之一。

网友

2楼 · 编辑于 2024-04-27 00:31:52

我遇到了同样的问题，并编写了一个小的共享内存实用程序类来解决这个问题。

我使用的是multiprocessing.RawArray（lockfree），而且对数组的访问根本不同步（lockfree），小心别开枪打自己的脚。

有了这个解决方案，我可以在四核i7上获得大约3倍的加速。

代码如下：请随意使用和改进，并报告任何错误。

'''
Created on 14.05.2013

@author: martin
'''

import multiprocessing
import ctypes
import numpy as np

class SharedNumpyMemManagerError(Exception):
    pass

'''
Singleton Pattern
'''
class SharedNumpyMemManager:    

    _initSize = 1024

    _instance = None

    def __new__(cls, *args, **kwargs):
        if not cls._instance:
            cls._instance = super(SharedNumpyMemManager, cls).__new__(
                                cls, *args, **kwargs)
        return cls._instance        

    def __init__(self):
        self.lock = multiprocessing.Lock()
        self.cur = 0
        self.cnt = 0
        self.shared_arrays = [None] * SharedNumpyMemManager._initSize

    def __createArray(self, dimensions, ctype=ctypes.c_double):

        self.lock.acquire()

        # double size if necessary
        if (self.cnt >= len(self.shared_arrays)):
            self.shared_arrays = self.shared_arrays + [None] * len(self.shared_arrays)

        # next handle
        self.__getNextFreeHdl()        

        # create array in shared memory segment
        shared_array_base = multiprocessing.RawArray(ctype, np.prod(dimensions))

        # convert to numpy array vie ctypeslib
        self.shared_arrays[self.cur] = np.ctypeslib.as_array(shared_array_base)

        # do a reshape for correct dimensions            
        # Returns a masked array containing the same data, but with a new shape.
        # The result is a view on the original array
        self.shared_arrays[self.cur] = self.shared_arrays[self.cnt].reshape(dimensions)

        # update cnt
        self.cnt += 1

        self.lock.release()

        # return handle to the shared memory numpy array
        return self.cur

    def __getNextFreeHdl(self):
        orgCur = self.cur
        while self.shared_arrays[self.cur] is not None:
            self.cur = (self.cur + 1) % len(self.shared_arrays)
            if orgCur == self.cur:
                raise SharedNumpyMemManagerError('Max Number of Shared Numpy Arrays Exceeded!')

    def __freeArray(self, hdl):
        self.lock.acquire()
        # set reference to None
        if self.shared_arrays[hdl] is not None: # consider multiple calls to free
            self.shared_arrays[hdl] = None
            self.cnt -= 1
        self.lock.release()

    def __getArray(self, i):
        return self.shared_arrays[i]

    @staticmethod
    def getInstance():
        if not SharedNumpyMemManager._instance:
            SharedNumpyMemManager._instance = SharedNumpyMemManager()
        return SharedNumpyMemManager._instance

    @staticmethod
    def createArray(*args, **kwargs):
        return SharedNumpyMemManager.getInstance().__createArray(*args, **kwargs)

    @staticmethod
    def getArray(*args, **kwargs):
        return SharedNumpyMemManager.getInstance().__getArray(*args, **kwargs)

    @staticmethod    
    def freeArray(*args, **kwargs):
        return SharedNumpyMemManager.getInstance().__freeArray(*args, **kwargs)

# Init Singleton on module load
SharedNumpyMemManager.getInstance()

if __name__ == '__main__':

    import timeit

    N_PROC = 8
    INNER_LOOP = 10000
    N = 1000

    def propagate(t):
        i, shm_hdl, evidence = t
        a = SharedNumpyMemManager.getArray(shm_hdl)
        for j in range(INNER_LOOP):
            a[i] = i

    class Parallel_Dummy_PF:

        def __init__(self, N):
            self.N = N
            self.arrayHdl = SharedNumpyMemManager.createArray(self.N, ctype=ctypes.c_double)            
            self.pool = multiprocessing.Pool(processes=N_PROC)

        def update_par(self, evidence):
            self.pool.map(propagate, zip(range(self.N), [self.arrayHdl] * self.N, [evidence] * self.N))

        def update_seq(self, evidence):
            for i in range(self.N):
                propagate((i, self.arrayHdl, evidence))

        def getArray(self):
            return SharedNumpyMemManager.getArray(self.arrayHdl)

    def parallelExec():
        pf = Parallel_Dummy_PF(N)
        print(pf.getArray())
        pf.update_par(5)
        print(pf.getArray())

    def sequentialExec():
        pf = Parallel_Dummy_PF(N)
        print(pf.getArray())
        pf.update_seq(5)
        print(pf.getArray())

    t1 = timeit.Timer("sequentialExec()", "from __main__ import sequentialExec")
    t2 = timeit.Timer("parallelExec()", "from __main__ import parallelExec")

    print("Sequential: ", t1.timeit(number=1))    
    print("Parallel: ", t2.timeit(number=1))

网友

3楼 · 编辑于 2024-04-27 00:31:52

如果您使用的操作系统使用的是写时复制（copy-on-write）fork()语义（类似于任何常见的unix），那么只要您从不更改数据结构，它就可以在不占用额外内存的情况下供所有子进程使用。你不必做任何特别的事情（除非你绝对不要改变对象）。

对于您的问题，您可以做的最有效的事情是将您的数组打包成一个有效的数组结构（使用numpy或^{}），将其放在共享内存中，用multiprocessing.Array包装，并将其传递给您的函数。This answer shows how to do that。

如果您想要一个可写的共享对象，那么您需要用某种同步或锁定来包装它。multiprocessing提供two methods of doing this：一个使用共享内存（适用于简单值、数组或ctypes）或Manager代理，其中一个进程保存内存，一个管理器仲裁其他进程（甚至通过网络）对内存的访问。

Manager方法可以用于任意Python对象，但比使用共享内存的等效方法慢，因为对象需要序列化/反序列化并在进程之间发送。

有一个wealth of parallel processing libraries and approaches available in Python。multiprocessing是一个优秀且全面的库，但是如果您有特殊需要，其他方法之一可能更好。

相关问题更多 >

编程相关推荐

热门问题

热门文章