Dask客户机分散需要很长时间来计算内存中文件dict的大小

2024-04-25 23:01:10 发布

您现在位置:Python中文网/ 问答频道 /正文

我是Dask的新手,最近用这个漂亮的软件包进军并行计算领域。然而,在我的实现中,我一直在努力理解为什么我需要6分钟才能将一个python dict分散到调度程序工作站的内存中,分发给我的工作人员。你知道吗

字典不是很大。一个sys.sizeof(mydict)显示它是41943152字节。如果我使用dask或numpy数组会有什么不同吗?这不是我非常确定的网络限制,因为我能够在15秒内将一个400MB的文件复制到工作终端。你知道吗

我的设置是另一个工作工作站(2进程x 1线程),我的调度程序站也设置为工作工作站(4进程x 1线程)。任何帮助都将不胜感激!你知道吗

future_dict = my_vc.e1.dict_of_all_sea_mesh_edges

[future_dict] = c.scatter([future_dict])

日志:

Scattering dict_of_all_sea_mesh_edges to cluster execution started
Scattering dict_of_all_sea_mesh_edges to cluster completed in 00 HOURS :06 MINUTES :46.67 SECONDS

In[2]: sys.getsizeof(my_vc.e1.dict_of_all_sea_mesh_edges)/1000000

Out[2]: 41.943152

Tags: of程序进程mysysfutureall调度