Dask并行作业并不比没有Dask更好

from dask.distributed import Client import joblib from sklearn.feature_extraction.text import TfidfVectorizer client = Client(processes=False) # create local cluster with joblib.parallel_backend('dask'): tfidf.fit(corpus)

1条回答

网友

1楼 · 发布于 2024-05-15 00:45:11

当要执行的计算释放GIL时，进程内并行性将很好地工作，以便多个线程可以同时运行。许多数字库（如pandas和numpy）都是如此，正如您链接到的示例中所使用的那样。然而，文本处理可能使用python解释器，因此GIL防止一次运行多个线程——因此CPU利用率为100%，而不是更高

您可能希望尝试使用流程，这与更改为

client = Client(processes=True)

（但有许多配置选项）

编程相关推荐

java需要设置框架。可设置大小（false）以重新绘制（）
java我对PDF文件感到困惑
为什么是太阳。jvm。热点。调试器。DebuggerException:无法打开二进制文件`？
设置结果为textview时出现java空指针异常
我应该使用什么同步原语在Java中实现事件驱动程序框架？
java为什么WindowClosing处理程序在退出程序之前不执行后台任务？
如何将“20170712T18:43:04.000Z”转换为安卓或java中的相对时间？
Java，获取按键的时间长度，currentTimeMillies（）始终为24
maven构建的java可执行Jar找不到logback。xml
java在其外部的函数中使用for循环中的值

相关问题更多 >

编程相关推荐

热门问题

热门文章

Dask并行作业并不比没有Dask更好

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >