使用Python中的多处理模块提高速度

2024-04-27 03:07:55 发布

您现在位置:Python中文网/ 问答频道 /正文

我用这个例子测试Python中的多处理模块。它计算语料库中每个单词的长度。在

from multiprocessing import Pool

def open_file(file):
    with open(file) as f:
        f = f.read()
    return f

def split_words(file):
    f = open_file(file)
    return [[len(i), i] for i in f.split()]


def split_mult(file):
    #uses the multiprocessing module
    pool = Pool(processes = 4)  
    work = pool.apply_async(split_words, [file])
    return work.get()

print split_words("random.txt") - about 90seconds for a 110K file
print split_mult("random.txt") - about 90seconds for a 110K file

*split_mult*函数使用多处理,*split_words*不使用。我的印象是,我会看到使用多处理模块更快的处理时间,但在运行时几乎没有差别。每个函数我都运行了大约5次。我有什么遗漏吗?在

更新:

我重新编写了代码,对多处理有了更好的理解,并且能够将处理时间缩短到大约12秒!这是一个快速而肮脏的代码,但希望对其他试图理解这个概念的人有帮助-https://github.com/surajkapoor/MultiProcessing-Test/blob/master/multi.py


Tags: 模块forreturndefrandomopenmultiprocessingfile
2条回答

I/O密集型任务可以通过使它们更并行来减慢。机械硬盘的情况尤其如此。在

假设您能够将文件分为4个部分并运行4个进程,它们将导致驱动器查找的内容多于按顺序读取一次文件。在

如果有4个worker处理4个文件,也会出现同样的情况,但是您不必考虑如何分割文件。在

如果len是一个耗时的操作,那么可以通过逐行逐行地读取文件并让工人从Queue中提取这些行,可以看到性能的改进。但是,除非您有非常快的存储(可能文件被缓存),否则不会有太大区别。在

Python不具备神奇地使代码并行工作的功能。在

您在这里所做的是创建一个由4个进程组成的池,并给它一个任务,该任务将在1个进程中运行。在

进程/线程池用于并行运行大量任务(一次最多4个或指定的任何任务)。
把一个任务分成许多子任务是程序员的责任。在

相关问题 更多 >