我正在使用concurrent.futures.ProcessPoolExecutor
从数字范围中查找数字的出现。其目的是研究从并发中获得的加速性能的数量。为了测试性能,我有一个控件-一个串行代码来执行上述任务(如下所示)。我已经编写了两个并发代码,一个使用concurrent.futures.ProcessPoolExecutor.submit()
,另一个使用concurrent.futures.ProcessPoolExecutor.map()
来执行相同的任务。它们如下所示。关于起草前者和后者的建议分别见here和here。
向这三个代码发出的任务是查找数字5在0到1E8的数字范围内出现的次数。将.submit()
和.map()
分配给6名工人,并且.map()
的块大小为10000。在并发代码中,工作负载离散化的方式是相同的。但是,用于在两个代码中查找匹配项的函数是不同的。这是因为参数传递给.submit()
和.map()
调用的函数的方式不同。
所有3个代码的报告次数相同,即56953279次。然而,完成这项任务所花的时间却大不相同。.submit()
的执行速度是对照组的2倍,而{
问题:
.map()
的慢性能是我编写的一个工件,还是它本身就是慢的?”如果是前者,我该如何改进。我只是很惊讶,它的表现慢于控制,因为没有太多的动机来使用它。.submit()
代码执行得更快。我的条件是函数_concurrent_submit()
必须返回一个iterable,其中包含数字5的数字/出现次数。concurrent.futures.ProcessPoolExecutor.submit()
#!/usr/bin/python3.5
# -*- coding: utf-8 -*-
import concurrent.futures as cf
from time import time
from traceback import print_exc
def _findmatch(nmin, nmax, number):
'''Function to find the occurrence of number in range nmin to nmax and return
the found occurrences in a list.'''
print('\n def _findmatch', nmin, nmax, number)
start = time()
match=[]
for n in range(nmin, nmax):
if number in str(n):
match.append(n)
end = time() - start
print("found {0} in {1:.4f}sec".format(len(match),end))
return match
def _concurrent_submit(nmax, number, workers):
'''Function that utilises concurrent.futures.ProcessPoolExecutor.submit to
find the occurences of a given number in a number range in a parallelised
manner.'''
# 1. Local variables
start = time()
chunk = nmax // workers
futures = []
found =[]
#2. Parallelization
with cf.ProcessPoolExecutor(max_workers=workers) as executor:
# 2.1. Discretise workload and submit to worker pool
for i in range(workers):
cstart = chunk * i
cstop = chunk * (i + 1) if i != workers - 1 else nmax
futures.append(executor.submit(_findmatch, cstart, cstop, number))
# 2.2. Instruct workers to process results as they come, when all are
# completed or .....
cf.as_completed(futures) # faster than cf.wait()
# 2.3. Consolidate result as a list and return this list.
for future in futures:
for f in future.result():
try:
found.append(f)
except:
print_exc()
foundsize = len(found)
end = time() - start
print('within statement of def _concurrent_submit():')
print("found {0} in {1:.4f}sec".format(foundsize, end))
return found
if __name__ == '__main__':
nmax = int(1E8) # Number range maximum.
number = str(5) # Number to be found in number range.
workers = 6 # Pool of workers
start = time()
a = _concurrent_submit(nmax, number, workers)
end = time() - start
print('\n main')
print('workers = ', workers)
print("found {0} in {1:.4f}sec".format(len(a),end))
concurrent.futures.ProcessPoolExecutor.map()
#!/usr/bin/python3.5
# -*- coding: utf-8 -*-
import concurrent.futures as cf
import itertools
from time import time
from traceback import print_exc
def _findmatch(listnumber, number):
'''Function to find the occurrence of number in another number and return
a string value.'''
#print('def _findmatch(listnumber, number):')
#print('listnumber = {0} and ref = {1}'.format(listnumber, number))
if number in str(listnumber):
x = listnumber
#print('x = {0}'.format(x))
return x
def _concurrent_map(nmax, number, workers):
'''Function that utilises concurrent.futures.ProcessPoolExecutor.map to
find the occurrences of a given number in a number range in a parallelised
manner.'''
# 1. Local variables
start = time()
chunk = nmax // workers
futures = []
found =[]
#2. Parallelization
with cf.ProcessPoolExecutor(max_workers=workers) as executor:
# 2.1. Discretise workload and submit to worker pool
for i in range(workers):
cstart = chunk * i
cstop = chunk * (i + 1) if i != workers - 1 else nmax
numberlist = range(cstart, cstop)
futures.append(executor.map(_findmatch, numberlist,
itertools.repeat(number),
chunksize=10000))
# 2.3. Consolidate result as a list and return this list.
for future in futures:
for f in future:
if f:
try:
found.append(f)
except:
print_exc()
foundsize = len(found)
end = time() - start
print('within statement of def _concurrent(nmax, number):')
print("found {0} in {1:.4f}sec".format(foundsize, end))
return found
if __name__ == '__main__':
nmax = int(1E8) # Number range maximum.
number = str(5) # Number to be found in number range.
workers = 6 # Pool of workers
start = time()
a = _concurrent_map(nmax, number, workers)
end = time() - start
print('\n main')
print('workers = ', workers)
print("found {0} in {1:.4f}sec".format(len(a),end))
序列号:
#!/usr/bin/python3.5
# -*- coding: utf-8 -*-
from time import time
def _serial(nmax, number):
start = time()
match=[]
nlist = range(nmax)
for n in nlist:
if number in str(n):match.append(n)
end=time()-start
print("found {0} in {1:.4f}sec".format(len(match),end))
return match
if __name__ == '__main__':
nmax = int(1E8) # Number range maximum.
number = str(5) # Number to be found in number range.
start = time()
a = _serial(nmax, number)
end = time() - start
print('\n main')
print("found {0} in {1:.4f}sec".format(len(a),end))
2017年2月13日更新:
除了@niemmi answer,我还提供了一个答案,下面是一些个人研究:
.map()
和.submit()
解决方案,以及ProcessPoolExecutor.map()
可以导致比ProcessPoolExecutor.submit()
更快的速度时。
你在拿苹果和桔子作比较。当使用
map
时,您将生成所有的1E8
数字并将它们传输到工作进程。与实际执行相比,这需要很多时间。当使用submit
时,只需创建6组被传输的参数。如果您将
map
更改为使用相同的原理操作,您将得到彼此接近的数字:正确使用^{} 可以提高submit的性能。对于给定的iterable of futures,它将返回一个迭代器,该迭代器将
yield
futures按照它们完成的顺序。您还可以跳过将数据复制到另一个数组,并使用^{} 将来自未来的结果组合到单个iterable:
概述:
我的答案有两部分:
ProcessPoolExecutor.map()
解决方案中获得更高的速度ProcessPoolExecutor
的子类.submit()
和.map()
产生非等效计算时间。================================================================================================================================
第1部分:加快ProcessPoolExecutor.map()的速度
背景: 本节以@niemmi的
.map()
解决方案为基础,该解决方案本身就非常优秀。在研究他的离散化方案以更好地理解它如何与.map()chunksizes参数交互时,我发现了这个有趣的解决方案。我认为@niemi对
chunk = nmax // workers
的定义是一个chunksize的定义,即每个工人池中的每个工人要处理的实际数字范围(给定任务)的较小值。现在,这个定义的前提是假设一台计算机有x个工人,在每个工人之间平均分配任务将使每个工人得到最佳利用,因此总任务将以最快的速度完成。因此,要将给定任务分解为的块的数量应始终等于池工作者的数量。然而,这个假设是正确的吗?命题:这里,我建议,当与^{一起使用时,上述假设并不总是导致最快的计算时间。相反,将任务离散化到大于池工作人员数量的程度可以加快速度,即更快地完成给定任务。
实验:我修改了@niemmi的代码,以允许离散化任务的数量超过池工作者的数量。此代码如下所示,用于确定数字5在0到1E8的数字范围内出现的次数。我已经使用1、2、4和6个池工作线程执行了这段代码,并针对离散化任务数与池工作线程数的不同比率执行了这段代码。对于每个场景,进行3次运行,并将计算时间制成表格。”这里的Speed-up”定义为在离散化任务数大于池工作数时的平均计算时间内,使用相等数量的块和池工作数的平均计算时间。
发现:
左边的图显示了实验部分中提到的所有场景所花费的计算时间。结果表明,块数/工人数=1的计算时间总是大于块数>;工人数的计算时间,即前者的效率总是低于后者。
右图显示,当块数/工人数达到14个或更多的阈值时,获得1.2倍或更多的加速。有趣的是,观察到当用一个工人执行
ProcessPoolExecutor.map()
时,也会出现加速趋势。结论:自定义ProcessPoolExecutor.map()用于解决给定任务的离散任务数时,应谨慎确保此数大于池工作线程数,因为此做法缩短了计算时间。
concurrent.futures.ProcessPoolExecutor.map()代码。(仅限修订部分)
================================================================================================================================
第2部分:当返回排序/排序的结果列表时,使用ProcessPoolExecutor子类.submit()和.map()的总计算时间可能不同。
背景:我修改了
.submit()
和.map()
两个代码,以便对它们的计算时间和可视化主代码的计算时间进行“苹果对苹果”比较e计算主代码调用的并发方法执行并发操作的时间,以及由并发方法调用的每个离散化任务/工作线程的计算时间。此外,这些代码中的concurrent方法被构造成直接从.submit()
的未来对象和.map()
的迭代器返回结果的无序有序列表。下面提供了源代码(希望对您有所帮助。)。实验这两个新改进的代码用于执行第1部分中描述的相同实验,只考虑了6个池工作线程,并使用python内置的
list
和sorted
方法分别将结果的无序和有序列表返回到代码的主要部分。发现:
ProcessPoolExecutor.submit()
的所有未来对象和创建ProcessPoolExecutor.map()
的迭代器(作为池工作线程数上离散化任务数的函数)的计算时间是等价的。这个结果仅仅意味着ProcessPoolExecutor
子类.submit()
和.map()
是同样有效/快速的。list
和sorted
方法(以及这些方法中包含的其他方法)的计算次数。显然,与sorted
方法相比,list
方法返回结果列表所需的计算时间更少。.submit()和.map()代码的list
方法的平均计算时间相似,大约为0.47秒。.submit()和.map()代码的排序方法的平均计算时间分别为1.23秒和1.01秒。换句话说,对于.submit()和.map()代码,list
方法的执行速度分别比sorted
方法快2.62倍和2.15倍。sorted
方法从.map()
比.submit()
快,因为离散化的数量 任务增加的数量超过池工作人员的数量,除非 离散化任务数等于池工作者数。 也就是说,这些发现表明,使用同样快的.submit()
或.map()
子类的决定可能会受到排序方法的阻碍。例如,如果目的是在尽可能短的时间内生成一个有序列表,那么应该优先使用ProcessPoolExecutor.map(),而不是ProcessPoolExecutor.submit()
,因为.map()
可以允许最短的总计算时间。.submit()
和.map()
子类的性能。当离散化任务的数量等于池工作人员的数量时,加速的数量可以高达20%。改进的.map()代码
改进的.submit()代码。
此代码与.map代码相同,只是您用以下内容替换了_concurrent方法:
================================================================================================================================
相关问题 更多 >
编程相关推荐