Python:在p中运行子进程

3条回答

网友

1楼 · 编辑于 2024-05-15 10:26:04

所有子进程都并行运行。（为了避免这种情况，必须显式地等待它们完成。）它们甚至可以同时写入日志文件，从而混淆输出。为了避免这种情况，您应该让每个进程写入不同的日志文件，并在所有进程完成时收集所有输出。

q = Queue.Queue()
result = {}  # used to store the results
for fileName in fileNames:
  q.put(fileName)

def worker():
  while True:
    fileName = q.get()
    if fileName is None:  # EOF?
      return
    subprocess_stuff_using(fileName)
    wait_for_finishing_subprocess()
    checksum = collect_md5_result_for(fileName)
    result[fileName] = checksum  # store it

threads = [ threading.Thread(target=worker) for _i in range(20) ]
for thread in threads:
  thread.start()
  q.put(None)  # one EOF marker for each thread

之后，结果应存储在result中。

网友

2楼 · 编辑于 2024-05-15 10:26:04

是的，这些md5sum进程将并行启动。
是的，md5sums写入的顺序将是不可预测的。通常，这样共享来自多个进程的单个资源（如文件）被认为是一种不好的做法。

另外，在for循环之后生成p.wait()的方法将只等待最后一个md5sum进程完成，其余进程可能仍在运行。

但是，如果您将md5sum输出收集到临时文件中，并在所有进程完成后将其收集回一个文件中，那么您可以稍微修改此代码，使其仍然具有并行处理和同步输出可预测性的优点。

import subprocess
import os

processes = []
for file in files_output:
    f = os.tmpfile()
    p = subprocess.Popen(['md5sum',file],stdout=f)
    processes.append((p, f))

for p, f in processes:
    p.wait()
    f.seek(0)
    logfile.write(f.read())
    f.close()

网友

3楼 · 编辑于 2024-05-15 10:26:04

从并行md5sum子进程收集输出的一种简单方法是使用线程池并从主进程写入文件：

from multiprocessing.dummy import Pool # use threads
from subprocess import check_output

def md5sum(filename):
    try:
        return check_output(["md5sum", filename]), None
    except Exception as e:
        return None, e

if __name__ == "__main__":
    p = Pool(number_of_processes) # specify number of concurrent processes
    with open("md5sums.txt", "wb") as logfile:
        for output, error in p.imap(md5sum, filenames): # provide filenames
            if error is None:
               logfile.write(output)

来自md5sum的输出很小，因此可以将其存储在内存中
imap保持顺序
number_of_processes可能不同于文件或CPU内核的数量（较大的值并不意味着更快：它取决于IO（磁盘）和CPU的相对性能）

您可以尝试一次将多个文件传递给md5sum子进程。

在这种情况下不需要外部子流程；you can calculate md5 in Python：

import hashlib
from functools import partial

def md5sum(filename, chunksize=2**15, bufsize=-1):
    m = hashlib.md5()
    with open(filename, 'rb', bufsize) as f:
        for chunk in iter(partial(f.read, chunksize), b''):
            m.update(chunk)
    return m.hexdigest()

要使用多个进程而不是线程（允许纯Python md5sum()使用多个cpu并行运行），只需从上述代码的导入中删除.dummy。

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python:在p中运行子进程

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >