总是在p中运行固定数量的子进程

2024-04-26 20:22:11 发布

您现在位置:Python中文网/ 问答频道 /正文

我想使用子进程让一个脚本的20个实例并行运行。假设我有一个包含100.000个条目的大的url列表,我的程序应该控制我的脚本的20个实例一直在这个列表上工作。我想把它编码如下:

urllist = [url1, url2, url3, .. , url100000]
i=0
while number_of_subproccesses < 20 and i<100000:
    subprocess.Popen(['python', 'script.py', urllist[i]]
    i = i+1

我的脚本只是将一些内容写入数据库或文本文件。它不输出任何东西,也不需要比url更多的输入。在

我的问题是我无法找到一些方法来获取活动的子进程的数量。我是一个新手程序员,所以每一个提示和建议都是受欢迎的。我还想知道,一旦加载了20个子进程,while循环会再次检查条件,如何管理它?我想在上面再放一个while循环

^{pr2}$

或者也许while循环总是检查子进程的数量,这是一种更好的可能性?在

我也考虑过使用模块多处理,但是我发现只调用脚本.py使用子处理而不是使用多处理的函数。在

也许有人能帮我,把我引向正确的方向。非常感谢!在


Tags: 实例py程序目的脚本url编码列表
3条回答

要保持一致的并发请求数,可以使用线程池:

#!/usr/bin/env python
from multiprocessing.dummy import Pool

def process_url(url):
    # ... handle a single url

urllist = [url1, url2, url3, .. , url100000]
for _ in Pool(20).imap_unordered(process_url, urllist):
    pass

要运行进程而不是线程,请从导入中删除.dummy。在

只要在启动它们时保持计数,如果有任何url列表条目要处理,则使用来自每个子进程的回调来启动一个新的进程。在

例如,假设子进程在结束时调用传递给它的OnExit方法:

NextURLNo = 0
MaxProcesses = 20
NoSubProcess = 0
MaxUrls = 100000

def StartNew():
   """ Start a new subprocess if there is work to do """
   global NextURLNo
   global NoSubProcess

   if NextURLNo < MaxUrls:
      subprocess.Popen(['python', 'script.py', urllist[NextURLNo], OnExit])
      print "Started to Process", urllist[NextURLNo]
      NextURLNo += 1
      NoSubProcess += 1

def OnExit():
   NoSubProcess -= 1

if __name__ == "__main__":
   for n in range(MaxProcesses):
      StartNew()
   while (NoSubProcess > 0):
      time.sleep(1)
      if (NextURLNo < MaxUrls):
         for n in range(NoSubProcess,MaxProcesses):
             StartNew()

将它作为一个回调函数发送,似乎与上述方法不同:

NextURLNo = 0
MaxProcesses = 20
MaxUrls = 100000  # Note this would be better to be len(urllist)
Processes = []

def StartNew():
   """ Start a new subprocess if there is work to do """
   global NextURLNo
   global Processes

   if NextURLNo < MaxUrls:
      proc = subprocess.Popen(['python', 'script.py', urllist[NextURLNo], OnExit])
      print ("Started to Process %s", urllist[NextURLNo])
      NextURLNo += 1
      Processes.append(proc)

def CheckRunning():
   """ Check any running processes and start new ones if there are spare slots."""
   global Processes
   global NextURLNo

   for p in range(len(Processes):0:-1): # Check the processes in reverse order
      if Processes[p].poll() is not None: # If the process hasn't finished will return None
         del Processes[p] # Remove from list - this is why we needed reverse order

   while (len(Processes) < MaxProcesses) and (NextURLNo < MaxUrls): # More to do and some spare slots
      StartNew()

if __name__ == "__main__":
   CheckRunning() # This will start the max processes running
   while (len(Processes) > 0): # Some thing still going on.
      time.sleep(0.1) # You may wish to change the time for this
      CheckRunning()

   print ("Done!")

相关问题 更多 >