Python中无限生成守护进程
我正在尝试创建一个Python守护进程,它可以启动其他完全独立的进程。
大致的想法是,对于给定的命令,每隔几秒钟检查一次,确保有正好k个该命令的实例在运行。我们会维护一个pid文件的目录,当我们检查时,会删除那些对应的进程已经不在运行的pid文件,并启动(并创建pid文件)所需数量的进程,以达到k个。
这些子进程也需要完全独立,这样如果父进程死掉,子进程就不会被杀掉。根据我所了解,似乎用subprocess
模块无法做到这一点。为此,我使用了这里提到的代码片段:
http://code.activestate.com/recipes/66012-fork-a-daemon-process-on-unix/
我做了一些必要的修改(你会在附带的代码片段中看到被注释掉的行):
- 原始的父进程不能退出,因为我们需要启动的守护进程能够一直存在。
- 子进程需要在与父进程相同的工作目录下启动。
这是我的生成函数和一个测试:
import os
import sys
import subprocess
import time
def spawn(cmd, child_cwd):
"""
do the UNIX double-fork magic, see Stevens' "Advanced
Programming in the UNIX Environment" for details (ISBN 0201563177)
http://www.erlenstar.demon.co.uk/unix/faq_2.html#SEC16
"""
try:
pid = os.fork()
if pid > 0:
# exit first parent
#sys.exit(0) # parent daemon needs to stay alive to launch more in the future
return
except OSError, e:
sys.stderr.write("fork #1 failed: %d (%s)\n" % (e.errno, e.strerror))
sys.exit(1)
# decouple from parent environment
#os.chdir("/") # we want the children processes to
os.setsid()
os.umask(0)
# do second fork
try:
pid = os.fork()
if pid > 0:
# exit from second parent
sys.exit(0)
except OSError, e:
sys.stderr.write("fork #2 failed: %d (%s)\n" % (e.errno, e.strerror))
sys.exit(1)
# redirect standard file descriptors
sys.stdout.flush()
sys.stderr.flush()
si = file('/dev/null', 'r')
so = file('/dev/null', 'a+')
se = file('/dev/null', 'a+', 0)
os.dup2(si.fileno(), sys.stdin.fileno())
os.dup2(so.fileno(), sys.stdout.fileno())
os.dup2(se.fileno(), sys.stderr.fileno())
pid = subprocess.Popen(cmd, cwd=child_cwd, shell=True).pid
# write pidfile
with open('pids/%s.pid' % pid, 'w') as f: f.write(str(pid))
sys.exit(1)
def mkdir_if_none(path):
if not os.access(path, os.R_OK):
os.mkdir(path)
if __name__ == '__main__':
try:
cmd = sys.argv[1]
num = int(sys.argv[2])
except:
print 'Usage: %s <cmd> <num procs>' % __file__
sys.exit(1)
mkdir_if_none('pids')
mkdir_if_none('test_cwd')
for i in xrange(num):
print 'spawning %d...'%i
spawn(cmd, 'test_cwd')
time.sleep(0.01) # give the system some breathing room
在这种情况下,事情似乎运作良好,即使父进程被杀掉,子进程仍然可以继续存在。然而,我仍然在原始父进程上遇到了生成限制。在大约650次生成后(不是同时进行的,子进程已经完成),父进程出现了错误:
spawning 650...
fork #2 failed: 35 (Resource temporarily unavailable)
有没有办法重写我的生成函数,以便我可以无限制地生成这些独立的子进程?谢谢!
2 个回答
我稍微修改了一下你的代码,结果能够顺利运行5000个进程,没有遇到任何问题。所以我同意@sarnold的看法,你遇到了一些基本的限制。我的修改内容是:
proc = subprocess.Popen(cmd, cwd=child_cwd, shell=True, close_fds=True)
pid = proc.pid
# write pidfile
with open('pids/%s.pid' % pid, 'w') as f: f.write(str(pid))
proc.wait()
sys.exit(1)
感谢你提供的进程列表,我可以说你遇到了几个基本的限制问题:
- rlimit
nproc
:这是指一个用户可以同时运行的最大进程数。想了解更多,可以查看setrlimit(2)
、bash(1)
中的ulimit
命令,以及/etc/security/limits.conf
文件,里面有每个用户的进程限制。 - rlimit
nofile
:这是指一个进程可以同时打开的最大文件数量。每当新进程启动时,通常会在父进程中创建三个新的管道,用于子进程的stdin
(标准输入)、stdout
(标准输出)和stderr
(标准错误)描述符。 - 系统范围内的最大进程数,可以查看
/proc/sys/kernel/pid_max
。 - 系统范围内的最大打开文件数,可以查看
/proc/sys/fs/file-max
。
因为你没有处理已经结束的子进程,很多资源被占用的时间比应该的要长。你的第二个子进程被init(8)
正确处理了——它的父进程已经结束,所以它被重新分配给init(8)
,而init(8)
会在它们结束时进行清理(wait(2)
)。
不过,你的程序需要负责清理第一批子进程。C语言的程序通常会安装一个signal(7)
处理器来处理SIGCHLD
信号,这样它就会调用wait(2)
或waitpid(2)
来获取子进程的退出状态,从而将其从内核的内存中移除。
但是在脚本中处理信号有点麻烦。如果你能明确将SIGCHLD
信号的处理方式设置为SIG_IGN
,内核就会知道你不关心退出状态,并会为你处理这些子进程。
试着在你的程序顶部添加:
import signal
signal.signal(signal.SIGCHLD, signal.SIG_IGN)
注意,我不太清楚这对Subprocess
会有什么影响。它可能不会高兴。如果是这样的话,你需要安装一个信号处理器来为你调用wait(2)
。