Python线程在Popen.communicate中卡住

1 投票
1 回答
554 浏览
提问于 2025-04-17 02:27

我有一个用Python写的应用程序,它使用了线程,具体步骤如下:

  1. 创建一个任务队列(用的是Queue模块)
  2. 创建10个线程,并给每个线程传递一个队列对象
  3. 把任务放进队列(总共有大约8500个任务)
  4. 每个线程:
    • 取出一个任务,并使用Popen.communicate()运行一些Linux命令

我已经在几个小项目中测试过我的线程池库,包括互斥锁、关键区域和队列管理,所以没理由认为那里有问题……

当任务数量在几千个时,一切都运行得很好,但当任务超过8500个时,有些线程就卡住了。gdb显示它们卡在Python的subprocess.py文件中的_execute child(第1131行)——这意味着在调用os.fork()之后。

gdb:

 (gdb) pystack
 /opt/python/current/lib/python2.7/subprocess.py (1131): _execute_child
 /opt/python/current/lib/python2.7/subprocess.py (681): __init__
 /home/olibsup/tools/chelo/checks/checkUtils/osutils/cmdutils.py (115): shcmd
 /home/olibsup/tools/chelo/checks/liblist/libWorkers.py (204): workerFunction
 /home/olibsup/tools/chelo/checks/checkUtils/pools/thpool.py (160): run
 /opt/python/current/lib/python2.7/threading.py (160): __bootstrap_inner
 /opt/python/current/lib/python2.7/threading.py (553): __bootstrap

我的ulimit显示:

core file size          (blocks, -c) unlimited
data seg size           (kbytes, -d) unlimited
file size               (blocks, -f) unlimited
pending signals                 (-i) 139264
max locked memory       (kbytes, -l) 32
max memory size         (kbytes, -m) unlimited
open files                      (-n) 1024
pipe size            (512 bytes, -p) 8
POSIX message queues     (bytes, -q) 819200
stack size              (kbytes, -s) 8192
cpu time               (seconds, -t) unlimited
max user processes              (-u) 139264
virtual memory          (kbytes, -v) unlimited
file locks                      (-x) unlimited

'top'命令也没有显示出什么可疑的地方(至少对我来说没有):

Cpu(s):  0.0%us,  0.0%sy,  0.0%ni,100.0%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
Mem:  16438200k total, 15705272k used,   732928k free,   751640k buffers
Swap:  3148700k total,       44k used,  3148656k free, 11692300k cached

你们有没有想过为什么线程会在这里卡住?
并不是所有线程都卡住,有些(10个线程中有5个)在没有更多任务时正常完成了。

谢谢你的帮助,
Zbigniew

1 个回答

1

subprocess.py的第1131/1132行,使用os.dup复制了一个文件描述符。

因此,我怀疑你的操作系统可能限制了子进程的数量和/或你应用程序可以使用的文件描述符的数量。不过,我不明白为什么在这种情况下,os.dup不会抛出异常。

你可以尝试查一下你的操作系统的限制,并确保不超过这个限制。对于基于UNIX的系统,你可能可以使用Python的资源模块(虽然我自己从来没有用过):http://docs.python.org/library/resource.html

撰写回答