Python线程在Popen.communicate中卡住
我有一个用Python写的应用程序,它使用了线程,具体步骤如下:
- 创建一个任务队列(用的是Queue模块)
- 创建10个线程,并给每个线程传递一个队列对象
- 把任务放进队列(总共有大约8500个任务)
- 每个线程:
- 取出一个任务,并使用Popen.communicate()运行一些Linux命令
我已经在几个小项目中测试过我的线程池库,包括互斥锁、关键区域和队列管理,所以没理由认为那里有问题……
当任务数量在几千个时,一切都运行得很好,但当任务超过8500个时,有些线程就卡住了。gdb显示它们卡在Python的subprocess.py文件中的_execute child(第1131行)——这意味着在调用os.fork()之后。
gdb:
(gdb) pystack
/opt/python/current/lib/python2.7/subprocess.py (1131): _execute_child
/opt/python/current/lib/python2.7/subprocess.py (681): __init__
/home/olibsup/tools/chelo/checks/checkUtils/osutils/cmdutils.py (115): shcmd
/home/olibsup/tools/chelo/checks/liblist/libWorkers.py (204): workerFunction
/home/olibsup/tools/chelo/checks/checkUtils/pools/thpool.py (160): run
/opt/python/current/lib/python2.7/threading.py (160): __bootstrap_inner
/opt/python/current/lib/python2.7/threading.py (553): __bootstrap
我的ulimit显示:
core file size (blocks, -c) unlimited
data seg size (kbytes, -d) unlimited
file size (blocks, -f) unlimited
pending signals (-i) 139264
max locked memory (kbytes, -l) 32
max memory size (kbytes, -m) unlimited
open files (-n) 1024
pipe size (512 bytes, -p) 8
POSIX message queues (bytes, -q) 819200
stack size (kbytes, -s) 8192
cpu time (seconds, -t) unlimited
max user processes (-u) 139264
virtual memory (kbytes, -v) unlimited
file locks (-x) unlimited
'top'命令也没有显示出什么可疑的地方(至少对我来说没有):
Cpu(s): 0.0%us, 0.0%sy, 0.0%ni,100.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Mem: 16438200k total, 15705272k used, 732928k free, 751640k buffers
Swap: 3148700k total, 44k used, 3148656k free, 11692300k cached
你们有没有想过为什么线程会在这里卡住?
并不是所有线程都卡住,有些(10个线程中有5个)在没有更多任务时正常完成了。
谢谢你的帮助,
Zbigniew
1 个回答
1
在subprocess.py的第1131/1132行,使用os.dup
复制了一个文件描述符。
因此,我怀疑你的操作系统可能限制了子进程的数量和/或你应用程序可以使用的文件描述符的数量。不过,我不明白为什么在这种情况下,os.dup不会抛出异常。
你可以尝试查一下你的操作系统的限制,并确保不超过这个限制。对于基于UNIX的系统,你可能可以使用Python的资源模块(虽然我自己从来没有用过):http://docs.python.org/library/resource.html