Python脚本在使用SQLAlchemy和多进程时挂起

Question

考虑以下这个Python脚本，它使用了SQLAlchemy和Python的多进程模块。这个例子是在Debian squeeze上运行的，Python版本是2.6.6-8+b1（默认），SQLAlchemy版本是0.6.3-3（默认）。这是一些实际代码的简化版本。

import multiprocessing
from sqlalchemy import *
from sqlalchemy.orm import *
dbuser = ...
password = ...
dbname = ...
dbstring = "postgresql://%s:%s@localhost:5432/%s"%(dbuser, password, dbname)
db = create_engine(dbstring)
m = MetaData(db)

def make_foo(i):
    t1 = Table('foo%s'%i, m, Column('a', Integer, primary_key=True))

conn = db.connect()
for i in range(10):
    conn.execute("DROP TABLE IF EXISTS foo%s"%i)
conn.close()
db.dispose()

for i in range(10):
    make_foo(i)

m.create_all()

def do(kwargs):
    i, dbstring = kwargs['i'], kwargs['dbstring']

    db = create_engine(dbstring)
    Session = scoped_session(sessionmaker())
    Session.configure(bind=db)
    Session.execute("COMMIT; BEGIN; TRUNCATE foo%s; COMMIT;")
    Session.commit()
    db.dispose()

pool = multiprocessing.Pool(processes=5)               # start 4 worker processes
results = []
arglist = []
for i in range(10):
    arglist.append({'i':i, 'dbstring':dbstring})
r = pool.map_async(do, arglist, callback=results.append) # evaluate "f(10)" asynchronously
r.get()
r.wait()
pool.close()
pool.join()

这个脚本在运行时会卡住，并显示以下错误信息。

Exception in thread Thread-2:
Traceback (most recent call last):
  File "/usr/lib/python2.6/threading.py", line 532, in __bootstrap_inner
    self.run()
  File "/usr/lib/python2.6/threading.py", line 484, in run
    self.__target(*self.__args, **self.__kwargs)
  File "/usr/lib/python2.6/multiprocessing/pool.py", line 259, in _handle_results
    task = get()
TypeError: ('__init__() takes at least 4 arguments (2 given)', <class 'sqlalchemy.exc.ProgrammingError'>, ('(ProgrammingError) syntax error at or near "%"\nLINE 1: COMMIT; BEGIN; TRUNCATE foo%s; COMMIT;\n        ^\n',))

当然，这里的语法错误是TRUNCATE foo%s;。我的问题是，为什么这个进程会卡住？我能否让它在出错时退出，而不需要对我的代码进行大改动？这种行为和我实际的代码非常相似。

注意，如果把这个语句换成print foobarbaz，就不会出现卡住的情况。此外，即使我们把

Session.execute("COMMIT; BEGIN; TRUNCATE foo%s; COMMIT;")
Session.commit()
db.dispose()

换成Session.execute("TRUNCATE foo%s;")，依然会卡住。

我使用前一种方式是因为它更接近我实际代码的做法。

另外，如果去掉multiprocessing，然后顺序遍历表，就不会卡住了，而是直接报错退出。

我对这个错误的形式也感到困惑，特别是TypeError: ('__init__() takes at least 4 arguments (2 given)'这一部分。这个错误是从哪里来的呢？看起来很可能是来自multiprocessing的代码。

PostgreSQL的日志没有提供帮助。我看到很多类似的行

2012-01-09 14:16:34.174 IST [7810] 4f0aa96a.1e82/1 12/583 0 ERROR:  syntax error at or near "%" at character 28
2012-01-09 14:16:34.175 IST [7810] 4f0aa96a.1e82/2 12/583 0 STATEMENT:  COMMIT; BEGIN; TRUNCATE foo%s; COMMIT;

但没有其他看起来相关的信息。

更新1：感谢lbolla和他的深刻分析，我能够提交一个Python错误报告。请查看sbt在该报告中的分析，以及这里的内容。还可以查看Python的错误报告修复异常序列化。根据sbt的解释，我们可以用

import sqlalchemy.exc
e = sqlalchemy.exc.ProgrammingError("", {}, None)
type(e)(*e.args)

重现原始错误，结果是

Traceback (most recent call last):
  File "<stdin>", line 9, in <module>
TypeError: __init__() takes at least 4 arguments (2 given)

更新2：这个问题已经被Mike Bayer修复，至少对于SQLAlchemy来说，具体请见错误报告StatementError异常无法序列化。根据Mike的建议，我也向psycopg2报告了一个类似的错误，尽管我没有（也没有）实际的破坏示例。无论如何，他们显然已经修复了这个问题，虽然没有提供修复的细节。请查看psycopg异常无法序列化。为了保险起见，我还提交了一个Python错误ConfigParser异常无法序列化，对应于lbolla提到的SO问题。看起来他们希望对此进行测试。

总之，这个问题在可预见的未来可能会继续存在，因为大多数Python开发者似乎并不意识到这个问题，因此没有采取防范措施。令人惊讶的是，似乎使用多进程的人不够多，以至于这个问题没有被广泛关注，或者他们只是忍受了这个问题。我希望Python开发者能在Python 3中解决这个问题，因为这实在让人烦恼。

我接受了lbolla的回答，因为如果没有他对问题与异常处理关系的解释，我可能根本无法理解这个问题。我也想感谢sbt，他解释了Python无法序列化异常是问题所在。我非常感激他们两个人，请给他们的回答投票支持。谢谢。

更新3：我发布了一个后续问题：捕获无法序列化的异常并重新抛出。

postgresql sqlalchemy debian python 3 serialization exception handling bug report multiprocessing

Python脚本在使用SQLAlchemy和多进程时挂起

4 个回答

撰写回答