celery .delay 卡住(近期,不是认证问题)
我正在使用 Celery 2.2.4 和 djCelery 2.2.4,后端是 RabbitMQ 2.1.1。最近我上线了两台新的 Celery 服务器——之前我在两台机器上运行了两个工作进程,总共有大约 18 个线程,而在我新的高配机器上(36G 内存 + 双超线程四核),我现在运行 10 个工作进程,每个有 8 个线程,总共 180 个线程——我的任务都比较小,所以这样应该没问题。
这些节点在过去几天运行得很好,但今天我注意到 .delay()
这个方法卡住了。当我中断它时,看到一个错误追踪信息,指向这里:
File "/home/django/deployed/releases/20110608183345/virtual-env/lib/python2.5/site-packages/celery/task/base.py", line 324, in delay
return self.apply_async(args, kwargs)
File "/home/django/deployed/releases/20110608183345/virtual-env/lib/python2.5/site-packages/celery/task/base.py", line 449, in apply_async
publish.close()
File "/home/django/deployed/virtual-env/lib/python2.5/site-packages/kombu/compat.py", line 108, in close
self.backend.close()
File "/home/django/deployed/virtual-env/lib/python2.5/site-packages/amqplib/client_0_8/channel.py", line 194, in close
(20, 41), # Channel.close_ok
File "/home/django/deployed/virtual-env/lib/python2.5/site-packages/amqplib/client_0_8/abstract_channel.py", line 89, in wait
self.channel_id, allowed_methods)
File "/home/django/deployed/virtual-env/lib/python2.5/site-packages/amqplib/client_0_8/connection.py", line 198, in _wait_method
self.method_reader.read_method()
File "/home/django/deployed/virtual-env/lib/python2.5/site-packages/amqplib/client_0_8/method_framing.py", line 212, in read_method
self._next_method()
File "/home/django/deployed/virtual-env/lib/python2.5/site-packages/amqplib/client_0_8/method_framing.py", line 127, in _next_method
frame_type, channel, payload = self.source.read_frame()
File "/home/django/deployed/virtual-env/lib/python2.5/site-packages/amqplib/client_0_8/transport.py", line 109, in read_frame
frame_type, channel, size = unpack('>BHI', self._read(7))
File "/home/django/deployed/virtual-env/lib/python2.5/site-packages/amqplib/client_0_8/transport.py", line 200, in _read
s = self.sock.recv(65536)
我查看了 RabbitMQ 的日志,发现进程试图连接时是这样的:
=INFO REPORT==== 12-Jun-2011::22:58:12 ===
accepted TCP connection on 0.0.0.0:5672 from x.x.x.x:48569
我的 Celery 日志级别设置为 INFO
,但在 Celery 日志中没有看到特别有趣的内容,除了有两个工作进程无法连接到消息代理:
[2011-06-12 22:41:08,033: ERROR/MainProcess] Consumer: Connection to broker lost. Trying to re-establish connection...
其他所有节点都能顺利连接。
我知道去年有一篇类似的帖子( RabbitMQ / Celery with Django 在 delay/ready 等等时卡住 - 没有有用的日志信息 ),但我很确定这次情况不同。难道是因为工作进程数量太多,导致了 amqplib
中某种竞争条件的出现——我找到了一条 这样的讨论,似乎表明 amqplib
不是线程安全的,不确定这对 Celery 是否有影响。
编辑:我在两个节点上都尝试了 celeryctl purge
——在一个节点上成功了,但在另一个节点上失败,出现了以下 AMQP 错误:
AMQPConnectionException(reply_code, reply_text, (class_id, method_id))
amqplib.client_0_8.exceptions.AMQPConnectionException:
(530, u"NOT_ALLOWED - cannot redeclare exchange 'XXXXX' in vhost 'XXXXX'
with different type, durable or autodelete value", (40, 10), 'Channel.exchange_declare')
在两个节点上,inspect stats
也卡住了,显示“无法关闭连接”的错误追踪信息。我对此感到很困惑。
编辑2:我通过 exchange.delete
从 camqadm
删除了有问题的交换机,现在第二个节点也卡住了 :(。
编辑3:最近还有一个变化,就是我为 RabbitMQ 添加了一个额外的虚拟主机,我的测试节点连接到了这个虚拟主机。
2 个回答
我也遇到了类似的问题,但原因不一样。如果有其他人碰到这个情况,我的问题是通过这个链接解决的:https://stackoverflow.com/a/63591450/284164。我没有在项目的顶层导入celery应用,所以.delay()
一直卡在那里,直到我加上这个导入。
希望这能帮到某些人,省去很多时间……虽然这并没有让我少一些尴尬:
/var
这个文件夹在运行 rabbit 的服务器上满了。因为我添加了很多节点,rabbit 记录的日志变多了,结果把 /var
填满了——我无法写入 /var/lib/rabbitmq
,所以消息就无法传递了。