celery .delay 卡住(近期,不是认证问题)

6 投票
2 回答
3515 浏览
提问于 2025-04-16 19:26

我正在使用 Celery 2.2.4 和 djCelery 2.2.4,后端是 RabbitMQ 2.1.1。最近我上线了两台新的 Celery 服务器——之前我在两台机器上运行了两个工作进程,总共有大约 18 个线程,而在我新的高配机器上(36G 内存 + 双超线程四核),我现在运行 10 个工作进程,每个有 8 个线程,总共 180 个线程——我的任务都比较小,所以这样应该没问题。

这些节点在过去几天运行得很好,但今天我注意到 .delay() 这个方法卡住了。当我中断它时,看到一个错误追踪信息,指向这里:

File "/home/django/deployed/releases/20110608183345/virtual-env/lib/python2.5/site-packages/celery/task/base.py", line 324, in delay
    return self.apply_async(args, kwargs)
File "/home/django/deployed/releases/20110608183345/virtual-env/lib/python2.5/site-packages/celery/task/base.py", line 449, in apply_async
    publish.close()
File "/home/django/deployed/virtual-env/lib/python2.5/site-packages/kombu/compat.py", line 108, in close
    self.backend.close()
File "/home/django/deployed/virtual-env/lib/python2.5/site-packages/amqplib/client_0_8/channel.py", line 194, in close
    (20, 41),    # Channel.close_ok
File "/home/django/deployed/virtual-env/lib/python2.5/site-packages/amqplib/client_0_8/abstract_channel.py", line 89, in wait
    self.channel_id, allowed_methods)
File "/home/django/deployed/virtual-env/lib/python2.5/site-packages/amqplib/client_0_8/connection.py", line 198, in _wait_method
    self.method_reader.read_method()
File "/home/django/deployed/virtual-env/lib/python2.5/site-packages/amqplib/client_0_8/method_framing.py", line 212, in read_method
    self._next_method()
File "/home/django/deployed/virtual-env/lib/python2.5/site-packages/amqplib/client_0_8/method_framing.py", line 127, in _next_method
    frame_type, channel, payload = self.source.read_frame()
File "/home/django/deployed/virtual-env/lib/python2.5/site-packages/amqplib/client_0_8/transport.py", line 109, in read_frame
    frame_type, channel, size = unpack('>BHI', self._read(7))
File "/home/django/deployed/virtual-env/lib/python2.5/site-packages/amqplib/client_0_8/transport.py", line 200, in _read
    s = self.sock.recv(65536)

我查看了 RabbitMQ 的日志,发现进程试图连接时是这样的:

=INFO REPORT==== 12-Jun-2011::22:58:12 ===
accepted TCP connection on 0.0.0.0:5672 from x.x.x.x:48569

我的 Celery 日志级别设置为 INFO,但在 Celery 日志中没有看到特别有趣的内容,除了有两个工作进程无法连接到消息代理:

[2011-06-12 22:41:08,033: ERROR/MainProcess] Consumer: Connection to broker lost. Trying to re-establish connection...

其他所有节点都能顺利连接。

我知道去年有一篇类似的帖子( RabbitMQ / Celery with Django 在 delay/ready 等等时卡住 - 没有有用的日志信息 ),但我很确定这次情况不同。难道是因为工作进程数量太多,导致了 amqplib 中某种竞争条件的出现——我找到了一条 这样的讨论,似乎表明 amqplib 不是线程安全的,不确定这对 Celery 是否有影响。

编辑:我在两个节点上都尝试了 celeryctl purge——在一个节点上成功了,但在另一个节点上失败,出现了以下 AMQP 错误:

AMQPConnectionException(reply_code, reply_text, (class_id, method_id))
    amqplib.client_0_8.exceptions.AMQPConnectionException: 
    (530, u"NOT_ALLOWED - cannot redeclare exchange 'XXXXX' in vhost 'XXXXX' 
     with different type, durable or autodelete   value", (40, 10), 'Channel.exchange_declare')

在两个节点上,inspect stats 也卡住了,显示“无法关闭连接”的错误追踪信息。我对此感到很困惑。

编辑2:我通过 exchange.deletecamqadm 删除了有问题的交换机,现在第二个节点也卡住了 :(。

编辑3:最近还有一个变化,就是我为 RabbitMQ 添加了一个额外的虚拟主机,我的测试节点连接到了这个虚拟主机。

2 个回答

0

我也遇到了类似的问题,但原因不一样。如果有其他人碰到这个情况,我的问题是通过这个链接解决的:https://stackoverflow.com/a/63591450/284164。我没有在项目的顶层导入celery应用,所以.delay()一直卡在那里,直到我加上这个导入。

6

希望这能帮到某些人,省去很多时间……虽然这并没有让我少一些尴尬:

/var 这个文件夹在运行 rabbit 的服务器上满了。因为我添加了很多节点,rabbit 记录的日志变多了,结果把 /var 填满了——我无法写入 /var/lib/rabbitmq,所以消息就无法传递了。

撰写回答