如何使用Python连接Spark流中的三个数据流

2024-06-09 03:23:42 发布

您现在位置:Python中文网/ 问答频道 /正文

我有三个卡夫卡生产者是发送数据流在5-10秒之间的随机间隔相同的主题。有一个Spark使用者(基于python)正在使用数据。你知道吗

要求首先将传入流分离为消费者中的3个独立流,然后基于列将它们连接起来。生产者是使用Python开发的。你知道吗

我已经成功地用Python将传入的数据流划分为3个独立的流。然而,我面临的问题是,基于一个键(传入数据流中的第一个值)将所有3个元素重新连接在一起。你知道吗

当我加入2个流时,连接按预期工作。 然而,当我加入所有3个流时,我没有得到任何输出。你知道吗

P1.LeftOuterJoin(P2) # works
P1.LeftOuterJoin(P3) # works
P2.Join(P3) # works

P1.LeftOuterJoin(P2.Join(P3)) # no output coming up

Tags: 数据主题间隔使用者消费者发送数据spark数据流