java Spark结构化流媒体：当前批次落后

1 周，3 日 Questions & Answers 1637

它的实现似乎非常简单，但似乎存在一些问题

此作业从kafka主题读取偏移量（ui事件数据），进行一些聚合并将其写入Aerospike数据库

在高流量的情况下，我开始看到作业运行正常但没有插入新数据的问题。查看日志，我看到以下警告消息：

Current batch is falling behind. The trigger interval is 30000 milliseconds, but spent 43491 milliseconds

有几次工作继续写数据，但我可以看到计数很低，这表明有一些数据丢失

代码如下：

Dataset<Row> stream = sparkSession.readStream()
          .format("kafka")
          .option("kafka.bootstrap.servers", kafkaBootstrapServersString)
          .option("subscribe", newTopic)
          .option("startingOffsets", "latest")
          .option("enable.auto.commit", false)
          .option("failOnDataLoss", false)
          .load();
StreamingQuery query = stream
        .writeStream()
        .option("startingOffsets", "earliest")
        .outputMode(OutputMode.Append())
        .foreach(sink)
        .trigger(Trigger.ProcessingTime(triggerInterval))
        .queryName(queryName)
        .start();

Python中文网

有 Java 编程相关的问题?

java Spark结构化流媒体：当前批次落后

共 (1) 个答案

# 1 楼答案