2024-04-19 05:31:54 发布
网友
目前的问题可以概括如下:
我有一组user_id,我启动了一个Spark流任务,接收流数据并计算一些user_id的累积统计数据,它一直在运行。你知道吗
user_id
每隔60秒,我需要检查这些user_id的统计信息,并将它们写入一个文件,然后将user_id的集合更改为另一个新的集合,并在此过程中重复此过程。你知道吗
我是一个新的火花流工作,希望我可以得到一些提示,最好的实现上述想法,伪代码首选。 非常感谢。你知道吗
你可以使用apachespark流媒体的窗口转换,窗口的时间间隔是60秒,如果你想了解更多,请查看下面的链接
https://blog.knoldus.com/2015/06/24/stateful-transformation-on-dstream-in-apache-spark-with-example-of-wordcount/
http://spark.apache.org/docs/latest/streaming-programming-guide.html#window-operations
你可以使用apachespark流媒体的窗口转换,窗口的时间间隔是60秒,如果你想了解更多,请查看下面的链接
https://blog.knoldus.com/2015/06/24/stateful-transformation-on-dstream-in-apache-spark-with-example-of-wordcount/
http://spark.apache.org/docs/latest/streaming-programming-guide.html#window-operations
相关问题 更多 >
编程相关推荐