火花流编程 - 问答 - Python中文网

火花流编程

2024-04-19 05:31:54 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

目前的问题可以概括如下：

我有一组user_id，我启动了一个Spark流任务，接收流数据并计算一些user_id的累积统计数据，它一直在运行。你知道吗

每隔60秒，我需要检查这些user_id的统计信息，并将它们写入一个文件，然后将user_id的集合更改为另一个新的集合，并在此过程中重复此过程。你知道吗

我是一个新的火花流工作，希望我可以得到一些提示，最好的实现上述想法，伪代码首选。非常感谢。你知道吗

Tags：文件数据代码信息 id 过程 spark 统计数据

1条回答

网友

1楼 · 发布于 2024-04-19 05:31:54

你可以使用apachespark流媒体的窗口转换，窗口的时间间隔是60秒，如果你想了解更多，请查看下面的链接

https://blog.knoldus.com/2015/06/24/stateful-transformation-on-dstream-in-apache-spark-with-example-of-wordcount/

http://spark.apache.org/docs/latest/streaming-programming-guide.html#window-operations

相关问题更多 >

编程相关推荐

热门问题

热门文章