火花流编程

2024-04-19 05:31:54 发布

您现在位置:Python中文网/ 问答频道 /正文

目前的问题可以概括如下:

我有一组user_id,我启动了一个Spark流任务,接收流数据并计算一些user_id的累积统计数据,它一直在运行。你知道吗

每隔60秒,我需要检查这些user_id的统计信息,并将它们写入一个文件,然后将user_id的集合更改为另一个新的集合,并在此过程中重复此过程。你知道吗

我是一个新的火花流工作,希望我可以得到一些提示,最好的实现上述想法,伪代码首选。 非常感谢。你知道吗


Tags: 文件数据代码信息id过程spark统计数据