如何将实时JSON提要从restfulapi接收到BigQuery?

2024-05-14 00:42:03 发布

您现在位置:Python中文网/ 问答频道 /正文

我希望持久化来自一个可公开访问的API的数据,该API在调用时返回一个JSON对象列表,每个对象对应过去N个事件。JSON对象的结构简单而一致。N不能被指定(据我所知),因此需要足够频繁地轮询API,以确保数据中没有间隙。我需要检查一下频率,但肯定不止一分钟。在

BigQuery并不是简单地接受restfulapi作为流数据源。对于Cron来说,粒度似乎太细了,它通常最多是分钟(从https://cloud.google.com/solutions/reliable-task-scheduling-compute-engine判断,它也可能超过配额)。是否有其他方法可以一致地轮询restfulapi?在

如果可能的话,我更喜欢使用Python解决方案,其中涉及到编码,但是我会尽我所能地使用它。只需将数据传输到Google云存储(例如,每次调用一个JSON文档)也是可以接受的;我可以编写一个进程(Dataflow或其他东西)来处理重复项,并将其摄取到BigQuery中。在

我觉得这个问题过去一定有人问过,也有人回答过,但是我找了几天都没找到,所以如果有人帮我,我会非常感激的!在


Tags: 数据对象apijson列表事件bigquery结构