通过重复api调用批处理数据,并通过apache beam接收到bigquery

2024-05-12 16:29:55 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在编写一个用例。在这个用例中,我必须从与Adobe AEM query builder关联的rest端点接收数据。现在,由于数据的大小,我将不得不批量提取数据。让我详细说明最后一点。考虑端点X。让我们假设,如果我将查询中的数据限制作为“无限制”发送,或者非常具体地将p.limit参数设置为-1,它将返回超过200000个点。现在,为了系统地从这个端点提取数据,我需要通过设置p.guesttotal和p.limit参数来使用adobe aem的分页功能。这将有助于我在给定的通话中只获得特定数量的分数。例如,1000点、2000点等。此外,这不会使AEM超时,也不会提供所有数据。 现在,我想使用ApacheBeam和Google Cloud Dataflow runner提取这些数据,因为它具有稳定性和可伸缩性。如果这是一次性拉动,那么实现就很简单。但是,在上面的场景中,我们有一个递归数据拉取。这就是我无法理解的地方,如何在ApacheBeam中实现这一点。我无法在配置文件中硬编码值,因为首选动态配置。 我要求在这方面提供一些指导。 请让我知道,如果需要更多的阐述。我很乐意解释更多。 多谢各位


Tags: 数据restbuilder批量用例端点queryadobe