缓存Dagster的管道结果

2024-04-25 03:34:26 发布

您现在位置:Python中文网/ 问答频道 /正文

是否有一种方法可以缓存管道中实体的输出,如果我运行相同的管道,但配置略有不同(请考虑“超参数调优”),管道中不受配置更改影响的某些初始步骤将不会执行多次

Raw data -> CPU expensive preprocessing (A) -> model fitting (B) -> model

我希望能够运行一次A,但运行B的多个变体

在Dagster有没有优雅的方法


Tags: 方法实体data参数rawmodel管道步骤
1条回答
网友
1楼 · 发布于 2024-04-25 03:34:26

我不知道这个功能是否存在

当存储设置为文件系统时,Dagster可以重新运行solid,但在缓存方面没有看到您所描述的内容。如果这里没有太多吸引力,可以提交一份issue to Dagster,然后再报告

一些可能的解决办法

  1. 也许您可以选择将数据具体化,并将逻辑添加到实体中,以检查数据是否存在于某个位置。如果有,您将返回该数据,如果没有,您将重新处理。这种模式给您带来了确保仅持久化所需文件的负担。考虑到开放式场景中潜在的可变区域,这可能是最简单的选择
  2. 我想你可以在每次实验后把新的管道拼凑起来——只由需要再次运行的实体组成,然后引入新的实体,从文件中读取数据并输出其他实体。我想,读入的数据实体可能只是一个可重用和别名实体

相关问题 更多 >