谷歌云计算机内存不足

2024-06-08 01:08:43 发布

您现在位置:Python中文网/ 问答频道 /正文

当我选择以下配置时,出现内存不足的问题(配置.yaml)公司名称:

trainingInput:
  scaleTier: CUSTOM
  masterType: large_model
  workerType: complex_model_m
  parameterServerType: large_model
  workerCount: 10
  parameterServerCount: 10

我在关注谷歌关于“criteo_tft”的教程:https://github.com/GoogleCloudPlatform/cloudml-samples/blob/master/criteo_tft/config-large.yaml

这个链接说他们可以训练1TB的数据!我很感动能试一试!!!在

我的数据集是分类的,因此它在一次热编码后创建了一个相当大的矩阵(一个大小为520000 x 4000的2D numpy数组)。我可以在一个有32GB内存的本地机器上训练我的数据集,但我不能在云端做同样的事情!!!在

以下是我的错误

^{pr2}$

请不要担心“使用TensorFlow后端。”错误,因为我得到了它,即使它的培训工作是成功的其他较小的数据集。在

有谁能解释一下是什么导致内存不足(错误247)以及如何编写配置.yaml文件以避免此类问题,并在云端训练我的数据?在


Tags: 数据名称yamlmodel错误custom公司large
1条回答
网友
1楼 · 发布于 2024-06-08 01:08:43

我已经解决了这个问题。我只需要做几件事:

  1. 更改tensorflow版本,尤其是我在云端提交培训作业的方式。

  2. 我切换到Feature Hashing

现在它可以训练一个包含250万行和4200个编码列的分类数据集。在

相关问题 更多 >

    热门问题