谷歌云计算机内存不足

2024-06-08 01:08:43 发布

男 | 程序猿一只，喜欢编程写python代码。

当我选择以下配置时，出现内存不足的问题(配置.yaml)公司名称：

trainingInput:
  scaleTier: CUSTOM
  masterType: large_model
  workerType: complex_model_m
  parameterServerType: large_model
  workerCount: 10
  parameterServerCount: 10

我在关注谷歌关于“criteo_tft”的教程：https://github.com/GoogleCloudPlatform/cloudml-samples/blob/master/criteo_tft/config-large.yaml

这个链接说他们可以训练1TB的数据！我很感动能试一试！！！在

我的数据集是分类的，因此它在一次热编码后创建了一个相当大的矩阵（一个大小为520000 x 4000的2D numpy数组）。我可以在一个有32GB内存的本地机器上训练我的数据集，但我不能在云端做同样的事情！！！在

以下是我的错误：

^{pr2}$

请不要担心“使用TensorFlow后端。”错误，因为我得到了它，即使它的培训工作是成功的其他较小的数据集。在

有谁能解释一下是什么导致内存不足（错误247）以及如何编写配置.yaml文件以避免此类问题，并在云端训练我的数据？在

Tags：数据名称 yaml model 错误 custom 公司 large

1条回答

网友

1楼 · 发布于 2024-06-08 01:08:43

我已经解决了这个问题。我只需要做几件事：

更改tensorflow版本，尤其是我在云端提交培训作业的方式。
我切换到Feature Hashing

现在它可以训练一个包含250万行和4200个编码列的分类数据集。在

谷歌云计算机内存不足

相关问题更多 >

编程相关推荐

热门问题

热门文章

谷歌云计算机内存不足

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >