当我选择以下配置时,出现内存不足的问题(配置.yaml)公司名称:
trainingInput:
scaleTier: CUSTOM
masterType: large_model
workerType: complex_model_m
parameterServerType: large_model
workerCount: 10
parameterServerCount: 10
我在关注谷歌关于“criteo_tft”的教程:https://github.com/GoogleCloudPlatform/cloudml-samples/blob/master/criteo_tft/config-large.yaml
这个链接说他们可以训练1TB的数据!我很感动能试一试!!!在
我的数据集是分类的,因此它在一次热编码后创建了一个相当大的矩阵(一个大小为520000 x 4000的2D numpy数组)。我可以在一个有32GB内存的本地机器上训练我的数据集,但我不能在云端做同样的事情!!!在
以下是我的错误:
^{pr2}$请不要担心“使用TensorFlow后端。”错误,因为我得到了它,即使它的培训工作是成功的其他较小的数据集。在
有谁能解释一下是什么导致内存不足(错误247)以及如何编写配置.yaml文件以避免此类问题,并在云端训练我的数据?在
我已经解决了这个问题。我只需要做几件事:
更改tensorflow版本,尤其是我在云端提交培训作业的方式。
我切换到Feature Hashing
现在它可以训练一个包含250万行和4200个编码列的分类数据集。在
相关问题 更多 >
编程相关推荐