在使用Azure机器学习服务培训大型模型时,如何克服培训异常?

2024-05-16 00:53:22 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在训练一个大型ish模型,试图在Azure笔记本中使用Azure Machine Learning service。在

因此,我创建了一个Estimator来进行本地培训:

from azureml.train.estimator import Estimator

estimator = Estimator(source_directory='./source_dir',
                      compute_target='local',
                      entry_script='train.py')

(我的train.py应该从一个大的字向量文件开始加载和训练)。在

当与

^{pr2}$

我明白了

TrainingException:

====================================================================

While attempting to take snapshot of /data/home/username/notebooks/source_dir Your total snapshot size exceeds the limit of 300.0 MB. Please see http://aka.ms/aml-largefiles on how to work with large files.

====================================================================

错误中提供的链接可能是broken。 我的./source_dir中的内容确实超过300 MB。
我怎么解决这个问题?在


Tags: oftopy模型sourcedirsnapshot笔记本
2条回答

您可以将培训文件放在source_dir之外,这样它们就不会作为提交实验的一部分而被上载,然后分别将它们上载到数据存储(基本上是使用与您的工作区关联的Azure存储)。然后,您只需引用train.py中的培训文件。在

有关如何将数据上载到数据存储,然后从培训文件访问它的示例,请参见Train model tutorial。在

在我阅读了GitHub问题Encounter |total Snapshot size 300MB while start logging和azureml服务的官方文档Manage and request quotas for Azure resources之后,我认为这是一个未知的问题,需要等待Azure来解决。在

同时,我建议您可以尝试将当前工作迁移到另一个服务Azure Databricks,上载数据集和代码,然后在托管在HDInsight Spark集群上的Azure Databricks笔记本中运行,而不必担心内存或存储限制。您可以参考these samples获取Azure ML on Azure数据库。在

相关问题 更多 >