我正在训练一个大型ish模型,试图在Azure笔记本中使用Azure Machine Learning service。在
因此,我创建了一个Estimator
来进行本地培训:
from azureml.train.estimator import Estimator
estimator = Estimator(source_directory='./source_dir',
compute_target='local',
entry_script='train.py')
(我的train.py
应该从一个大的字向量文件开始加载和训练)。在
当与
^{pr2}$我明白了
TrainingException:
====================================================================
While attempting to take snapshot of /data/home/username/notebooks/source_dir Your total snapshot size exceeds the limit of 300.0 MB. Please see http://aka.ms/aml-largefiles on how to work with large files.
====================================================================
错误中提供的链接可能是broken。
我的./source_dir
中的内容确实超过300 MB。
我怎么解决这个问题?在
您可以将培训文件放在
source_dir
之外,这样它们就不会作为提交实验的一部分而被上载,然后分别将它们上载到数据存储(基本上是使用与您的工作区关联的Azure存储)。然后,您只需引用train.py
中的培训文件。在有关如何将数据上载到数据存储,然后从培训文件访问它的示例,请参见Train model tutorial。在
在我阅读了GitHub问题Encounter |total Snapshot size 300MB while start logging和azureml服务的官方文档Manage and request quotas for Azure resources之后,我认为这是一个未知的问题,需要等待Azure来解决。在
同时,我建议您可以尝试将当前工作迁移到另一个服务Azure Databricks,上载数据集和代码,然后在托管在HDInsight Spark集群上的Azure Databricks笔记本中运行,而不必担心内存或存储限制。您可以参考these samples获取Azure ML on Azure数据库。在
相关问题 更多 >
编程相关推荐