当我们在Saver.save
中指定全局步骤时,它将把全局步骤存储为检查点后缀。在
# save the checkpoint
saver = tf.train.Saver()
saver.save(session, checkpoints_path, global_step)
我们可以恢复检查点并获得存储在检查点中的最后一个全局步骤,如下所示:
^{pr2}$如果我们使用tf.train.MonitoredTrainingSession
,那么将全局步骤保存到检查点并获得gstep
的等效方法是什么?在
根据Maxim的建议,我在tf.train.MonitoredTrainingSession
之前创建了global_step
变量,并添加了一个CheckpointSaverHook
,如下所示:
global_step = tf.train.get_or_create_global_step()
save_checkpoint_hook = tf.train.CheckpointSaverHook(checkpoint_dir=checkpoints_abs_path,
save_steps=5,
checkpoint_basename=(checkpoints_prefix + ".ckpt"))
with tf.train.MonitoredTrainingSession(master=server.target,
is_chief=is_chief,
hooks=[sync_replicas_hook, save_checkpoint_hook],
config=config) as session:
_, gstep = session.run([optimizer, global_step], feed_dict=feed_dict_train)
print("current global step=" + str(gstep))
我可以看到它生成的检查点文件类似于Saver.saver
所做的。但是,它无法从检查点检索全局步骤。请告诉我该怎么解决这个问题?在
您可以通过^{} 或通过^{} 函数获得当前全局步骤。在培训开始前,应通知后者。在
对于被监视的会话,将^{} 添加到
hooks
,后者在内部使用定义的全局步骤张量在每N个步骤之后保存模型。在相关问题 更多 >
编程相关推荐