Tensorflow：关于adam optimiz的困惑

2条回答

网友

1楼 · 编辑于 2024-04-28 09:24:37

我发现文档很清楚，我将在这里粘贴伪代码算法：

您的参数：

learning_rate：在1e-4和1e-2之间是标准的
beta1：默认为0.9
beta2：默认为0.999
epsilon：默认为1e-08
The default value of 1e-8 for epsilon might not be a good default in general. For example, when training an Inception network on ImageNet a current good choice is 1.0 or 0.1.

初始化：

m_0 <- 0 (Initialize initial 1st moment vector)
v_0 <- 0 (Initialize initial 2nd moment vector)
t <- 0 (Initialize timestep)

m_t和v_t将跟踪每个网络参数的梯度及其平方的移动平均值。（因此，如果有1个参数，Adam将在内存中多保留2个参数）

在每次迭代时{}，对于模型的每个参数：

t <- t + 1
lr_t <- learning_rate * sqrt(1 - beta2^t) / (1 - beta1^t)

m_t <- beta1 * m_{t-1} + (1 - beta1) * gradient
v_t <- beta2 * v_{t-1} + (1 - beta2) * gradient ** 2
variable <- variable - lr_t * m_t / (sqrt(v_t) + epsilon)

这里lr_t与learning_rate有点不同，因为对于早期的迭代，移动平均值还没有收敛，所以我们必须通过乘以sqrt(1 - beta2^t) / (1 - beta1^t)来规范化。当t高（t > 1./(1.-beta2)）时，lr_t几乎等于learning_rate

要回答你的问题，你只需要通过一个固定的学习率，保持beta1和beta2的默认值，也许修改epsilon，Adam就会变魔术：）

链接RMSProp

带beta1=1的Adam等价于带momentum=0的RMSProp。Adam的参数beta2和RMSProp的参数decay是相同的。

然而，RMSProp并没有保持梯度的移动平均值。但它可以保持势头，就像MomentumOptimizer一样。

rmsprop的详细说明。

保持梯度平方的移动（贴现）平均值
用这个平均值的根除以梯度
（可以保持势头）

下面是伪代码：

v_t <- decay * v_{t-1} + (1-decay) * gradient ** 2
mom = momentum * mom{t-1} + learning_rate * gradient / sqrt(v_t + epsilon)
variable <- variable - mom

网友
2楼 · 编辑于 2024-04-28 09:24:37

RMSúPROP和ADAM都有自适应学习率。
基本RMS属性
cache = decay_rate * cache + (1 - decay_rate) * dx**2 x += - learning_rate * dx / (np.sqrt(cache) + eps)
您可以看到，它最初有两个参数衰减率和每股收益
然后我们可以增加一个动量，使梯度更稳定，然后我们可以写
cache = decay_rate * cache + (1 - decay_rate) * dx**2 **m = beta1*m + (1-beta1)*dx** [beta1 =momentum parameter in the doc ] x += - learning_rate * dx / (np.sqrt(cache) + eps)
现在你可以看到，如果我们保持beta1=o，那么它是没有动量的rms_prop。
然后是ADAM的基础知识
在cs-231 Andrej Karpathy中，亚当最初是这样描述的
Adam is a recently proposed update that looks a bit like RMSProp with momentum
是的！那么，这与带有动量的rms_道具有什么区别呢？
m = beta1*m + (1-beta1)*dx v = beta2*v + (1-beta2)*(dx**2) **x += - learning_rate * m / (np.sqrt(v) + eps)**
他在更新方程中再次提到，m，v更光滑。
因此，与rms_prop的不同之处在于更新的噪音更小。
什么声音？
在初始化过程中，我们将m和v初始化为零。
m=v=0
为了减少这种初始化效果，总是要进行一些预热。所以等式是
m = beta1*m + (1-beta1)*dx beta1 -o.9 beta2-0.999 **mt = m / (1-beta1**t)** v = beta2*v + (1-beta2)*(dx**2) **vt = v / (1-beta2**t)** x += - learning_rate * mt / (np.sqrt(vt) + eps)
现在我们运行这个程序几次迭代。很明显注意粗体的线条，你可以看到当t增加（迭代次数）时，mt发生的事情
mt=m

链接RMSProp

rmsprop的详细说明。

相关问题更多 >

编程相关推荐

热门问题

热门文章