SciPy优化：Newton CG vs BFGS vs L-BFG

NN=9 Method: BFGS Warning: Desired error not necessarily achieved due to precision loss. Current function value: 204.465912 Iterations: 1239 Function evaluations: 1520 Gradient evaluations: 1508 Time taken for minimisation: 340.728140116

NN=9 Method: Newton-CG Optimization terminated successfully. Current function value: 7.954412 Iterations: 49 Function evaluations: 58 Gradient evaluations: 1654 Hessian evaluations: 0 Time taken for minimisation: 294.203114033

1条回答

网友

1楼 · 发布于 2024-05-15 04:09:22

你的问题缺少两个重要信息：能量函数和初始猜测。能量函数可以是凸的/非凸的，光滑的/分段光滑的/不连续的。因此，在你的上下文中很难完全回答你的问题。但是，我可以解释BFGS和L-BFGS-B之间的一些关键区别

这两种方法都是求解非线性优化问题的迭代方法。他们在每次迭代时都用函数的Hessian近似来近似牛顿法。与牛顿法的关键区别在于，它们不是在特定点上计算完整的Hessian，而是在以前的点上累积梯度，并使用BFGS公式将它们组合起来作为Hessian的近似值。牛顿法和BFGS法不能保证收敛，除非函数在最优解附近有二次泰勒展开。

原始的BFGS方法从给定的初始猜测开始累积所有梯度。这种方法有两个问题。首先，内存可以无限增加。其次，对于非线性问题，初始猜测的Hessian往往不代表解的Hessian。因此，近似的Hessian会有偏差，直到在接近解的地方积累足够的梯度。这可以减慢收敛速度，但根据我的经验，对于具有单个局部最小值的能量函数，仍然应该使用好的线搜索算法来收敛。

L-BFGS与BFGS相同，但内存有限，这意味着经过一段时间后，旧的梯度将被丢弃，为新计算的梯度留下更多空间。这解决了记忆问题，避免了初始梯度的偏差。然而，取决于记忆中的梯度数量，海森可能永远无法精确估计，可能是另一个偏见的来源。这也会减慢收敛速度，但同样，对于具有单个局部最小值的能量函数，它仍应使用良好的线搜索算法来收敛。

L-BFGS-B与L-BFGS相同，但对输入变量有界约束。L-BFGS-B将停止优化域边界上的变量。由于您没有指定任何约束，因此算法的这一方面不适用于您的问题。

我的假设是，你试图用一个离解很远的初始猜测来解决一个光滑但非凸的问题，最终得到一个局部极小值。既然你提到你是从一个平面配置开始的，我不会惊讶你是从一个奇点开始的，这个奇点会导致一个退化的Hessian，这会给其他优化带来麻烦。在你的例子中，BFGS和L-BFGS的唯一区别是，每次迭代都会计算一个稍微不同的梯度，L-BFGS方法最终会沿着一条通向全局最小值的路径。

相关问题更多 >

编程相关推荐

热门问题

热门文章