导航:首页 > 知识科普 > 一阶和二阶梯度优化方法怎么求

一阶和二阶梯度优化方法怎么求

发布时间：2022-09-22 03:16:47

㈠梯度下降法是什么

梯度下降法（英语：Gradient descent）是一个一阶最优化算法，通常也称为最陡下降法。

要使用梯度下降法找到一个函数的局部极小值，必须向函数上当前点对应梯度（或者是近似梯度）的反方向的规定步长距离点进行迭代搜索。如果相反地向梯度正方向迭代进行搜索，则会接近函数的局部极大值点；这个过程则被称为梯度上升法。

梯度下降一般归功于柯西，他在 1847 年首次提出它。Hadamard在 1907 年独立提出了类似的方法。Haskell Curry在 1944 年首先研究了它对非线性优化问题的收敛性，随着该方法在接下来的几十年中得到越来越多的研究和使用，通常也称为最速下降。

梯度下降适用于任意维数的空间，甚至是无限维的空间。在后一种情况下，搜索空间通常是一个函数空间，并且计算要最小化的函数的Fréchet 导数以确定下降方向。

梯度下降适用于任意数量的维度（至少是有限数量）可以看作是柯西-施瓦茨不等式的结果。那篇文章证明了任意维度的两个向量的内（点）积的大小在它们共线时最大化。在梯度下降的情况下，当自变量调整的向量与偏导数的梯度向量成正比时。

修改

为了打破梯度下降的锯齿形模式，动量或重球方法使用动量项，类似于重球在被最小化的函数值的表面上滑动，或牛顿动力学中的质量运动在保守力场中通过粘性介质。具有动量的梯度下降记住每次迭代时的解更新，并将下一次更新确定为梯度和前一次更新的线性组合。

对于无约束二次极小化，重球法的理论收敛速度界与最优共轭梯度法的理论收敛速度界渐近相同。

该技术用于随机梯度下降，并作为用于训练人工神经网络的反向传播算法的扩展。

㈡一个多元函数的次梯度怎样求

次梯度法是求解凸函数最优化（凸优化）问题的一种迭代法。次梯度法能够用于不可微的目标函数。当目标函数可微时，对于无约束问题次梯度法与梯度下降法具有同样的搜索方向。虽然在实际的应用中，次梯度法比内点法和牛顿法慢得多，但是次梯度法可以直接应用于更广泛的问题，次梯度法只需要很少的存储需求。然而，通过将次梯度法与分解技术结合，有时能够开发出问题的简单分配算法

次梯度方法有许多可采用的步长。以下为5种能够保证收敛性的步长规则：

1、恒定步长，

㈢优化方法总结

神经网络模型中有多种优化算法，优化算法的作用用来优化更新参数。
对于优化算法而言，主要的框架如下。
参数：目标函数：学习率。
对于每个epoch t：
step1： 计算当前梯度
step2： 计算动量。
一阶动量：
二阶动量:
step3： 计算当前时刻下降梯度
step4： 更新参数
对于不同的优化算法而言，区别主要在于第一步和第二步。对于梯度的计算，一阶动量的计算，和二阶动量的计算存在差别。
三、四步的计算更新，各个算法之间都是相同的。

最常见的SGD
直接没有step2，没有引入动量。

在实际的实现中，可能会对学习率进行改变，会使用衰减学习率。
SGD的缺点是 1 收敛速度慢，2 有可能会困在局部最优解。

也就是SGD+ Momentum。这里引入了一阶动量。
从直观理解就是加入了一个惯性，在坡度比较陡的地方，会有较大的惯性，这是下降的多。坡度平缓的地方，惯性较小，下降的会比较慢。
修改SGD中的一阶动量为

等式右边有两部分，加号左边的部分为之前积累的下降方向，加号右边为当前的梯度。两者的权重用参数来控制。
越大，说明下降的方向越依赖于以往的惯性。可以减少方向的突变。

NAG是：Nesterov Accelerated Gradient
这里是针对SGD会陷在局部最优附近的缺点进行改进。
在前面针对收敛慢改，引进一阶动量后，这里着眼于step1里的梯度计算。通常会设的比较大，这就说明下降方向主要由历史方向积累决定，那么在step1里，不看当前的梯度，而是看下一步时刻的梯度。直观理解为多看一步，计算下一步的梯度。
用下一个点的梯度下降方向，与历史累积动量结合，计算step2里的一阶动量。
计算公式如下

前面的优化算法主要着眼于一阶动量的设计，从AdaGrad开始，将引入二阶动量。参数的二阶动量在这里表示为当前维度上，历史积累的全部的梯度的平方和。
将step3里的公式修改一下顺序，那前面的部分可以看成学习率。这里的分母是二阶动量。这里的学习率（包含二阶动量）会随着二阶动量的积累而逐渐变化，这就是‘自适应学习’。

宏观来分析，这里参数更新时，希望从少更新的维度多学习，经常更新的参数那里少学习一点。对于频繁更新的的参数，二阶动量迅速积累，会使的学习率降低，那么在同一次更新中，模型会学到比较少的内容。而不频繁更新的参数，学习率会比较大，每次更新时学到的东西比较多。
Ada算法的缺点也很明显，二阶动量是历史梯度的积累，是个单调递增的值，当分母越来越大时，整个的学习率会趋于0，会提前停止学习。

为了改进AdaGrad中的二阶动量会不断增加的缺点，这里提出了一个时间窗口。计算二阶动量的时候只计算这个时间窗口内的动量。避免了二阶动量的持续积累。
二阶动量的计算公式如下

SGD-M 引入了一阶动量，AdaG 引入了二阶动量。
二者结合就是Adam,同时考虑一阶动量和二阶动量。
二者的计算公式如下：

回头看最初的优化框架，已经分别在一阶动量和二阶动量做了研究。还剩下当前的梯度可以进行尝试。参考前面的NAG，Nadam就是Adam+Nesterov。
在Adam的基础上保持其他计算公式不变，更改当前梯度的计算公式为

从前面的介绍可以看出，Adam系列的算法表面上更优秀，针对原本的SGD的缺点做了各种改变。但是对于Adam算法，目前也存在着缺点。
其中一个很严重的问题是Adam算法有可能不收敛。因为二阶动量取决于一段时间内的梯度的积累。这段时间内的数据如果有异常，会导致这个二阶动量极不稳定。在学习的后期，学习率有可能不断震荡，导致整个模型无法收敛。
同时因为动量的引入，在学习的后期，存在可能使一步过大，错过最优解。
综上所述，虽然Adam看着很完美，但在实际应用中还是存在着缺点。所以到底是各种优化器要如何选择，还是要取决于具体的情况和个人的调参经验。

后续会逐渐更新个人的调参经验。

[1] 一个框架看懂优化算法之异同 SGD/AdaGrad/Adam
[2] Adam的两宗罪
[3] 如何理解随机梯度下降(Stochastic gradient descent，SGD)？

㈣想知道优化算法是什么

优化算法是通过改善计算方式来最小化或最大化损失函数E(x)。模型内部有些参数是用来计算测试集中目标值Y的真实值和预测值的偏差程度的，基于这些参数就形成了损失函数E(x)，比如说，权重(W)和偏差(b)就是这样的内部参数，一般用于计算输出值，在训练神经网络模型时起到主要作用。

优化算法分的分类

一阶优化算法是使用各参数的梯度值来最小化或最大化损失函数E(x），最常用的一阶优化算法是梯度下降。函数梯度导数dy/dx的多变量表达式，用来表示y相对于x的瞬时变化率。

二阶优化算法是使用了二阶导数也叫做Hessian方法来最小化或最大化损失函数，由于二阶导数的计算成本很高，所以这种方法并没有广泛使用。

㈤梯度下降法原理和步骤

一、梯度法思想
梯度法思想的三要素：出发点、下降方向、下降步长。
机器学习中常用的权重更新表达式为
：，这里的λ就是学习率，本文从这个式子出发来把机器学习中的各种“梯度”下降法阐释清楚。
机器学习目标函数，一般都是凸函数，什么叫凸函数？限于篇幅，我们不做很深的展开，在这儿我们做一个形象的比喻，凸函数求解问题，可以把目标损失函数想象成一口锅，来找到这个锅的锅底。非常直观的想法就是，我们沿着初始某个点的函数的梯度方向往下走（即梯度下降）。在这儿，我们再作个形象的类比，如果把这个走法类比为力，那么完整的三要素就是步长（走多少）、方向、出发点，这样形象的比喻，让我们对梯度问题的解决豁然开朗，出发点很重要，是初始化时重点要考虑的，而方向、步长就是关键。事实上不同梯度的不同就在于这两点的不同！
梯度方向是

，步长设为常数Δ，这时就会发现，如果用在梯度较大的时候，离最优解比较远，W的更新比较快；然而到了梯度较小的时候，也就是较靠近最优解的时候，W的更新竟然也保持着跟原来一样的速率，这样会导致W很容易更新过度反而远离了最优解，进而出现在最优解附近来回震荡。所以，既然在远离最优解的时候梯度大，在靠近最优解的时候梯度小，我们让步长随着这个律动，于是我我们就用λ|W|来代替Δ，最后得到了我们熟悉的式子：

所以说这时的λ是随着坡度的陡缓而变化的，别看它是个常数。
二、全量梯度下降法（Batch gradient descent）
全量梯度下降法每次学习都使用整个训练集，因此每次更新都会朝着正确的方向进行，最后能够保证收敛于极值点，凸函数收敛于全局极值点，非凸函数可能会收敛于局部极值点，缺陷就是学习时间太长，消耗大量内存。
第二、随机梯度下降法（Stochastic Gradient Descent）
SGD一轮迭代只用一条随机选取的数据，尽管SGD的迭代次数比BGD大很多，但一次学习时间非常快。
SGD的缺点在于每次更新可能并不会按照正确的方向进行，参数更新具有高方差，从而导致损失函数剧烈波动。不过，如果目标函数有盆地区域，SGD会使优化的方向从当前的局部极小值点跳到另一个更好的局部极小值点，这样对于非凸函数，可能最终收敛于一个较好的局部极值点，甚至全局极值点。
缺点是，出现损失函数波动，并且无法判断是否收敛。

㈥几种常用最优化方法

学习和工作中遇到的大多问题都可以建模成一种最优化模型进行求解，比如我们现在学习的机器学习算法，大部分的机器学习算法的本质都是建立优化模型，通过最优化方法对目标函数（或损失函数）进行优化，从而训练出最好的模型。常见的优化方法(optimization)有梯度下降法、牛顿法和拟牛顿法、共轭梯度法等等。

1. 梯度下降法（Gradient Descent）

梯度下降法是最早最简单，也是最为常用的最优化方法。梯度下降法实现简单，当目标函数是凸函数时，梯度下降法的解是全局解。一般情况下，其解不保证是全局最优解，梯度下降法的速度也未必是最快的。梯度下降法的优化思想是用当前位置负梯度方向作为搜索方向，因为该方向为当前位置的最快下降方向，所以也被称为是”最速下降法“。最速下降法越接近目标值，步长越小，前进越慢。

梯度下降法的缺点：

（1）靠近极小值时收敛速度减慢;

（2）直线搜索时可能会产生一些问题；

（3）可能会“之字形”地下降。

在机器学习中，基于基本的梯度下降法发展了两种梯度下降方法，分别为随机梯度下降法和批量梯度下降法。

比如对一个线性回归（Linear Logistics）模型，假设下面的h(x)是要拟合的函数，J( )为损失函数，是参数，要迭代求解的值，求解出来了那最终要拟合的函数h( )就出来了。其中m是训练集的样本个数，n是特征的个数。

1）批量梯度下降法（Batch Gradient Descent，BGD）

（1）将J( )对求偏导，得到每个theta对应的的梯度：

(2）由于是要最小化风险函数，所以按每个参数的梯度负方向，来更新每个：

（3）从上面公式可以注意到，它得到的是一个全局最优解，但是每迭代一步，都要用到训练集所有的数据，如果m很大，那么可想而知这种方法的迭代速度会相当的慢。所以，这就引入了另外一种方法——随机梯度下降。

对于批量梯度下降法，样本个数m，x为n维向量，一次迭代需要把m个样本全部带入计算，迭代一次计算量为m*n2。

2）随机梯度下降（Stochastic Gradient Descent，SGD）

（1）上面的风险函数可以写成如下这种形式，损失函数对应的是训练集中每个样本的粒度，而上面批量梯度下降对应的是所有的训练样本：

（2）每个样本的损失函数，对求偏导得到对应梯度，来更新：

（3）随机梯度下降是通过每个样本来迭代更新一次，如果样本量很大的情况（例如几十万），那么可能只用其中几万条或者几千条的样本，就已经将

迭代到最优解了，对比上面的批量梯度下降，迭代一次需要用到十几万训练样本，一次迭代不可能最优，如果迭代10次的话就需要遍历训练样本10次。但是，SGD伴随的一个问题是噪音较BGD要多，使得SGD并不是每次迭代都向着整体最优化方向。

随机梯度下降每次迭代只使用一个样本，迭代一次计算量为n2，当样本个数m很大的时候，随机梯度下降迭代一次的速度要远高于批量梯度下降方法。两者的关系可以这样理解：随机梯度下降方法以损失很小的一部分精确度和增加一定数量的迭代次数为代价，换取了总体的优化效率的提升。增加的迭代次数远远小于样本的数量。

对批量梯度下降法和随机梯度下降法的总结：

批量梯度下降---最小化所有训练样本的损失函数，使得最终求解的是全局的最优解，即求解的参数是使得风险函数最小，但是对于大规模样本问题效率低下。

随机梯度下降---最小化每条样本的损失函数，虽然不是每次迭代得到的损失函数都向着全局最优方向，但是大的整体的方向是向全局最优解的，最终的结果往往是在全局最优解附近，适用于大规模训练样本情况。

2. 牛顿法和拟牛顿法（Newton's method & Quasi-Newton Methods）

1）牛顿法（Newton's method）

牛顿法是一种在实数域和复数域上近似求解方程的方法。方法使用函数 f ( x )的泰勒级数的前面几项来寻找方程 f ( x ) = 0的根。牛顿法最大的特点就在于它的收敛速度很快。

具体步骤：

首先，选择一个接近函数 f ( x )零点的x0，计算相应的 f ( x 0)和切线斜率 f ' ( x 0)（这里 f ' 表示函数 f 的导数）。然后我们计算穿过点( x 0, f ( x 0))并且斜率为 f '( x 0)的直线和 x 轴的交点的 x 坐标，也就是求如下方程的解：

我们将新求得的点的 x 坐标命名为 x 1，通常 x 1会比 x 0更接近方程 f ( x ) = 0的解。因此我们现在可以利用 x 1开始下一轮迭代。迭代公式可化简为如下所示：

已经证明，如果 f '是连续的，并且待求的零点 x 是孤立的，那么在零点 x 周围存在一个区域，只要初始值 x 0位于这个邻近区域内，那么牛顿法必定收敛。并且，如果 f ' ( x )不为0, 那么牛顿法将具有平方收敛的性能. 粗略的说，这意味着每迭代一次，牛顿法结果的有效数字将增加一倍。下图为一个牛顿法执行过程的例子。

由于牛顿法是基于当前位置的切线来确定下一次的位置，所以牛顿法又被很形象地称为是"切线法"。

关于牛顿法和梯度下降法的效率对比：

从本质上去看，牛顿法是二阶收敛，梯度下降是一阶收敛，所以牛顿法就更快。如果更通俗地说的话，比如你想找一条最短的路径走到一个盆地的最底部，梯度下降法每次只从你当前所处位置选一个坡度最大的方向走一步，牛顿法在选择方向时，不仅会考虑坡度是否够大，还会考虑你走了一步之后，坡度是否会变得更大。所以，可以说牛顿法比梯度下降法看得更远一点，能更快地走到最底部。（牛顿法目光更加长远，所以少走弯路；相对而言，梯度下降法只考虑了局部的最优，没有全局思想。）

根据wiki上的解释，从几何上说，牛顿法就是用一个二次曲面去拟合你当前所处位置的局部曲面，而梯度下降法是用一个平面去拟合当前的局部曲面，通常情况下，二次曲面的拟合会比平面更好，所以牛顿法选择的下降路径会更符合真实的最优下降路径。

注：红色的牛顿法的迭代路径，绿色的是梯度下降法的迭代路径。

牛顿法的优缺点总结：

优点：二阶收敛，收敛速度快；

缺点：牛顿法是一种迭代算法，每一步都需要求解目标函数的Hessian矩阵的逆矩阵，计算比较复杂。

2）拟牛顿法（Quasi-Newton Methods）

拟牛顿法是求解非线性优化问题最有效的方法之一，于20世纪50年代由美国Argonne国家实验室的物理学家W.C.Davidon所提出来。Davidon设计的这种算法在当时看来是非线性优化领域最具创造性的发明之一。不久R. Fletcher和M. J. D. Powell证实了这种新的算法远比其他方法快速和可靠，使得非线性优化这门学科在一夜之间突飞猛进。

拟牛顿法的本质思想是改善牛顿法每次需要求解复杂的Hessian矩阵的逆矩阵的缺陷，它使用正定矩阵来近似Hessian矩阵的逆，从而简化了运算的复杂度。拟牛顿法和最速下降法一样只要求每一步迭代时知道目标函数的梯度。通过测量梯度的变化，构造一个目标函数的模型使之足以产生超线性收敛性。这类方法大大优于最速下降法，尤其对于困难的问题。另外，因为拟牛顿法不需要二阶导数的信息，所以有时比牛顿法更为有效。如今，优化软件中包含了大量的拟牛顿算法用来解决无约束，约束，和大规模的优化问题。

具体步骤：

拟牛顿法的基本思想如下。首先构造目标函数在当前迭代xk的二次模型：

这里Bk是一个对称正定矩阵，于是我们取这个二次模型的最优解作为搜索方向，并且得到新的迭代点：

其中我们要求步长ak 满足Wolfe条件。这样的迭代与牛顿法类似，区别就在于用近似的Hesse矩阵Bk 代替真实的Hesse矩阵。所以拟牛顿法最关键的地方就是每一步迭代中矩阵Bk的更新。现在假设得到一个新的迭代xk+1，并得到一个新的二次模型：

我们尽可能地利用上一步的信息来选取Bk。具体地，我们要求

从而得到

这个公式被称为割线方程。常用的拟牛顿法有DFP算法和BFGS算法。

原文链接： [Math] 常见的几种最优化方法 - Poll的笔记 - 博客园

㈦什么是梯度优化法

梯度优化法是遵循一定优化路径逐渐寻找最优点的方法，它是单向寻优，后一阶段优化是在前一阶段优化的基础上进行的。

㈧ 100维度用什么优化算法

神经网络中常用的优化算法。
优化算法的目的：
1. 跳出局部极值点或鞍点，寻找全局最小值；
2.使训练过程更加稳定，更加容易收敛。
优化算法：深度学习优化学习方法（一阶、二阶）
一阶方法：随机梯度下降（SGD）、动量（Momentum）、牛顿动量法（Nesterov动量）、AdaGrad（自适应梯度）、RMSProp（均方差传播）、Adam、Nadam。
二阶方法：牛顿法、拟牛顿法、共轭梯度法（CG）、BFGS、L-BFGS。
自适应优化算法有哪些？（Adagrad（累积梯度平方）、RMSProp（累积梯度平方的滑动平均）、Adam（带动量的RMSProp，即同时使用梯度的一、二阶矩））。
梯度下降陷入局部最优有什么解决办法？可以用BGD、SGD、MBGD、momentum，RMSprop，Adam等方法来避免陷入局部最优。

㈨找出以下函数的一阶偏导数和二阶偏导数

解(1). f(x,y)=x^2-6xy+2y^2+10x+2y，一阶偏导为：fx=2x-6y+10，fy=-6x+4y+2

二阶偏导：fxy=-6

(3)f(x,y)=ln(x^2+y)，一阶偏导：fx=2x/(x^2+y)，fy=1/(x^2+y)

二阶偏导：fxy=-2x/(x^2+y)^2

㈩梯度下降法是什么

梯度下降法（英语：Gradient descent）是一个一阶最优化算法，通常也称为最陡下降法，但是不该与近似积分的最陡下降法（英语：Method of steepest descent）混淆。

要使用梯度下降法找到一个函数的局部极小值，必须向函数上当前点对应梯度（或者是近似梯度）的反方向的规定步长距离点进行迭代搜索。

如果相反地向梯度正方向迭代进行搜索，则会接近函数的局部极大值点；这个过程则被称为梯度上升法。

梯度下降算法使用当前位置的梯度迭代计算下一个点，然后对其进行缩放（按学习率）并从当前位置减去获得的值（迈出一步）。它减去该值，因为我们想要最小化函数（最大化它会增加）。

缺点

梯度下降法的缺点包括：

1、靠近局部极小值时速度减慢。

2、直线搜索可能会产生一些问题。

3、可能会“之字型”地下降。

阅读全文

与一阶和二阶梯度优化方法怎么求相关的资料

热点内容

简单装修方法24步发布：2025-03-12 13:53:48 浏览：262

集装箱安装方法发布：2025-03-12 13:47:57 浏览：106

卵巢肿大和囊肿治疗方法发布：2025-03-12 13:33:12 浏览：277

百多邦使用方法发布：2025-03-12 13:32:30 浏览：885

比亚迪f3遥控器使用方法发布：2025-03-12 13:21:55 浏览：75

地摊垃圾分类解决方法发布：2025-03-12 13:17:38 浏览：342

男1个星期内快速瘦脸方法发布：2025-03-12 13:06:30 浏览：15

白糖做的饼干的最简单制作方法发布：2025-03-12 12:38:26 浏览：799

排烟风机检测方法发布：2025-03-12 12:23:40 浏览：28

家里检测溶液酸碱性的方法发布：2025-03-12 12:02:31 浏览：899

四千除以八竖式计算方法发布：2025-03-12 11:44:32 浏览：238

如何验证真爱的方法发布：2025-03-12 11:35:45 浏览：616

原癌基因抑癌基因常用的检测方法发布：2025-03-12 11:21:33 浏览：460

最简单的编织手套的方法发布：2025-03-12 11:15:06 浏览：809

护理教学原则及方法案例分析发布：2025-03-12 11:03:03 浏览：42

蛋鸡防寒最好的方法是什么发布：2025-03-12 11:00:01 浏览：257

川贝水晶梨食用方法发布：2025-03-12 10:58:30 浏览：64

有什么解决不合理用药的方法发布：2025-03-12 10:49:09 浏览：191

肾衰竭失眠有什么方法治疗发布：2025-03-12 10:48:57 浏览：264

朴妆蛋蛋面膜使用方法发布：2025-03-12 10:35:42 浏览：79