梯度下降原理-常见问题-PHP中文网

首页

常见问题

梯度下降原理

(*-*)浩

Jul 09, 2019 pm 01:36 PM

梯度法思想的三要素：出发点、下降方向、下降步长。

机器学习中常用的权重更新表达式为（推荐学习：Python视频教程）

：，这里的λ就是学习率，本文从这个式子出发来把机器学习中的各种“梯度”下降法阐释清楚。

机器学习目标函数，一般都是凸函数，什么叫凸函数？

限于篇幅，我们不做很深的展开，在这儿我们做一个形象的比喻，凸函数求解问题，可以把目标损失函数想象成一口锅，来找到这个锅的锅底。非常直观的想法就是，我们沿着初始某个点的函数的梯度方向往下走（即梯度下降）。在这儿，我们再作个形象的类比，如果把这个走法类比为力，那么完整的三要素就是步长（走多少）、方向、出发点，这样形象的比喻，让我们对梯度问题的解决豁然开朗，出发点很重要，是初始化时重点要考虑的，而方向、步长就是关键。事实上不同梯度的不同就在于这两点的不同！

梯度方向是

梯度下降原理

，步长设为常数Δ，这时就会发现，如果用在梯度较大的时候，离最优解比较远，W的更新比较快；然而到了梯度较小的时候，也就是较靠近最优解的时候，W的更新竟然也保持着跟原来一样的速率，这样会导致W很容易更新过度反而远离了最优解，进而出现在最优解附近来回震荡。所以，既然在远离最优解的时候梯度大，在靠近最优解的时候梯度小，我们让步长随着这个律动，于是我我们就用λ|W|来代替Δ，最后得到了我们熟悉的式子：

梯度下降原理