1. 简介 Momentum 类似于物理中的冲量的思想,Momentum 算法优化的过程给人的感觉就像是小球在地面上滚动。 2. 原理 第 ttt 次迭代时: vt=αvt−1−η∂L∂Wt−1Wt=Wt−1+vt\begin{array}{c} \boldsymbol{v}_t = \alpha \boldsymbol{v}_{t-1} - \eta \frac{\partial L}{\partial \boldsymbol{W}_{t-1}} \\ \boldsymbol{W}_t = \boldsymbol{W}_{t-1} + \boldsymbol{v}_t \end{array} vt=αvt−1−η∂Wt−1∂LWt=Wt−1+vt 其中,W\boldsymbol{W}W 为需要更新的参数,LLL 为损失函数,∂L∂W\frac{\partial L}{\partial \boldsymbol{W}}∂W∂L 为 LLL 关于 W\boldsymbol{W}W 的梯度,η\etaη 为学习率,v\boldsymbol{v}v 类似于物理上的速度,α\alphaα 为动量因子,承担使 v\boldsymbol{v}v 逐渐减小的任务,对应于物理上的阻力,通常设为 0.90.90.9 。