1. 简介
RMSprop 算法是 AdaGrad 算法的改进,可以在有些情况下避免 AdaGrad 算法中学习率不断单调下降以至于过早衰减的缺点。
2. 原理
第 t 次迭代时:
- RMSprop 算法首先计算每次迭代梯度 ∂W∂L 平方的指数衰减移动平均:
ht=βht−1+(1−β)∂Wt−1∂L⊙∂Wt−1∂L
其中,β 为衰减率,一般取指为 0.9 。
Wt=Wt−1−ηht+ε1∂Wt−1∂L
其中,W 为需要更新的参数,L 为损失函数,∂W∂L 为 L 关于 W 的梯度,η 为学习率,⊙ 表示对应矩阵元素的乘法,ε 是为了保持数值稳定而设置的非常小的常数(一般取 e−7 到 e−10)。