1. 简介
AdaDelta 算法是 AdaGrad 算法的改进,和 RMSprop 算法类似,AdaDelta 算法通过梯度平方的指数衰减移动平均来调整学习率;此外,AdaDelta 算法还引入了每次参数更新差值 Δθ 的平方的指数衰减移动平均。
2. 原理
第 t 次迭代时:
- 首先计算参数更新差值 ΔW 的平方的指数衰减权值移动平均为:
ΔXt−12=β1ΔXt−22+(1−β1)ΔWt−1⊙ΔWt−1
- 然后计算每次迭代梯度 ∂W∂L 平方的指数衰减移动平均:
ht=β2ht−1+(1−β2)∂Wt−1∂L⊙∂Wt−1∂L
其中,β1,β2 均为衰减率,一般取指为 0.9 。
ΔWt=−ht+εΔXt−12+ε∂Wt−1∂LWt=Wt−1+ΔWt