Adam | お前はどこまで見えている

1. 简介

Adam 算法可以看作动量法和 RMSprop 算法的结合，不但使用动量作为参数更新方向，而且可以自适应调整学习率。

2. 原理

第 $t$ 次迭代时：

一方面计算梯度平方的指数加权平均：

$\begin{array}{c} \boldsymbol{G}_t = \beta_2 \boldsymbol{G}_{t-1} + (1-\beta_2) \frac{\partial L}{\partial \boldsymbol{W}_{t-1}} \odot \frac{\partial L}{\partial \boldsymbol{W}_{t-1}} \end{array}$

另一方面计算梯度的指数加权平均：

$\begin{array}{c} \boldsymbol{M}_t = \beta_1 \boldsymbol{M}_{t-1} + (1-\beta_1) \frac{\partial L}{\partial \boldsymbol{W}_{t-1}} \end{array}$

一般参数取值为： $\beta_1 = 0.9, \beta_2 = 0.99$ 。 $\boldsymbol{M}_t$ 和 $\boldsymbol{G}_t$ 可以分别看作是梯度的一阶矩和二阶矩，其初始化取值为 $\boldsymbol{M}_t = 0, \boldsymbol{G}_t = 0$ ；但这样会导致迭代初期 $\boldsymbol{M}_t$ 和 $\boldsymbol{G}_t$ 的值会比真实的一阶矩和二阶矩要小，因此要对偏差进行修正：

$\begin{array}{c} \hat{\boldsymbol{M}}_t = \frac{\boldsymbol{M}_t}{1-\beta_1} \\ \hat{\boldsymbol{G}}_t = \frac{\boldsymbol{G}_t}{1-\beta_2} \end{array}$