隐藏层的激活值受到权重初始值的影响,进而关系到神经网络的学习能否成功,所以权重初始值的设定至关重要。

1. Xavier 初始值

Xavier的论文中提出的设定值, 不仅考虑了前一层的输入节点数量,还考虑了下一层的输出节点数量。

  • 在 Caffe 等框架中,对 Xavier 初始值进行了简化,如果前一层的结点数为 nn,则初始化值使用标准差为 1n\frac{1}{\sqrt{n}} 的高斯分布。

适用激活函数

  1. sigmoid
  2. tanh

【注】Xavier初始值是以激活函数是线性函数为前提而推导出来的。因 sigmoid 函数和 tanh 函数左右对称,且中央附近可以视作线性函数,因此适合 Xavier 初始值。

2. He 初始值

He 初始值也称作 ReLu 专用权重初始值。

  • 当前一层的结点数为 nn 时,He 初始值使用标准差为 2n\sqrt{\frac{2}{n}} 的高斯分布。

适用激活函数

  1. ReLu