权重初始值

隐藏层的激活值受到权重初始值的影响，进而关系到神经网络的学习能否成功，所以权重初始值的设定至关重要。

1. Xavier 初始值

Xavier的论文中提出的设定值，不仅考虑了前一层的输入节点数量，还考虑了下一层的输出节点数量。

在 Caffe 等框架中，对 Xavier 初始值进行了简化，如果前一层的结点数为 $n$ ，则初始化值使用标准差为 $\frac{1}{\sqrt{n}}$ 的高斯分布。

适用激活函数

sigmoid

tanh

【注】Xavier初始值是以激活函数是线性函数为前提而推导出来的。因 sigmoid 函数和 tanh 函数左右对称，且中央附近可以视作线性函数，因此适合 Xavier 初始值。

He 初始值也称作 ReLu 专用权重初始值。

适用激活函数

ReLu