SGD
1. 简介
梯度下降法即沿着训练集的梯度方向下降。随机梯度下降(stochastic gradient descent:SGD)按照数据生成分布抽取 个小批量(独立同分布的)样本,通过计算它们的梯度均值,从而得到梯度的无偏估计;然后随机梯度下降算法沿着随机挑选的小批量数据的梯度下降方向,能够很大程度加速梯度下降的过程。
2. 思路
2.1 梯度下降
第 次迭代时:
其中, 为需要更新的参数, 为损失函数, 为学习率。
2.2 伪代码
1 | Require: 学习率 e |
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 お前はどこまで見えている!
评论
WalineTwikoo