DNN的梯度更新方式

发布于 2020-01-31 09:35:13
关注者
0
被浏览
1291
1 个回答
  • 面试哥
    面试哥 2020-01-31
    为面试而生,有面试问题,就找面试哥。

    参考回答:

    1)批量梯度下降法BGD

    批量梯度下降法(Batch Gradient Descent,简称BGD)是梯度下降法最原始的形式,它的具体思路是在更新每一参数时都使用所有的样本来进行更新,其数学形式如下:

    (1) 对上述的能量函数求偏导:

    img

    (2) 由于是最小化风险函数,所以按照每个参数的梯度负方向来更新每个:

    img

    2)随机梯度下降法SGD

    由于批量梯度下降法在更新每一个参数时,都需要所有的训练样本,所以训练过程会随着样本数量的加大而变得异常的缓慢。随机梯度下降法(Stochastic Gradient Descent,简称SGD)正是为了解决批量梯度下降法这一弊端而提出的。

    将上面的能量函数写为如下形式:

    img

    利用每个样本的损失函数对求偏导得到对应的梯度,来更新:

    img

    3)小批量梯度下降法MBGD

    有上述的两种梯度下降法可以看出,其各自均有优缺点,那么能不能在两种方法的性能之间取得一个折衷呢?即,算法的训练过程比较快,而且也要保证最终参数训练的准确率,而这正是小批量梯度下降法(Mini-batch Gradient Descent,简称MBGD)的初衷。

推荐阅读
知识点
面圈网VIP题库

面圈网VIP题库全新上线,海量真题题库资源。 90大类考试,超10万份考试真题开放下载啦

去下载看看