标签优化器下的文章 - 科学空间|Scientific Spaces

27 Jun

从动力学角度看优化算法（一）：从SGD到动量加速

By 苏剑林 | 2018-06-27 | 177141位读者 | 引用

在这个系列中，我们来关心优化算法，而本文的主题则是SGD（stochastic gradient descent，随机梯度下降），包括带Momentum和Nesterov版本的。对于SGD，我们通常会关心的几个问题是：

SGD为什么有效？
SGD的batch size是不是越大越好？
SGD的学习率怎么调？
Momentum是怎么加速的？
Nesterov为什么又比Momentum稍好？
...

这里试图从动力学角度分析SGD，给出上述问题的一些启发性理解。

梯度下降

既然要比较谁好谁差，就需要知道最好是什么样的，也就是说我们的终极目标是什么？

训练目标分析

假设全部训练样本的集合为 $\boldsymbol{S}$ ，损失度量为 $L(\boldsymbol{x};\boldsymbol{\theta})$ ，其中 $\boldsymbol{x}$ 代表单个样本，而 $\boldsymbol{\theta}$ 则是优化参数，那么我们可以构建损失函数
$L(\boldsymbol{\theta}) = \frac{1}{|\boldsymbol{S}|}\sum_{\boldsymbol{x}\in\boldsymbol{S}} L(\boldsymbol{x};\boldsymbol{\theta})\tag{1}$
而训练的终极目标，则是找到 $L(\boldsymbol{\theta})$ 的一个全局最优点（这里的最优是“最小”的意思）。

点击阅读全文...

分类：数学研究标签：微分方程, 动力学, 数值计算, 优化器阅读全文 43 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

从动力学角度看优化算法（一）：从SGD到动量加速

梯度下降

训练目标分析

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接