包含关键字长序列的文章 - 科学空间|Scientific Spaces

18 Nov

Adam的epsilon如何影响学习率的Scaling Law？

By 苏剑林 | 2024-11-18 | 2978位读者 | 引用

上一篇文章《当Batch Size增大时，学习率该如何随之变化？》我们从多个角度讨论了学习率与Batch Size之间的缩放规律，其中对于Adam优化器我们采用了SignSGD近似，这是分析Adam优化器常用的手段。那么一个很自然的问题就是：用SignSGD来近似Adam究竟有多科学呢？

我们知道，Adam优化器的更新量分母会带有一个$\epsilon$，初衷是预防除零错误，所以其值通常很接近于零，以至于我们做理论分析的时候通常选择忽略掉它。然而，当前LLM的训练尤其是低精度训练，我们往往会选择偏大的$\epsilon$，这导致在训练的中、后期$\epsilon$往往已经超过梯度平方大小，所以$\epsilon$的存在事实上已经不可忽略。

因此，这篇文章我们试图探索$\epsilon$如何影响Adam的学习率与Batch Size的Scaling Law，为相关问题提供一个参考的计算方案。

点击阅读全文...

分类：数学研究,信息时代标签：梯度, 学习率, 优化器阅读全文抢沙发

«
1
...
73
74
75
76

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

热门标签

随机文章

最近评论

苏剑林: 嗯嗯，最后的$\mathcal{F}^+(p, p_{\boldsymbol{\theta}}...
苏剑林: 其实我主要是想通过观察Embedding的协方差，来判断各分量之间的独立性如何，如果独立的话，...
苏剑林: 有点难，代码倒是可以发你一份，但数据没法发，要对齐还是有点困难的。还有主要这是我早期一直跑下来...
苏剑林: 之前看了看paper，公式不多，偏向于工程，所以兴趣不大～
苏剑林: 非常棒，前几天我也刚好想到这一点，确实也可以理解为将code的原始编码从高维的one hot改...
苏剑林: 你没仔细留意本文的假设，为了避免理解上的歧义，已经特意“设$f$是标量函数”
苏剑林: 如果我没理解错，只有一维概率密度才能良好定义累积概率函数，但如果是一维的分布，似乎没必要搞那么...
行不改名: 苏博士，你也太高产啦，仰慕！
冯耀轩: 哇，下终于出了
rubby: 感谢作者的分享，在广义散度的部分，我理解这和FGM团队更早的这篇SIM[1]的思路是类似的？[...