Adam的epsilon如何影响学习率的Scaling Law?
By 苏剑林 | 2024-11-18 | 2757位读者 | 引用上一篇文章《当Batch Size增大时,学习率该如何随之变化?》我们从多个角度讨论了学习率与Batch Size之间的缩放规律,其中对于Adam优化器我们采用了SignSGD近似,这是分析Adam优化器常用的手段。那么一个很自然的问题就是:用SignSGD来近似Adam究竟有多科学呢?
我们知道,Adam优化器的更新量分母会带有一个$\epsilon$,初衷是预防除零错误,所以其值通常很接近于零,以至于我们做理论分析的时候通常选择忽略掉它。然而,当前LLM的训练尤其是低精度训练,我们往往会选择偏大的$\epsilon$,这导致在训练的中、后期$\epsilon$往往已经超过梯度平方大小,所以$\epsilon$的存在事实上已经不可忽略。
因此,这篇文章我们试图探索$\epsilon$如何影响Adam的学习率与Batch Size的Scaling Law,为相关问题提供一个参考的计算方案。
天文望远镜拍到宇宙最美部分(图)
By 苏剑林 | 2009-07-18 | 17997位读者 | 引用逻辑推理:拿了多少分(PuzzleUp)
By 苏剑林 | 2009-08-06 | 17585位读者 | 引用《积分公式大全》网络版本
By 苏剑林 | 2010-10-06 | 20562位读者 | 引用为了方便各位读者查阅,BoJone特意制作了这个积分公式表的电子版本。
数学公式采用JsMath技术显示,为了能够更清晰地显示数学公式,推荐读者下载TeX-fonts字体。
原著的具体说明和下载,请点击
传说费曼讲课很精彩,但他是上个世纪的人,所以也就没有多少视频保留下来。但是网上还是存有一些,有兴趣的读者可以收藏。
费曼讲座——光、电子、路径积分(无字幕)
http://v.youku.com/v_show/id_XNjAyMzU4ODg=.html
http://v.youku.com/v_show/id_XNjAyMzQ4NzI=.html
http://v.youku.com/v_show/id_XNTQzMTEyNTA4.html
《量子力学与路径积分》习题解答V0.2
By 苏剑林 | 2015-10-17 | 17576位读者 | 引用《量子力学与路径积分》习题解答V0.3
By 苏剑林 | 2015-11-18 | 18289位读者 | 引用新的《量子力学与路径积分》习题解答又放出来啦。与前两个版本不同的是,前两次更新,每次基本上完成了两章的习题,而这一次,只是增加了第6章的22道习题(第6章共有29道)。原因很多,各种忙就不说啦,主要是第6章开始,各种题目开始复杂起来,计算量也增大,虽然笔者是数学系的,可是还是前进得艰难。还有,第4、5两章加起来也只是25道习题,第6章却有29题,因此,本次更新的工作量,远远大于前两次更新的工作量。
为什么只有22题?当然是没有做完啦。为什么没有做完就更新啦?因为笔者觉得右面的题目,跟第7章的联系更为密切,因此,怕读者等不及,所以剩下的题目,跟第7章一起再发吧。
此外,我是看着中文版来做题的,中文版的翻译质量还不错,但是细微之处却有些不妥当,所以笔者要来回参考中英文版,颇累。读者可以发现,这一版中,“勘误”增加了不少。
最近评论