基于Amos优化器思想推导出来的一些“炼丹策略”
By 苏剑林 | 2022-11-22 | 29156位读者 | 引用如果将训练模型比喻为“炼丹”,那么“炼丹炉”显然就是优化器了。据传AdamW优化器是当前训练神经网络最快的方案,这一点笔者也没有一一对比过,具体情况如何不得而知,不过目前做预训练时多数都用AdamW或其变种LAMB倒是真的。然而,正如有了炼丹炉也未必能炼出好丹,即便我们确定了选择AdamW优化器,依然有很多问题还没有确定的答案,比如:
1、学习率如何适应不同初始化和参数化?
2、权重衰减率该怎么调?
3、学习率应该用什么变化策略?
4、能不能降低优化器的显存占用?
尽管在实际应用时,我们大多数情况下都可以直接套用前人已经调好的参数和策略,但缺乏比较系统的调参指引,始终会让我们在“炼丹”之时感觉没有底气。在这篇文章中,我们基于Google最近提出的Amos优化器的思路,给出一些参考结果。
脑洞大开:非线性RNN居然也可以并行计算?
By 苏剑林 | 2023-09-26 | 48986位读者 | 引用近年来,线性RNN由于其可并行训练以及常数推理成本等特性,吸引了一定研究人员的关注(例如笔者之前写的《Google新作试图“复活”RNN:RNN能否再次辉煌?》),这让RNN在Transformer遍地开花的潮流中仍有“一席之地”。然而,目前看来这“一席之地”只属于线性RNN,因为非线性RNN无法高效地并行训练,所以在架构之争中是“心有余而力不足”。
不过,一篇名为《Parallelizing Non-Linear Sequential Models over the Sequence Length》的论文有不同的看法,它提出了一种迭代算法,宣传可以实现非线性RNN的并行训练!真有如此神奇?接下来我们一探究竟。
求不动点
原论文对其方法做了非常一般的介绍,而且其侧重点是PDE和ODE,这里我们直接从RNN入手。考虑常见的简单非线性RNN:
\begin{equation}x_t = \tanh(Ax_{t-1} + u_t)\label{eq:rnn}\end{equation}
历史上的谜案——刘徽有没有使用外推法?
By 苏剑林 | 2011-03-12 | 29251位读者 | 引用话说当年我国古代数学家刘徽创立“割圆术”计算圆周率的事迹,在今天已被不少学生知晓;虽不能说家喻户晓,但是也为各教科书以及老师津津乐道。和古希腊的“数学之神”阿基米德同出一辙,刘徽也是使用圆的内接、外切正多边形来逼近圆形的;不一样的是,刘徽使用的方法是计算半径为1的圆的内接、外切正多边形的面积,而阿基米德计算的则是直径为1的圆的内接、外切正多边形的周长。两者的计算效果有什么区别呢?其实阿基米德的方法应该更快一点,阿基米德算到正n边形所得到的值,相当于刘徽算到正2n边形了。
在此我们不再对两者的计算方法进行区分,因为两者的本质都是一样的。按照现代数学的写法,“割圆术”的理论依据是
$$lim_{n\to \infty} n \sin(\frac{\pi}{n})=\pi\tag{1}$$
当然,刘徽不可能有现代计算正弦函数值的公式(现在计算正弦函数值一般用泰勒级数展开,而泰勒级数展开需要用到$\pi$的值),甚至在他那个时代就连笔墨也没有,据我所知即使是后来的祖冲之推算圆周率时,唯一的计算工具也只是现在称为“算筹”的小棍。不过刘徽还是凭借着超强的毅力,利用递推的方法逐步求圆周率。
相对论和量子力学的初探
By 苏剑林 | 2012-10-16 | 33063位读者 | 引用=====大学学习=====
上大学已经一个多月了,除去军训的两周和国庆放假的一周,到现在已经是第三周上课了。我是数学专业的,由于是那个勷勤创新班,它希望我们都向研究型数学的方向发展,所以给我们“更多的自由研究时间”,所以课程比一般的班还少一点。由于高中已经对高等数学有个大概的了解,所以一开始让很多同学都喊苦的数学分析、解析几何于我而言都还是比较容易接受的。但从另外一个角度上来讲,我感觉我学得快的原因,倒不全是以前的积累,而是因为个人的学习方式。我不喜欢跟着老师的步伐走,我喜欢而且需要深入地思考和理解一个问题,希冀达到一理通百理明的效果,而不是做完一题紧接着下一题。因为我认为这种竞赛式的学习不能给我们带来实质性的进步,而且有可能抹杀了我们的创造力。
没有应用的数学是很枯燥乏味的,数学不能脱离物理、化学等领域。当然“应用”这个词有很广泛的意思,它不一定在实际生活中起到了立竿见影的作用,而是所有在非数学领域中体现了数学之美的例子都可以叫做数学应用,或者有趣的数学。所以,在经历了一两周纯粹地研究数学之后,我感觉我不能再这样下去了,与其零散地涉猎各个方面的知识,倒不如现在开始就系统地学习一些学科以外的科学知识。于是,我决定重拾高中还没有完成的事情——学习相对论和量子力学——所谓现代物理的两大支柱。
最近评论