22 Nov

基于Amos优化器思想推导出来的一些“炼丹策略”

如果将训练模型比喻为“炼丹”,那么“炼丹炉”显然就是优化器了。据传AdamW优化器是当前训练神经网络最快的方案,这一点笔者也没有一一对比过,具体情况如何不得而知,不过目前做预训练时多数都用AdamW或其变种LAMB倒是真的。然而,正如有了炼丹炉也未必能炼出好丹,即便我们确定了选择AdamW优化器,依然有很多问题还没有确定的答案,比如:

1、学习率如何适应不同初始化和参数化?

2、权重衰减率该怎么调?

3、学习率应该用什么变化策略?

4、能不能降低优化器的显存占用?

尽管在实际应用时,我们大多数情况下都可以直接套用前人已经调好的参数和策略,但缺乏比较系统的调参指引,始终会让我们在“炼丹”之时感觉没有底气。在这篇文章中,我们基于Google最近提出的Amos优化器的思路,给出一些参考结果。

点击阅读全文...

26 Sep

脑洞大开:非线性RNN居然也可以并行计算?

近年来,线性RNN由于其可并行训练以及常数推理成本等特性,吸引了一定研究人员的关注(例如笔者之前写的《Google新作试图“复活”RNN:RNN能否再次辉煌?》),这让RNN在Transformer遍地开花的潮流中仍有“一席之地”。然而,目前看来这“一席之地”只属于线性RNN,因为非线性RNN无法高效地并行训练,所以在架构之争中是“心有余而力不足”。

不过,一篇名为《Parallelizing Non-Linear Sequential Models over the Sequence Length》的论文有不同的看法,它提出了一种迭代算法,宣传可以实现非线性RNN的并行训练!真有如此神奇?接下来我们一探究竟。

求不动点

原论文对其方法做了非常一般的介绍,而且其侧重点是PDE和ODE,这里我们直接从RNN入手。考虑常见的简单非线性RNN:
\begin{equation}x_t = \tanh(Ax_{t-1} + u_t)\label{eq:rnn}\end{equation}

点击阅读全文...

12 Mar

历史上的谜案——刘徽有没有使用外推法?

刘徽

刘徽

话说当年我国古代数学家刘徽创立“割圆术”计算圆周率的事迹,在今天已被不少学生知晓;虽不能说家喻户晓,但是也为各教科书以及老师津津乐道。和古希腊的“数学之神”阿基米德同出一辙,刘徽也是使用圆的内接、外切正多边形来逼近圆形的;不一样的是,刘徽使用的方法是计算半径为1的圆的内接、外切正多边形的面积,而阿基米德计算的则是直径为1的圆的内接、外切正多边形的周长。两者的计算效果有什么区别呢?其实阿基米德的方法应该更快一点,阿基米德算到正n边形所得到的值,相当于刘徽算到正2n边形了。

在此我们不再对两者的计算方法进行区分,因为两者的本质都是一样的。按照现代数学的写法,“割圆术”的理论依据是
$$lim_{n\to \infty} n \sin(\frac{\pi}{n})=\pi\tag{1}$$
当然,刘徽不可能有现代计算正弦函数值的公式(现在计算正弦函数值一般用泰勒级数展开,而泰勒级数展开需要用到$\pi$的值),甚至在他那个时代就连笔墨也没有,据我所知即使是后来的祖冲之推算圆周率时,唯一的计算工具也只是现在称为“算筹”的小棍。不过刘徽还是凭借着超强的毅力,利用递推的方法逐步求圆周率。

点击阅读全文...

16 Oct

相对论和量子力学的初探

=====大学学习=====

上大学已经一个多月了,除去军训的两周和国庆放假的一周,到现在已经是第三周上课了。我是数学专业的,由于是那个勷勤创新班,它希望我们都向研究型数学的方向发展,所以给我们“更多的自由研究时间”,所以课程比一般的班还少一点。由于高中已经对高等数学有个大概的了解,所以一开始让很多同学都喊苦的数学分析、解析几何于我而言都还是比较容易接受的。但从另外一个角度上来讲,我感觉我学得快的原因,倒不全是以前的积累,而是因为个人的学习方式。我不喜欢跟着老师的步伐走,我喜欢而且需要深入地思考和理解一个问题,希冀达到一理通百理明的效果,而不是做完一题紧接着下一题。因为我认为这种竞赛式的学习不能给我们带来实质性的进步,而且有可能抹杀了我们的创造力。

1979年爱因斯坦邮票

1979年爱因斯坦邮票

没有应用的数学是很枯燥乏味的,数学不能脱离物理、化学等领域。当然“应用”这个词有很广泛的意思,它不一定在实际生活中起到了立竿见影的作用,而是所有在非数学领域中体现了数学之美的例子都可以叫做数学应用,或者有趣的数学。所以,在经历了一两周纯粹地研究数学之后,我感觉我不能再这样下去了,与其零散地涉猎各个方面的知识,倒不如现在开始就系统地学习一些学科以外的科学知识。于是,我决定重拾高中还没有完成的事情——学习相对论和量子力学——所谓现代物理的两大支柱。

点击阅读全文...

8 Jul

古老的火山爆发造成地球冰期?

翻译语录:总的来说,这篇文章的翻译还是比较顺利,不懂的词查一下软件就OK,所以这次要说一下翻译以外的问题:众所周知,二氧化碳会造成温室效应,而二氧化硫能够抑制温室效应。不过糟糕的是,几乎所有大气环境治理手段都将把其它污染性气体转变成二氧化碳为目标,包括处理二氧化硫。这就造成了约治理环境,温室效应越强的问题。这时我们的环境学家也应考虑下两者的均衡问题了

图片说明:俄罗斯Kamtchatka火山爆发

图片说明:俄罗斯Kamtchatka火山爆发

点击阅读全文...

28 Jul

这样的世界之最你见过没有?

1、说话最快的人︰1995年,加拿大人西恩·夏农用23.8秒背诵完《哈姆雷特》中“生还是死”的独白。

2、被单人拉行100英尺的最重汽车︰今年澳大利亚人德雷克·伯雅单人將30.68吨重的拖车拉行了30.5米。

3、跳浅水的最大高度︰今年一月,美国路易斯安那州的达尼·辛吉伯顿从8.9米的高度跳入30厘米深的水中。

4、憋气时间最长︰1959年,美国的濒B特·福斯特憋气13分零42.5秒。

5、全身与冰接触的最长时间︰今年一月,荷兰的威姆·霍夫在一个装满冰块的管子里呆了1小时零17分。

点击阅读全文...

30 Jul

冥王星呀,你究竟是什么?

Stephen Battersby 文 Shea 编译

太阳系中有多少颗行星?官方的回答是八颗——除非你碰巧住在美国伊利诺斯州。2009年初,“目中无人”的伊利诺斯州政府宣布,为”行星”制定标准的国际天文学联合会(IAU)其实是不公正地剥夺了冥王星的”行星”头衔。

三年前,IAU决定为“行星”一词起草首个科学上的定义。

在捷克首都布拉格召开的IAU大会上经过数天的激烈争论,与会代表投票通过了一个行星的定义。根据这个定义,冥王星被排除在了行星的行列之外,降级为“矮行星”。

[图片说明]:冥王星系统的想象画。

[图片说明]:冥王星系统的想象画。

点击阅读全文...

7 Aug

湖泊沉积物引来争议:是否彗星造成冰期灾难?

笔者:翻译完这篇文章,感觉可以用一个字来形容:累!的确,这篇文章的不少句子都让人很模糊,我也只是意译+请教+google出来的,有任何的错误欢迎指出!翻译过程中,不断地使用了词典、Google,加上向人请教,才勉强完成了。 冰期、史前文明、灭绝、天体撞击,这些被谈论得越来越多了,究竟真相如何呢?又或者会不会发生在我们的将来呢?

点击阅读全文...