Tiger:一个“抠”到极致的优化器
By 苏剑林 | 2023-03-07 | 40197位读者 | 引用这段时间笔者一直在实验《Google新搜出的优化器Lion:效率与效果兼得的“训练狮”》所介绍的Lion优化器。之所以对Lion饶有兴致,是因为它跟笔者之前的关于理想优化器的一些想法不谋而合,但当时笔者没有调出好的效果,而Lion则做好了。
相比标准的Lion,笔者更感兴趣的是它在$\beta_1=\beta_2$时的特殊例子,这里称之为“Tiger”。Tiger只用到了动量来构建更新量,根据《隐藏在动量中的梯度累积:少更新几步,效果反而更好?》的结论,此时我们不新增一组参数来“无感”地实现梯度累积!这也意味着在我们有梯度累积需求时,Tiger已经达到了显存占用的最优解,这也是“Tiger”这个名字的来源(Tight-fisted Optimizer,抠门的优化器,不舍得多花一点显存)。
此外,Tiger还加入了我们的一些超参数调节经验,以及提出了一个防止模型出现NaN(尤其是混合精度训练下)的简单策略。我们的初步实验显示,Tiger的这些改动,能够更加友好地完成模型(尤其是大模型)的训练。
最小熵原理(四):“物以类聚”之从图书馆到词向量
By 苏剑林 | 2018-12-02 | 90414位读者 | 引用从第一篇看下来到这里,我们知道所谓“最小熵原理”就是致力于降低学习成本,试图用最小的成本完成同样的事情。所以整个系列就是一个“偷懒攻略”。那偷懒的秘诀是什么呢?答案是“套路”,所以本系列又称为“套路宝典”。
本篇我们介绍图书馆里边的套路。
先抛出一个问题:词向量出现在什么时候?是2013年Mikolov的Word2Vec?还是是2003年Bengio大神的神经语言模型?都不是,其实词向量可以追溯到千年以前,在那古老的图书馆中...
走进图书馆
图书馆里有词向量?还是千年以前?在哪本书?我去借来看看。
放书的套路
其实不是哪本书,而是放书的套路。
很明显,图书馆中书的摆放是有“套路”的:它们不是随机摆放的,而是分门别类地放置的,比如数学类放一个区,文学类放一个区,计算机类也放一个区;同一个类也有很多子类,比如数学类中,数学分析放一个子区,代数放一个子区,几何放一个子区,等等。读者是否思考过,为什么要这么分类放置?分类放置有什么好处?跟最小熵又有什么关系?
天文望远镜拍到宇宙最美部分(图)
By 苏剑林 | 2009-07-18 | 17691位读者 | 引用日本科学家发现人体能发出可见光(图)
By 苏剑林 | 2009-07-23 | 18525位读者 | 引用企图减缓美国数学进展的“阴谋”
By 苏剑林 | 2009-07-26 | 23042位读者 | 引用宇宙中存在所谓的“黑洞”,只要你步入了它的视界之内,就永远也出不去了(除非你能够超光速)。在数学中,也有类似的规则,只要把一个自然数代入这个规则,都无一不会陷入无限的循环之中,这样称之为“数字黑洞”。有一个“数字黑洞”,它令人十分着迷,甚至有人称它为“企图减缓美国数学进展的阴谋”——这就是“冰雹猜想”。
冰雹猜想:
任选一个自然数。当选定的自然数是偶数,将它除以2,如是奇数,将它乘以3加上1;当变换后的自然数成了偶数,再将它除以2,如成了奇数,再将它乘以3加上1,连续进行下去,最后都“落叶归根”——变成了1。
最近评论