7 Mar

Tiger:一个“抠”到极致的优化器

这段时间笔者一直在实验《Google新搜出的优化器Lion:效率与效果兼得的“训练狮”》所介绍的Lion优化器。之所以对Lion饶有兴致,是因为它跟笔者之前的关于理想优化器的一些想法不谋而合,但当时笔者没有调出好的效果,而Lion则做好了。

相比标准的Lion,笔者更感兴趣的是它在$\beta_1=\beta_2$时的特殊例子,这里称之为“Tiger”。Tiger只用到了动量来构建更新量,根据《隐藏在动量中的梯度累积:少更新几步,效果反而更好?》的结论,此时我们不新增一组参数来“无感”地实现梯度累积!这也意味着在我们有梯度累积需求时,Tiger已经达到了显存占用的最优解,这也是“Tiger”这个名字的来源(Tight-fisted Optimizer,抠门的优化器,不舍得多花一点显存)。

此外,Tiger还加入了我们的一些超参数调节经验,以及提出了一个防止模型出现NaN(尤其是混合精度训练下)的简单策略。我们的初步实验显示,Tiger的这些改动,能够更加友好地完成模型(尤其是大模型)的训练。

点击阅读全文...

2 Dec

从第一篇看下来到这里,我们知道所谓“最小熵原理”就是致力于降低学习成本,试图用最小的成本完成同样的事情。所以整个系列就是一个“偷懒攻略”。那偷懒的秘诀是什么呢?答案是“套路”,所以本系列又称为“套路宝典”。

本篇我们介绍图书馆里边的套路。

先抛出一个问题:词向量出现在什么时候?是2013年Mikolov的Word2Vec?还是是2003年Bengio大神的神经语言模型?都不是,其实词向量可以追溯到千年以前,在那古老的图书馆中...

图书馆一角(图片来源于百度搜索)

图书馆一角(图片来源于百度搜索)

走进图书馆

图书馆里有词向量?还是千年以前?在哪本书?我去借来看看。

放书的套路

其实不是哪本书,而是放书的套路。

很明显,图书馆中书的摆放是有“套路”的:它们不是随机摆放的,而是分门别类地放置的,比如数学类放一个区,文学类放一个区,计算机类也放一个区;同一个类也有很多子类,比如数学类中,数学分析放一个子区,代数放一个子区,几何放一个子区,等等。读者是否思考过,为什么要这么分类放置?分类放置有什么好处?跟最小熵又有什么关系?

点击阅读全文...

18 Jul

天文望远镜拍到宇宙最美部分(图)

新浪科技讯 7月18日凌晨消息,据《每日邮报》报道,我们可能认为太阳很壮观,但是,与这个在600多光年之外燃烧的红色超大心大星相比,它显得苍白无力。

在这张美丽的图片中,心大星发出橙色光,周围是反射成明黄色的气体和尘埃。心大星是银河系中的巨无霸,直径是我们的太阳的800倍,发出的光线比太阳亮10000倍。

心大星是心宿增四星云群中的王者之星,心宿增四星云被很多天文摄影师认为是夜空中最美的区域。

点击阅读全文...

23 Jul

日本科学家发现人体能发出可见光(图)

有句俗话说“金子总会发光的”,是用来比喻有才华的人总不会被埋没的。不过,现在发现,我们人体本来就会发光(古人的语言还是挺准的^_^)。据美国生活科学网报道,科学家发现,人体会发光,可以发出一种微弱的可见光,光的强度在一天内起伏波动。

图片说明:人体发光

图片说明:人体发光

点击阅读全文...

26 Jul

企图减缓美国数学进展的“阴谋”

宇宙中存在所谓的“黑洞”,只要你步入了它的视界之内,就永远也出不去了(除非你能够超光速)。在数学中,也有类似的规则,只要把一个自然数代入这个规则,都无一不会陷入无限的循环之中,这样称之为“数字黑洞”。有一个“数字黑洞”,它令人十分着迷,甚至有人称它为“企图减缓美国数学进展的阴谋”——这就是“冰雹猜想”。

冰雹猜想:
任选一个自然数。当选定的自然数是偶数,将它除以2,如是奇数,将它乘以3加上1;当变换后的自然数成了偶数,再将它除以2,如成了奇数,再将它乘以3加上1,连续进行下去,最后都“落叶归根”——变成了1。

点击阅读全文...

1 Aug

【NASA每日一图】明亮的超新星爆发

一颗耀眼的明星SN 1006

一颗耀眼的明星SN 1006

说明:

一颗耀眼的明星SN 1006。

点击阅读全文...

2 Aug

【NASA每日一图】NGC 6559 的恒星,尘埃和星云

说明:

图片显示的是在NGC 6559中恒星,尘埃和星云。

点击阅读全文...

3 Aug

美华裔教授破百年物理定律 获国际同行喝彩(图)

陈刚与实验用的真空室。 (美国《世界日报》/取材自麻省理工学院网站)

陈刚与实验用的真空室。 (美国《世界日报》/取材自麻省理工学院网站)

中新网8月2日电 据美国《世界日报》报道,美国麻省理工学院(MIT)30日宣布,该校动力工程学华裔教授陈刚与其团队的研究,首次打破“黑体辐射定律”的公式,证实物体在极度近距时的热力传导,可以高到定律公式所预测的一千倍之多。该研究将在“NanoLetter”8月号科学杂志上发表。

点击阅读全文...