16 Oct

Cool Papers浏览器扩展升级至v0.2.0

年初,我们在《更便捷的Cool Papers打开方式:Chrome重定向扩展》中发布了一个Chrome浏览器插件(Cool Papers Redirector v0.1.0),可以通过右击菜单从任意页面中重定向到Cool Papers中,让大家更方便地获取Kimi对论文的理解。前几天我们把该插件升级到了v0.2.0,并顺利上架到了Chrome应用商店中,遂在此向大家推送一下。

更新汇总

相比旧版v0.1.0,当前版v0.2.0的主要更新内容如下:

1、右键菜单跳转改为在新标签页打开;

2、右键菜单支持同时访问多个论文ID;

3、右键菜单支持PDF页面;

4、右键菜单新增更多论文源(arXiv、OpenReview、ACL、IJCAI、PMLR);

5、右键菜单在搜索不到论文ID时,转入站内搜索(即划词搜索);

6、在某些网站的适当位置插入快捷跳转链接(arXiv、OpenReview,ACL)。

点击阅读全文...

6 Nov

VQ的又一技巧:给编码表加一个线性变换

《VQ的旋转技巧:梯度直通估计的一般推广》中,我们介绍了VQ(Vector Quantization)的Rotation Trick,它的思想是通过推广VQ的STE(Straight-Through Estimator)来为VQ设计更好的梯度,从而缓解VQ的编码表坍缩、编码表利用率低等问题。

无独有偶,昨天发布在arXiv上的论文《Addressing Representation Collapse in Vector Quantized Models with One Linear Layer》提出了改善VQ的另一个技巧:给编码表加一个线性变换。这个技巧单纯改变了编码表的参数化方式,不改变VQ背后的理论框架,但实测效果非常优异,称得上是简单有效的经典案例。

点击阅读全文...

18 Nov

Adam的epsilon如何影响学习率的Scaling Law?

上一篇文章《当Batch Size增大时,学习率该如何随之变化?》我们从多个角度讨论了学习率与Batch Size之间的缩放规律,其中对于Adam优化器我们采用了SignSGD近似,这是分析Adam优化器常用的手段。那么一个很自然的问题就是:用SignSGD来近似Adam究竟有多科学呢?

我们知道,Adam优化器的更新量分母会带有一个$\epsilon$,初衷是预防除零错误,所以其值通常很接近于零,以至于我们做理论分析的时候通常选择忽略掉它。然而,当前LLM的训练尤其是低精度训练,我们往往会选择偏大的$\epsilon$,这导致在训练的中、后期$\epsilon$往往已经超过梯度平方大小,所以$\epsilon$的存在事实上已经不可忽略。

因此,这篇文章我们试图探索$\epsilon$如何影响Adam的学习率与Batch Size的Scaling Law,为相关问题提供一个参考的计算方案。

点击阅读全文...

22 Nov

继续回到我们的扩散系列。在《生成扩散模型漫谈(二十五):基于恒等式的蒸馏(上)》中,我们介绍了SiD(Score identity Distillation),这是一种不需要真实数据、也不需要从教师模型采样的扩散模型蒸馏方案,其形式类似GAN,但有着比GAN更好的训练稳定性。

SiD的核心是通过恒等变换来为学生模型构建更好的损失函数,这一点是开创性的,同时也遗留了一些问题。比如,SiD对损失函数的恒等变换是不完全的,如果完全变换会如何?如何从理论上解释SiD引入的$\lambda$的必要性?上个月放出的《Flow Generator Matching》(简称FGM)成功从更本质的梯度角度解释了$\lambda=0.5$的选择,而受到FGM启发,笔者则进一步发现了$\lambda = 1$的一种解释。

接下来我们将详细介绍SiD的上述理论进展。

点击阅读全文...

9 Jul

天文马拉松:观测国际空间站

前言:也许你从未见过宇宙飞船,也许你躺在星空下却无所事事,也许你有望远镜却无观测对象,不过,这种心情可以结束了,因为我们可以观测国际空间站!对于这一新闻,无疑是令我们振奋人心的消息!对于天文爱好者来说,更是令人兴奋!不论如何,在繁星中寻找国际空间站是一件无比写意的事情。不仅是能力的挑战,还有耐心!

图片说明:May 22, 2009拍摄到的国际空间站,来源:NASA

图片说明:May 22, 2009拍摄到的国际空间站,来源:NASA

点击阅读全文...

12 Jul

预报日食——当一回天文学家

预报天象,一般只是专业的天文研究人员的事情,我们这些业余的一般只是查找相关信息而已。但是,自从有了计算机(PC)以后,个人预报天象是完全可能的。现在,就发布我在1个多月前写好的一篇关于“日全食”的文章,教大家如何使用Stellarium来精确地预报自己所在地的天象情况。现在,就让我们当一回天文学家。

图片说明:中国日食带,图片来自新浪

图片说明:中国日食带,图片来自新浪

点击阅读全文...

28 Jul

这样的世界之最你见过没有?

1、说话最快的人︰1995年,加拿大人西恩·夏农用23.8秒背诵完《哈姆雷特》中“生还是死”的独白。

2、被单人拉行100英尺的最重汽车︰今年澳大利亚人德雷克·伯雅单人將30.68吨重的拖车拉行了30.5米。

3、跳浅水的最大高度︰今年一月,美国路易斯安那州的达尼·辛吉伯顿从8.9米的高度跳入30厘米深的水中。

4、憋气时间最长︰1959年,美国的濒B特·福斯特憋气13分零42.5秒。

5、全身与冰接触的最长时间︰今年一月,荷兰的威姆·霍夫在一个装满冰块的管子里呆了1小时零17分。

点击阅读全文...

7 Aug

2009年英仙座流星雨观测

首先感谢Shea叶泉志的努力,文章中引用了他们俩的内容。还有“科学松鼠会”、“中国彗星与流星资讯网”、“牧夫天文论坛”等网站。

注意!!地球正在进入斯威夫特-塔特尔彗星所留下的尘埃带中,这里正是一年一度英仙座流星雨的发源地。虽然英仙座流星雨要到8月11-12日才会达到顶峰,但是好戏已经开始上演了。

之前在8月天象预报中已经介绍过8月的这一场盛大流星雨了。现在我们针对性地来看下!英仙座流星雨被称为“三大”之一。今年英仙座流星雨的传统峰值预计落在8月13日1:30-4:00(北京时间)。全球最佳观测位置是美国的芝加哥和华盛顿等地区。

点击阅读全文...