19 Dec

让炼丹更科学一些(一):SGD的平均损失收敛

很多时候我们将深度学习模型的训练过程戏称为“炼丹”,因为整个过程跟古代的炼丹术一样,看上去有一定的科学依据,但整体却给人一种“玄之又玄”的感觉。尽管本站之前也关注过一些优化器相关的工作,甚至也写过《从动力学角度看优化算法》系列,但都是比较表面的介绍,并没有涉及到更深入的理论。为了让以后的炼丹更科学一些,笔者决定去补习一些优化相关的理论结果,争取让炼丹之路多点理论支撑。

在本文中,我们将学习随机梯度下降(SGD)的一个非常基础的收敛结论。虽然现在看来,该结论显得很粗糙且不实用,但它是优化器收敛性证明的一次非常重要的尝试,特别是它考虑了我们实际使用的是随机梯度下降(SGD)而不是全量梯度下降(GD)这一特性,使得结论更加具有参考意义。

问题设置

设损失函数是$L(\boldsymbol{x},\boldsymbol{\theta})$,其实$\boldsymbol{x}$是训练集,而$\boldsymbol{\theta}\in\mathbb{R}^d$是训练参数。受限于算力,我们通常只能执行随机梯度下降(SGD),即每步只能采样一个训练子集来计算损失函数并更新参数,假设采样是独立同分布的,第$t$步采样到的子集为$\boldsymbol{x}_t$,那么我们可以合理地认为实际优化的最终目标是
\begin{equation}L(\boldsymbol{\theta}) = \lim_{T\to\infty}\frac{1}{T}\sum_{t=1}^T L(\boldsymbol{x}_t,\boldsymbol{\theta})\label{eq:loss}\end{equation}

点击阅读全文...

19 Sep

Softmax后传:寻找Top-K的光滑近似

Softmax,顾名思义是“soft的max”,是$\max$算子(准确来说是$\text{argmax}$)的光滑近似,它通过指数归一化将任意向量$\boldsymbol{x}\in\mathbb{R}^n$转化为分量非负且和为1的新向量,并允许我们通过温度参数来调节它与$\text{argmax}$(的one hot形式)的近似程度。除了指数归一化外,我们此前在《通向概率分布之路:盘点Softmax及其替代品》也介绍过其他一些能实现相同效果的方案。

我们知道,最大值通常又称Top-1,它的光滑近似方案看起来已经相当成熟,那读者有没有思考过,一般的Top-$k$的光滑近似又是怎么样的呢?下面让我们一起来探讨一下这个问题。

问题描述

设向量$\boldsymbol{x}=(x_1,x_2,\cdots,x_n)\in\mathbb{R}^n$,简单起见我们假设它们两两不相等,即$i\neq j \Leftrightarrow x_i\neq x_j$。记$\Omega_k(\boldsymbol{x})$为$\boldsymbol{x}$最大的$k$个分量的下标集合,即$|\Omega_k(\boldsymbol{x})|=k$以及$\forall i\in \Omega_k(\boldsymbol{x}), j \not\in \Omega_k(\boldsymbol{x})\Rightarrow x_i > x_j$。我们定义Top-$k$算子$\mathcal{T}_k$为$\mathbb{R}^n\mapsto\{0,1\}^n$的映射:
\begin{equation}
[\mathcal{T}_k(\boldsymbol{x})]_i = \left\{\begin{aligned}1,\,\, i\in \Omega_k(\boldsymbol{x}) \\ 0,\,\, i \not\in \Omega_k(\boldsymbol{x})\end{aligned}\right.
\end{equation}
说白了,如果$x_i$属于最大的$k$个元素之一,那么对应的位置变成1,否则变成0,最终结果是一个Multi-Hot向量,比如$\mathcal{T}_2([3,2,1,4]) = [1,0,0,1]$。

点击阅读全文...

22 Nov

继续回到我们的扩散系列。在《生成扩散模型漫谈(二十五):基于恒等式的蒸馏(上)》中,我们介绍了SiD(Score identity Distillation),这是一种不需要真实数据、也不需要从教师模型采样的扩散模型蒸馏方案,其形式类似GAN,但有着比GAN更好的训练稳定性。

SiD的核心是通过恒等变换来为学生模型构建更好的损失函数,这一点是开创性的,同时也遗留了一些问题。比如,SiD对损失函数的恒等变换是不完全的,如果完全变换会如何?如何从理论上解释SiD引入的$\lambda$的必要性?上个月放出的《Flow Generator Matching》(简称FGM)成功从更本质的梯度角度解释了$\lambda=0.5$的选择,而受到FGM启发,笔者则进一步发现了$\lambda = 1$的一种解释。

接下来我们将详细介绍SiD的上述理论进展。

点击阅读全文...

11 Aug

广东珠海之旅(图片)

一直呆在老家,很少出去到外面,这个暑假到了珠海玩了一下。
珠海离我们很近,坐车,3小时左右的路程(大约209公里)。不过也把我们累得,这是我目前来说走得最远的路程。

落脚点为“翠微香山花园”:

图片说明:香山花园,不过GE的图片已经很久了,现在已经有很大变化了

图片说明:香山花园,不过GE的图片已经很久了,现在已经有很大变化了

随后,到了一些地方游玩:地下商场、渔女、圆明新园......

点击阅读全文...

20 Sep

正十七边形的尺规作图存在之证明

在网上查找到的,好像有三个不同的版本,全部摘录在此。

关于正17边形的尺规作图方法,请看:
http://kexue.fm/article.asp?id=104

本文章只是证明它的存在(就是求出$\cos ({2\pi}/{17})$)。

点击阅读全文...

6 Oct

中国香港“光纤之父”获2009诺贝尔物理学奖!

中国网10月6日电,据诺贝尔基金会官方网站报道,瑞典皇家科学院诺贝尔奖委员会宣布,将2009年度诺贝尔物理学奖授予一名中国香港科学家高琨(Charles K. Kao)和两名美国科学家博伊尔(Willard S. Boyle)乔治-E-史密斯(George E. Smith)。科学家Charles K. Kao 因为“在光学通信领域中光的传输的开创性成就” 而获奖,科学家因博伊尔和乔治-E-史密斯因“发明了成像半导体电路——电荷藕合器件图像传感器CCD” 获此殊荣。

2009年诺贝尔物理学奖获得者高锟、博伊尔和史密斯(从左至右)

2009年诺贝尔物理学奖获得者高锟、博伊尔和史密斯(从左至右)

2009年诺贝尔物理学奖获得者高锟、博伊尔和史密斯(从左至右)

点击阅读全文...

25 Oct

电影《宇宙之旅》(IMAX Cosmic Voyage)

上了高中,在校园,我的最大梦想就是普及科学,让科学流行起来!所以,我竭力争取一切能够进行科普的机会。如搞天文社、办科学课堂等等,无奈的是只有我一个人真正对科学感兴趣、对科学有一定了解,所以在这条道路上我孤军作战。尽管如此,我还是努力着,我不会放弃!我相信,有一天,科学一定会流行起来,就像NBA一样!

《宇宙之旅》

《宇宙之旅》

这个星期,我们准备组织一节科普电影课。上网找了一些科学电影,最后目光集中到了这一部《IMAX Cosmic Voyage》——《宇宙之旅》。

点击阅读全文...

18 Apr

【奥赛之行】非同一般的天文奥赛

文章已经刊登在《天文爱好者》杂志2010年第四期
这是BoJone的第一篇铅字文章!Yeah!
PS:在今年的全国天文奥赛中,BoJone无比地幸运进入了决赛名单。五月中旬,我们将会与众多的天文爱好者相约固原,BoJone期待着...

非同一般的天文奥赛

非同一般的天文奥赛

点击阅读全文...