包含关键字 transformer升级之路1 的文章

19 Dec

让炼丹更科学一些（一）：SGD的平均损失收敛

By 苏剑林 | 2023-12-19 | 35614位读者 | 引用

很多时候我们将深度学习模型的训练过程戏称为“炼丹”，因为整个过程跟古代的炼丹术一样，看上去有一定的科学依据，但整体却给人一种“玄之又玄”的感觉。尽管本站之前也关注过一些优化器相关的工作，甚至也写过《从动力学角度看优化算法》系列，但都是比较表面的介绍，并没有涉及到更深入的理论。为了让以后的炼丹更科学一些，笔者决定去补习一些优化相关的理论结果，争取让炼丹之路多点理论支撑。

在本文中，我们将学习随机梯度下降（SGD）的一个非常基础的收敛结论。虽然现在看来，该结论显得很粗糙且不实用，但它是优化器收敛性证明的一次非常重要的尝试，特别是它考虑了我们实际使用的是随机梯度下降（SGD）而不是全量梯度下降（GD）这一特性，使得结论更加具有参考意义。

问题设置

设损失函数是$L(\boldsymbol{x},\boldsymbol{\theta})$，其实$\boldsymbol{x}$是训练集，而$\boldsymbol{\theta}\in\mathbb{R}^d$是训练参数。受限于算力，我们通常只能执行随机梯度下降（SGD），即每步只能采样一个训练子集来计算损失函数并更新参数，假设采样是独立同分布的，第$t$步采样到的子集为$\boldsymbol{x}_t$，那么我们可以合理地认为实际优化的最终目标是
\begin{equation}L(\boldsymbol{\theta}) = \lim_{T\to\infty}\frac{1}{T}\sum_{t=1}^T L(\boldsymbol{x}_t,\boldsymbol{\theta})\label{eq:loss}\end{equation}

点击阅读全文...

分类：信息时代标签：不等式, 优化器, sgd, 炼丹阅读全文 6 评论

19 Sep

Softmax后传：寻找Top-K的光滑近似

By 苏剑林 | 2024-09-19 | 22111位读者 | 引用

Softmax，顾名思义是“soft的max”，是$\max$算子（准确来说是$\text{argmax}$）的光滑近似，它通过指数归一化将任意向量$\boldsymbol{x}\in\mathbb{R}^n$转化为分量非负且和为1的新向量，并允许我们通过温度参数来调节它与$\text{argmax}$（的one hot形式）的近似程度。除了指数归一化外，我们此前在《通向概率分布之路：盘点Softmax及其替代品》也介绍过其他一些能实现相同效果的方案。

我们知道，最大值通常又称Top-1，它的光滑近似方案看起来已经相当成熟，那读者有没有思考过，一般的Top-$k$的光滑近似又是怎么样的呢？下面让我们一起来探讨一下这个问题。

问题描述

设向量$\boldsymbol{x}=(x_1,x_2,\cdots,x_n)\in\mathbb{R}^n$，简单起见我们假设它们两两不相等，即$i\neq j \Leftrightarrow x_i\neq x_j$。记$\Omega_k(\boldsymbol{x})$为$\boldsymbol{x}$最大的$k$个分量的下标集合，即$|\Omega_k(\boldsymbol{x})|=k$以及$\forall i\in \Omega_k(\boldsymbol{x}), j \not\in \Omega_k(\boldsymbol{x})\Rightarrow x_i > x_j$。我们定义Top-$k$算子$\mathcal{T}_k$为$\mathbb{R}^n\mapsto\{0,1\}^n$的映射：
\begin{equation}
[\mathcal{T}_k(\boldsymbol{x})]_i = \left\{\begin{aligned}1,\,\, i\in \Omega_k(\boldsymbol{x}) \\ 0,\,\, i \not\in \Omega_k(\boldsymbol{x})\end{aligned}\right.
\end{equation}
说白了，如果$x_i$属于最大的$k$个元素之一，那么对应的位置变成1，否则变成0，最终结果是一个Multi-Hot向量，比如$\mathcal{T}_2([3,2,1,4]) = [1,0,0,1]$。

点击阅读全文...

分类：数学研究标签：概率, 近似, 梯度, 光滑阅读全文 21 评论

22 Nov

生成扩散模型漫谈（二十六）：基于恒等式的蒸馏（下）

By 苏剑林 | 2024-11-22 | 2312位读者 | 引用

继续回到我们的扩散系列。在《生成扩散模型漫谈（二十五）：基于恒等式的蒸馏（上）》中，我们介绍了SiD（Score identity Distillation），这是一种不需要真实数据、也不需要从教师模型采样的扩散模型蒸馏方案，其形式类似GAN，但有着比GAN更好的训练稳定性。

SiD的核心是通过恒等变换来为学生模型构建更好的损失函数，这一点是开创性的，同时也遗留了一些问题。比如，SiD对损失函数的恒等变换是不完全的，如果完全变换会如何？如何从理论上解释SiD引入的$\lambda$的必要性？上个月放出的《Flow Generator Matching》（简称FGM）成功从更本质的梯度角度解释了$\lambda=0.5$的选择，而受到FGM启发，笔者则进一步发现了$\lambda = 1$的一种解释。

接下来我们将详细介绍SiD的上述理论进展。

点击阅读全文...

分类：数学研究,信息时代标签：生成模型, 梯度, 扩散, 去噪阅读全文 4 评论

11 Aug

广东珠海之旅（图片）

By 苏剑林 | 2009-08-11 | 17179位读者 | 引用

一直呆在老家，很少出去到外面，这个暑假到了珠海玩了一下。
珠海离我们很近，坐车，3小时左右的路程（大约209公里）。不过也把我们累得，这是我目前来说走得最远的路程。

落脚点为“翠微香山花园”：

图片说明：香山花园，不过GE的图片已经很久了，现在已经有很大变化了

随后，到了一些地方游玩：地下商场、渔女、圆明新园......

点击阅读全文...

分类：生活/情感标签：旅行, 外出阅读全文抢沙发

20 Sep

正十七边形的尺规作图存在之证明

By 苏剑林 | 2009-09-20 | 50077位读者 | 引用

在网上查找到的，好像有三个不同的版本，全部摘录在此。

关于正17边形的尺规作图方法，请看：
http://kexue.fm/article.asp?id=104

本文章只是证明它的存在（就是求出$\cos ({2\pi}/{17})$）。

点击阅读全文...

分类：数学研究标签：证明, 多边形, 尺规作图阅读全文 4 评论

6 Oct

中国香港“光纤之父”获2009诺贝尔物理学奖！

By 苏剑林 | 2009-10-06 | 28715位读者 | 引用

中国网10月6日电，据诺贝尔基金会官方网站报道，瑞典皇家科学院诺贝尔奖委员会宣布，将2009年度诺贝尔物理学奖授予一名中国香港科学家高琨(Charles K. Kao)和两名美国科学家博伊尔(Willard S. Boyle)和乔治-E-史密斯(George E. Smith)。科学家Charles K. Kao 因为“在光学通信领域中光的传输的开创性成就” 而获奖，科学家因博伊尔和乔治-E-史密斯因“发明了成像半导体电路——电荷藕合器件图像传感器CCD” 获此殊荣。

2009年诺贝尔物理学奖获得者高锟、博伊尔和史密斯（从左至右）

点击阅读全文...

分类：千奇百怪标签：中国, 物理, 诺贝尔奖专题, 香港阅读全文 2 评论

25 Oct

电影《宇宙之旅》(IMAX Cosmic Voyage)

By 苏剑林 | 2009-10-25 | 33142位读者 | 引用

上了高中，在校园，我的最大梦想就是普及科学，让科学流行起来！所以，我竭力争取一切能够进行科普的机会。如搞天文社、办科学课堂等等，无奈的是只有我一个人真正对科学感兴趣、对科学有一定了解，所以在这条道路上我孤军作战。尽管如此，我还是努力着，我不会放弃！我相信，有一天，科学一定会流行起来，就像NBA一样！