包含关键字变分信息瓶颈的文章 - 科学空间|Scientific Spaces

27 Feb

Muon续集：为什么我们选择尝试Muon？

By 苏剑林 | 2025-02-27 | 29425位读者 | 引用

本文解读一下我们最新的技术报告《Muon is Scalable for LLM Training》，里边分享了我们之前在《Muon优化器赏析：从向量到矩阵的本质跨越》介绍过的Muon优化器的一次较大规模的实践，并开源了相应的模型（我们称之为“Moonlight”，目前是一个3B/16B的MoE模型）。我们发现了一个比较惊人的结论：在我们的实验设置下，Muon相比Adam能够达到将近2倍的训练效率。

Muon的Scaling Law及Moonlight的MMLU表现

优化器的工作说多不多，但说少也不少，为什么我们会选择Muon来作为新的尝试方向呢？已经调好超参的Adam优化器，怎么快速切换到Muon上进行尝试呢？模型Scale上去之后，Muon与Adam的性能效果差异如何？接下来将分享我们的思考过程。

点击阅读全文...

分类：数学研究,信息时代标签：矩阵, 梯度, 优化器, 谱范数阅读全文 36 评论

13 Mar

初探muP：超参数的跨模型尺度迁移规律

By 苏剑林 | 2025-03-13 | 19352位读者 | 引用

众所周知，完整训练一次大型LLM的成本是昂贵的，这就决定了我们不可能直接在大型LLM上反复测试超参数。一个很自然的想法是希望可以在同结构的小模型上仔细搜索超参数，找到最优组合后直接迁移到大模型上。尽管这个想法很朴素，但要实现它并不平凡，它需要我们了解常见的超参数与模型尺度之间的缩放规律，而muP正是这个想法的一个实践。

muP，有时也写 $\mu P$ ，全名是Maximal Update Parametrization，出自论文《Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer》，随着LLM训练的普及，它逐渐已经成为了科学炼丹的事实标配之一。

方法大意

在接入主题之前，必须先吐槽一下muP原论文写得实在太过晦涩，并且结论的表达也不够清晰，平白增加了不少理解难度，所以接下来笔者尽量以一种（自认为）简明扼要的方式来复现muP的结论。

点击阅读全文...

分类：数学研究标签：梯度, 学习率, 优化器, 尺度定律阅读全文 11 评论

24 Mar

高阶muP：更简明但更高明的谱条件缩放

By 苏剑林 | 2025-03-24 | 13409位读者 | 引用

在文章《初探muP：超参数的跨模型尺度迁移规律》中，我们基于前向传播、反向传播、损失增量和特征变化的尺度不变性推导了muP（Maximal Update Parametrization）。可能对于部分读者来说，这一过程还是显得有些繁琐，但实际上它比原始论文已经明显简化。要知道，我们是在单篇文章内相对完整地介绍的muP，而muP的论文实际上是作者Tensor Programs系列论文的第5篇！

不过好消息是，作者在后续的研究《A Spectral Condition for Feature Learning》中，发现了一种新的理解方式（下称“谱条件”），它比muP的原始推导和笔者的推导都更加直观和简洁，但却能得到比muP更丰富的结果，可谓muP的高阶版本，简明且不失高明的代表作。

准备工作

顾名思义，谱条件（Spectral Condition）跟谱范数（Spectral Norm）相关，它的出发点是谱范数的一个基本不等式：
$\begin{equation}\Vert\boldsymbol{x}\boldsymbol{W}\Vert_2\leq \Vert\boldsymbol{x}\Vert_2 \Vert\boldsymbol{W}\Vert_2\label{neq:spec-2}\end{equation}$

点击阅读全文...

分类：数学研究标签：梯度, 优化器, 尺度定律, 谱范数阅读全文 8 评论

28 Mar

MoE环游记：4、难处应当多投入

By 苏剑林 | 2025-03-28 | 13630位读者 | 引用

前两篇文章我们都在讨论负载均衡，其中在《MoE环游记：3、换个思路来分配》介绍Loss-Free方案时，笔者留了一个悬念：它引入的Bias项有一个冗余的自由度，这个自由度可以用来做另外有趣的事情。这篇文章我们就来讨论这件事。

我们知道，MoE是为每个Token只选择最匹配的 $k$ 个Expert来进行计算，从而在增大参数量的同时还节省了计算量。然而，当我们仔细思考就会发现，这个策略实际上有明显的可改进之处：直观来看，每个Token的难度并不一样，所以更合理的方案应该是难的Token分配更多的计算资源，简单的token分配更少的资源，这样或许能在同样有限的资源下将效果最大化。

而刚才提到的Bias的额外自由度，恰好可以用来简单地实现这个目标。

点击阅读全文...

分类：信息时代标签：优化, 梯度, moe, 动态阅读全文 4 评论

18 Apr

Transformer升级之路：19、第二类旋转位置编码

By 苏剑林 | 2025-04-18 | 9804位读者 | 引用

持续将“Transformer升级之路”系列关注到本篇的读者，想必都已经对旋转位置编码（RoPE）有所了解。简单来说，RoPE是施加在Attention的Query（ $\boldsymbol{Q}$ ）和Key（ $\boldsymbol{K}$ ）上的旋转变换，形式上属于绝对位置编码，但结合Attention的内积（Dot-Product）特性，能够自动实现相对位置的效果。

那么，RoPE可以加在Value（ $\boldsymbol{V}$ ）上吗？看上去不可以，因为对 $\boldsymbol{V}$ 旋转后就不是相对位置编码了。然而事情并没有那么绝对，本文就来讨论加在 $\boldsymbol{V}$ 上RoPE，我们可以称之为“第二类旋转位置编码”。

基础回顾

我们将Dot-Product Attention分解为
$\begin{equation}\boldsymbol{o}_i = \sum_j a_{i,j}\boldsymbol{v}_j,\qquad a_{i,j} = \frac{e^{s_{i,j}}}{\sum\limits_j e^{s_{i,j}}},\qquad s_{i,j} = \boldsymbol{q}_i^{\top}\boldsymbol{k}_j\end{equation}$

点击阅读全文...

分类：数学研究标签：语言模型, attention, 位置编码, rope 阅读全文 12 评论

26 Apr

SVD的导数

By 苏剑林 | 2025-04-26 | 4103位读者 | 引用

SVD（Singular Value Decomposition，奇异值分解）是常见的矩阵分解算法，相信很多读者都已经对它有所了解，此前我们在《低秩近似之路（二）：SVD》也专门介绍过它。然而，读者是否想到，SVD竟然还可以求导呢？笔者刚了解到这一结论时也颇感意外，因为直觉上“分解”往往都是不可导的。但事实是，SVD在一般情况下确实可导，这意味着理论上我们可以将SVD嵌入到模型中，并用基于梯度的优化器来端到端训练。

问题来了，既然SVD可导，那么它的导函数长什么样呢？接下来，我们将参考文献《Differentiating the Singular Value Decomposition》，逐步推导SVD的求导公式。

推导基础

假设 $\boldsymbol{W}$ 是满秩的 $n\times n$ 矩阵，且全体奇异值两两不等，这是比较容易讨论的情形，后面我们也会讨论哪些条件可以放宽一点。接着，我们设 $\boldsymbol{W}$ 的SVD为：
$\begin{equation}\boldsymbol{W} = \boldsymbol{U}\boldsymbol{\Sigma}\boldsymbol{V}^{\top}\end{equation}$

点击阅读全文...

分类：数学研究标签：微积分, 分析, 矩阵, 梯度阅读全文抢沙发

20 Sep

10月国际空间站过境时间

By 苏剑林 | 2009-09-20 | 23464位读者 | 引用

为了方便自己，也为了方便大家吧，把10月份国际空间站的过境时间都凑到一起了，数据来自这里。

点击阅读全文...

分类：天文探索标签：国际空间站, ISS, 时间阅读全文抢沙发

5 Sep

进驻中山大学南校区，折腾校园网

By 苏剑林 | 2016-09-05 | 86994位读者 | 引用

开始研究僧之旅，希望有一天能企及扫地僧的境界。

进入中山大学后，各种郁闷的事情就来了。首先最郁闷的就是开学时间特早，8月26日开学，感觉至少比一般学校早了一星期，开学这么早有意思么～～接着就是感觉中大的管理制度各种混乱，比我本科的华师差多了。好吧，这些琐事先不吐槽，接下来弄校园网，这是作死的开始。

我们是在南校区的，校园网是通过锐捷客户端来认证的，而我是用macbook的，不过中大这边还很人性化地提供了Mac版的锐捷，体积就1M左右，挺好的。但众所周知，macbook并没有有线网卡，每次我上网都得插着个USB网卡然后连着网线，这该有多郁闷。于是想办法通过路由器拨号。我也不算没经验的了，对openwrt这个系统有过一定研究，以前在本科的时候也是锐捷，可以用mentohust替代拨号，很简单。于是我在这里重复这样的过程，发现一直认证失败，按照网上提示的各种方法，都无法解决。

经过研究，我发现在Windows下，这里就只能用官方提供了锐捷4.90版本，从其他地方下载的更高级或者更低级的锐捷，都无法通过验证。估计就是因为这个机制，导致了mentohust难以通过验证。而且网上流行的mentohust都是基于V2协议的，但4.90是基于V4的。后来我又去下载了V4版本的进行交叉编译，测试发现还不成功。几近绝望的时候，我发现了mentohust-proxy，一个mentohust的改进版，让我找到了希望。（怎么找到它？我是直接到github搜索了，因为实在没辙了～～）

原理很简单，如果直接通过mentohust无法完成认证，那么就通过代理模式，由电脑来完成认证，而mentohust只需要负责发送心跳包维持联网就行。这是个很折中的方案，但应该说是一个很通用的方案，因为它的成功与否，基本就取决于自己电脑的锐捷客户端而已。看到这个方案，我就知道有戏了，于是赶紧补习了一下交叉编译的知识，最后成功编译好了，并且在路由上成功地完成了认证。

点击阅读全文...

分类：信息时代标签：openwrt, 路由器阅读全文 13 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

Muon续集：为什么我们选择尝试Muon？

初探muP：超参数的跨模型尺度迁移规律

方法大意

高阶muP：更简明但更高明的谱条件缩放

准备工作

MoE环游记：4、难处应当多投入

Transformer升级之路：19、第二类旋转位置编码

基础回顾

SVD的导数

推导基础

10月国际空间站过境时间

进驻中山大学南校区，折腾校园网

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接