分类信息时代下的文章 - 科学空间|Scientific Spaces

12 Mar

基于流式幂迭代的Muon实现：1. 初识

By 苏剑林 | 2026-03-12 | 8190位读者 | 引用

Muon的核心运算是$\newcommand{msign}{\mathop{\text{msign}}}\msign$，当前标准实现是Newton-Schulz迭代。不得不说，这确实是一个非常高效且GPU友好的算法，Muon能流行起来，起码有一大半是这个算法的功劳。然而，这个算法也给人一种“只此一家，别无分号”的感觉，因为它似乎就局限在算$\msign$了，一旦我们想要魔改Muon（比如$\msign$换成这里的$\newcommand{mclip}{\mathop{\text{mclip}}}\mclip$），那么相应的计算就会变得麻烦起来。

本文提出一种新的实现思路——通过流式幂迭代（Streaming Power Iteration）来近似计算SVD。这并不是完全新的思路，而是已经出现之前的一些优化器工作中，但这里我们将它单独提炼出来，作为一个独立的算法使用。

内容回顾

Muon的细节我们就不展开了，大家自行翻看之前的文章如《Muon优化器赏析：从向量到矩阵的本质跨越》、《Muon续集：为什么我们选择尝试Muon？》、《Muon优化器指南：快速上手与关键细节》即可，这里直接给出它的公式：
\begin{equation}\begin{aligned}
\boldsymbol{M}_t =&\, \beta\boldsymbol{M}_{t-1} + \boldsymbol{G}_t \\[5pt]
\boldsymbol{W}_t =&\, \boldsymbol{W}_{t-1} - \eta_t [\msign(\boldsymbol{M}_t) + \lambda \boldsymbol{W}_{t-1}] \\
\end{aligned}\end{equation}

点击阅读全文...

分类：数学研究,信息时代标签：迭代, 矩阵, SVD, 优化器, muon 阅读全文 16 评论

2 Mar

MuP之上：3. 特殊情况特殊处理

By 苏剑林 | 2026-03-02 | 3878位读者 | 引用

经过那么多篇相关博客的介绍，想必很多读者都对Muon优化器并不陌生——即便不清楚理论细节，应该也留下了一个“专为矩阵参数定制的优化器”的印象。然而，这个说法并不全对——比如对于输入端的Embedding层和输出段的LM Head来说，它们的参数虽然也都是矩阵，但并不适合用Muon（参考《Muon优化器指南：快速上手与关键细节》）。

为什么它们要被“区别对待”呢？本文将沿用首篇提出的三个稳定性指标，探讨不同类型的层的初始化规律及其对应的最速下降方向，从而回答这个问题。

前情回顾

在第一篇文章《MuP之上：1. 好模型的三个特征》中，我们提出了三个稳定性指标

点击阅读全文...

分类：信息时代标签：不等式, 矩阵, 线性, 优化器, MuP 阅读全文 3 评论

23 Feb

MoE环游记：7、动态激活极简解

By 苏剑林 | 2026-02-23 | 5606位读者 | 引用

上一篇文章《MoE环游记：6、最优分配促均衡》中，我们通过求解如下最优分配问题来实现负载均衡
\begin{equation}\max_{x_{i,j}\in\{0,1\}} \sum_{i,j} x_{i,j}s_{i,j} \qquad\text{s.t.}\qquad \sum_j x_{i,j} = k,\quad \sum_i x_{i,j} = \frac{mk}{n}\end{equation}
其中$\sum_j x_{i,j} = k$表示每个Token恰好激活$k$个Expert，而$\sum_i x_{i,j} = mk/n$表示每个Expert恰好被激活$mk/n$次。然而，仔细思考就会发现，其实前者对训练和推理都不是必要的，我们真正需要的是后者，它意味着“平均来说每个Token激活$k$个Expert”以及每个Expert的负载均衡，这足以达成MoE的目标，所以本文考虑更简化的问题
\begin{equation}\max_{x_{i,j}\in\{0,1\}} \sum_{i,j} x_{i,j}s_{i,j} \qquad\text{s.t.}\qquad \sum_i x_{i,j} = \frac{mk}{n}\label{eq:target-dyn}\end{equation}

点击阅读全文...

分类：数学研究,信息时代标签：线性, 对偶, 优化, moe, 动态阅读全文 2 评论

22 Feb

MoE环游记：6、最优分配促均衡

By 苏剑林 | 2026-02-22 | 8045位读者 | 引用

我们知道，负载均衡（Load Balance）是MoE架构中基本且关键的一环，直接影响模型的效率和性能。本系列已经有两篇文章介绍了两种实现负载均衡的主流思路，分别是《MoE环游记：2、不患寡而患不均》介绍的经典方案Aux Loss，以及《MoE环游记：3、换个思路来分配》中的由DeepSeek提出的Loss-Free方案。两者各有所长，亦各有局限。

本文将探讨第三种思路：最优分配，它将负载均衡视为等式约束下的线性规划问题。从最终形式上看，它仍属于Loss-Free，但基于截然不同的原理，提供了更准确且无超参的更新方式。

方法回顾

现有的两种方法中，Aux Loss的思路相对朴素，核心是“哪里不稳罚哪里”，通过正则项对负载不均施加惩罚。然而，Aux Loss有两个问题：首先，惩罚系数不好调，过大会干扰主Loss的优化，过小则均衡效果差；其次，Aux Loss的背后是STE（Straight-Through Estimator），这意味着它的梯度是次优的，它可能会带来负载均衡以外的未知影响。

点击阅读全文...

分类：数学研究,信息时代标签：线性, 对偶, 优化, 梯度, moe 阅读全文 6 评论

15 Feb

MuP之上：2. 线性层与最速下降

By 苏剑林 | 2026-02-15 | 3839位读者 | 引用

在上一篇文章《MuP之上：1. 好模型的三个特征》中，我们提出了前向稳定性、依赖稳定性、更新稳定性这三个核心指标，并给出了相应的数学定义。同时，我们提出以它们是否满足$\Theta(1)$来刻画一个模型的好坏，这将作为我们后续分析和计算的理论基石。接下来，我们将会把它们跟最速下降思想结合，给每个参数定制“稳中求快”的更新规则。

\begin{align}
&\text{前向稳定性:}\quad\max_{\boldsymbol{x}} \Vert \boldsymbol{f}(\boldsymbol{x};\boldsymbol{\omega})\Vert_{RMS} = \Theta(1) \label{eq:c1} \\[5pt]
&\text{依赖稳定性:}\quad\max_{\boldsymbol{x}_1,\boldsymbol{x}_2} \frac{\Vert \boldsymbol{f}(\boldsymbol{x}_1;\boldsymbol{\omega}) - \boldsymbol{f}(\boldsymbol{x}_2;\boldsymbol{\omega})\Vert_{RMS}}{\Vert\boldsymbol{x}_1 - \boldsymbol{x}_2\Vert_{RMS}} = \Theta(1) \label{eq:c2} \\[5pt]
&\text{更新稳定性:}\quad\max_{\boldsymbol{x}} \Vert \boldsymbol{f}(\boldsymbol{x};\boldsymbol{\omega} + \Delta\boldsymbol{\omega}) - \boldsymbol{f}(\boldsymbol{x};\boldsymbol{\omega})\Vert_{RMS} = \Theta(1) \label{eq:c3}
\end{align}

我们以线性层作为第一个例子，其结果对部分读者来说应该不陌生，它就是去年逐渐兴起的Muon优化器。当然，我们的目的并不是重新发现Muon，而是展示从第一性原理出发来设计模型和优化器的过程，为我们后续处理其他参数提供统一的方法论。

点击阅读全文...

分类：信息时代标签：矩阵, 线性, 优化器, muon, MuP 阅读全文 2 评论

4 Feb

Adam优化器的最优超参数是β1=β2 ？

By 苏剑林 | 2026-02-04 | 6246位读者 | 引用

最近笔者刷到论文《Why Adam Works Better with β1=β2: The Missing Gradient Scale Invariance Principle》，顾名思义，它声称Adam在$\beta_1=\beta_2$时表现更优。经同事提醒，去年论文《In Search of Adam's Secret Sauce》也表达了相同的观点。无独有偶，昨天刚出来的《The Effect of Mini-Batch Noise on the Implicit Bias of Adam》也有类似发现。

\begin{equation}\text{Adam}\color{skyblue}{\text{W}}:=\left\{\begin{aligned}
&\boldsymbol{m}_t = \beta_1 \boldsymbol{m}_{t-1} + \left(1 - \beta_1\right) \boldsymbol{g}_t\\
&\boldsymbol{v}_t = \beta_2 \boldsymbol{v}_{t-1} + \left(1 - \beta_2\right) \boldsymbol{g}_t^2\\
&\hat{\boldsymbol{m}}_t = \boldsymbol{m}_t\left/\left(1 - \beta_1^t\right)\right.\\
&\hat{\boldsymbol{v}}_t = \boldsymbol{v}_t\left/\left(1 - \beta_2^t\right)\right.\\
&\boldsymbol{u}_t =\hat{\boldsymbol{m}}_t\left/\left(\sqrt{\hat{\boldsymbol{v}}_t} + \epsilon\right)\right.\\
&\boldsymbol{\theta}_t = \boldsymbol{\theta}_{t-1} - \eta_t (\boldsymbol{u}_t \color{skyblue}{ + \lambda_t \boldsymbol{\theta}_{t-1}})
\end{aligned}\right.\end{equation}

众多论文都指向了$\beta_1=\beta_2$，它有什么理论上的好处呢？本文我们来学习一下相关推导。

点击阅读全文...

分类：信息时代标签：最优, 梯度, 优化器, 最速下降阅读全文 6 评论

28 Jan

一行代码将arXiv论文翻译成中文版

By 苏剑林 | 2026-01-28 | 12096位读者 | 引用

认识比较久的老读者或许都知道，笔者算是一个比较坚定的“古法编程爱好者”——至今仍不用IDE、不用代码补全、编辑器只需语法高亮即可。就连科学空间的博文，都是笔者一个个字敲的HTML源码（当然这有些历史原因），还有 Cool Papers 的从前端到后端的整站代码，也都是笔者手敲的。

但即便是笔者这样的“老顽固”，也不得不承认：AI Agent对某些任务来说具有无与伦比的优势——有些任务你想手写，都有种无从下手的感觉。这篇文章就介绍一个经典例子，用一行代码翻译arXiv论文。

先说方法

首先在本地部署好 kimi-cli ，配置好使用 kimi-k2.5 ，然后还要装一个LaTeX编译环境（笔者用的是MacTeX），最后从arXiv下载论文源码，解压并进入到源码，执行

点击阅读全文...

分类：信息时代标签：翻译, latex, 论文, kimi 阅读全文 13 评论

20 Jan

为什么我们偏爱各向同性？基于最速下降的理解

By 苏剑林 | 2026-01-20 | 7238位读者 | 引用

从机器学习时代的数据白化预处理，到深度学习时代的BatchNorm、InstanceNorm、LayerNorm、RMSNorm等花样百出的Normalization方法，本质上都体现了我们对“各向同性（Isotropy）”的偏爱。为什么我们会倾向于各向同性的特征呢？它有什么实际上的好处呢？这个问题能找到很多答案，比如对齐尺度、减少冗余、去相关性等等，但多是流于表面的感觉。

近日，笔者在读论文《The Affine Divergence: Aligning Activation Updates Beyond Normalisation》时，悟到了该问题在优化视角下的一个新理解，个人认为它相对来说还是比较贴近本质的，所以写出来跟大家分享和讨论一下。

最速下降

我们从最简单的线性层出发
\begin{equation}\boldsymbol{Y} = \boldsymbol{X}\boldsymbol{W}\end{equation}

点击阅读全文...

分类：数学研究,信息时代标签：几何, 梯度, sgd, muon 阅读全文 14 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

基于流式幂迭代的Muon实现：1. 初识

内容回顾

MuP之上：3. 特殊情况特殊处理

前情回顾

MoE环游记：7、动态激活极简解

MoE环游记：6、最优分配促均衡

方法回顾

MuP之上：2. 线性层与最速下降

Adam优化器的最优超参数是β1=β2 ？

一行代码将arXiv论文翻译成中文版

先说方法

为什么我们偏爱各向同性？基于最速下降的理解

最速下降

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接