科学空间|Scientific Spaces

感谢国家天文台LAMOST项目之“宇宙驿站”提供网络空间和数据库资源! 感谢国家天文台崔辰州博士等人的多方努力和技术支持！

科学空间致力于知识分享，所以欢迎您转载本站文章，但转载本站内容必须遵循 署名-非商业用途-保持一致 的创作共用协议。

参与科学空间

为了保证你的利益，推荐你注册为本站会员。同时欢迎通过邮件或留言进行交流、建议或反馈科学空间的问题。
会员注册会员登录查看全站文章归档页

24 Mar

高阶MuP：更简明但更高明的谱条件缩放

By 苏剑林 | 2025-03-24 | 39221位读者 | Kimi 引用

在文章《初探MuP：超参数的跨模型尺度迁移规律》中，我们基于前向传播、反向传播、损失增量和特征变化的尺度不变性推导了MuP（Maximal Update Parametrization）。可能对于部分读者来说，这一过程还是显得有些繁琐，但实际上它比原始论文已经明显简化。要知道，我们是在单篇文章内相对完整地介绍的MuP，而MuP的论文实际上是作者Tensor Programs系列论文的第5篇！

不过好消息是，作者在后续的研究《A Spectral Condition for Feature Learning》中，发现了一种新的理解方式（下称“谱条件”），它比MuP的原始推导和笔者的推导都更加直观和简洁，但却能得到比MuP更丰富的结果，可谓MuP的高阶版本，简明且不失高明的代表作。

准备工作

顾名思义，谱条件（Spectral Condition）跟谱范数（Spectral Norm）相关，它的出发点是谱范数的一个基本不等式：
\begin{equation}\Vert\boldsymbol{x}\boldsymbol{W}\Vert_2\leq \Vert\boldsymbol{x}\Vert_2 \Vert\boldsymbol{W}\Vert_2\label{neq:spec-2}\end{equation}

点击阅读全文...

分类：数学研究标签：梯度, 优化器, 尺度定律, 谱范数, muon 阅读全文 18 评论

13 Mar

初探MuP：超参数的跨模型尺度迁移规律

By 苏剑林 | 2025-03-13 | 40169位读者 | Kimi 引用

众所周知，完整训练一次大型LLM的成本是昂贵的，这就决定了我们不可能直接在大型LLM上反复测试超参数。一个很自然的想法是希望可以在同结构的小模型上仔细搜索超参数，找到最优组合后直接迁移到大模型上。尽管这个想法很朴素，但要实现它并不平凡，它需要我们了解常见的超参数与模型尺度之间的缩放规律，而MuP正是这个想法的一个实践。

MuP，有时也写$\mu P$，全名是Maximal Update Parametrization，出自论文《Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer》，随着LLM训练的普及，它逐渐已经成为了科学炼丹的事实标配之一。

方法大意

在接入主题之前，必须先吐槽一下MuP原论文写得实在太过晦涩，并且结论的表达也不够清晰，平白增加了不少理解难度，所以接下来笔者尽量以一种（自认为）简明扼要的方式来复现MuP的结论。

点击阅读全文...

分类：数学研究标签：梯度, 学习率, 优化器, 尺度定律阅读全文 11 评论

5 Mar

MoE环游记：3、换个思路来分配

By 苏剑林 | 2025-03-05 | 101906位读者 | Kimi 引用

这篇文章我们继续探讨MoE的负载均衡问题。在上一篇文章《MoE环游记：2、不患寡而患不均》中，我们主要讨论了通过Aux Loss来促进负载均衡的思路。Aux Loss固然简单直观，但它也有一个明显的缺点——权重不好调——调低了无法促进均衡，调高了容易损害LM Loss，所以业界一直有寻找替代方案的尝试。

本文要分享的是名为“Loss-Free”的方案，由DeepSeek在《Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts》提出。和DeepSeek众多耀眼的开源作品相比，这篇论文也许不算起眼，但在笔者看来，它潜在的学术影响力可能远超其他工作，因为所提方法不仅简单有效，而且极具普适性，堪称经典。

方法大意

面对负载不均衡，Aux Loss的应对思路是通过额外的损失引导Router给出均衡的打分，而Loss-Free的想法则是换个新的分配思路，即不改变Router现有打分结果，而是改变$\mathop{\text{argtop}}_k \boldsymbol{\rho}$这个分配方式。

点击阅读全文...

分类：信息时代标签：最优, 损失函数, 梯度, moe 阅读全文 69 评论

27 Feb

Muon续集：为什么我们选择尝试Muon？

By 苏剑林 | 2025-02-27 | 89993位读者 | Kimi 引用

本文解读一下我们最新的技术报告《Muon is Scalable for LLM Training》，里边分享了我们之前在《Muon优化器赏析：从向量到矩阵的本质跨越》介绍过的Muon优化器的一次较大规模的实践，并开源了相应的模型（我们称之为“Moonlight”，目前是一个3B/16B的MoE模型）。我们发现了一个比较惊人的结论：在我们的实验设置下，Muon相比Adam能够达到将近2倍的训练效率。

Muon的Scaling Law及Moonlight的MMLU表现

优化器的工作说多不多，但说少也不少，为什么我们会选择Muon来作为新的尝试方向呢？已经调好超参的Adam优化器，怎么快速切换到Muon上进行尝试呢？模型Scale上去之后，Muon与Adam的性能效果差异如何？接下来将分享我们的思考过程。

点击阅读全文...

分类：数学研究,信息时代标签：矩阵, 梯度, 优化器, 谱范数, muon 阅读全文 57 评论

21 Feb

MoE环游记：2、不患寡而患不均

By 苏剑林 | 2025-02-21 | 78247位读者 | Kimi 引用

在上一篇文章《MoE环游记：1、从几何意义出发》中，我们介绍了MoE的一个几何诠释，旨在通过Dense模型的最佳逼近出发来推导和理解MoE。同时在文末我们也说了，给出MoE的计算公式仅仅是开始，训练一个实际有效的MoE模型还有很多细节补，比如本文要讨论的负载均衡（Load Balance）问题。

负载均衡，即“不患寡而患不均”，说白了就是让每个Expert都在干活，并且都在干尽可能一样多的活，避免某些Expert浪费算力。负载均衡既是充分利用训练算力的需求，也是尽可能发挥MoE大参数量潜力的需求。

需求分析

我们知道，MoE的基本形式是
\begin{equation}\boldsymbol{y} = \sum_{i\in \mathop{\text{argtop}}_k \boldsymbol{\rho}} \rho_i \boldsymbol{e}_i\end{equation}

点击阅读全文...

分类：数学研究,信息时代标签：损失函数, 梯度, 稀疏, moe 阅读全文 41 评论

14 Feb

生成扩散模型漫谈（二十九）：用DDPM来离散编码

By 苏剑林 | 2025-02-14 | 64347位读者 | Kimi 引用

笔者前两天在arXiv刷到了一篇新论文《Compressed Image Generation with Denoising Diffusion Codebook Models》，实在为作者的天马行空所叹服，忍不住来跟大家分享一番。

如本文标题所述，作者提出了一个叫DDCM（Denoising Diffusion Codebook Models）的脑洞，它把DDPM的噪声采样限制在一个有限的集合上，然后就可以实现一些很奇妙的效果，比如像VQVAE一样将样本编码为离散的ID序列并重构回来。注意这些操作都是在预训练好的DDPM上进行的，无需额外的训练。

有限集合

由于DDCM只需要用到一个预训练好的DDPM模型来执行采样，所以这里我们就不重复介绍DDPM的模型细节了，对DDPM还不大了解的读者可以回顾我们《生成扩散模型漫谈》系列的（一）、（二）、（三）篇。

点击阅读全文...

分类：信息时代标签：生成模型, 编码, DDPM, 扩散, 离散化阅读全文 26 评论

8 Feb

MoE环游记：1、从几何意义出发

By 苏剑林 | 2025-02-08 | 146302位读者 | Kimi 引用

前两年福至心灵之下，开了一个“Transformer升级之路”系列，陆续分享了主流Transformer架构的一些改进工作和个人思考，得到了部份读者的认可。这篇文章开始，我们沿着同样的风格，介绍当前另一个主流架构MoE（Mixture of Experts）。

MoE的流行自不必多说，近来火出圈的DeepSeek-V3便是MoE架构，传言GPT-4也是MoE架构，国内最近出的一些模型也有不少用上了MoE。然而，虽然MoE的研究由来已久，但其应用长时间内都不愠不火，大致上是从去年初的《Mixtral of Experts》开始，MoE才逐渐吸引大家的注意力，其显著优点是参数量大，但训练和推理成本都显著低。

但同时MoE也有一些难题，如训练不稳定、负载不均衡、效果不够好等，这也是它早年没有流行起来的主要原因。不过随着这两年关注度的提升，这些问题在很大程度上已经得到解决，我们在接下来的介绍中会逐一谈到这些内容。

点击阅读全文...

分类：信息时代标签：模型, 几何, 稀疏, moe 阅读全文 73 评论

28 Jan

三个球的交点坐标（三球交会定位）

By 苏剑林 | 2025-01-28 | 27377位读者 | Kimi 引用

前几天笔者在思考一个问题时，联想到了三球交点问题，即给定三个球的球心坐标和半径，求这三个球的交点坐标。按理说这是一个定义清晰且简明的问题，并且具有鲜明的应用背景（比如卫星定位），应该早已有人给出“标准答案”才对。但笔者搜了一圈，发现不管是英文资料还是中文资料，都没有找到标准的求解流程。

当然，这并不是说这个问题有多难以至于没人能求解出来，事实上这是个早已被人解决的经典问题，笔者只是意外于似乎没有人以一种可读性比较好的方式将求解过程写到网上，所以本文试图补充这一点。

特殊情形

首先，设三个球的方程分别是
\begin{align}
&\text{球1:}\quad (\boldsymbol{x} - \boldsymbol{o}_1)^2 = r_1^2 \label{eq:s1} \\
&\text{球2:}\quad (\boldsymbol{x} - \boldsymbol{o}_2)^2 = r_2^2 \label{eq:s2} \\
&\text{球3:}\quad (\boldsymbol{x} - \boldsymbol{o}_3)^2 = r_3^2 \label{eq:s3} \\
\end{align}

点击阅读全文...

分类：数学研究标签：方程, 几何阅读全文 2 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前32岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

参与科学空间

高阶MuP：更简明但更高明的谱条件缩放

准备工作

初探MuP：超参数的跨模型尺度迁移规律

方法大意

MoE环游记：3、换个思路来分配

方法大意

Muon续集：为什么我们选择尝试Muon？

MoE环游记：2、不患寡而患不均

需求分析

生成扩散模型漫谈（二十九）：用DDPM来离散编码

有限集合

MoE环游记：1、从几何意义出发

三个球的交点坐标（三球交会定位）

特殊情形

关于站长

智能搜索

热门标签

最新文章

最近评论

友情链接