8 Feb

MoE环游记：1、从几何意义出发

By 苏剑林 | 2025-02-08 | 152926位读者 |

前两年福至心灵之下，开了一个“Transformer升级之路”系列，陆续分享了主流Transformer架构的一些改进工作和个人思考，得到了部份读者的认可。这篇文章开始，我们沿着同样的风格，介绍当前另一个主流架构MoE（Mixture of Experts）。

MoE的流行自不必多说，近来火出圈的DeepSeek-V3便是MoE架构，传言GPT-4也是MoE架构，国内最近出的一些模型也有不少用上了MoE。然而，虽然MoE的研究由来已久，但其应用长时间内都不愠不火，大致上是从去年初的《Mixtral of Experts》开始，MoE才逐渐吸引大家的注意力，其显著优点是参数量大，但训练和推理成本都显著低。

但同时MoE也有一些难题，如训练不稳定、负载不均衡、效果不够好等，这也是它早年没有流行起来的主要原因。不过随着这两年关注度的提升，这些问题在很大程度上已经得到解决，我们在接下来的介绍中会逐一谈到这些内容。

问题定义 #

首先要指出的是，这里会用笔者自己的一种理解思路来介绍MoE，在必要的地方会附上相应的参考文献，但不会对MoE架构进行系统的追根溯源，还请读者见谅。

我们知道，Transformer模型由Attention层和MLP层组成，MoE替换的是模型中MLP层。MLP层又分FFN（FeedForward Network）和GLU（Gated Linear Unit）两种，主流的是GLU，但简单起见我们还是以FFN为例
\begin{equation}\boldsymbol{y} = f(\boldsymbol{x}\boldsymbol{W}^{(A)})\boldsymbol{W}^{(B)}\end{equation}
其中$\boldsymbol{x}\in\mathbb{R}^{d}$是输入向量（行向量），$\boldsymbol{W}^{(A)}\in\mathbb{R}^{d\times D},\boldsymbol{W}^{(B)}\in\mathbb{R}^{D\times d}$是两个参数矩阵，$f$是Element-wise的激活函数。设$n$是一个能整除$D$的整数，那么上述可以等价地用分块矩阵写成
\begin{equation}\boldsymbol{y} = f\big(\boldsymbol{x}\begin{bmatrix}\boldsymbol{W}^{(A)}_1 & \boldsymbol{W}^{(A)}_2 & \cdots & \boldsymbol{W}^{(A)}_n\end{bmatrix}\big)\begin{bmatrix}\boldsymbol{W}^{(B)}_1 \\ \boldsymbol{W}^{(B)}_2 \\ \vdots \\ \boldsymbol{W}^{(B)}_n\end{bmatrix} = \sum_{i=1}^n \underbrace{f(\boldsymbol{x}\boldsymbol{W}^{(A)}_i)\boldsymbol{W}^{(B)}_i}_{\boldsymbol{v}_i}\end{equation}
其中$\boldsymbol{W}^{(A)}_i = \boldsymbol{W}^{(A)}_{[:,(i-1)c:ic]}, \boldsymbol{W}^{(B)}_i = \boldsymbol{W}^{(B)}_{[(i-1)c:ic,:]},c= D/n$，这里的切片按照Python规则来。由此可见，FFN可以等价表示成$n$个向量$\boldsymbol{v}_1,\boldsymbol{v}_2,\cdots,\boldsymbol{v}_n$之和，每个向量代表了一个小模型$f(\boldsymbol{x}\boldsymbol{W}^{(A)}_i)\boldsymbol{W}^{(B)}_i$的输出，每个小模型计算量相同，这些小模型就是MoE中的“Expert”。

MoE提出的问题是：

能否只挑$k$个向量的和来逼近$n$个向量的和呢？这样就可以将计算量降低到$k/n$了。

模长排序 #

这个问题其实我们在《低秩近似之路（三）：CR》已经探究过，写成数学公式是
\begin{equation}\mathop{\text{argmin}}_{\lambda_1,\lambda_2,\cdots,\lambda_n\in\{0,1\}}\left\Vert\sum_{i=1}^n \lambda_i \boldsymbol{v}_i - \sum_{i=1}^n\boldsymbol{v}_i\right\Vert^2\quad\text{s.t.}\quad \sum_{i=1}^n \lambda_i = k\end{equation}
记$\gamma_i = 1 - \lambda_i$，那么它又可以写成
\begin{equation}\mathop{\text{argmin}}_{\gamma_1,\gamma_2,\cdots,\gamma_n\in\{0,1\}}\left\Vert\sum_{i=1}^n \gamma_i \boldsymbol{v}_i\right\Vert^2\quad\text{s.t.}\quad \sum_{i=1}^n \gamma_i = n - k\end{equation}
这个问题的精确求解是比较困难的，但有一个简单的近似解：当$\boldsymbol{v}_i$两两正交时，我们有
\begin{equation}\left\Vert\sum_{i=1}^n \gamma_i \boldsymbol{v}_i\right\Vert^2 = \sum_{i=1}^n \gamma_i^2 \Vert\boldsymbol{v}_i\Vert^2 = \sum_{i=1}^n \gamma_i \Vert\boldsymbol{v}_i\Vert^2\end{equation}
上式最优解显然就是让模长$\Vert\boldsymbol{v}_i\Vert$最小的$n-k$个$\gamma_i$等于1，这又等价于说挑出模长最大的$k$个向量来逼近$n$个向量之和。当$\boldsymbol{v}_i$不满足两两正交的条件时，我们依然用它来作为一个近似解。它的几何意义也很直观，模长越大的向量，在求和过程中越不容易被抵消，从而作用越突出。

此外，在《低秩近似之路（三）：CR》中我们还讨论了一种依概率采样的逼近过程，在方差最小的假设下得到的最优采样概率同样有正比于模长的特点，所以总的来说按向量模长排序是一个简单但不失有效的策略。

MoE初现 #

现在策略已经有了——“挑模长最大的$k$个向量”——可是细想之下我们会发现它并不实用：要挑模长最大的$k$个向量，就得把所有向量的模长都算出来，这又意味着要把所有的$\boldsymbol{v}_i$先算出来，可我们的原本目的却是减少$\boldsymbol{v}_i$的计算量！

为了解决这个矛盾，我们需要重新设计每个Expert模型，使得它的模长可以低成本地计算出来。什么意思呢？首先我们将$\boldsymbol{v}_i$归一化得到$\boldsymbol{e}_i = \boldsymbol{v}_i/\Vert\boldsymbol{v}_i\Vert$，这样每个$\boldsymbol{e}_i$的模长都相同了。接着我们定义
\begin{equation}\underbrace{[\rho_1,\rho_2,\cdots,\rho_n]}_{\boldsymbol{\rho}} = h(\boldsymbol{x}\boldsymbol{W}^{(R)})\quad\in\mathbb{R}_{\geq 0}^n\end{equation}
其中$\boldsymbol{W}^{(R)}\in\mathbb{R}^{d\times n}$是参数矩阵，$h(\cdot)$是一个$\mathbb{R}\to\mathbb{R}_{\geq 0}$的激活函数，说白了这就是一个$d$维到$n$维的线性变换加激活函数，所以计算量是比较小的，这部分模型在MoE中被称为“Router”。

$\boldsymbol{\rho}$的作用是什么呢？预测每个Expert的模长！换言之，我们将$\rho_i$作为第$i$个Expert的模长，$\rho_i \boldsymbol{e}_i$才是完整的Expert，它被分解为两部分：计算量比较小的模长$\rho_i$以及计算量比较大的方向$\boldsymbol{e}_i$。为了减少计算量，我们先计算出$\boldsymbol{\rho}$，挑出最大的$k$个后才去计算相应的$\boldsymbol{e}_i$，最后乘上$\rho_i$并求和：
\begin{equation}\boldsymbol{y} = \sum_{i\in \mathop{\text{argtop}}_k \boldsymbol{\rho}} \rho_i \boldsymbol{e}_i\end{equation}
这便是MoE模型的基本公式。由于计算中只保留了Top-$k$部分，所以它本质上属于一种Sparse模型，而原本的FFN或者$k=n$时的模型，通常称为对应的Dense模型。

思路概括 #

不管是熟悉MoE还是不熟悉MoE的读者，可能都会对上述过程有点陌生，因为这是笔者自己闭门造车的一种MoE理解路线，但因为其几何意义更明确，所以本质上应该是更好理解的。

我们再来整理一下整个思路：

1、一个常规的Dense模型FFN，可以等价改写为$n$个Expert向量$\boldsymbol{v}_1,\boldsymbol{v}_2,\cdots,\boldsymbol{v}_n$之和；
2、为了节省计算量，我们试图挑出$k$个向量求和来逼近原本的$n$个向量之和；
3、转化为数学问题求解后，我们发现挑选规则是模长最大的$k$个向量；
4、直接去算$n$个Expert的模长然后选$k$个实际上是不省计算量的，所以要重新设计Expert；
5、将$\boldsymbol{v}_i$归一化得到$\boldsymbol{e}_i$，然后用另外的小模型（Router）预测模长$\rho_i$，最终的Expert为$\rho_i \boldsymbol{e}_i$；
6、此时，我们就可以先算全体$\rho_i$，挑出$k$个后才去计算$\boldsymbol{e}_i$，达到节省计算量的目的。

为何如此 #

可能有些读者疑问，为什么要做这个看似复杂的过程？原本的MoE不是挺好理解的吗？一般的MoE形式为
\begin{equation}\boldsymbol{y} = \sum_{i\in \mathop{\text{argtop}}_k \boldsymbol{\rho}} \rho_i \boldsymbol{v}_i\end{equation}
也就是求和前少了对$\boldsymbol{v}_i$的归一化，此时$\rho_i$也没有模长的意义，它纯粹是一个用来对Expert排序的打分模型（即Router）。可为什么将$\rho_i$乘到Expert上去就能让Router学会正确排序Expert呢？笔者发现只有《Sparse Backpropagation for MoE Training》对此给出了一个解释，但还是稍欠直观。

而在本文的几何视角下，我们会发现很多问题就“豁然开朗”了。我们将Expert重新参数化为$\rho_i \boldsymbol{e}_i$后，Dense模型对应于全体$\rho_i \boldsymbol{e}_i$求和，而MoE对应于$\rho_i$选Top-$k$后求和，这是Dense模型的一个有理论保证的逼近。我们没有去考虑Router如何选择Expert，只是每一步都尽可能逼近Dense模型，这可以说是既要大参数、又要小计算量的最佳选择。

现在$\rho_i$的几何意义是模长而不是概率，所以激活函数$h(\cdot)$就没有归一化的要求了，除了Softmax外，像Sigmoid、ReLU都可以考虑使用，也可以考虑我们在《Softmax后传：寻找Top-K的光滑近似》介绍的Top-$k$光滑近似。Router使用非归一化的激活函数，有助于避免$k > 1$时Expert之间的恶性竞争，有时候能取得更好的效果。

最后补充一点，我们前面定义$\boldsymbol{e}_i = \boldsymbol{v}_i/ \Vert\boldsymbol{v}_i\Vert$，目的是让所有$\boldsymbol{e}_i$模长相同，实际操作中不是一定要L2 Normalize，也可以是其他等价操作，比如gamma参数恒等于1的RMS Norm，它更符合我们的输出习惯。

文章小结 #

本文从Dense模型的最佳逼近出发来推导和理解MoE，得到了一种特定的MoE形式，它比现有MoE多了一个Normalize步骤，但能让MoE的几何意义更加明显。当然，不管Normalize与否，MoE之路都只是刚刚开始，更多的困难还在路上。

转载到请包括本文地址：https://spaces.ac.cn/archives/10699

更详细的转载事宜请参考：《科学空间FAQ》

如果您还有什么疑惑或建议，欢迎在下方评论区继续讨论。

如果您觉得本文还不错，欢迎分享/打赏本文。打赏并非要从中获得收益，而是希望知道科学空间获得了多少读者的真心关注。当然，如果你无视它，也不会影响你的阅读。再次表示欢迎和感谢！

如果您需要引用本文，请参考：

苏剑林. (Feb. 08, 2025). 《MoE环游记：1、从几何意义出发》[Blog post]. Retrieved from https://spaces.ac.cn/archives/10699

@online{kexuefm-10699,
        title={MoE环游记：1、从几何意义出发},
        author={苏剑林},
        year={2025},
        month={Feb},
        url={\url{https://spaces.ac.cn/archives/10699}},
}

分类：信息时代标签：模型, 几何, 稀疏, moe 73 评论

< 三个球的交点坐标（三球交会定位） | 生成扩散模型漫谈（二十九）：用DDPM来离散编码 >

你也许还对下面的内容感兴趣

发表你的看法

mingyu xu

February 8th, 2025

看起来还挺make sense的。能否从这个角度去审视固定专家策略呢？

回复评论

苏剑林发表于 February 9th, 2025

你是指deepseek提出的shared expert策略？这个后面会写的。

回复评论

mingyu xu 发表于 February 9th, 2025

确实，期待后面的作品一波

回复评论

JY 发表于 February 12th, 2025

所以如果从这个角度出发就是可以让一些expert的模长固定为1或者一个大值？这样按照公式每次计算的时候都会选择它

回复评论

苏剑林发表于 February 15th, 2025

从模长角度来看，固定为1未必总是在Top-$k$中，因为模长理论上是无界的。固定为最大值固然可以，不过也不大优雅。我会尽量构造一个适当的视角。

回复评论

我发表于 March 5th, 2025

分享一下我的理解，理解共享专家可能需要跳到“所有vi两两正交”这个假设之前。
因为实际上，moe虽然希望每个专家各司其职，但是还是会大量出现几个专家“干相同的事“的概率。数学表现就是有很多vi是线性相关的。
共享专家就是希望，通过学习尽量把这些线性相关的部分compress到一个专家上。

所以共享专家应该被选中，不是因为他自己的模长如何如何，而是因为他里面的每一个向量都对应了原本的dense矩阵的好几个向量及其线性组合。所以共享专家里的量也很重要。

就是说，其他专家被选中是因为他模长大所以贡献大，共享专家被选中的原因是因为他的每一个向量对应了原矩阵中的多个向量，所以也贡献大

回复评论

苏剑林发表于 March 6th, 2025

其实我想过的一个视角是，Experts之间可能并不那么正交，但可以通过减去某个向量让它们变得更接近正交，这个被减去的向量就是Shared Expert。

回复评论

rpsun 发表于 June 6th, 2025

这样似乎与传统的经验正交函数之类的有相似之处。把样本的平均值减掉之后做正交分解。那么如果单纯地将这个shared Expert的输出设出来，使其接近输出的平均值，然后添加一个损失函数，计算vi两两之间的相关系数，使相关系数的平方和接近0呢？

苏剑林发表于 June 8th, 2025

@rpsun|comment-27808
有人这样做了：https://arxiv.org/abs/2505.22323

huiqingsong

February 8th, 2025

有一点没看明白，为什么$p_i$的模长计算量更小

回复评论

namoe 发表于 February 8th, 2025

$p_i$是标量，$v_i$是向量

回复评论

苏剑林发表于 February 9th, 2025

整个$\boldsymbol{p}$的计算就是一个线性变换加激活函数，$\boldsymbol{e}_i$的计算是两个线性变换层，并且维度也更高。

回复评论

rpsun

February 9th, 2025

我不是专门做神经网络的可能对这里面的问题理解的不是很对
对于式（8）$y=∑\limits_{i∈argtopkp}p_iv_i$如果$p_i$是经过softmax的，可不可以有另一种理解？
$v_i$代表模态而$p_i$代表对应模态对该个例的解释比例
类似于传统PCA或EOF中的解释方差占比这种东西，只是这里的模态不是固定的基底而是某种固定的变换
这样也许不用top-K而使用累积的$p_i$作为阈值，比如总计能达到50%、90%之类的
这样似乎在MOE之前可以对模型能够具有原模型的多少性能做一个简单的预判

回复评论

苏剑林发表于 February 9th, 2025

按Top-$p$来选择Expert也有人在做的。传统MoE的主要问题是$p_i$跟$\boldsymbol{v}_i$未必同步，可能出现$p_i$很大但$\boldsymbol{v}_i$很小的极端情形。

回复评论

rpsun 发表于 February 9th, 2025

原来如此感谢！

回复评论

lidhrandom

February 9th, 2025

这个推导很有道理，但是现在主流的用到MoE的模型架构（DS，Mixtral之类的）里面实际的Router输出是否有预测向量长度的物理意义呢？有没有实验验证过被激活的expert输出的向量长度确实长于没有被激活的expert？

回复评论

trestad 发表于 February 10th, 2025

可以看 https://arxiv.org/pdf/2501.13074 第三节。expert内部有很多计算节点，他们的模都可以用来作为专家激活程度的参考。不同MoE的模型激活大概率体现在不同的节点上（因为预训练MoE没有任何约束来规定哪个节点的模长最应该体现专家的能力激活程度）。如果直接去掉预训练MoE中的router，用各个专家的内部激活值的模来选择expert，模型也可以做到比较好的效果保持（即，基本上能找到一个节点，使得被选择的expert在这个节点的激活比别的expert大。）

回复评论

我发表于 February 25th, 2025

但这样不能保证sparsity吧

回复评论

苏剑林发表于 February 28th, 2025

它还是选topk的，只不过从expert里边选出一部分参数来构建router

回复评论

苏剑林发表于 February 10th, 2025

主流的MoE，Expert没有归一化操作，不保证它的模长跟Router的预测结果同步。

回复评论

trestad

February 10th, 2025

非常精彩的推导和理解！我们最近的一些工作有类似的从模长出发对MoE的理解；但是认为由于router与专家的分离，导致router的预测哪个专家的激活值最大是没有label的学习过程，存在很多问题。

在本文“整理思路”的第五步，可以选择直接用expert的激活模长作为选择expert的依据。为了解决文中提到的“要挑模长最大的k个向量，就得把所有向量的模长都算出来”问题，我们将专家结构进行修改，先将输入降维，并以此低维向量来作为整个专家激活的代理指标，实际吞吐量可以达到MoE的97%，但是下游任务表现和loss，load balance都更优。

论文地址在 https://arxiv.org/pdf/2501.13074，欢迎交流讨论与批评指正！

回复评论

苏剑林发表于 February 10th, 2025

欢迎作者莅临，贵作前些天也刷到了，在“用模长作为Router”这一点上是相通的，贵作的做法，实际上就是从Expert中精简出一个可以快速运行的子模型来预测该Expert的概率，我之前的思路其实也差不多，但总感觉有些迂回。

后来意识到直接将Expert归一化后，就可以让Router的预测结果直接成为模长，只需要改变一下思路，认为$p_i\boldsymbol{e}_i$才是完整的Expert就行。这样感觉上更加简单明快～

回复评论

linkping

February 10th, 2025

只选择模长最大的k个专家似乎与输入无关，在实际应用中p应该是由输入决定的吧

回复评论

苏剑林发表于 February 10th, 2025

Expert是输入的函数，Expert的模长肯定是输入的函数啊，怎么会跟输入无关？

回复评论

sun某某

February 10th, 2025

按照这篇文章的理论，另外的小模型（Router）是不是可以直接由n
个Expert的神经网络进行剪枝/低秩分解/蒸馏得到？
这一点同样可以进一步扩展：我们可以把n个expert的模长预测任务理解成一个 FFN层 + 一个把间隔 D/n = d内的元素用来计算模长的类似池化层的计算操作用来蒸馏小模型（Router）

回复评论

苏剑林发表于 February 10th, 2025

如果是事后想要降低模型推理成本的话，那么玩法就很丰富了，你说的也未尝不可。不过MoE更多是希望能成为一种有竞争力的、可以从零训练的架构，所以还是从设计上就把模长分离开比较适合。

回复评论

February 12th, 2025

所以这里我理解推到极端情况下的就是可以一个$v_i$一个expert，最后$n$个expert，但是这个时候前头每一个都加一个$p_i$的话其实并没有什么计算量，所以可能专家数量就是各个$v_i$耦合程度和计算量的一个权衡？

回复评论

苏剑林发表于 February 15th, 2025

不大明白“极端情况下的就是可以一个$v_i$一个expert”是什么意思。

回复评论

JY 发表于 February 18th, 2025

就是(2)式中的$n$变为$D$

回复评论

Chaofa Yuan

February 12th, 2025

在 “https://kexue.fm/archives/10699#%E4%B8%BA%E4%BD%95%E5%A6%82%E6%AD%A4” 的推到中，如果最终把 $p_iv_i$ 重参数化为 $p_ie_i$，这样是不是对于 expert 的输出 $v_i$ 要额外多做一个 norm？

所以计算过程相对于我们常规的理解多了第二步：
1. epxert1 2 3 分别计算出 v1 v2 v3 （这里的 expert 内部有 prenorm 等结构）
2. 然后对 v1 v2 v3 归一化从 e1 e2 e3
3. router 得出 $p_i$，挑选出更大的 k 个 p_i，和 e_i 做乘法相加

请问我这个理解有问题吗？

回复评论

苏剑林发表于 February 15th, 2025

没有问题，就是你说的这样。

回复评论

loki_ccfa

February 13th, 2025

感觉是有点像additive quantization？https://openaccess.thecvf.com/content_cvpr_2014/papers/Babenko_Additive_Quantization_for_2014_CVPR_paper.pdf

回复评论

苏剑林发表于 February 15th, 2025

不大熟悉这一块，扫了一眼pdf公式好像有点相似，但又好像不大一样

回复评论

loki_ccfa 发表于 February 17th, 2025

看完你的这篇解释后，我是突然想到这或许就是一个组合优化的问题，如何选择若干个子向量的和去逼近原始向量。从向量量化的角度，这肯定是有量化损失的。但基于moe的deepseek的性能就比基于dense的大模型更强呢。

回复评论

苏剑林发表于 February 21st, 2025

可能是dense模型还有很大提升空间，或者有效的模型注定是sparse的。这些就亟待探索了。

回复评论

actact 发表于 February 21st, 2025

dropout可不可以看作是随机而无有选择性选择若干个子向量的和去逼近原始向量，但它能在某些情况下得到更好的结果。moe和dropout可行的原因会不会是相似的

回复评论

苏剑林发表于 February 22nd, 2025

dropout的目的是泛化，不是选择（稀疏化）。当然你非要强行关联也行...

回复评论

我发表于 February 25th, 2025

这不一样，硬要类比的话moe相当于训练和推理都做dropout，而且不能是随机的，相似的输入要dropout掉差不多的那几个neuron

回复评论

我发表于 February 25th, 2025

“但基于moe的deepseek的性能就比基于dense的大模型更强呢”这个证据在哪里？你拿671B的moe和671b的dense比，也是moe更强？不太相信

回复评论

苏剑林发表于 February 28th, 2025

确实，从理论上来说总参数量相同的dense模型能力大于moe。不过真正大了可能也不好说，因为可能有过拟合的问题，以及deepseek-moe论文里边显示moe的性能跟总参数量相同的矮胖dense模型其实相差无几了。

回复评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

MoE环游记：1、从几何意义出发

问题定义 #

模长排序 #

MoE初现 #

思路概括 #

为何如此 #

文章小结 #

你也许还对下面的内容感兴趣

内容速览

智能搜索

热门标签

随机文章

最近评论

友情链接