2 Apr

通过梯度近似寻找Normalization的替代品

By 苏剑林 | 2025-04-02 | 32200位读者 |

不知道大家有没有留意到前段时间的《Transformers without Normalization》？这篇论文试图将Transformer模型中的Normalization层用一个Element-wise的运算DyT替代，以期能提高速度并保持效果。这种基础架构的主题本身自带一点吸引力，加之Kaiming He和Yann LeCun两位大佬挂名，所以这篇论文发布之时就引起了不少围观，评价也是有褒有贬。

无独有偶，上周的一篇新论文《The Mathematical Relationship Between Layer Normalization and Dynamic Activation Functions》从梯度分析和微分方程的视角解读了DyT，并提出了新的替代品。个人感觉这个理解角度非常本质，遂学习和分享一波。

写在前面 #

DyT全称是Dynamic Tanh，它通过如下运算来替代Normalization层：
\begin{equation}\mathop{\text{DyT}}(\boldsymbol{x}) = \boldsymbol{\gamma} \odot \tanh(\alpha \boldsymbol{x}) + \boldsymbol{\beta}\end{equation}
其中$\alpha,\boldsymbol{\beta},\boldsymbol{\gamma}$都是可学参数，$\boldsymbol{\beta},\boldsymbol{\gamma}$是Normalization层本来就有的，所以这里的关键是用$\tanh(\alpha \boldsymbol{x})$替代了Normalize运算。$\tanh$是逐元素的运算，免除了均值、方差这两个统计量的计算。

关于DyT，笔者曾在知乎《如何评价 Meta 新论文 Transformers without Normalization？》发表过一些看法，简单来说就是不大看好。理由是Normalization无脑地稳定了模型的前向传播，那么就留了更多的自由度和可能性给模型的其他方面（比如效果），所以笔者不认为比有Normalization更简化的通用操作能实现更好的效果（No Free Lunch）。

事实上早在2021年的《浅谈Transformer的初始化、参数化与标准化》我们就讨论过去掉Normalization这个话题，相关工作有SkipInit、ReZero、Fixup等。当时笔者试了一些方案，发现它们即便在某些方面能够追平Normalization，但仍会存在另一些方面的不足，比如预训练效果尚可，但微调效果较差等，所以就没再深究下去了。

因此，笔者现在对类似工作都只视为简化维度上的极限探索来欣赏，正如《nGPT: Normalized Transformer with Representation Learning on the Hypersphere》几乎将每一处能Normalize的地方都加上Normalize一样，都属于某个方向的极限探索。

梯度计算 #

当然，不看好归不看好，不妨碍我们的学习和分析。要想寻找Normalization的替代或者说近似，最直接的思路就是从梯度入手，因为深度学习说到底也就是前向传播和反向传播那点事，反向传播也就是求梯度，往往扮演着比较本质的角色。

接下来我们只考虑RMS Norm，它的关键运算是
\begin{equation}\boldsymbol{y} = \frac{\boldsymbol{x}}{\Vert\boldsymbol{x}\Vert_{RMS}} = \sqrt{d}\times \frac{\boldsymbol{x}}{\Vert\boldsymbol{x}\Vert}\label{eq:rms-norm}\end{equation}
其中$\boldsymbol{x}\in\mathbb{R}^d$，以及
\begin{equation}\Vert\boldsymbol{x}\Vert_{RMS} = \frac{\Vert\boldsymbol{x}\Vert}{\sqrt{d}},\qquad \Vert\boldsymbol{x}\Vert = \sqrt{\boldsymbol{x}^2} = \sqrt{\sum_{i=1}^d x_i^2}\end{equation}
所以要求$\boldsymbol{x} / \Vert\boldsymbol{x}\Vert_{RMS}$的梯度，等价于求$\boldsymbol{x} / \Vert\boldsymbol{x}\Vert$的梯度，我们可以通过如下方式计算：
\begin{equation}\frac{\boldsymbol{x}+\Delta\boldsymbol{x}}{\Vert\boldsymbol{x}+\Delta\boldsymbol{x}\Vert} = \frac{\boldsymbol{x}}{\Vert\boldsymbol{x}+\Delta\boldsymbol{x}\Vert} + \frac{\Delta\boldsymbol{x}}{\Vert\boldsymbol{x}+\Delta\boldsymbol{x}\Vert} \approx \frac{\boldsymbol{x}}{\Vert\boldsymbol{x}+\Delta\boldsymbol{x}\Vert} + \frac{\Delta\boldsymbol{x}}{\Vert\boldsymbol{x}\Vert}\label{eq:exp-1}\end{equation}
比较复杂的地方是展开$\Vert\boldsymbol{x}+\Delta\boldsymbol{x}\Vert = \sqrt{(\boldsymbol{x}+\Delta\boldsymbol{x})^2}$：
\begin{equation}\begin{aligned}
&\,\sqrt{(\boldsymbol{x}+\Delta\boldsymbol{x})^2} \\
\approx&\, \sqrt{\Vert\boldsymbol{x}\Vert^2+2\boldsymbol{x}\cdot\Delta\boldsymbol{x}} \\
=&\, \Vert\boldsymbol{x}\Vert\sqrt{1+2\boldsymbol{x}\cdot\Delta\boldsymbol{x}/\Vert\boldsymbol{x}\Vert^2} \\
=&\, \Vert\boldsymbol{x}\Vert (1+\boldsymbol{x}\cdot\Delta\boldsymbol{x}/\Vert\boldsymbol{x}\Vert^2)
\end{aligned} \quad \Rightarrow \quad
\begin{aligned}
\frac{\boldsymbol{x}}{\Vert\boldsymbol{x}+\Delta\boldsymbol{x}\Vert} \approx&\, \frac{\boldsymbol{x}}{\Vert\boldsymbol{x}\Vert}(1-\boldsymbol{x}\cdot\Delta\boldsymbol{x}/\Vert\boldsymbol{x}\Vert^2)
\end{aligned}\end{equation}
代入式$\eqref{eq:exp-1}$得：
\begin{equation}\frac{\boldsymbol{x}+\Delta\boldsymbol{x}}{\Vert\boldsymbol{x}+\Delta\boldsymbol{x}\Vert} - \frac{\boldsymbol{x}}{\Vert\boldsymbol{x}\Vert} \approx \frac{\Delta\boldsymbol{x}}{\Vert\boldsymbol{x}\Vert} - \frac{(\boldsymbol{x}\cdot\Delta\boldsymbol{x})\boldsymbol{x}}{\Vert\boldsymbol{x}\Vert^3}\quad\Rightarrow\quad\nabla_{\boldsymbol{x}} \frac{\boldsymbol{x}}{\Vert\boldsymbol{x}\Vert} = \frac{\boldsymbol{I}}{\Vert\boldsymbol{x}\Vert} - \frac{\boldsymbol{x}\boldsymbol{x}^{\top}}{\Vert\boldsymbol{x}\Vert^3}\end{equation}
最后代回式$\eqref{eq:rms-norm}$得
\begin{equation}\nabla_{\boldsymbol{x}} \boldsymbol{y} = \sqrt{d}\left(\frac{\boldsymbol{I}}{\Vert\boldsymbol{x}\Vert} - \frac{\boldsymbol{x}\boldsymbol{x}^{\top}}{\Vert\boldsymbol{x}\Vert^3}\right) = \frac{1}{\Vert\boldsymbol{x}\Vert_{RMS}}\left(\boldsymbol{I} - \frac{\boldsymbol{y}\boldsymbol{y}^{\top}}{d}\right)\label{eq:rms-norm-grad}\end{equation}

DyT现！ #

注意$\boldsymbol{x},\boldsymbol{y}$都是一个向量，所以$\nabla_{\boldsymbol{x}} \boldsymbol{y}$是一个矩阵（雅可比矩阵）。现在我们考虑给RMS Norm找一个Element-wise近似，即每个分量是独立运算的：
\begin{equation}f(\boldsymbol{x}) = [f(x_1),f(x_2),\cdots,f(x_d)]\end{equation}
这个独立性意味着它的雅可比矩阵一定是对角阵！我们希望这个近似能尽可能保留RMS Norm的梯度，所以我们考虑保留式$\eqref{eq:rms-norm-grad}$的对角线部分：
\begin{equation}\frac{dy_i}{dx_i} = \frac{1}{\Vert\boldsymbol{x}\Vert_{RMS}}\left(1 - \frac{y_i^2}{d}\right)\label{eq:ode-1}\end{equation}
如果我们进一步假设$\rho = \Vert\boldsymbol{x}\Vert_{RMS}$是常数，那么可以直接求解上述微分方程得到
\begin{equation}y_i = \sqrt{d}\tanh\left(\frac{x_i}{\rho\sqrt{d}}\right)\end{equation}
这样我们就得到了DyT的T（$\tanh$），其中求解过程选择的初值条件为$y_i(0)=0$。

DyT相当于将前面的$\sqrt{d}$吸收到$\boldsymbol{\gamma}$参数里，然后将括号内的$\frac{1}{\rho\sqrt{d}}$视为训练参数$\alpha$，缓解“$\rho = \Vert\boldsymbol{x}\Vert_{RMS}$是常数”这一假设带来的限制。不过在笔者看来，显式保留$\sqrt{d}$可能会更有价值，只要将$\frac{1}{\rho}$部分视为可训练参数就好。

DyISRU #

不知道大家有没有留意到，对于RMS Norm我们恒有$y_i = x_i / \Vert\boldsymbol{x}\Vert_{RMS}$，所以方程$\eqref{eq:ode-1}$的$\Vert\boldsymbol{x}\Vert_{RMS}$我们可以换成$x_i/y_i$，从而得到
\begin{equation}\frac{dy_i}{dx_i} = \frac{y_i}{x_i}\left(1 - \frac{y_i^2}{d}\right)\label{eq:ode-2}\end{equation}
这是一个只有$x_i,y_i$的方程，免除了对$\Vert\boldsymbol{x}\Vert_{RMS}$的近似处理。求解该方程得
\begin{equation}y_i = \frac{\sqrt{d}x_i}{\sqrt{x_i^2 + C}}\end{equation}
其中$C$是任意常数。这种形式有个名字叫做ISRU（Inverse Square Root Unit，我们之前也叫过SoftSign），出自论文《Improving Deep Learning by Inverse Square Root Linear Units (ISRLUs)》。如果将$C$视为可训练参数，那么就可以类比DyT称为DyISRU（Dynamic ISRU）。

从梯度$\eqref{eq:rms-norm-grad}$到方程$\eqref{eq:ode-1}$再到$\eqref{eq:ode-2}$来看，DyISRU是我们用Element-wise函数能做到的最好结果，因为除对角线假设外没有再加额外近似了。从形式上看，DyISRU其实也比DyT更直观，因为$\Vert\boldsymbol{x}\Vert_{RMS}^2$即$\mathbb{E}[x_i^2]$，既然要寻求Element-wise的运算，只好将$\mathbb{E}[x_i^2]$换成$x_i^2$了，最后加$C$乘$\sqrt{d}$算是平滑操作：
\begin{equation}\frac{x_i}{\sqrt{\color{red}{\frac{1}{d}\sum\limits_{i=1}^d x_i^2}}}\quad\to\quad \frac{x_i}{\sqrt{\color{green}{x_i^2}}}\quad\to\quad \frac{\color{orange}{\sqrt{d}} x_i}{\sqrt{\color{green}{x_i^2} + \color{orange}{C}}}\end{equation}

文章小结 #

本文从梯度近似角度来分析什么样的Element-wise的激活函数才能（一定程度上）替代Normalization层，从中我们可以推出DyT以及新的结果。

转载到请包括本文地址：https://spaces.ac.cn/archives/10831

更详细的转载事宜请参考：《科学空间FAQ》

如果您还有什么疑惑或建议，欢迎在下方评论区继续讨论。

如果您觉得本文还不错，欢迎分享/打赏本文。打赏并非要从中获得收益，而是希望知道科学空间获得了多少读者的真心关注。当然，如果你无视它，也不会影响你的阅读。再次表示欢迎和感谢！

如果您需要引用本文，请参考：

苏剑林. (Apr. 02, 2025). 《通过梯度近似寻找Normalization的替代品》[Blog post]. Retrieved from https://spaces.ac.cn/archives/10831

@online{kexuefm-10831,
        title={通过梯度近似寻找Normalization的替代品},
        author={苏剑林},
        year={2025},
        month={Apr},
        url={\url{https://spaces.ac.cn/archives/10831}},
}

分类：数学研究标签：函数, 分析, 梯度, 光滑 10 评论

< MoE环游记：4、难处应当多投入 | 矩阵的有效秩（Effective Rank） >

你也许还对下面的内容感兴趣

发表你的看法

hazdzz

April 7th, 2025

我试过，DyT 可以帮助 GNN 快速收敛

回复评论

苏剑林发表于 April 13th, 2025

感谢反馈～那Normalization呢？

回复评论

hhhhpaa 发表于 May 7th, 2025

我实验对比了一下layer norm和DyT用于节点分类,DyT不需要特别小心的调整参数就可以明显加快收敛速度。我猜测是Tanh在一定程度上避免了节点的过度平滑，但是不会证明。

回复评论

Namoe

April 8th, 2025

苏神看过Density Modeling of Images using a Generalized Normalization Transformation(https://arxiv.org/abs/1511.06281)吗，里面提出的GDN可以作为DyISRU的参数化推广。

回复评论

苏剑林发表于 April 13th, 2025

没看过。去看了一下，感觉那个形式对本文可能也没有太多借鉴价值吧？

回复评论

qiaoranc

April 14th, 2025

我做的是比较少见的实验，发现可能对于语音信号的FSQ编解码有些效果。
使用FSQ来对肺音（4k采样率）进行编解码，FSQ是常见的[8,5,5,5]设置。输入和输出都是wav原始音频，输入80000长度，patch设置80。这里不考虑判别器的loss（调整项更多），只使用最直接的wav的信号和stft的loss（更加简单些，把stft的loss ratio大幅度降低）。使用5W数据，我的设置都很朴素，主要是想验证可行性。
之前只有语音的cnn架构的SEANet (encoder和decoder)可以成功收敛，和HiFiGAN类似，其中有一个点是都不使用norm层，而是用weight norm代替（我猜是主要因为需要重建高频的语音信号）。但是使用Transformer就是不收敛（也是目前常见的设置，RMSnorm层, rope编码这些），我就是突然想到，把norm层换成DyT,发现可以成功收敛（也是从低频开始拟合，高频的loss比较多，合理现象），当然我的实验没有充分的消融(比如我没有把norm层直接去掉做一个对比，一些超参数没有更多的调整），肺音4K采样率比语音也要低很多（但是这个应该影响不大，有效2K Hz频段足够覆盖一部分的人声）。
当然这个模型我并不是来做生成任务，我只是纯粹好奇用FSQ来训练个encoder（信号输入，更接近本质，频谱用MAE就很稳定了），后续做一个其他分类回归任务，是否会有什么样的特点。
之前我也用过，把常见的频谱输入来做MAE训练，下游微调这种，这里面的Transformer换DyT确实有些鸡肋，不涨不跌，速度目测也没什么变化。

回复评论

苏剑林发表于 April 20th, 2025

感谢分享！感觉有点神奇，可能需要更多的消融。Normalization相比DyT，可能唯一的坏处是会损失自由度，不知道是否跟这个有关。

回复评论

Kuo

June 23rd, 2025

rmsnorm的梯度形式看起来跟softmax一致，是不是有normalization的都这样？

回复评论

Kuo 发表于 June 23rd, 2025

rmsnorm梯度对角线是I,各分量变化速度基本没有区别，而softmax对角线是当下权重分量，导致强者更强，赢者通吃

回复评论

苏剑林发表于 June 25th, 2025

可以这么说吧，通过某种分母归一化的操作，导数格式都类似，毕竟公式$(f/g)'=f'/g-fg'/g^2$摆在那。至于是否“一致”，那就看个人的审美了。

回复评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

通过梯度近似寻找Normalization的替代品

写在前面 #

梯度计算 #

DyT现！ #

DyISRU #

相关工作 #

文章小结 #

你也许还对下面的内容感兴趣

内容速览

智能搜索

热门标签

随机文章

最近评论

友情链接