包含关键字多视图的文章 - 科学空间|Scientific Spaces

24 Mar

高阶muP：更简明但更高明的谱条件缩放

By 苏剑林 | 2025-03-24 | 9466位读者 | 引用

在文章《初探muP：超参数的跨模型尺度迁移规律》中，我们基于前向传播、反向传播、损失增量和特征变化的尺度不变性推导了muP（Maximal Update Parametrization）。可能对于部分读者来说，这一过程还是显得有些繁琐，但实际上它比原始论文已经明显简化。要知道，我们是在单篇文章内相对完整地介绍的muP，而muP的论文实际上是作者Tensor Programs系列论文的第5篇！

不过好消息是，作者在后续的研究《A Spectral Condition for Feature Learning》中，发现了一种新的理解方式（下称“谱条件”），它比muP的原始推导和笔者的推导都更加直观和简洁，但却能得到比muP更丰富的结果，可谓muP的高阶版本，简明且不失高明的代表作。

准备工作

顾名思义，谱条件（Spectral Condition）跟谱范数（Spectral Norm）相关，它的出发点是谱范数的一个基本不等式：
$\begin{equation}\Vert\boldsymbol{x}\boldsymbol{W}\Vert_2\leq \Vert\boldsymbol{x}\Vert_2 \Vert\boldsymbol{W}\Vert_2\label{neq:spec-2}\end{equation}$

点击阅读全文...

分类：数学研究标签：梯度, 优化器, 尺度定律, 谱范数阅读全文 8 评论

10 Apr

矩阵的有效秩（Effective Rank）

By 苏剑林 | 2025-04-10 | 4352位读者 | 引用

秩（Rank）是线性代数中的重要概念，它代表了矩阵的内在维度。然而，数学上对秩的严格定义，很多时候并不完全适用于数值计算场景，因为秩等于非零奇异值的个数，而数学上对“等于零”这件事的理解跟数值计算有所不同，数学上的“等于零”是绝对地、严格地等于零，哪怕是 $10^{-100}$ 也是不等于零，但数值计算不一样，很多时候 $10^{-10}$ 就可以当零看待。

因此，我们希望将秩的概念推广到更符合数值计算特性的形式，这便是有效秩（Effective Rank）概念的由来。

误差截断

需要指出的是，目前学术界对有效秩并没有统一的定义，接下来我们介绍的是一些从不同角度切入来定义有效秩的思路。对于实际问题，读者可以自行选择适合的定义来使用。

点击阅读全文...

分类：数学研究标签：矩阵, 熵, 稀疏, 低秩阅读全文 2 评论

2 Apr

通过梯度近似寻找Normalization的替代品

By 苏剑林 | 2025-04-02 | 6890位读者 | 引用

不知道大家有没有留意到前段时间的《Transformers without Normalization》？这篇论文试图将Transformer模型中的Normalization层用一个Element-wise的运算DyT替代，以期能提高速度并保持效果。这种基础架构的主题本身自带一点吸引力，加之Kaiming He和Yann LeCun两位大佬挂名，所以这篇论文发布之时就引起了不少围观，评价也是有褒有贬。

无独有偶，上周的一篇新论文《The Mathematical Relationship Between Layer Normalization and Dynamic Activation Functions》从梯度分析和微分方程的视角解读了DyT，并提出了新的替代品。个人感觉这个理解角度非常本质，遂学习和分享一波。

写在前面

DyT全称是Dynamic Tanh，它通过如下运算来替代Normalization层：
$\begin{equation}\mathop{\text{DyT}}(\boldsymbol{x}) = \boldsymbol{\gamma} \odot \tanh(\alpha \boldsymbol{x}) + \boldsymbol{\beta}\end{equation}$

点击阅读全文...

分类：数学研究标签：函数, 分析, 梯度, 光滑阅读全文 5 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

高阶muP：更简明但更高明的谱条件缩放

准备工作

矩阵的有效秩（Effective Rank）

误差截断

通过梯度近似寻找Normalization的替代品

写在前面

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接