包含关键字 100 的文章 - 科学空间|Scientific Spaces

18 Nov

Adam的epsilon如何影响学习率的Scaling Law？

By 苏剑林 | 2024-11-18 | 22749位读者 | 引用

上一篇文章《当Batch Size增大时，学习率该如何随之变化？》我们从多个角度讨论了学习率与Batch Size之间的缩放规律，其中对于Adam优化器我们采用了SignSGD近似，这是分析Adam优化器常用的手段。那么一个很自然的问题就是：用SignSGD来近似Adam究竟有多科学呢？

我们知道，Adam优化器的更新量分母会带有一个 $\epsilon$ ，初衷是预防除零错误，所以其值通常很接近于零，以至于我们做理论分析的时候通常选择忽略掉它。然而，当前LLM的训练尤其是低精度训练，我们往往会选择偏大的 $\epsilon$ ，这导致在训练的中、后期 $\epsilon$ 往往已经超过梯度平方大小，所以 $\epsilon$ 的存在事实上已经不可忽略。

因此，这篇文章我们试图探索 $\epsilon$ 如何影响Adam的学习率与Batch Size的Scaling Law，为相关问题提供一个参考的计算方案。

点击阅读全文...

分类：数学研究,信息时代标签：梯度, 学习率, 优化器, 尺度定律阅读全文 4 评论

22 Nov

生成扩散模型漫谈（二十六）：基于恒等式的蒸馏（下）

By 苏剑林 | 2024-11-22 | 28470位读者 | 引用

继续回到我们的扩散系列。在《生成扩散模型漫谈（二十五）：基于恒等式的蒸馏（上）》中，我们介绍了SiD（Score identity Distillation），这是一种不需要真实数据、也不需要从教师模型采样的扩散模型蒸馏方案，其形式类似GAN，但有着比GAN更好的训练稳定性。

SiD的核心是通过恒等变换来为学生模型构建更好的损失函数，这一点是开创性的，同时也遗留了一些问题。比如，SiD对损失函数的恒等变换是不完全的，如果完全变换会如何？如何从理论上解释SiD引入的 $\lambda$ 的必要性？上个月放出的《Flow Generator Matching》（简称FGM）成功从更本质的梯度角度解释了 $\lambda=0.5$ 的选择，而受到FGM启发，笔者则进一步发现了 $\lambda = 1$ 的一种解释。

接下来我们将详细介绍SiD的上述理论进展。

点击阅读全文...

分类：数学研究,信息时代标签：生成模型, 梯度, 扩散, 去噪阅读全文 10 评论

10 Dec

Muon优化器赏析：从向量到矩阵的本质跨越

By 苏剑林 | 2024-12-10 | 41784位读者 | 引用

随着LLM时代的到来，学术界对于优化器的研究热情似乎有所减退。这主要是因为目前主流的AdamW已经能够满足大多数需求，而如果对优化器“大动干戈”，那么需要巨大的验证成本。因此，当前优化器的变化，多数都只是工业界根据自己的训练经验来对AdamW打的一些小补丁。

不过，最近推特上一个名为“Muon”的优化器颇为热闹，它声称比AdamW更为高效，且并不只是在Adam基础上的“小打小闹”，而是体现了关于向量与矩阵差异的一些值得深思的原理。本文让我们一起赏析一番。

Muon与AdamW效果对比（来源：推特@Yuchenj_UW）

点击阅读全文...

分类：数学研究,信息时代标签：矩阵, 梯度, 优化器, 谱范数阅读全文 30 评论

15 Dec

生成扩散模型漫谈（二十七）：将步长作为条件输入

By 苏剑林 | 2024-12-15 | 29990位读者 | 引用

这篇文章我们再次聚焦于扩散模型的采样加速。众所周知，扩散模型的采样加速主要有两种思路，一是开发更高效的求解器，二是事后蒸馏。然而，据笔者观察，除了上两篇文章介绍过的SiD外，这两种方案都鲜有能将生成步数降低到一步的结果。虽然SiD能做到单步生成，但它需要额外的蒸馏成本，并且蒸馏过程中用到了类似GAN的交替训练过程，总让人感觉差点意思。

本文要介绍的是《One Step Diffusion via Shortcut Models》，其突破性思想是将生成步长也作为扩散模型的条件输入，然后往训练目标中加入了一个直观的正则项，这样就能直接稳定训练出可以单步生成模型，可谓简单有效的经典之作。

ODE扩散

原论文的结论是基于ODE式扩散模型的，而对于ODE式扩散的理论基础，我们在本系列的（六）、（十二）、（十四）、（十五）、（十七）等博客中已经多次介绍，其中最简单的一种理解方式大概是（十七）中的ReFlow视角，下面我们简单重复一下。

点击阅读全文...

分类：信息时代标签：微分方程, 生成模型, 采样, 扩散阅读全文 17 评论

18 Dec

生成扩散模型漫谈（二十八）：分步理解一致性模型

By 苏剑林 | 2024-12-18 | 29547位读者 | 引用

书接上文，在《生成扩散模型漫谈（二十七）：将步长作为条件输入》中，我们介绍了加速采样的Shortcut模型，其对比的模型之一就是“一致性模型（Consistency Models）”。事实上，早在《生成扩散模型漫谈（十七）：构建ODE的一般步骤（下）》介绍ReFlow时，就有读者提到了一致性模型，但笔者总感觉它更像是实践上的Trick，理论方面略显单薄，所以兴趣寥寥。

不过，既然我们开始关注扩散模型加速采样方面的进展，那么一致性模型就是一个绕不开的工作。因此，趁着这个机会，笔者在这里分享一下自己对一致性模型的理解。

熟悉配方

还是熟悉的配方，我们的出发点依旧是ReFlow，因为它大概是ODE式扩散最简单的理解方式。设 $\boldsymbol{x}_0\sim p_0(\boldsymbol{x}_0)$ 是目标分布的真实样本， $\boldsymbol{x}_1\sim p_1(\boldsymbol{x}_1)$ 是先验分布的随机噪声， $\boldsymbol{x}_t = (1-t)\boldsymbol{x}_0 + t\boldsymbol{x}_1$ 是加噪样本，那么ReFlow的训练目标是：

点击阅读全文...

分类：信息时代标签：微分方程, 生成模型, 采样, 扩散阅读全文 19 评论

14 Feb

生成扩散模型漫谈（二十九）：用DDPM来离散编码

By 苏剑林 | 2025-02-14 | 25885位读者 | 引用

笔者前两天在arXiv刷到了一篇新论文《Compressed Image Generation with Denoising Diffusion Codebook Models》，实在为作者的天马行空所叹服，忍不住来跟大家分享一番。

如本文标题所述，作者提出了一个叫DDCM（Denoising Diffusion Codebook Models）的脑洞，它把DDPM的噪声采样限制在一个有限的集合上，然后就可以实现一些很奇妙的效果，比如像VQVAE一样将样本编码为离散的ID序列并重构回来。注意这些操作都是在预训练好的DDPM上进行的，无需额外的训练。

有限集合

由于DDCM只需要用到一个预训练好的DDPM模型来执行采样，所以这里我们就不重复介绍DDPM的模型细节了，对DDPM还不大了解的读者可以回顾我们《生成扩散模型漫谈》系列的（一）、（二）、（三）篇。

点击阅读全文...

分类：信息时代标签：生成模型, 编码, DDPM, 扩散, 离散化阅读全文 19 评论

10 Apr

矩阵的有效秩（Effective Rank）

By 苏剑林 | 2025-04-10 | 4344位读者 | 引用

秩（Rank）是线性代数中的重要概念，它代表了矩阵的内在维度。然而，数学上对秩的严格定义，很多时候并不完全适用于数值计算场景，因为秩等于非零奇异值的个数，而数学上对“等于零”这件事的理解跟数值计算有所不同，数学上的“等于零”是绝对地、严格地等于零，哪怕是 $10^{-100}$ 也是不等于零，但数值计算不一样，很多时候 $10^{-10}$ 就可以当零看待。

因此，我们希望将秩的概念推广到更符合数值计算特性的形式，这便是有效秩（Effective Rank）概念的由来。

误差截断

需要指出的是，目前学术界对有效秩并没有统一的定义，接下来我们介绍的是一些从不同角度切入来定义有效秩的思路。对于实际问题，读者可以自行选择适合的定义来使用。

点击阅读全文...

分类：数学研究标签：矩阵, 熵, 稀疏, 低秩阅读全文 2 评论

28 Mar

MoE环游记：4、难处应当多投入

By 苏剑林 | 2025-03-28 | 8783位读者 | 引用

前两篇文章我们都在讨论负载均衡，其中在《MoE环游记：3、换个思路来分配》介绍Loss-Free方案时，笔者留了一个悬念：它引入的Bias项有一个冗余的自由度，这个自由度可以用来做另外有趣的事情。这篇文章我们就来讨论这件事。

我们知道，MoE是为每个Token只选择最匹配的 $k$ 个Expert来进行计算，从而在增大参数量的同时还节省了计算量。然而，当我们仔细思考就会发现，这个策略实际上有明显的可改进之处：直观来看，每个Token的难度并不一样，所以更合理的方案应该是难的Token分配更多的计算资源，简单的token分配更少的资源，这样或许能在同样有限的资源下将效果最大化。

而刚才提到的Bias的额外自由度，恰好可以用来简单地实现这个目标。

点击阅读全文...

分类：信息时代标签：优化, 梯度, moe, 动态阅读全文 4 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

Adam的epsilon如何影响学习率的Scaling Law？

生成扩散模型漫谈（二十六）：基于恒等式的蒸馏（下）

Muon优化器赏析：从向量到矩阵的本质跨越

生成扩散模型漫谈（二十七）：将步长作为条件输入

ODE扩散

生成扩散模型漫谈（二十八）：分步理解一致性模型

熟悉配方

生成扩散模型漫谈（二十九）：用DDPM来离散编码

有限集合

矩阵的有效秩（Effective Rank）

误差截断

MoE环游记：4、难处应当多投入

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接