包含关键字《方程与宇宙》的文章 - 科学空间|Scientific Spaces

24 Oct

VQ的旋转技巧：梯度直通估计的一般推广

By 苏剑林 | 2024-10-24 | 32256位读者 | 引用

随着多模态LLM的方兴未艾，VQ（Vector Quantization）的地位也“水涨船高”，它可以作为视觉乃至任意模态的Tokenizer，将多模态数据统一到自回归生成框架中。遗憾的是，自VQ-VAE首次提出VQ以来，其理论并没有显著进步，像编码表的坍缩或利用率低等问题至今仍亟待解决，取而代之的是FSQ等替代方案被提出，成为了VQ有力的“竞争对手”。

然而，FSQ并不能在任何场景下都替代VQ，所以VQ本身的改进依然是有价值的。近日笔者读到了《Restructuring Vector Quantization with the Rotation Trick》，它提出了一种旋转技巧，声称能改善VQ的一系列问题，本文就让我们一起来品鉴一下。

回顾

早在五年前的博文《VQ-VAE的简明介绍：量子化自编码器》中我们就介绍过了VQ-VAE，后来在《简单得令人尴尬的FSQ：“四舍五入”超越了VQ-VAE》介绍FSQ的时候，也再次仔细地温习了VQ-VAE，还不了解的读者可以先阅读这两篇文章。

点击阅读全文...

分类：信息时代标签：生成模型, 编码, 梯度, 离散化阅读全文 14 评论

29 Nov

从Hessian近似看自适应学习率优化器

By 苏剑林 | 2024-11-29 | 23034位读者 | 引用

这几天在重温去年的Meta的一篇论文《A Theory on Adam Instability in Large-Scale Machine Learning》，里边给出了看待Adam等自适应学习率优化器的新视角：它指出梯度平方的滑动平均某种程度上近似于在估计Hessian矩阵的平方，从而Adam、RMSprop等优化器实际上近似于二阶的Newton法。

这个角度颇为新颖，而且表面上跟以往的一些Hessian近似有明显的差异，因此值得我们去学习和思考一番。

牛顿下降

设损失函数为 $\mathcal{L}(\boldsymbol{\theta})$ ，其中待优化参数为 $\boldsymbol{\theta}$ ，我们的优化目标是
$\begin{equation}\boldsymbol{\theta}^* = \mathop{\text{argmin}}_{\boldsymbol{\theta}} \mathcal{L}(\boldsymbol{\theta})\label{eq:loss}\end{equation}$
假设 $\boldsymbol{\theta}$ 的当前值是 $\boldsymbol{\theta}_t$ ，Newton法通过将损失函数展开到二阶来寻求 $\boldsymbol{\theta}_{t+1}$ ：
$\begin{equation}\mathcal{L}(\boldsymbol{\theta})\approx \mathcal{L}(\boldsymbol{\theta}_t) + \boldsymbol{g}_t^{\top}(\boldsymbol{\theta} - \boldsymbol{\theta}_t) + \frac{1}{2}(\boldsymbol{\theta} - \boldsymbol{\theta}_t)^{\top}\boldsymbol{\mathcal{H}}_t(\boldsymbol{\theta} - \boldsymbol{\theta}_t)\end{equation}$

点击阅读全文...

分类：数学研究标签：优化, 梯度, 学习率, 优化器阅读全文 4 评论

17 Jan

细水长flow之TARFLOW：流模型满血归来？

By 苏剑林 | 2025-01-17 | 33303位读者 | 引用

不知道还有没有读者对这个系列有印象？这个系列取名“细水长flow”，主要介绍flow模型的相关工作，起因是当年（2018年）OpenAI发布了一个新的流模型Glow，在以GAN为主流的当时来说着实让人惊艳了一番。但惊艳归惊艳，事实上在相当长的时间内，Glow及后期的一些改进在生成效果方面都是比不上GAN的，更不用说现在主流的扩散模型了。

不过局面可能要改变了，上个月的论文《Normalizing Flows are Capable Generative Models》提出了新的流模型TARFLOW，它在几乎在所有的生成任务效果上都逼近了当前SOTA，可谓是流模型的“满血”回归。

TARFLOW的生成效果

点击阅读全文...

分类：信息时代标签：流模型, flow, 生成模型, attention 阅读全文 14 评论

6 Nov

VQ的又一技巧：给编码表加一个线性变换

By 苏剑林 | 2024-11-06 | 35644位读者 | 引用

在《VQ的旋转技巧：梯度直通估计的一般推广》中，我们介绍了VQ（Vector Quantization）的Rotation Trick，它的思想是通过推广VQ的STE（Straight-Through Estimator）来为VQ设计更好的梯度，从而缓解VQ的编码表坍缩、编码表利用率低等问题。

无独有偶，昨天发布在arXiv上的论文《Addressing Representation Collapse in Vector Quantized Models with One Linear Layer》提出了改善VQ的另一个技巧：给编码表加一个线性变换。这个技巧单纯改变了编码表的参数化方式，不改变VQ背后的理论框架，但实测效果非常优异，称得上是简单有效的经典案例。

点击阅读全文...

分类：数学研究,信息时代标签：生成模型, 编码, 梯度, 离散化阅读全文 19 评论

18 Nov

Adam的epsilon如何影响学习率的Scaling Law？

By 苏剑林 | 2024-11-18 | 23241位读者 | 引用

上一篇文章《当Batch Size增大时，学习率该如何随之变化？》我们从多个角度讨论了学习率与Batch Size之间的缩放规律，其中对于Adam优化器我们采用了SignSGD近似，这是分析Adam优化器常用的手段。那么一个很自然的问题就是：用SignSGD来近似Adam究竟有多科学呢？

我们知道，Adam优化器的更新量分母会带有一个 $\epsilon$ ，初衷是预防除零错误，所以其值通常很接近于零，以至于我们做理论分析的时候通常选择忽略掉它。然而，当前LLM的训练尤其是低精度训练，我们往往会选择偏大的 $\epsilon$ ，这导致在训练的中、后期 $\epsilon$ 往往已经超过梯度平方大小，所以 $\epsilon$ 的存在事实上已经不可忽略。

因此，这篇文章我们试图探索 $\epsilon$ 如何影响Adam的学习率与Batch Size的Scaling Law，为相关问题提供一个参考的计算方案。

点击阅读全文...

分类：数学研究,信息时代标签：梯度, 学习率, 优化器, 尺度定律阅读全文 4 评论

10 Dec

Muon优化器赏析：从向量到矩阵的本质跨越

By 苏剑林 | 2024-12-10 | 45646位读者 | 引用

随着LLM时代的到来，学术界对于优化器的研究热情似乎有所减退。这主要是因为目前主流的AdamW已经能够满足大多数需求，而如果对优化器“大动干戈”，那么需要巨大的验证成本。因此，当前优化器的变化，多数都只是工业界根据自己的训练经验来对AdamW打的一些小补丁。

不过，最近推特上一个名为“Muon”的优化器颇为热闹，它声称比AdamW更为高效，且并不只是在Adam基础上的“小打小闹”，而是体现了关于向量与矩阵差异的一些值得深思的原理。本文让我们一起赏析一番。

Muon与AdamW效果对比（来源：推特@Yuchenj_UW）

点击阅读全文...

分类：数学研究,信息时代标签：矩阵, 梯度, 优化器, 谱范数阅读全文 30 评论

25 Dec

从谱范数梯度到新式权重衰减的思考

By 苏剑林 | 2024-12-25 | 22930位读者 | 引用

在文章《Muon优化器赏析：从向量到矩阵的本质跨越》中，我们介绍了一个名为“Muon”的新优化器，其中一个理解视角是作为谱范数正则下的最速梯度下降，这似乎揭示了矩阵参数的更本质的优化方向。众所周知，对于矩阵参数我们经常也会加权重衰减（Weight Decay），它可以理解为 $F$ 范数平方的梯度，那么从Muon的视角看，通过谱范数平方的梯度来构建新的权重衰减，会不会能起到更好的效果呢？

那么问题来了，谱范数的梯度或者说导数长啥样呢？用它来设计的新权重衰减又是什么样的？接下来我们围绕这些问题展开。

基础回顾

谱范数（Spectral Norm），又称“ $2$ 范数”，是最常用的矩阵范数之一，相比更简单的 $F$ 范数（Frobenius Norm），它往往能揭示一些与矩阵乘法相关的更本质的信号，这是因为它定义上就跟矩阵乘法相关：对于矩阵参数 $\boldsymbol{W}\in\mathbb{R}^{n\times m}$ ，它的谱范数定义为

点击阅读全文...

分类：数学研究,信息时代标签：矩阵, 优化, 梯度, 优化器, 谱范数阅读全文 1 评论

14 Feb

生成扩散模型漫谈（二十九）：用DDPM来离散编码

By 苏剑林 | 2025-02-14 | 30111位读者 | 引用

笔者前两天在arXiv刷到了一篇新论文《Compressed Image Generation with Denoising Diffusion Codebook Models》，实在为作者的天马行空所叹服，忍不住来跟大家分享一番。

如本文标题所述，作者提出了一个叫DDCM（Denoising Diffusion Codebook Models）的脑洞，它把DDPM的噪声采样限制在一个有限的集合上，然后就可以实现一些很奇妙的效果，比如像VQVAE一样将样本编码为离散的ID序列并重构回来。注意这些操作都是在预训练好的DDPM上进行的，无需额外的训练。

有限集合

由于DDCM只需要用到一个预训练好的DDPM模型来执行采样，所以这里我们就不重复介绍DDPM的模型细节了，对DDPM还不大了解的读者可以回顾我们《生成扩散模型漫谈》系列的（一）、（二）、（三）篇。

点击阅读全文...

分类：信息时代标签：生成模型, 编码, DDPM, 扩散, 离散化阅读全文 23 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

VQ的旋转技巧：梯度直通估计的一般推广

回顾

从Hessian近似看自适应学习率优化器

牛顿下降

细水长flow之TARFLOW：流模型满血归来？

VQ的又一技巧：给编码表加一个线性变换

Adam的epsilon如何影响学习率的Scaling Law？

Muon优化器赏析：从向量到矩阵的本质跨越

从谱范数梯度到新式权重衰减的思考

基础回顾

生成扩散模型漫谈（二十九）：用DDPM来离散编码

有限集合

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接