简单得令人尴尬的FSQ:“四舍五入”超越了VQ-VAE
By 苏剑林 | 2023-10-31 | 82956位读者 | 引用正如“XXX is all you need”一样,有不少论文都以“简单得令人尴尬”命名(An Embarrassingly Simple XXX),但在笔者看来,这些论文大多数都是噱头多于实力。不过,笔者最近阅读到的一篇论文,真的让人不由得发出“简单得令人尴尬”的感叹~
论文的标题是《Finite Scalar Quantization: VQ-VAE Made Simple》,顾名思义,这是一篇旨在用FSQ(Finite Scalar Quantization)简化VQ-VAE的工作。随着生成模型、多模态LLM的逐渐流行,VQ-VAE及其后续工作也作为“图像的Tokenizer”而“水涨船高”。然而,VQ-VAE的训练本身也存在一些问题,而FSQ这篇论文则声称通过更简单的“四舍五入”就可以达到同样的目的,并且有着效果更好、收敛更快、训练更稳的优点。
FSQ真有这么神奇?接下来我们一起学习一下。
VQ
首先,我们来了解一下“VQ”。VQ全称是“Vector Quantize”,可以翻译为“向量量子化”或者“向量量化”,是指将无限、连续的编码向量映射为有限、离散的整数数字的一种技术。如果我们将VQ应用在自编码器的中间层,那么可以在压缩输入大小的同时,让编码结果成为一个离散的整数序列。
幂等生成网络IGN:试图将判别和生成合二为一的GAN
By 苏剑林 | 2024-01-31 | 43540位读者 | 引用前段时间,一个名为“幂等生成网络(Idempotent Generative Network,IGN)”的生成模型引起了一定的关注。它自称是一种独立于已有的VAE、GAN、flow、Diffusion之外的新型生成模型,并且具有单步采样的特点。也许是大家苦于当前主流的扩散模型的多步采样生成过程久矣,因此任何声称可以实现单步采样的“风吹草动”都很容易吸引人们的关注。此外,IGN名称中的“幂等”一词也增加了它的神秘感,进一步扩大了人们的期待,也成功引起了笔者的兴趣,只不过之前一直有别的事情要忙,所以没来得及认真阅读模型细节。
最近闲了一点,想起来还有个IGN没读,于是重新把论文翻了出来,但阅读之后却颇感困惑:这哪里是个新模型,不就是个GAN的变种吗?跟常规GAN不同的是,它将生成器和判别器合二为一了。那这个“合二为一”是不是有什么特别的好处,比如训练更稳定?个人又感觉没有。下面将分享笔者从GAN角度理解IGN的过程和疑问。
生成对抗
关于GAN(Generative Adversarial Network,生成对抗网络),笔者前几年系统地学习过一段时间(查看GAN标签可以查看到相关文章),但近几年没有持续地关注了,因此这里先对GAN做个简单的回顾,也方便后续章节中我们对比GAN与IGN之间的异同。
让MathJax的数学公式随窗口大小自动缩放
By 苏剑林 | 2024-10-15 | 16105位读者 | 引用随着MathJax的出现和流行,在网页上显示数学公式便逐渐有了标准答案。然而,MathJax(包括其竞品KaTeX)只是负责将网页LaTeX代码转化为数学公式,对于自适应分辨率方面依然没有太好的办法。像本站一些数学文章,因为是在PC端排版好的,所以在PC端浏览效果尚可,但转到手机上看就可能有点难以入目了。
经过测试,笔者得到了一个方案,让MathJax的数学公式也能像图片一样,随着窗口大小而自适应缩放,从而尽量保证移动端的显示效果,在此跟大家分享一波。
背景思路
这个问题的起源是,即便在PC端进行排版,有时候也会遇到一些单行公式的长度超出了网页宽度,但又不大好换行的情况,这时候一个解决方案是用HTML代码手动调整一下公式的字体大小,比如
<span style="font-size:90%">
\begin{equation}一个超长的数学公式\end{equation}
</span>
VQ的旋转技巧:梯度直通估计的一般推广
By 苏剑林 | 2024-10-24 | 22715位读者 | 引用随着多模态LLM的方兴未艾,VQ(Vector Quantization)的地位也“水涨船高”,它可以作为视觉乃至任意模态的Tokenizer,将多模态数据统一到自回归生成框架中。遗憾的是,自VQ-VAE首次提出VQ以来,其理论并没有显著进步,像编码表的坍缩或利用率低等问题至今仍亟待解决,取而代之的是FSQ等替代方案被提出,成为了VQ有力的“竞争对手”。
然而,FSQ并不能在任何场景下都替代VQ,所以VQ本身的改进依然是有价值的。近日笔者读到了《Restructuring Vector Quantization with the Rotation Trick》,它提出了一种旋转技巧,声称能改善VQ的一系列问题,本文就让我们一起来品鉴一下。
回顾
早在五年前的博文《VQ-VAE的简明介绍:量子化自编码器》中我们就介绍过了VQ-VAE,后来在《简单得令人尴尬的FSQ:“四舍五入”超越了VQ-VAE》介绍FSQ的时候,也再次仔细地温习了VQ-VAE,还不了解的读者可以先阅读这两篇文章。
百科翻译:草原上的狐狸(Swift Fox)
By 苏剑林 | 2009-07-07 | 37313位读者 | 引用火炬来了!“潮流”Vs “进取”,等待你的抉择!
By 苏剑林 | 2009-09-20 | 20173位读者 | 引用扬帆——在宇宙的海洋中航行
By 苏剑林 | 2010-10-24 | 22399位读者 | 引用《教材如何写》:BoJone的粗浅看法
By 苏剑林 | 2011-04-19 | 21761位读者 | 引用在科学空间所转载的上两篇文章中,matrix67和范翔都表达了他们对大多数现行(数学&物理)教材的不满和对编写教材的一些建议。今天,BoJone也来发发牢骚,说说教材。
首先得说明下,目前BoJone只是一个高二生,或者说,是一个爱好数学、物理的高中生,因此本文所描写的观点仅仅是个人的看法,而且应该带有诸多的不成熟看法。不论如何,谨在此提出,欢迎讨论。
BoJone认为,人类都有着追求利益的倾向,要是一样东西能够对我们有“好处”,给我们带来方便,那么我们就很乐意去拥有它,或者去学习它。数学、物理理论也应当如此,当教材编写者想要引入一个新概念或介绍一个新理论、方法时,首先要做的并不是如何从严格上定义、推导、证明、最后才去应用,而相反,他们应该要大书特书引入新概念和方法后有什么“好处”。只有了解到了它的用处之后,读者才会有明确的目的和足够的心思去进一步的学习。这一步对于一些抽象的理论的学习是很重要的,要不然,那么繁琐、枯燥的推理证明过程会抹杀掉绝大多数人的信心,纵使后来“终于”弄懂了它的用处,也兴趣倍减。说到这里,就不得不批评一下人教版数学选修教材中的一个很让人反感的做法,在《选修2-2》中它引入了复数,但仅仅简单交待了复数的加减乘除运算和模等定义后就了事,对于复数的一些精华,比如复数乘法代表着坐标旋转等,则全然不提,这样的“复数”有何意义呢?有同学问我:“学复数有什么用?”我只能回答:“就目前来说,复数的唯一作用就是增加了我们高考的负担。”
最近评论