31 Oct

简单得令人尴尬的FSQ:“四舍五入”超越了VQ-VAE

正如“XXX is all you need”一样,有不少论文都以“简单得令人尴尬”命名(An Embarrassingly Simple XXX),但在笔者看来,这些论文大多数都是噱头多于实力。不过,笔者最近阅读到的一篇论文,真的让人不由得发出“简单得令人尴尬”的感叹~

论文的标题是《Finite Scalar Quantization: VQ-VAE Made Simple》,顾名思义,这是一篇旨在用FSQ(Finite Scalar Quantization)简化VQ-VAE的工作。随着生成模型、多模态LLM的逐渐流行,VQ-VAE及其后续工作也作为“图像的Tokenizer”而“水涨船高”。然而,VQ-VAE的训练本身也存在一些问题,而FSQ这篇论文则声称通过更简单的“四舍五入”就可以达到同样的目的,并且有着效果更好、收敛更快、训练更稳的优点。

FSQ真有这么神奇?接下来我们一起学习一下。

VQ

首先,我们来了解一下“VQ”。VQ全称是“Vector Quantize”,可以翻译为“向量量子化”或者“向量量化”,是指将无限、连续的编码向量映射为有限、离散的整数数字的一种技术。如果我们将VQ应用在自编码器的中间层,那么可以在压缩输入大小的同时,让编码结果成为一个离散的整数序列。

点击阅读全文...

31 Jan

幂等生成网络IGN:试图将判别和生成合二为一的GAN

前段时间,一个名为“幂等生成网络(Idempotent Generative Network,IGN)”的生成模型引起了一定的关注。它自称是一种独立于已有的VAE、GAN、flow、Diffusion之外的新型生成模型,并且具有单步采样的特点。也许是大家苦于当前主流的扩散模型的多步采样生成过程久矣,因此任何声称可以实现单步采样的“风吹草动”都很容易吸引人们的关注。此外,IGN名称中的“幂等”一词也增加了它的神秘感,进一步扩大了人们的期待,也成功引起了笔者的兴趣,只不过之前一直有别的事情要忙,所以没来得及认真阅读模型细节。

最近闲了一点,想起来还有个IGN没读,于是重新把论文翻了出来,但阅读之后却颇感困惑:这哪里是个新模型,不就是个GAN的变种吗?跟常规GAN不同的是,它将生成器和判别器合二为一了。那这个“合二为一”是不是有什么特别的好处,比如训练更稳定?个人又感觉没有。下面将分享笔者从GAN角度理解IGN的过程和疑问。

生成对抗

关于GAN(Generative Adversarial Network,生成对抗网络),笔者前几年系统地学习过一段时间(查看GAN标签可以查看到相关文章),但近几年没有持续地关注了,因此这里先对GAN做个简单的回顾,也方便后续章节中我们对比GAN与IGN之间的异同。

点击阅读全文...

15 Oct

让MathJax的数学公式随窗口大小自动缩放

随着MathJax的出现和流行,在网页上显示数学公式便逐渐有了标准答案。然而,MathJax(包括其竞品KaTeX)只是负责将网页LaTeX代码转化为数学公式,对于自适应分辨率方面依然没有太好的办法。像本站一些数学文章,因为是在PC端排版好的,所以在PC端浏览效果尚可,但转到手机上看就可能有点难以入目了。

经过测试,笔者得到了一个方案,让MathJax的数学公式也能像图片一样,随着窗口大小而自适应缩放,从而尽量保证移动端的显示效果,在此跟大家分享一波。

背景思路

这个问题的起源是,即便在PC端进行排版,有时候也会遇到一些单行公式的长度超出了网页宽度,但又不大好换行的情况,这时候一个解决方案是用HTML代码手动调整一下公式的字体大小,比如

<span style="font-size:90%">
    \begin{equation}一个超长的数学公式\end{equation}
</span>

点击阅读全文...

24 Oct

VQ的旋转技巧:梯度直通估计的一般推广

随着多模态LLM的方兴未艾,VQ(Vector Quantization)的地位也“水涨船高”,它可以作为视觉乃至任意模态的Tokenizer,将多模态数据统一到自回归生成框架中。遗憾的是,自VQ-VAE首次提出VQ以来,其理论并没有显著进步,像编码表的坍缩或利用率低等问题至今仍亟待解决,取而代之的是FSQ等替代方案被提出,成为了VQ有力的“竞争对手”。

然而,FSQ并不能在任何场景下都替代VQ,所以VQ本身的改进依然是有价值的。近日笔者读到了《Restructuring Vector Quantization with the Rotation Trick》,它提出了一种旋转技巧,声称能改善VQ的一系列问题,本文就让我们一起来品鉴一下。

回顾

早在五年前的博文《VQ-VAE的简明介绍:量子化自编码器》中我们就介绍过了VQ-VAE,后来在《简单得令人尴尬的FSQ:“四舍五入”超越了VQ-VAE》介绍FSQ的时候,也再次仔细地温习了VQ-VAE,还不了解的读者可以先阅读这两篇文章。

点击阅读全文...

7 Jul

百科翻译:草原上的狐狸(Swift Fox)

“维基百科”翻译又开始了,这次我们来关注下北美洲的一种珍贵动物——草原狐。
这个条目在中文的维基上没有出现过,但英文上有,现在我把它翻译过来了。由于只有两年的初中生物学习经验,所以一定有很多翻译不当的地方,请大家多提意见!谢谢

图片说明:草原狐,来自“维击百科”

图片说明:草原狐,来自“维击百科”

点击阅读全文...

20 Sep

火炬来了!“潮流”Vs “进取”,等待你的抉择!

站长:说实话我更喜欢“进取”,因为它那独特的造型更具有几何的美丽,上粗下细(但是最下端又不是最细的部分)的圆柱体,体现了曲线的美,我甚至能够从中感受到宇宙的浩瀚;而它的配色跟炬身浑然一体,给人一种清新、奋发的感觉。不过究竟谁胜谁负,10月见分晓!

点击阅读全文...

24 Oct

扬帆——在宇宙的海洋中航行

以下内容来源于《天文爱好者》杂志2010年10期(作者庞统,责任编辑李良)。
作为消息通告和交流学习所用,请勿用于商业或其他非法用途
ikaros图片版权:ISAS / JAXA;其余来自互联网搜索得到。

2010年5月21曰,日本用H-2A火箭成功发射了耗资15亿曰元(合1600万美元)的“伊卡洛斯”太阳帆,以检验它是否能够利用太阳能实现加速飞行,从而拉开了研制和发射太阳帆式新型推进航天器高潮的序幕。2010年9月和年底,美国还将先后发射纳帆-D2和光帆-1太阳帆。

ikaros

ikaros

点击阅读全文...

19 Apr

《教材如何写》:BoJone的粗浅看法

在科学空间所转载的上两篇文章中,matrix67和范翔都表达了他们对大多数现行(数学&物理)教材的不满和对编写教材的一些建议。今天,BoJone也来发发牢骚,说说教材。

首先得说明下,目前BoJone只是一个高二生,或者说,是一个爱好数学、物理的高中生,因此本文所描写的观点仅仅是个人的看法,而且应该带有诸多的不成熟看法。不论如何,谨在此提出,欢迎讨论。

BoJone认为,人类都有着追求利益的倾向,要是一样东西能够对我们有“好处”,给我们带来方便,那么我们就很乐意去拥有它,或者去学习它。数学、物理理论也应当如此,当教材编写者想要引入一个新概念或介绍一个新理论、方法时,首先要做的并不是如何从严格上定义、推导、证明、最后才去应用,而相反,他们应该要大书特书引入新概念和方法后有什么“好处”。只有了解到了它的用处之后,读者才会有明确的目的和足够的心思去进一步的学习。这一步对于一些抽象的理论的学习是很重要的,要不然,那么繁琐、枯燥的推理证明过程会抹杀掉绝大多数人的信心,纵使后来“终于”弄懂了它的用处,也兴趣倍减。说到这里,就不得不批评一下人教版数学选修教材中的一个很让人反感的做法,在《选修2-2》中它引入了复数,但仅仅简单交待了复数的加减乘除运算和模等定义后就了事,对于复数的一些精华,比如复数乘法代表着坐标旋转等,则全然不提,这样的“复数”有何意义呢?有同学问我:“学复数有什么用?”我只能回答:“就目前来说,复数的唯一作用就是增加了我们高考的负担。”

点击阅读全文...