包含关键字变分自编码器的文章 - 科学空间|Scientific Spaces

31 Jan

幂等生成网络IGN：试图将判别和生成合二为一的GAN

By 苏剑林 | 2024-01-31 | 40533位读者 | 引用

前段时间，一个名为“幂等生成网络（Idempotent Generative Network，IGN）”的生成模型引起了一定的关注。它自称是一种独立于已有的VAE、GAN、flow、Diffusion之外的新型生成模型，并且具有单步采样的特点。也许是大家苦于当前主流的扩散模型的多步采样生成过程久矣，因此任何声称可以实现单步采样的“风吹草动”都很容易吸引人们的关注。此外，IGN名称中的“幂等”一词也增加了它的神秘感，进一步扩大了人们的期待，也成功引起了笔者的兴趣，只不过之前一直有别的事情要忙，所以没来得及认真阅读模型细节。

最近闲了一点，想起来还有个IGN没读，于是重新把论文翻了出来，但阅读之后却颇感困惑：这哪里是个新模型，不就是个GAN的变种吗？跟常规GAN不同的是，它将生成器和判别器合二为一了。那这个“合二为一”是不是有什么特别的好处，比如训练更稳定？个人又感觉没有。下面将分享笔者从GAN角度理解IGN的过程和疑问。

生成对抗

关于GAN（Generative Adversarial Network，生成对抗网络），笔者前几年系统地学习过一段时间（查看GAN标签可以查看到相关文章），但近几年没有持续地关注了，因此这里先对GAN做个简单的回顾，也方便后续章节中我们对比GAN与IGN之间的异同。

点击阅读全文...

分类：信息时代标签：GAN, 生成模型, 对抗阅读全文 22 评论

21 Feb

“闭门造车”之多模态思路浅谈（一）：无损输入

By 苏剑林 | 2024-02-21 | 142032位读者 | 引用

这篇文章分享一下笔者关于多模态模型架构的一些闭门造车的想法，或者说一些猜测。

最近Google的Gemini 1.5和OpenAI的Sora再次点燃了不少人对多模态的热情，只言片语的技术报告也引起了大家对其背后模型架构的热烈猜测。不过，本文并非是为了凑这个热闹才发出来的，事实上其中的一些思考由来已久，最近才勉强捋顺了一下，遂想写出来跟大家交流一波，刚好碰上了两者的发布。

事先声明，“闭门造车”一词并非自谦，笔者的大模型实践本就“乏善可陈”，而多模态实践更是几乎“一片空白”，本文确实只是根据以往文本生成和图像生成的一些经验所做的“主观臆测”。

问题背景

首先简化一下问题，本文所讨论的多模态，主要指图文混合的双模态，即输入和输出都可以是图文。可能有不少读者的第一感觉是：多模态模型难道不也是烧钱堆显卡，Transformer“一把梭”，最终“大力出奇迹”吗？

点击阅读全文...

分类：信息时代标签：生成模型, attention, 扩散, 多模态阅读全文 72 评论

1 May

生成扩散模型漫谈（二十五）：基于恒等式的蒸馏（上）

By 苏剑林 | 2024-05-01 | 42873位读者 | 引用

今天我们分享一下论文《Score identity Distillation: Exponentially Fast Distillation of Pretrained Diffusion Models for One-Step Generation》，顾名思义，这是一篇探讨如何更快更好地蒸馏扩散模型的新论文。

即便没有做过蒸馏，大家应该也能猜到蒸馏的常规步骤：随机采样大量输入，然后用扩散模型生成相应结果作为输出，用这些输入输出作为训练数据对，来监督训练一个新模型。然而，众所周知作为教师的原始扩散模型通常需要多步（比如1000步）迭代才能生成高质量输出，所以且不论中间训练细节如何，该方案的一个显著缺点是生成训练数据太费时费力。此外，蒸馏之后的学生模型通常或多或少都有效果损失。

有没有方法能一次性解决这两个缺点呢？这就是上述论文试图要解决的问题。

点击阅读全文...

分类：数学研究,信息时代标签：生成模型, 梯度, 扩散, 去噪阅读全文 53 评论

24 Oct

VQ的旋转技巧：梯度直通估计的一般推广

By 苏剑林 | 2024-10-24 | 11133位读者 | 引用

随着多模态LLM的方兴未艾，VQ（Vector Quantization）的地位也“水涨船高”，它可以作为视觉乃至任意模态的Tokenizer，将多模态数据统一到自回归生成框架中。遗憾的是，自VQ-VAE首次提出VQ以来，其理论并没有显著进步，像编码表的坍缩或利用率低等问题至今仍亟待解决，取而代之的是FSQ等替代方案被提出，成为了VQ有力的“竞争对手”。

然而，FSQ并不能在任何场景下都替代VQ，所以VQ本身的改进依然是有价值的。近日笔者读到了《Restructuring Vector Quantization with the Rotation Trick》，它提出了一种旋转技巧，声称能改善VQ的一系列问题，本文就让我们一起来品鉴一下。

回顾

早在五年前的博文《VQ-VAE的简明介绍：量子化自编码器》中我们就介绍过了VQ-VAE，后来在《简单得令人尴尬的FSQ：“四舍五入”超越了VQ-VAE》介绍FSQ的时候，也再次仔细地温习了VQ-VAE，还不了解的读者可以先阅读这两篇文章。

点击阅读全文...

分类：信息时代标签：生成模型, 编码, 梯度, 离散化阅读全文 12 评论

22 Nov

生成扩散模型漫谈（二十六）：基于恒等式的蒸馏（下）

By 苏剑林 | 2024-11-22 | 1190位读者 | 引用

继续回到我们的扩散系列。在《生成扩散模型漫谈（二十五）：基于恒等式的蒸馏（上）》中，我们介绍了SiD（Score identity Distillation），这是一种不需要真实数据、也不需要从教师模型采样的扩散模型蒸馏方案，其形式类似GAN，但有着比GAN更好的训练稳定性。

SiD的核心是通过恒等变换来为学生模型构建更好的损失函数，这一点是开创性的，同时也遗留了一些问题。比如，SiD对损失函数的恒等变换是不完全的，如果完全变换会如何？如何从理论上解释SiD引入的$\lambda$的必要性？上个月放出的《Flow Generator Matching》（简称FGM）成功从更本质的梯度角度解释了$\lambda=0.5$的选择，而受到FGM启发，笔者则进一步发现了$\lambda = 1$的一种解释。

接下来我们将详细介绍SiD的上述理论进展。

点击阅读全文...

分类：数学研究,信息时代标签：生成模型, 梯度, 扩散, 去噪阅读全文 4 评论

15 Feb

能量视角下的GAN模型（二）：GAN＝“分析”＋“采样”

By 苏剑林 | 2019-02-15 | 129567位读者 | 引用

在这个系列中，我们尝试从能量的视角理解GAN。我们会发现这个视角如此美妙和直观，甚至让人拍案叫绝。

上一篇文章里，我们给出了一个直白而用力的能量图景，这个图景可以让我们轻松理解GAN的很多内容，换句话说，通俗的解释已经能让我们完成大部分的理解了，并且把最终的结论都已经写了出来。在这篇文章中，我们继续从能量的视角理解GAN，这一次，我们争取把前面简单直白的描述，用相对严密的数学语言推导一遍。

跟第一篇文章一样，对于笔者来说，这个推导过程依然直接受启发于Bengio团队的新作《Maximum Entropy Generators for Energy-Based Models》。

原作者的开源实现：https://github.com/ritheshkumar95/energy_based_generative_models

本文的大致内容如下：

1、推导了能量分布下的正负相对抗的更新公式；
2、比较了理论分析与实验采样的区别，而将两者结合便得到了GAN框架；
3、导出了生成器的补充loss，理论上可以防止mode collapse；
4、简单提及了基于能量函数的MCMC采样。

点击阅读全文...

分类：信息时代标签：概率, 能量, GAN, 生成模型阅读全文 46 评论

2 Nov

利用CUR分解加速交互式相似度模型的检索

By 苏剑林 | 2022-11-02 | 27682位读者 | 引用

文本相似度有“交互式”和“特征式”两种做法，想必很多读者对此已经不陌生，之前笔者也写过一篇文章《CoSENT（二）：特征式匹配与交互式匹配有多大差距？》来对比两者的效果。总的来说，交互式相似度效果通常会好些，但直接用它来做大规模检索是不现实的，而特征式相似度则有着更快的检索速度，以及稍逊一筹的效果。

因此，如何在保证交互式相似度效果的前提下提高它的检索速度，是学术界一直都有在研究的课题。近日，论文《Efficient Nearest Neighbor Search for Cross-Encoder Models using Matrix Factorization》提出了一份新的答卷：CUR分解。

CUR分解示意图

点击阅读全文...

分类：信息时代标签：矩阵, 语义, 语义相似度阅读全文 11 评论

6 Nov

这个星期对微分方程的认识

By 苏剑林 | 2010-11-06 | 35083位读者 | 引用

这个星期研究了两道微分方程问题：“导弹跟踪”以及“太阳炉”问题。从中我加深了对微分方程的理解，也熟悉了微分方程的相关运算。仅此记录，权当抛砖引玉。

一、微分方程的本质

很多读者都知道，自从牛顿和莱布尼兹发明微积分之后，微积分就迅速地渗透到了几乎所有的学科，后来发展出许多出色的分支，如变分、微分方程等。众所周知，微分方程是解决很多重要问题的工具。不知道各位读者对微分及微分方程的认识如何？其实对于常微分方程而言，它的本质和我们已经学习过的代数方程一样，只不过相互之间的对应运算关系除了常规的加减乘除幂等之外，还多了两个相互关系：微分和积分。例如对于一阶微分方程$\dot{y}=f(x,y)$，也许大家都认为它是一个二元方程，其实不然，这是一个“四个未知数、三道方程”所组成的方程组，我们可以将它写成

$$dy=f(x,y)dx,y=\int dy,x=\int dx$$

点击阅读全文...

分类：数学研究标签：微分方程阅读全文 5 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

幂等生成网络IGN：试图将判别和生成合二为一的GAN

生成对抗

“闭门造车”之多模态思路浅谈（一）：无损输入

问题背景

生成扩散模型漫谈（二十五）：基于恒等式的蒸馏（上）

VQ的旋转技巧：梯度直通估计的一般推广

回顾

生成扩散模型漫谈（二十六）：基于恒等式的蒸馏（下）

能量视角下的GAN模型（二）：GAN＝“分析”＋“采样”

利用CUR分解加速交互式相似度模型的检索

这个星期对微分方程的认识

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接