标签去噪下的文章 - 科学空间|Scientific Spaces

22 Nov

生成扩散模型漫谈（二十六）：基于恒等式的蒸馏（下）

By 苏剑林 | 2024-11-22 | 44217位读者 | 引用

继续回到我们的扩散系列。在《生成扩散模型漫谈（二十五）：基于恒等式的蒸馏（上）》中，我们介绍了SiD（Score identity Distillation），这是一种不需要真实数据、也不需要从教师模型采样的扩散模型蒸馏方案，其形式类似GAN，但有着比GAN更好的训练稳定性。

SiD的核心是通过恒等变换来为学生模型构建更好的损失函数，这一点是开创性的，同时也遗留了一些问题。比如，SiD对损失函数的恒等变换是不完全的，如果完全变换会如何？如何从理论上解释SiD引入的$\lambda$的必要性？上个月放出的《Flow Generator Matching》（简称FGM）成功从更本质的梯度角度解释了$\lambda=0.5$的选择，而受到FGM启发，笔者则进一步发现了$\lambda = 1$的一种解释。

接下来我们将详细介绍SiD的上述理论进展。

点击阅读全文...

分类：数学研究,信息时代标签：生成模型, 梯度, 扩散, 去噪阅读全文 12 评论

1 May

生成扩散模型漫谈（二十五）：基于恒等式的蒸馏（上）

By 苏剑林 | 2024-05-01 | 111267位读者 | 引用

今天我们分享一下论文《Score identity Distillation: Exponentially Fast Distillation of Pretrained Diffusion Models for One-Step Generation》，顾名思义，这是一篇探讨如何更快更好地蒸馏扩散模型的新论文。

即便没有做过蒸馏，大家应该也能猜到蒸馏的常规步骤：随机采样大量输入，然后用扩散模型生成相应结果作为输出，用这些输入输出作为训练数据对，来监督训练一个新模型。然而，众所周知作为教师的原始扩散模型通常需要多步（比如1000步）迭代才能生成高质量输出，所以且不论中间训练细节如何，该方案的一个显著缺点是生成训练数据太费时费力。此外，蒸馏之后的学生模型通常或多或少都有效果损失。

有没有方法能一次性解决这两个缺点呢？这就是上述论文试图要解决的问题。

点击阅读全文...

分类：数学研究,信息时代标签：生成模型, 梯度, 扩散, 去噪阅读全文 56 评论

31 Oct

从去噪自编码器到生成模型

By 苏剑林 | 2019-10-31 | 150693位读者 | 引用

在我看来，几大顶会之中，ICLR的论文通常是最有意思的，因为它们的选题和风格基本上都比较轻松活泼、天马行空，让人有脑洞大开之感。所以，ICLR 2020的投稿论文列表出来之后，我也抽时间粗略过了一下这些论文，确实发现了不少有意思的工作。

其中，我发现了两篇利用去噪自编码器的思想做生成模型的论文，分别是《Learning Generative Models using Denoising Density Estimators》和《Annealed Denoising Score Matching: Learning Energy-Based Models in High-Dimensional Spaces》。由于常规做生成模型的思路我基本都有所了解，所以这种“别具一格”的思路就引起了我的兴趣。细读之下，发现两者的出发点是一致的，但是具体做法又有所不同，最终的落脚点又是一样的，颇有“一题多解”的美妙，遂将这两篇论文放在一起，对比分析一翻。