包含关键字 gan 的文章 - 科学空间|Scientific Spaces

22 Nov

生成扩散模型漫谈（二十六）：基于恒等式的蒸馏（下）

By 苏剑林 | 2024-11-22 | 6763位读者 | 引用

继续回到我们的扩散系列。在《生成扩散模型漫谈（二十五）：基于恒等式的蒸馏（上）》中，我们介绍了SiD（Score identity Distillation），这是一种不需要真实数据、也不需要从教师模型采样的扩散模型蒸馏方案，其形式类似GAN，但有着比GAN更好的训练稳定性。

SiD的核心是通过恒等变换来为学生模型构建更好的损失函数，这一点是开创性的，同时也遗留了一些问题。比如，SiD对损失函数的恒等变换是不完全的，如果完全变换会如何？如何从理论上解释SiD引入的$\lambda$的必要性？上个月放出的《Flow Generator Matching》（简称FGM）成功从更本质的梯度角度解释了$\lambda=0.5$的选择，而受到FGM启发，笔者则进一步发现了$\lambda = 1$的一种解释。

接下来我们将详细介绍SiD的上述理论进展。

点击阅读全文...

分类：数学研究,信息时代标签：生成模型, 梯度, 扩散, 去噪阅读全文 8 评论

«
1
...
9
10
11
12

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

热门标签

随机文章

最近评论

晨曦未眠: 苏老师，我想向您确认一下我的理解，公式(19)中考虑线性解的意思，是否就是$f_t(x)$直接...
benben: 我是这么理解的： \begin{equation}c_n(T) = \int_0^1 u(sw...
benben: 我是这么理解的： \begin{equation}c_n(T) = \int_0^1 u(sw...
牛天资: 我是这么理解的： \begin{equation}c_n(T) = \int_0^1 u(sw...
牛天资: 我是这么理解的： \begin{equation}c_n(T) = \int_0^1 u(sw...
牛天资: 我是这么理解的： \begin{equation}c_n(T) = \int_0^1 u(sw...
andrew.newman1963@gmail.com: Got it, thanks.
andrew.newman1963@gmail.com: Thank you for the seires. How did you obtain th...
phyzyw: 请教以下苏老师，这里我们得到的生成概率是$p(x_{t-1}|x_t, x_0)$ 而不是$...
sqle: 嗯嗯，只是用在微调上，确实意义不是很重大，但如果可以用在训练上，感觉就提升很大了。而虽然全参数...