27 Jul

生成扩散模型漫谈（四）：DDIM = 高观点DDPM

By 苏剑林 | 2022-07-27 | 423185位读者 |

相信很多读者都听说过甚至读过克莱因的《高观点下的初等数学》这套书，顾名思义，这是在学到了更深入、更完备的数学知识后，从更高的视角重新审视过往学过的初等数学，以得到更全面的认知，甚至达到温故而知新的效果。类似的书籍还有很多，比如《重温微积分》、《复分析：可视化方法》等。

回到扩散模型，目前我们已经通过三篇文章从不同视角去解读了DDPM，那么它是否也存在一个更高的理解视角，让我们能从中得到新的收获呢？当然有，《Denoising Diffusion Implicit Models》介绍的DDIM模型就是经典的案例，本文一起来欣赏它。

思路分析 #

在《生成扩散模型漫谈（三）：DDPM = 贝叶斯 + 去噪》中，我们提到过该文章所介绍的推导跟DDIM紧密相关。具体来说，文章的推导路线可以简单归纳如下：
\begin{equation}p(\boldsymbol{x}_t|\boldsymbol{x}_{t-1})\xrightarrow{\text{推导}}p(\boldsymbol{x}_t|\boldsymbol{x}_0)\xrightarrow{\text{推导}}p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t, \boldsymbol{x}_0)\xrightarrow{\text{近似}}p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t)\end{equation}
这个过程是一步步递进的。然而，我们发现最终结果有着两个特点：

1、损失函数只依赖于$p(\boldsymbol{x}_t|\boldsymbol{x}_0)$；
2、采样过程只依赖于$p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t)$。

也就是说，尽管整个过程是以$p(\boldsymbol{x}_t|\boldsymbol{x}_{t-1})$为出发点一步步往前推的，但是从结果上来看，压根儿就没$p(\boldsymbol{x}_t|\boldsymbol{x}_{t-1})$的事。那么，我们大胆地“异想天开”一下：

高观点1： 既然结果跟$p(\boldsymbol{x}_t|\boldsymbol{x}_{t-1})$无关，可不可以干脆“过河拆桥”，将$p(\boldsymbol{x}_t|\boldsymbol{x}_{t-1})$从整个推导过程中去掉？

DDIM正是这个“异想天开”的产物！

待定系数 #

可能有读者会想，根据上一篇文章所用的贝叶斯定理
\begin{equation}p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t, \boldsymbol{x}_0) = \frac{p(\boldsymbol{x}_t|\boldsymbol{x}_{t-1})p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_0)}{p(\boldsymbol{x}_t|\boldsymbol{x}_0)}\end{equation}
没有给定$p(\boldsymbol{x}_t|\boldsymbol{x}_{t-1})$怎么能得到$p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t, \boldsymbol{x}_0)$？这其实是思维过于定式了，理论上在没有给定$p(\boldsymbol{x}_t|\boldsymbol{x}_{t-1})$的情况下，$p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t, \boldsymbol{x}_0)$的解空间更大，某种意义上来说是更加容易推导，此时它只需要满足边际分布条件：
\begin{equation}\int p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t, \boldsymbol{x}_0) p(\boldsymbol{x}_t|\boldsymbol{x}_0) d\boldsymbol{x}_t = p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_0)\label{eq:margin}\end{equation}
我们用待定系数法来求解这个方程。在上一篇文章中，所解出的$p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t, \boldsymbol{x}_0)$是一个正态分布，所以这一次我们可以更一般地设
\begin{equation}p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t, \boldsymbol{x}_0) = \mathcal{N}(\boldsymbol{x}_{t-1}; \kappa_t \boldsymbol{x}_t + \lambda_t \boldsymbol{x}_0, \sigma_t^2 \boldsymbol{I})\end{equation}
其中$\kappa_t,\lambda_t,\sigma_t$都是待定系数，而为了不重新训练模型，我们不改变$p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_0)$和$p(\boldsymbol{x}_t|\boldsymbol{x}_0)$，于是我们可以列出
\begin{array}{c|c|c}
\hline
\text{记号} & \text{含义} & \text{采样}\\
\hline
p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_0) & \mathcal{N}(\boldsymbol{x}_{t-1};\bar{\alpha}_{t-1} \boldsymbol{x}_0,\bar{\beta}_{t-1}^2 \boldsymbol{I}) & \boldsymbol{x}_{t-1} = \bar{\alpha}_{t-1} \boldsymbol{x}_0 + \bar{\beta}_{t-1} \boldsymbol{\varepsilon} \\
\hline
p(\boldsymbol{x}_t|\boldsymbol{x}_0) & \mathcal{N}(\boldsymbol{x}_t;\bar{\alpha}_t \boldsymbol{x}_0,\bar{\beta}_t^2 \boldsymbol{I}) & \boldsymbol{x}_t = \bar{\alpha}_t \boldsymbol{x}_0 + \bar{\beta}_t \boldsymbol{\varepsilon}_1 \\
\hline
p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t, \boldsymbol{x}_0) & \mathcal{N}(\boldsymbol{x}_{t-1}; \kappa_t \boldsymbol{x}_t + \lambda_t \boldsymbol{x}_0, \sigma_t^2 \boldsymbol{I}) & \boldsymbol{x}_{t-1} = \kappa_t \boldsymbol{x}_t + \lambda_t \boldsymbol{x}_0 + \sigma_t \boldsymbol{\varepsilon}_2 \\
\hline
{\begin{array}{c}\int p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t, \boldsymbol{x}_0) \\
p(\boldsymbol{x}_t|\boldsymbol{x}_0) d\boldsymbol{x}_t\end{array}} & & {\begin{aligned}\boldsymbol{x}_{t-1} =&\, \kappa_t \boldsymbol{x}_t + \lambda_t \boldsymbol{x}_0 + \sigma_t \boldsymbol{\varepsilon}_2 \\
=&\, \kappa_t (\bar{\alpha}_t \boldsymbol{x}_0 + \bar{\beta}_t \boldsymbol{\varepsilon}_1) + \lambda_t \boldsymbol{x}_0 + \sigma_t \boldsymbol{\varepsilon}_2 \\
=&\, (\kappa_t \bar{\alpha}_t + \lambda_t) \boldsymbol{x}_0 + (\kappa_t\bar{\beta}_t \boldsymbol{\varepsilon}_1 + \sigma_t \boldsymbol{\varepsilon}_2) \\
\end{aligned}} \\
\hline
\end{array}
其中$\boldsymbol{\varepsilon},\boldsymbol{\varepsilon}_1,\boldsymbol{\varepsilon}_2\sim \mathcal{N}(\boldsymbol{0},\boldsymbol{I})$，并且由正态分布的叠加性我们知道$\kappa_t\bar{\beta}_t \boldsymbol{\varepsilon}_1 + \sigma_t \boldsymbol{\varepsilon}_2\sim \sqrt{\kappa_t^2\bar{\beta}_t^2 + \sigma_t^2} \boldsymbol{\varepsilon}$。对比$\boldsymbol{x}_{t-1}$的两个采样形式，我们发现要想$\eqref{eq:margin}$成立，只需要满足两个方程
\begin{equation}\bar{\alpha}_{t-1} = \kappa_t \bar{\alpha}_t + \lambda_t, \qquad\bar{\beta}_{t-1} = \sqrt{\kappa_t^2\bar{\beta}_t^2 + \sigma_t^2}\end{equation}
可以看到有三个未知数，但只有两个方程，这就是为什么说没有给定$p(\boldsymbol{x}_t|\boldsymbol{x}_{t-1})$时解空间反而更大了。将$\sigma_t$视为可变参数，可以解出
\begin{equation}\kappa_t = \frac{\sqrt{\bar{\beta}_{t-1}^2 - \sigma_t^2}}{\bar{\beta}_t},\qquad \lambda_t = \bar{\alpha}_{t-1} - \frac{\bar{\alpha}_t\sqrt{\bar{\beta}_{t-1}^2 - \sigma_t^2}}{\bar{\beta}_t}\end{equation}
或者写成
\begin{equation}p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t, \boldsymbol{x}_0) = \mathcal{N}\left(\boldsymbol{x}_{t-1}; \frac{\sqrt{\bar{\beta}_{t-1}^2 - \sigma_t^2}}{\bar{\beta}_t} \boldsymbol{x}_t + \left(\bar{\alpha}_{t-1} - \frac{\bar{\alpha}_t\sqrt{\bar{\beta}_{t-1}^2 - \sigma_t^2}}{\bar{\beta}_t}\right) \boldsymbol{x}_0, \sigma_t^2 \boldsymbol{I}\right)\label{eq:p-xt-x0}\end{equation}
方便起见，我们约定$\bar{\alpha}_0=1, \bar{\beta}_0=0$。特别地，这个结果并不需要限定$\bar{\alpha}_t^2 + \bar{\beta}_t^2 = 1$，不过为了简化参数设置，同时也为了跟以往的结果对齐，这里还是约定$\bar{\alpha}_t^2 + \bar{\beta}_t^2 = 1$。

一如既往 #

现在我们在只给定$p(\boldsymbol{x}_t|\boldsymbol{x}_0)$、$p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_0)$的情况下，通过待定系数法求解了$p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t, \boldsymbol{x}_0)$的一簇解，它带有一个自由参数$\sigma_t$。用《生成扩散模型漫谈（一）：DDPM = 拆楼 + 建楼》中的“拆楼-建楼”类比来说，就是我们知道楼会被拆成什么样【$p(\boldsymbol{x}_t|\boldsymbol{x}_0)$、$p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_0)$】，但是不知道每一步怎么拆【$p(\boldsymbol{x}_t|\boldsymbol{x}_{t-1})$】，然后希望能够从中学会每一步怎么建【$p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t)$】。当然，如果我们想看看每一步怎么拆的话，也可以反过来用贝叶斯公式
\begin{equation} p(\boldsymbol{x}_t|\boldsymbol{x}_{t-1}, \boldsymbol{x}_0) = \frac{p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t, \boldsymbol{x}_0) p(\boldsymbol{x}_t|\boldsymbol{x}_0)}{p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_0)}\end{equation}

接下来的事情，就跟上一篇文章一模一样了：我们最终想要$p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t)$而不是$p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t, \boldsymbol{x}_0)$，所以我们希望用
\begin{equation}\bar{\boldsymbol{\mu}}(\boldsymbol{x}_t) = \frac{1}{\bar{\alpha}_t}\left(\boldsymbol{x}_t - \bar{\beta}_t \boldsymbol{\epsilon}_{\boldsymbol{\theta}}(\boldsymbol{x}_t, t)\right)\end{equation}
来估计$\boldsymbol{x}_0$，由于没有改动$p(\boldsymbol{x}_t|\boldsymbol{x}_0)$，所以训练所用的目标函数依然是$\left\Vert\boldsymbol{\varepsilon} - \boldsymbol{\epsilon}_{\boldsymbol{\theta}}(\bar{\alpha}_t \boldsymbol{x}_0 + \bar{\beta}_t \boldsymbol{\varepsilon}, t)\right\Vert^2$（除去权重系数），也就是说训练过程没有改变，我们可以用回DDPM训练好的模型。而用$\bar{\boldsymbol{\mu}}(\boldsymbol{x}_t)$替换掉式$\eqref{eq:p-xt-x0}$中的$\boldsymbol{x}_0$后，得到
\begin{equation}\begin{aligned}
p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t) \approx&\, p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t, \boldsymbol{x}_0=\bar{\boldsymbol{\mu}}(\boldsymbol{x}_t)) \\
=&\, \mathcal{N}\left(\boldsymbol{x}_{t-1}; \frac{1}{\alpha_t}\left(\boldsymbol{x}_t - \left(\bar{\beta}_t - \alpha_t\sqrt{\bar{\beta}_{t-1}^2 - \sigma_t^2}\right) \boldsymbol{\epsilon}_{\boldsymbol{\theta}}(\boldsymbol{x}_t, t)\right), \sigma_t^2 \boldsymbol{I}\right)
\end{aligned}\label{eq:p-xt-x0-2}\end{equation}
这就求出了生成过程所需要的$p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t)$，其中$\alpha_t=\frac{\bar{\alpha}_t}{\bar{\alpha}_{t-1}}$。它的特点是训练过程没有变化（也就是说最终保存下来的模型没有变化），但生成过程却有一个可变动的参数$\sigma_t$，就是这个参数给DDPM带来了新鲜的结果。

几个例子 #

原则上来说，我们对$\sigma_t$没有过多的约束，但是不同$\sigma_t$的采样过程会呈现出不同的特点，我们举几个例子进行分析。

第一个简单例子就是取$\sigma_t = \frac{\bar{\beta}_{t-1}\beta_t}{\bar{\beta}_t}$，其中$\beta_t = \sqrt{1 - \alpha_t^2}$，相应地有
\begin{equation}\small{p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t) \approx p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t, \boldsymbol{x}_0=\bar{\boldsymbol{\mu}}(\boldsymbol{x}_t)) = \mathcal{N}\left(\boldsymbol{x}_{t-1}; \frac{1}{\alpha_t}\left(\boldsymbol{x}_t - \frac{\beta_t^2}{\bar{\beta}_t}\boldsymbol{\epsilon}_{\boldsymbol{\theta}}(\boldsymbol{x}_t, t)\right),\frac{\bar{\beta}_{t-1}^2\beta_t^2}{\bar{\beta}_t^2} \boldsymbol{I}\right)}\label{eq:choice-1}\end{equation}
这就是上一篇文章所推导的DDPM。特别是，DDIM论文中还对$\sigma_t = \eta\frac{\bar{\beta}_{t-1}\beta_t}{\bar{\beta}_t}$做了对比实验，其中$\eta\in[0, 1]$。

第二个例子就是取$\sigma_t = \beta_t$，这也是前两篇文章所指出的$\sigma_t$的两个选择之一，在此选择下式$\eqref{eq:p-xt-x0-2}$未能做进一步的化简，但DDIM的实验结果显示此选择在DDPM的标准参数设置下表现还是很好的。

最特殊的一个例子是取$\sigma_t = 0$，此时从$\boldsymbol{x}_t$到$\boldsymbol{x}_{t-1}$是一个确定性变换
\begin{equation}\boldsymbol{x}_{t-1} = \frac{1}{\alpha_t}\left(\boldsymbol{x}_t - \left(\bar{\beta}_t - \alpha_t \bar{\beta}_{t-1}\right) \boldsymbol{\epsilon}_{\boldsymbol{\theta}}(\boldsymbol{x}_t, t)\right)\label{eq:sigma=0}\end{equation}
这也是DDIM论文中特别关心的一个例子，准确来说，原论文的DDIM就是特指$\sigma_t=0$的情形，其中“I”的含义就是“Implicit”，意思这是一个隐式的概率模型，因为跟其他选择所不同的是，此时从给定的$\boldsymbol{x}_T = \boldsymbol{z}$出发，得到的生成结果$\boldsymbol{x}_0$是不带随机性的。后面我们将会看到，这在理论上和实用上都带来了一些好处。

加速生成 #

值得指出的是，在这篇文章中我们没有以$p(\boldsymbol{x}_t|\boldsymbol{x}_{t-1})$为出发点，所以前面的所有结果实际上全都是以$\bar{\alpha}_t,\bar{\beta}_t$相关记号给出的，而$\alpha_t,\beta_t$则是通过$\alpha_t=\frac{\bar{\alpha}_t}{\bar{\alpha}_{t-1}}$和$\beta_t = \sqrt{1 - \alpha_t^2}$派生出来的记号。从损失函数$\left\Vert\boldsymbol{\varepsilon} - \boldsymbol{\epsilon}_{\boldsymbol{\theta}}(\bar{\alpha}_t \boldsymbol{x}_0 + \bar{\beta}_t \boldsymbol{\varepsilon}, t)\right\Vert^2$可以看出，给定了各个$\bar{\alpha}_t$，训练过程也就确定了。

从这个过程中，DDIM进一步留意到了如下事实：

高观点2： DDPM的训练结果实质上包含了它的任意子序列参数的训练结果。

具体来说，设$\boldsymbol{\tau} = [\tau_1,\tau_2,\dots,\tau_{\dim(\boldsymbol{\tau})}]$是$[1,2,\cdots,T]$的任意子序列，那么我们以$\bar{\alpha}_{\tau_1},\bar{\alpha}_{\tau_2},\cdots,\bar{\alpha}_{\dim(\boldsymbol{\tau})}$为参数训练一个扩散步数为$\dim(\boldsymbol{\tau})$步的DDPM，其目标函数实际上是原来以$\bar{\alpha}_1,\bar{\alpha}_2,\cdots,\bar{\alpha}_T$的$T$步DDPM的目标函数的一个子集！所以在模型拟合能力足够好的情况下，它其实包含了任意子序列参数的训练结果。

那么反过来想，如果有一个训练好的$T$步DDPM模型，我们也可以将它当成是以$\bar{\alpha}_{\tau_1},\bar{\alpha}_{\tau_2},\cdots,\bar{\alpha}_{\dim(\boldsymbol{\tau})}$为参数训练出来的$\dim(\boldsymbol{\tau})$步模型，而既然是$\dim(\boldsymbol{\tau})$步的模型，生成过程也就只需要$\dim(\boldsymbol{\tau})$步了，根据式$\eqref{eq:p-xt-x0-2}$有：
\begin{equation}p(\boldsymbol{x}_{\tau_{i-1}}|\boldsymbol{x}_{\tau_i}) \approx \mathcal{N}\left(\boldsymbol{x}_{\tau_{i-1}}; \frac{\bar{\alpha}_{\tau_{i-1}}}{\bar{\alpha}_{\tau_i}}\left(\boldsymbol{x}_{\tau_i} - \left(\bar{\beta}_{\tau_i} - \frac{\bar{\alpha}_{\tau_i}}{\bar{\alpha}_{\tau_{i-1}}}\sqrt{\bar{\beta}_{\tau_{i-1}}^2 - \tilde{\sigma}_{\tau_i}^2}\right) \boldsymbol{\epsilon}_{\boldsymbol{\theta}}(\boldsymbol{x}_{\tau_i}, \tau_i)\right), \tilde{\sigma}_{\tau_i}^2 \boldsymbol{I}\right)\end{equation}
这就是加速采样的生成过程了，从原来的$T$步扩散生成变成了$\dim(\boldsymbol{\tau})$步。要注意不能直接将式$\eqref{eq:p-xt-x0-2}$的$\alpha_t$换成$\alpha_{\tau_i}$，因为我们说过$\alpha_t$是派生记号而已，它实际上等于$\frac{\bar{\alpha}_t}{\bar{\alpha}_{t-1}}$，因此$\alpha_t$要换成$\frac{\bar{\alpha}_{\tau_i}}{\bar{\alpha}_{\tau_{i-1}}}$才对。同理，$\tilde{\sigma}_{\tau_i}$也不是直接取$\sigma_{\tau_i}$，而是在将其定义全部转化为$\bar{\alpha},\bar{\beta}$符号后，将$t$替换为$\tau_i$、$t-1$替换为$\tau_{i-1}$，比如式$\eqref{eq:choice-1}$对应的$\tilde{\sigma}_{\tau_i}$为
\begin{equation}\sigma_t = \frac{\bar{\beta}_{t-1}\beta_t}{\bar{\beta}_t}=\frac{\bar{\beta}_{t-1}}{\bar{\beta}_t}\sqrt{1 - \frac{\bar{\alpha}_t^2}{\bar{\alpha}_{t-1}^2}}\quad\to\quad\frac{\bar{\beta}_{\tau_{i-1}}}{\bar{\beta}_{\tau_i}}\sqrt{1 - \frac{\bar{\alpha}_{\tau_i}^2}{\bar{\alpha}_{\tau_{i-1}}^2}}=\tilde{\sigma}_{\tau_i}\end{equation}

可能读者又想问，我们为什么干脆不直接训练一个$\dim(\boldsymbol{\tau})$步的扩散模型，而是要先训练$T > \dim(\boldsymbol{\tau})$步然后去做子序列采样？笔者认为可能有两方面的考虑：一方面从$\dim(\boldsymbol{\tau})$步生成来说，训练更多步数的模型也许能增强泛化能力；另一方面，通过子序列$\boldsymbol{\tau}$进行加速只是其中一种加速手段，训练更充分的$T$步允许我们尝试更多的其他加速手段，但并不会显著增加训练成本。

实验结果 #

原论文对不同的噪声强度和扩散步数$\dim(\boldsymbol{\tau})$做了组合对比，大致上的结果是“噪声越小，加速后的生成效果越好”，如下图

DDIM的实验结果，显示噪声越小，加速后的生成效果越好

笔者的参考实现如下：

Github：https://github.com/bojone/Keras-DDPM/blob/main/ddim.py

个人的实验结论是：

1、可能跟直觉相反，生成过程中的$\sigma_t$越小，最终生成图像的噪声和多样性反而相对来说越大；
2、扩散步数$\dim(\boldsymbol{\tau})$越少，生成的图片更加平滑，多样性也会有所降低；
3、结合1、2两点得知，在扩散步数$\dim(\boldsymbol{\tau})$减少时，可以适当缩小$\sigma_t$，以保持生成图片质量大致不变，这跟DDIM原论文的实验结论是一致的；
4、在$\sigma_t$较小时，相比可训练的Embedding层，用固定的Sinusoidal编码来表示$t$所生成图片的噪声要更小；
5、在$\sigma_t$较小时，原论文的U-Net架构（Github中的ddpm2.py）要比笔者自行构思的U-Net架构（Github中的ddpm.py）所生成图片的噪声要更小；
6、但个人感觉，总体来说不带噪声的生成过程的生成效果不如带噪声的生成过程，不带噪声时生成效果受模型架构影响较大。

此外，对于$\sigma_t=0$时的DDIM，它就是将任意正态噪声向量变换为图片的一个确定性变换，这已经跟GAN几乎一致了，所以跟GAN类似，我们可以对噪声向量进行插值，然后观察对应的生成效果。但要注意的是，DDPM或DDIM对噪声分布都比较敏感，所以我们不能用线性插值而要用球面插值，因为由正态分布的叠加性，如果$\boldsymbol{z}_1,\boldsymbol{z}_2\sim\mathcal{N}(\boldsymbol{0}, \boldsymbol{I})$，$\lambda\boldsymbol{z}_1 + (1-\lambda)\boldsymbol{z}_2$一般就不服从$\mathcal{N}(\boldsymbol{0}, \boldsymbol{I})$，要改为
\begin{equation}\boldsymbol{z} = \boldsymbol{z}_1 \cos\frac{\lambda\pi}{2} + \boldsymbol{z}_2 \sin\frac{\lambda\pi}{2},\quad \lambda\in[0, 1]\end{equation}

插值效果演示（笔者自己训练的模型）：

DDIM随机向量的插值生成效果

微分方程 #

最后，我们来重点分析一下$\sigma_t = 0$的情形。此时$\eqref{eq:sigma=0}$可以等价地改写成：
\begin{equation}\frac{\boldsymbol{x}_t}{\bar{\alpha}_t} - \frac{\boldsymbol{x}_{t-1}}{\bar{\alpha}_{t-1}} = \left(\frac{\bar{\beta}_t}{\bar{\alpha}_t} - \frac{\bar{\beta}_{t-1}}{\bar{\alpha}_{t-1}}\right) \boldsymbol{\epsilon}_{\boldsymbol{\theta}}(\boldsymbol{x}_t, t)\end{equation}
当$T$足够大，或者说$\alpha_t$与$\alpha_{t-1}$足够小时，我们可以将上式视为某个常微分方程的差分形式。特别地，引入虚拟的时间参数$s$，我们得到
\begin{equation}\frac{d}{ds}\left(\frac{\boldsymbol{x}(s)}{\bar{\alpha}(s)}\right) = \boldsymbol{\epsilon}_{\boldsymbol{\theta}}\left(\boldsymbol{x}(s), t(s)\right)\frac{d}{ds}\left(\frac{\bar{\beta}(s)}{\bar{\alpha}(s)}\right)\label{eq:ode}\end{equation}
不失一般性，假设$s\in[0,1]$，其中$s=0$对应$t=0$、$s=1$对应$t=T$。注意DDIM原论文直接用$\frac{\bar{\beta}(s)}{\bar{\alpha}(s)}$作为虚拟时间参数，这原则上是不大适合的，因为它的范围是$[0,\infty)$，无界的区间不利于数值求解。

那么现在我们要做的事情就是在给定$\boldsymbol{x}(1)\sim \mathcal{N}(\boldsymbol{0},\boldsymbol{I})$的情况下，去求解出$\boldsymbol{x}(0)$。而DDPM或者DDIM的迭代过程，对应于该常微分方程的欧拉方法。众所周知欧拉法的效率相对来说是最慢的，如果要想加速求解，可以用Heun方法、R-K方法等。也就是说，将生成过程等同于求解常微分方程后，可以借助常微分方程的数值解法，为生成过程的加速提供更丰富多样的手段。

以DDPM的默认参数$T=1000$、$\alpha_t = \sqrt{1 - \frac{0.02t}{T}}$为例，我们重复《生成扩散模型漫谈（一）：DDPM = 拆楼 + 建楼》所做的估计
\begin{equation}\log \bar{\alpha}_t = \sum_{i=k}^t \log\alpha_k = \frac{1}{2} \sum_{k=1}^t \log\left(1 - \frac{0.02k}{T}\right) < \frac{1}{2} \sum_{k=1}^t \left(- \frac{0.02k}{T}\right) = -\frac{0.005t(t+1)}{T}\end{equation}
事实上，由于每个$\alpha_k$都很接近于1，所以上述估计其实也是一个很好的近似。而我们说了本文的出发点是$p(\boldsymbol{x}_t|\boldsymbol{x}_0)$，所以应该以$\bar{\alpha}_t$为起点，根据上述近似，我们可以直接简单地取
\begin{equation}\bar{\alpha}_t = \exp\left(-\frac{0.005t^2}{T}\right) = \exp\left(-\frac{5t^2}{T^2}\right)\end{equation}
如果取$s=t/T$为参数，那么正好$s\in[0,1]$，此时$\bar{\alpha}(s)=e^{-5s^2}$，代入到式$\eqref{eq:ode}$化简得
\begin{equation}\frac{d\boldsymbol{x}(s)}{ds} = 10s\left(\frac{\boldsymbol{\epsilon}_{\boldsymbol{\theta}}\left(\boldsymbol{x}(s), sT\right)}{\sqrt{1-e^{-10s^2}}} - \boldsymbol{x}(s)\right)\end{equation}
也可以取$s=t^2/T^2$为参数，此时也有$s\in[0,1]$，以及$\bar{\alpha}(s)=e^{-5s}$，代入到式$\eqref{eq:ode}$化简得
\begin{equation}\frac{d\boldsymbol{x}(s)}{ds} = 5\left(\frac{\boldsymbol{\epsilon}_{\boldsymbol{\theta}}\left(\boldsymbol{x}(s), \sqrt{s}T\right)}{\sqrt{1-e^{-10s}}} - \boldsymbol{x}(s)\right)\end{equation}

文章小结 #

本文接着上一篇DDPM的推导思路来介绍了DDIM，它重新审视了DDPM的出发点，去掉了推导过程中的$p(\boldsymbol{x}_t|\boldsymbol{x}_{t-1})$，从而获得了一簇更广泛的解和加速生成过程的思路，最后这簇新解还允许我们将生成过程跟常微分方程的求解联系起来，从而借助常微分方程的方法进一步对生成过程进行研究。

转载到请包括本文地址：https://spaces.ac.cn/archives/9181

更详细的转载事宜请参考：《科学空间FAQ》

如果您还有什么疑惑或建议，欢迎在下方评论区继续讨论。

如果您觉得本文还不错，欢迎分享/打赏本文。打赏并非要从中获得收益，而是希望知道科学空间获得了多少读者的真心关注。当然，如果你无视它，也不会影响你的阅读。再次表示欢迎和感谢！

如果您需要引用本文，请参考：

苏剑林. (Jul. 27, 2022). 《生成扩散模型漫谈（四）：DDIM = 高观点DDPM 》[Blog post]. Retrieved from https://spaces.ac.cn/archives/9181

@online{kexuefm-9181,
        title={生成扩散模型漫谈（四）：DDIM = 高观点DDPM},
        author={苏剑林},
        year={2022},
        month={Jul},
        url={\url{https://spaces.ac.cn/archives/9181}},
}

分类：信息时代标签：微分方程, 生成模型, DDPM, 扩散 170 评论

< 生成扩散模型漫谈（三）：DDPM = 贝叶斯 + 去噪 | 生成扩散模型漫谈（五）：一般框架之SDE篇 >

你也许还对下面的内容感兴趣

发表你的看法

milter

December 19th, 2024

苏神，关于高观点1.我分享一下自己的理解。全文的推导，是从$p(x_{t-1}\vert x_{0})$和$p(x_{t}\vert x_{0})$开始的。要理解高观点1，只要意识到这里的${t-1}$和$t$ 实际上代表的是“前后两个”加噪步骤。前后两个不意味着是连续的两个。有了这层理解，高观点1就显得是自然而然的了。如果拘泥于$t-1$和$t$，反而对理解有误导。不知道这么解释是否正确。

回复评论

苏剑林发表于 December 20th, 2024

你这个看上去更像是“高观点2”～

回复评论

milter 发表于 January 8th, 2025

确实是高观点2，我写错了。

回复评论

derick

December 26th, 2024

苏神，这里在失去马尔可夫性质的情况下可以像DDPM那样推导到ELBO的表示嘛，因为这里的推导我看到有几步是利用了马尔可夫性质推导的，如果说不从最大似然函数的角度出发，DDIM是不是就是只考虑去最小化KL散度和重建损失，这是不是也是另外一种思路，就是其实不需要从最大化似然函数出发？：$\begin{aligned}
\underbrace{\mathbb{E}_{q(x_1|x_0)}\left[\ln p_\theta(x_0|x_1)\right]}_{\text{reconstruction term}} & -\underbrace{D_{\mathrm{KL}}\left(q(x_T|x_0)||p(x_T)\right)}_{\text{prior matching term}} -\sum_{t=2}^T\underbrace{\mathbb{E}_{q(x_t|x_0)}\left[D_{\mathrm{KL}}\left(q(x_{t-1}|x_t,x_0)\|p_\theta(x_{t-1}|x_t)\right)\right]}_{\text{denoising matching term}}
\end{aligned}$

回复评论

苏剑林发表于 December 26th, 2024

抱歉，我没试过从第二篇 https://kexue.fm/archives/9152 的角度推导DDIM，暂不清楚会有什么困难。但从这篇文章以及第三篇看，第二篇的推导有点自讨苦吃？（哭笑

回复评论

Amadeus0520 发表于 March 16th, 2025

之前我也问过苏神这个问题，纠结过很长时间，确实，如果改成ddim的话，公式推导不成立了，感觉是没那么严谨，但是效果确实还挺好

回复评论

zzdpaaa

February 14th, 2025

苏老师好，我自己试着推导了一下DDIM的公式，但遇到了一些问题，希望得到大佬的解答和帮助。
根据DDIM的思想，是想要将DDPM的反向过程，从 xt 到 xt-1 修改为从 xt2 到 xt1（t1小于t2），于是按照下面推导，发现得到的结果和DDIM有很大的出入
\begin{cases}
x_{t_{1}}=\sqrt{\overline{a_{t_{1}}}}x_{0}+\sqrt{1-\overline{a_{t_{1}}}} \overline{ε_{t_{1}}}\\
x_{t_{2}}=\sqrt{\overline{x_{t_{2}}}}x_{0}+\sqrt{1-\overline{a_{t_{2}}}} \overline{ε_{t_{2}}} &
\end{cases}
用xt2表示x0，再代入xt1中得到
\begin{cases}
x_{t_{1}}=\frac{\sqrt{\overline{a_{t_{1}}}}}{\sqrt{\overline{a_{t_{2}}}}}(x_{t_{2}}-\sqrt{1-\overline{a_{t_{2}}}}\overline{ε_{t_{2}}})+\sqrt{1-\overline{a_{t_{1}}}}\overline{ε_{t_{1}}} (1)
\end{cases}
DDIM 的结果是
\begin{cases}
x_{t-1}=\sqrt{\bar{\alpha}_{t-1}}(\frac{x_t-\sqrt{1-\bar{\alpha}}\epsilon_\theta(x_t)}{\sqrt{\bar{\alpha}_t}})+\sqrt{1-\bar{\alpha}_{t-1}-\sigma^2}\epsilon_\theta(x_t)+\sigma\epsilon(2)
\end{cases}
区别：

1、在均值部分，由于我是从x0到xt1这个式子出发得到的结果，所以我认为式子(1)的第一项是均值，而第二项是方差，但DDIM的结果(2)却认为这两个都是均值

2、我推导得到的式子(1)中的两个ε，我认为是不同的（因为一个是从x0到xt1得到的，另一个是从x0到xt2得到的），但从DDIM的结果(2)可以看出，DDIM将这两个都看作了从x0到xt2得到的ε

回复评论

zzdpaaa 发表于 February 15th, 2025

学习了一下SDE，发现我这样的推导实际上存在问题，因为是不是带有随机过程的SDE，不可以通过移项来求xt2到x0的过程，要通过概率分布才行

回复评论

苏剑林发表于 February 15th, 2025

恕我直言，DDIM似乎没有这个思想...

带有随机变量的式子不能这样随便消元代换，它描述的是一个随机过程。

回复评论

zzdpaaa 发表于 February 19th, 2025

哦哦，谢谢苏老师，但是有个疑问就是，在DDPM最后均值推导那里，替换x0时，好像就是进行了等式变换和消元吧
\begin{aligned}
& \mathbf{x}_{t}=\sqrt{\bar{\alpha}_{t}}\mathbf{x}_{0}+\sqrt{1-\bar{\alpha}_{t}}\epsilon_{t} \\
& \mathbf{x}_{0}=\frac{\mathbf{x}_{t}-\sqrt{1-\bar{\alpha}_{t}}\epsilon_{t}}{\sqrt{\bar{\alpha}_{t}}}
\end{aligned}
有点不太清楚，麻烦老师了

回复评论

苏剑林发表于 February 22nd, 2025

这里的意思是由这个式子“启发”我们将预测$\boldsymbol{x}_0$的模型参数化成这个样，而不是消元。预测$\boldsymbol{x}_0$的模型可以有很多种参数化方式，仅仅是借由这个等式来启发其中一种，你要不喜欢这种，完全可以换一种，理论上也是没问题的，不是强行绑定了“消元”。

回复评论

zzdpaaa 发表于 February 23rd, 2025

哦哦，这样呀，谢谢苏老师

回复评论

PMP1

April 8th, 2025

\begin{array}{c|c|c}
\hline
\text{记号} & \text{含义} & \text{采样}\\
\hline
p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_0) & \mathcal{N}(\boldsymbol{x}_{t-1};\bar{\alpha}_{t-1} \boldsymbol{x}_0,\bar{\beta}_{t-1}^2 \boldsymbol{I}) & \boldsymbol{x}_{t-1} = \bar{\alpha}_{t-1} \boldsymbol{x}_0 + \bar{\beta}_{t-1} \boldsymbol{\varepsilon} \\
\hline
p(\boldsymbol{x}_t|\boldsymbol{x}_0) & \mathcal{N}(\boldsymbol{x}_t;\bar{\alpha}_t \boldsymbol{x}_0,\bar{\beta}_t^2 \boldsymbol{I}) & \boldsymbol{x}_t = \bar{\alpha}_t \boldsymbol{x}_0 + \bar{\beta}_t \boldsymbol{\varepsilon}_1 \\
\hline
p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t, \boldsymbol{x}_0) & \mathcal{N}(\boldsymbol{x}_{t-1}; \kappa_t \boldsymbol{x}_t + \lambda_t \boldsymbol{x}_0, \sigma_t^2 \boldsymbol{I}) & \boldsymbol{x}_{t-1} = \kappa_t \boldsymbol{x}_t + \lambda_t \boldsymbol{x}_0 + \sigma_t \boldsymbol{\varepsilon}_2 \\
\hline
{\begin{array}{c}\int p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t, \boldsymbol{x}_0) \\
p(\boldsymbol{x}_t|\boldsymbol{x}_0) d\boldsymbol{x}_t\end{array}} & & {\begin{aligned}\boldsymbol{x}_{t-1} =&\, \kappa_t \boldsymbol{x}_t + \lambda_t \boldsymbol{x}_0 + \sigma_t \boldsymbol{\varepsilon}_2 \\
=&\, \kappa_t (\bar{\alpha}_t \boldsymbol{x}_0 + \bar{\beta}_t \boldsymbol{\varepsilon}_1) + \lambda_t \boldsymbol{x}_0 + \sigma_t \boldsymbol{\varepsilon}_2 \\
=&\, (\kappa_t \bar{\alpha}_t + \lambda_t) \boldsymbol{x}_0 + (\kappa_t\bar{\beta}_t \boldsymbol{\varepsilon}_1 + \sigma_t \boldsymbol{\varepsilon}_2) \\
\end{aligned}} \\
\hline
\end{array}
您好，我想问一下，为啥后两行，采样的形式是一致的呢？

回复评论

苏剑林发表于 April 13th, 2025

因为$\boldsymbol{x}_{t-1}$的生成过程就是这样子。

一个关心的是条件分布，一个关心的是边际分布，都是同一个变量$\boldsymbol{x}_{t-1}$，生成过程都是一样的，控制的条件不一样而已。

回复评论

jsrdcht

June 9th, 2025

请问DDIM和令DDPM的去噪方差$\sigma^2$为0在代码中的区别是什么呢？看完理论推导似乎DDIM就等于 $\sigma^2=0$的DDPM + 跳步采样（欧拉法解ODE）。

回复评论

jsrdcht 发表于 June 10th, 2025

补充一下，DDIM在跳步的时候需要同时修改使用的系数。例如如果要预测$x_t$到$x_{t-2}$就需要使用$x_{t-2}$对应的$\bar{\alpha}$和$\bar{\beta}$，而不是$x_{t-1}$对应的系数。

我的理解对吗？DDIM=($\sigma=0$)+(跳步)+(跳步时对应修改系数)

回复评论

苏剑林发表于 June 10th, 2025

如果你说的DDPM是前三篇介绍的形式，那么它的采样方差不是随意可调的，所以没有设置为零一说。

如果你说的DDPM是本文的公式$\eqref{eq:p-xt-x0-2}$，那么DDIM论文中的DDIM，确实就是$\sigma_t=0$的情形。

回复评论

jsrdcht 发表于 June 10th, 2025

感谢回答！

我解释一下我这个问题的来源，应该也有不少人有一样的疑惑。我是发现DDIM大部分的推导和DDPM用了一样的参数化方式和训练框架，最终的去噪模型也一样，直觉上就觉得DDIM就等于方差为0的DDIM。

后来仔细查看了公式发现DDIM的采样公式和DDPM不一样，这种不一致最早来自于DDIM的前向后验分布$q(x_{t-1}|x_t,x_0)$和DDPM是不同的。DDIM的前向后验是通过本博客的公式(3)解出来的，至于为什么丢失马尔科夫性后会导致解出来的前向后验不一样，我还没想明白。

回复评论

jsrdcht 发表于 June 10th, 2025

再补充一下，刚刚自己动手算了一下。DDIM计算出的前向后验是DDPM的推广情况，如果把DDDPM的前向后验的方差$\tilde{\beta}_t$代入到本文的公式(7)可以得到与DDPM一样的采样公式。

我的疑问解决了。

回复评论

苏剑林发表于 June 11th, 2025

DDPM的推导逻辑是：给定$p(\boldsymbol{x}_t|\boldsymbol{x}_{t-1})$可以推导出相应的$p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_0)$和$p(\boldsymbol{x}_t|\boldsymbol{x}_0)$，继而可以用贝叶斯公式唯一确定$p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t, \boldsymbol{x}_0)$。

DDIM则发现，DDPM的训练目标其实只依赖于$p(\boldsymbol{x}_t|\boldsymbol{x}_0)$，根本没用到$p(\boldsymbol{x}_t|\boldsymbol{x}_{t-1})$，所以$p(\boldsymbol{x}_t|\boldsymbol{x}_{t-1})$这个出发点是没必要的，在只给定$p(\boldsymbol{x}_t|\boldsymbol{x}_0)$时可以得到一簇$p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t, \boldsymbol{x}_0)$，里边有一个可调方差。因为DDIM只依赖于$p(\boldsymbol{x}_t|\boldsymbol{x}_0)$，DDPM的训练目标也只依赖于$p(\boldsymbol{x}_t|\boldsymbol{x}_0)$，所以DDIM完全可以服用DDPM的模型。

至于你在@jsrdcht|comment-27848提到的，本文的“几个例子”一节也提到了。

回复评论

yuming

October 7th, 2025

苏神，你好！
我觉得这篇博文的思路似乎和DDIM论文反过来了，恳请解惑。（注：评论中用的符号与DDPM论文保持一致）

1) DDIM是先定义
$$
q({\boldsymbol{x}}_{T} \mid {\boldsymbol{x}}_{0}) = \mathcal{N}\left(\boldsymbol{x}_{T} ; \sqrt{\bar{\alpha}_{T}} \boldsymbol{x}_{0},\left(1-\bar{\alpha}_{T}\right) \mathbf{I}\right),
$$
和
$$q(\boldsymbol{x}_{t-1} \mid \boldsymbol{x}_t, \boldsymbol{x}_0) = \mathcal{N}(\boldsymbol{x}_{t-1}; \sqrt{\bar{\alpha}_{t-1}}\boldsymbol{x}_0 + \sqrt{1-\bar{\alpha}_{t-1}-\sigma_t^2} \cdot \frac{\boldsymbol{x}_t - \sqrt{\bar{\alpha}_t}\boldsymbol{x}_0}{\sqrt{1-\bar{\alpha}_t}}, \sigma_t^2 \boldsymbol{I}),$$
然后基于上述两个定义用数学归纳法证明对于 $t = 1,2,3, \cdots, T$，下式均成立:
$$
q({\boldsymbol{x}}_{t-1} \mid {\boldsymbol{x}}_{0}) = \mathcal{N}\left(\boldsymbol{x}_{t-1} ; \sqrt{\bar{\alpha}_{t-1}} \boldsymbol{x}_{0},\left(1-\bar{\alpha}_{t-1}\right) \mathbf{I}\right) .
$$

2) 而本文的思路是先定义
$$
q({\boldsymbol{x}}_{t} \mid {\boldsymbol{x}}_{0}) = \mathcal{N}\left(\boldsymbol{x}_{t} ; \sqrt{\bar{\alpha}_{t}} \boldsymbol{x}_{0},\left(1-\bar{\alpha}_{t}\right) \mathbf{I}\right)
$$
和
$$
q({\boldsymbol{x}}_{t-1} \mid {\boldsymbol{x}}_{0}) = \mathcal{N}\left(\boldsymbol{x}_{t-1} ; \sqrt{\bar{\alpha}_{t-1}} \boldsymbol{x}_{0},\left(1-\bar{\alpha}_{t-1}\right) \mathbf{I}\right) ,$$
然后再推导下式成立
$$q(\boldsymbol{x}_{t-1} \mid \boldsymbol{x}_t, \boldsymbol{x}_0) = \mathcal{N}(\boldsymbol{x}_{t-1}; \sqrt{\bar{\alpha}_{t-1}}\boldsymbol{x}_0 + \sqrt{1-\bar{\alpha}_{t-1}-\sigma_t^2} \cdot \frac{\boldsymbol{x}_t - \sqrt{\bar{\alpha}_t}\boldsymbol{x}_0}{\sqrt{1-\bar{\alpha}_t}}, \sigma_t^2 \boldsymbol{I}).$$

问题：DDIM论文先定义$q({\boldsymbol{x}}_{T} \mid {\boldsymbol{x}}_{0})$和$q(\boldsymbol{x}_{t-1} \mid \boldsymbol{x}_t, \boldsymbol{x}_0)$，再证明$q({\boldsymbol{x}}_{t} \mid {\boldsymbol{x}}_{0})$对于所有$t$都成立，这种逻辑思路好理解，但是没有解释为什么要如此定义$q(\boldsymbol{x}_{t-1} \mid \boldsymbol{x}_t, \boldsymbol{x}_0)$。本博文先定义$q({\boldsymbol{x}}_{T} \mid {\boldsymbol{x}}_{0})$和$q({\boldsymbol{x}}_{t} \mid {\boldsymbol{x}}_{0})$，详细地推导了$q(\boldsymbol{x}_{t-1} \mid \boldsymbol{x}_t, \boldsymbol{x}_0)$的过程，但是却要先假设$q({\boldsymbol{x}}_{t} \mid {\boldsymbol{x}}_{0})$对于所有$t$都成立。想请问本博文的逻辑思路是否合理？

回复评论

苏剑林发表于 October 12th, 2025

“本博文的逻辑思路是否合理”想问的是啥呢？字面意思上来看，我写出来的东西自然是我认为合理的东西呀。

回复评论

Henry

October 21st, 2025

想请问苏老师，方程7是如何推导到方程10的，是否有化简的一些小技巧？

回复评论

苏剑林发表于 October 24th, 2025

没有太多技巧了，就是直接代入然后根据$\bar{\alpha}_t,\bar{\beta}_t,\alpha_t,\beta_t$之间的关系进行变换了。

回复评论

xiaojx

December 11th, 2025

苏老师您好！非常感谢您的解读。
不过我对您提到的的实验结论1“可能跟直觉相反，生成过程中的$\sigma_t$越小，最终生成图像的噪声和多样性反而相对来说越大”存在一些疑问。因为当$\sigma_t=0$时达到最小值，在这种确定性的sample条件下不应该是给定一个初始$x_T$，它最终的结果就应该确定了？但是当方差变大后可以通过改变seed得到更多样的采样结果。
请问您对这样的现象有没有什么insights呢？或者是我自己理解有误

回复评论

xiaojx 发表于 December 11th, 2025

还有一个小小的补充问题，在实际训练DDPM时，需要固定随机参数的seed吗？

回复评论

苏剑林发表于 December 12th, 2025

原则上不必要

回复评论

苏剑林发表于 December 12th, 2025

@xiaojx|comment-28988

适量的噪声其实有平滑作用，$\sigma_t=0$跟生成结果的噪声强度和多样性，都无显然联系。

回复评论

YameChi

April 20th, 2026

苏神，从本文的角度来说，DDIM和DDPM是不是公式(10)的特例了，在这一簇解中会不会存在更优的解

回复评论

苏剑林发表于 April 26th, 2026

确实如此，但从直到本文的推导来说，这一簇解感觉本质上没有优劣之分。

但是采样方差本身是可以从另外的角度进一步优化的，参考：https://kexue.fm/archives/9245

回复评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

生成扩散模型漫谈（四）：DDIM = 高观点DDPM

思路分析 #

待定系数 #

一如既往 #

几个例子 #

加速生成 #

实验结果 #

微分方程 #

文章小结 #

你也许还对下面的内容感兴趣

内容速览

智能搜索

热门标签

随机文章

最近评论

友情链接