包含关键字推荐系统解耦的文章 - 科学空间|Scientific Spaces

18 Dec

生成扩散模型漫谈（二十八）：分步理解一致性模型

By 苏剑林 | 2024-12-18 | 2414位读者 | 引用

书接上文，在《生成扩散模型漫谈（二十七）：将步长作为条件输入》中，我们介绍了加速采样的Shortcut模型，其对比的模型之一就是“一致性模型（Consistency Models）”。事实上，早在《生成扩散模型漫谈（十七）：构建ODE的一般步骤（下）》介绍ReFlow时，就有读者提到了一致性模型，但笔者总感觉它更像是实践上的Trick，理论方面略显单薄，所以兴趣寥寥。

不过，既然我们开始关注扩散模型加速采样方面的进展，那么一致性模型就是一个绕不开的工作。因此，趁着这个机会，笔者在这里分享一下自己对一致性模型的理解。

熟悉配方

还是熟悉的配方，我们的出发点依旧是ReFlow，因为它大概是ODE式扩散最简单的理解方式。设$\boldsymbol{x}_0\sim p_0(\boldsymbol{x}_0)$是目标分布的真实样本，$\boldsymbol{x}_1\sim p_1(\boldsymbol{x}_1)$是先验分布的随机噪声，$\boldsymbol{x}_t = (1-t)\boldsymbol{x}_0 + t\boldsymbol{x}_1$是加噪样本，那么ReFlow的训练目标是：

点击阅读全文...

分类：信息时代标签：微分方程, 生成模型, 采样, 扩散阅读全文抢沙发

26 Aug

细水长flow之RealNVP与Glow：流模型的传承与升华

By 苏剑林 | 2018-08-26 | 312228位读者 | 引用

话在开头

上一篇文章《细水长flow之NICE：流模型的基本概念与实现》中，我们介绍了flow模型中的一个开山之作：NICE模型。从NICE模型中，我们能知道flow模型的基本概念和基本思想，最后笔者还给出了Keras中的NICE实现。

本文我们来关心NICE的升级版：RealNVP和Glow。

Glow模型的采样演示（截取自Glow官方博客）

精巧的flow

不得不说，flow模型是一个在设计上非常精巧的模型。总的来看，flow就是想办法得到一个encoder将输入$\boldsymbol{x}$编码为隐变量$\boldsymbol{z}$，并且使得$\boldsymbol{z}$服从标准正态分布。得益于flow模型的精巧设计，这个encoder是可逆的，从而我们可以立马从encoder写出相应的decoder（生成器）出来，因此，只要encoder训练完成，我们就能同时得到decoder，完成生成模型的构建。

为了完成这个构思，不仅仅要使得模型可逆，还要使得对应的雅可比行列式容易计算，为此，NICE提出了加性耦合层，通过多个加性耦合层的堆叠，使得模型既具有强大的拟合能力，又具有单位雅可比行列式。就这样，一种不同于VAE和GAN的生成模型——flow模型就这样出来了，它通过巧妙的构造，让我们能直接去拟合概率分布本身。

点击阅读全文...

分类：信息时代标签：概率, 流模型, flow, 生成模型阅读全文 125 评论

21 Sep

细水长flow之f-VAEs：Glow与VAEs的联姻

By 苏剑林 | 2018-09-21 | 135280位读者 | 引用

这篇文章是我们前几天挂到arxiv上的论文的中文版。在这篇论文中，我们给出了结合流模型（如前面介绍的Glow）和变分自编码器的一种思路，称之为f-VAEs。理论可以证明f-VAEs是囊括流模型和变分自编码器的更一般的框架，而实验表明相比于原始的Glow模型，f-VAEs收敛更快，并且能在更小的网络规模下达到同样的生成效果。

原文地址：《f-VAEs: Improve VAEs with Conditional Flows》

近来，生成模型得到了广泛关注，其中变分自编码器（VAEs）和流模型是不同于生成对抗网络（GANs）的两种生成模型，它们亦得到了广泛研究。然而它们各有自身的优势和缺点，本文试图将它们结合起来。

由f-VAEs实现的两个真实样本之间的线性插值

基础

设给定数据集的证据分布为$\tilde{p}(x)$，生成模型的基本思路是希望用如下的分布形式来拟合给定数据集分布
$$\begin{equation}q(x)=\int q(z)q(x|z) dz\end{equation}$$

点击阅读全文...

分类：信息时代标签：vae, 流模型, flow, 生成模型阅读全文 48 评论

10 Dec

BiGAN-QP：简单清晰的编码&生成模型

By 苏剑林 | 2018-12-10 | 66459位读者 | 引用

前不久笔者通过直接在对偶空间中分析的思路，提出了一个称为GAN-QP的对抗模型框架，它的特点是可以从理论上证明既不会梯度消失，又不需要L约束，使得生成模型的搭建和训练都得到简化。

GAN-QP是一个对抗框架，所以理论上原来所有的GAN任务都可以往上面试试。前面《不用L约束又不会梯度消失的GAN，了解一下？》一文中我们只尝试了标准的随机生成任务，而这篇文章中我们尝试既有生成器、又有编码器的情况：BiGAN-QP。

BiGAN与BiGAN-QP

注意这是BiGAN，不是前段时间很火的BigGAN，BiGAN是双向GAN（Bidirectional GAN），提出于《Adversarial feature learning》一文，同期还有一篇非常相似的文章叫做《Adversarially Learned Inference》，提出了叫做ALI的模型，跟BiGAN差不多。总的来说，它们都是往普通的GAN模型中加入了编码器，使得模型既能够具有普通GAN的随机生成功能，又具有编码器的功能，可以用来提取有效的特征。把GAN-QP这种对抗模式用到BiGAN中，就得到了BiGAN-QP。

话不多说，先来上效果图（左边是原图，右边是重构）：

BiGAN-QP重构效果图

点击阅读全文...

分类：信息时代标签：无监督, GAN, 生成模型, 编码阅读全文 13 评论

28 Sep

生成扩散模型漫谈（十二）：“硬刚”扩散ODE

By 苏剑林 | 2022-09-28 | 69514位读者 | 引用

在《生成扩散模型漫谈（五）：一般框架之SDE篇》中，我们从SDE的角度理解了生成扩散模型，然后在《生成扩散模型漫谈（六）：一般框架之ODE篇》中，我们知道SDE对应的扩散模型中，实际上隐含了一个ODE模型。无独有偶，在《生成扩散模型漫谈（四）：DDIM = 高观点DDPM》中我们也知道原本随机采样的DDPM模型中，也隐含了一个确定性的采样过程DDIM，它的连续极限也是一个ODE。

细想上述过程，可以发现不管是“DDPM→DDIM”还是“SDE→ODE”，都是从随机采样模型过渡到确定性模型，而如果我们一开始的目标就是ODE，那么该过程未免显得有点“迂回”了。在本文中，笔者尝试给出ODE扩散模型的直接推导，并揭示了它与雅可比行列式、热传导方程等内容的联系。

微分方程

像GAN这样的生成模型，它本质上是希望找到一个确定性变换，能将从简单分布（如标准正态分布）采样出来的随机变量，变换为特定数据分布的样本。flow模型也是生成模型之一，它的思路是反过来，先找到一个能将数据分布变换简单分布的可逆变换，再求解相应的逆变换来得到一个生成模型。

点击阅读全文...

分类：数学研究,信息时代标签：微分方程, 生成模型, 扩散阅读全文 37 评论

31 May

关于NBCE方法的一些补充说明和分析

By 苏剑林 | 2023-05-31 | 26341位读者 | 引用

上周在《NBCE：使用朴素贝叶斯扩展LLM的Context处理长度》中，我们介绍了一种基于朴素贝叶斯来扩展LLM的Context长度的方案NBCE（Naive Bayes-based Context Extension）。由于它有着即插即用、模型无关、不用微调等优点，也获得了一些读者的认可，总的来说目前大家反馈的测试效果还算可以。

当然，部分读者在使用的时候也提出了一些问题。本文就结合读者的疑问和笔者的后续思考，对NBCE方法做一些补充说明和分析。

方法回顾

假设$T$为要生成的token序列，$S_1,S_2,\cdots,S_n$是给定的若干个Context，我们需要根据$S_1,S_2,\cdots,S_n$生成$T$，那么就需要估计$p(T|S_1, S_2,\cdots,S_n)$。根据朴素贝叶斯思想，我们得到
\begin{equation}\log p(T|S_1, S_2,\cdots,S_n) = \color{red}{(\beta + 1)\overline{\log p(T|S)}} - \color{green}{\beta\log p(T)} + \color{skyblue}{\text{常数}}\label{eq:nbce-2}\end{equation}

点击阅读全文...

分类：信息时代标签：语言模型, 外推, LLM, 贝叶斯阅读全文 10 评论

18 Aug