29 Sep

f-GAN简介：GAN模型的生产车间

By 苏剑林 | 2018-09-29 | 174508位读者 |

今天介绍一篇比较经典的工作，作者命名为f-GAN，他在文章中给出了通过一般的 $f$ 散度来构造一般的GAN的方案。可以毫不夸张地说，这论文就是一个GAN模型的“生产车间”，它一般化的囊括了很多GAN变种，并且可以启发我们快速地构建新的GAN变种（当然有没有价值是另一回事，但理论上是这样）。

局部变分 #

整篇文章对 $f$ 散度的处理事实上在机器学习中被称为“局部变分方法”，它是一种非常经典且有用的估算技巧。事实上本文将会花大部分篇幅介绍这种估算技巧在 $f$ 散度中的应用结果。至于GAN，只不过是这个结果的基本应用而已。

f散度 #

首先我们还是对 $f$ 散度进行基本的介绍。所谓 $f$ 散度，是KL散度的一般化：
$\begin{equation}\mathcal{D}_f(P\Vert Q) = \int q(x) f\left(\frac{p(x)}{q(x)}\right)dx\label{eq:f-div}\end{equation}$
注意，按照通用的约定写法，括号内是 $p/q$ 而不是 $q/p$ ，大家不要自然而言地根据KL散度的形式以为是 $q/p$ 。

可以发现，这种形式能覆盖我们见过的很多概率分布之间的度量了，这里直接把论文中的表格搬进来（部分）
$\begin{array}{c|c|c}\hline \textbf{距离名称} & \textbf{计算公式} & \textbf{对应的}f\\ \hline \text{总变差} & \frac{1}{2}\int | p(x) - q(x)| dx & \frac{1}{2}|u - 1|\\ \hline \text{KL散度} & \int p(x)\log \frac{p(x)}{q(x)} dx & u \log u\\ \hline \text{逆KL散度} & \int q(x)\log \frac{q(x)}{p(x)} dx & - \log u\\ \hline \text{Pearson }\chi^2 & \int \frac{(q(x) - p(x))^{2}}{p(x)} dx & \frac{(1 - u)^{2}}{u}\\ \hline \text{Neyman }\chi^2 & \int \frac{(p(x) - q(x))^{2}}{q(x)} dx & (u - 1)^{2}\\ \hline \text{Hellinger距离} & \int \left(\sqrt{p(x)} - \sqrt{q(x)}\right)^{2} dx & (\sqrt{u} - 1)^{2}\\ \hline \text{Jeffrey距离} & \int (p(x) - q(x))\log \left(\frac{p(x)}{q(x)}\right) dx & (u - 1)\log u\\ \hline \text{JS散度} & \frac{1}{2}\int p(x)\log \frac{2 p(x)}{p(x) + q(x)} + q(x)\log \frac{2 q(x)}{p(x) + q(x)} dx & -\frac{u + 1}{2}\log \frac{1 + u}{2} + \frac{u}{2} \log u\\ \hline \end{array}$

凸函数 #

上面列举了一堆的分布度量以及对应的 $f$ ，那么一个很自然的问题是这些 $f$ 的共同特点是什么呢？

答案是：

1、它们都是非负实数到实数的映射（ $\mathbb{R}^* \to \mathbb{R}$ ）；
2、 $f(1)=0$ ；
3、它们都是凸函数。

第一点是常规的，第二点 $f(1)=0$ 保证了 $\mathcal{D}_f(P\Vert P)=0$ ，那第三点凸函数是怎么理解呢？其实它是凸函数性质的一个最基本的应用，因为凸函数有一个非常重要的性质（詹森不等式）：
$\begin{equation}\mathbb{E}\big[f(x)\big]\geq f\big(\mathbb{E}[x]\big)\label{eq:tuhanshu-xingzhi}\end{equation}$
也就是“函数的平均大于平均的函数”，有些教程会直接将这个性质作为凸函数的定义。而如果 $f(u)$ 是光滑的函数，我们一般会通过二阶导数 $f''(u)$ 是否恒大于等于0来判断是否凸函数。

利用 $\eqref{eq:tuhanshu-xingzhi}$ ，我们有
$\begin{equation}\begin{aligned}\int q(x) f\left(\frac{p(x)}{q(x)}\right)dx =& \mathbb{E}_{x\sim q(x)} \left[f\left(\frac{p(x)}{q(x)}\right)\right]\\ \geq& f\left(\mathbb{E}_{x\sim q(x)} \left[\frac{p(x)}{q(x)}\right]\right)\\ =& f\left(\int q(x) \frac{p(x)}{q(x)}dx\right)\\ =& f\left(\int p(x)dx\right)\\ =& f(1) = 0 \end{aligned}\end{equation}$
也就是说，这三个条件保证了 $f$ 散度是非负，而且当两个分布一模一样时 $f$ 散度就为0，这使得 $\mathcal{D}_f$ 可以用来简单地度量分布之间的差异性。当然， $f$ 散度原则上并没有保证 $P\neq Q$ 时 $\mathcal{D}_f(P\Vert Q) \gt 0$ 。但通常我们会选择严格凸的 $f$ （即 $f''(u)$ 恒大于0），那么这时候可以保证 $P\neq Q$ 时 $\mathcal{D}_f(P\Vert Q)\gt 0$ ，也就是说这时候有 $\mathcal{D}_f(P\Vert Q)=0\,\Leftrightarrow\,P=Q$ 。（注：即便如此，一般情况下 $\mathcal{D}_f(P\Vert Q)$ 仍然不是满足公理化定义的“距离”，不过这个跟本文主题关系不大，这里只是顺便一提。）

凸共轭 #

现在从比较数学的角度讨论一下凸函数，一般地，记凸函数的定义域为 $\mathbb{D}$ （对于本文来说， $\mathbb{D}=\mathbb{R}_+$ ）。选择任意一个点 $\xi$ ，我们求 $y=f(u)$ 在 $u=\xi$ 处的切线，结果是
$\begin{equation}y = f(\xi) + f'(\xi)(u - \xi)\end{equation}$
考虑两者的差函数
$\begin{equation}h(u) = f(u) - f(\xi) - f'(\xi)(u - \xi)\end{equation}$
所谓凸函数，直观理解，就是它的图像总在它的（任意一条）切线上方，因此对于凸函数来说下式恒成立
$\begin{equation}f(u) - f(\xi) - f'(\xi)(u - \xi)\geq 0\end{equation}$
整理成
$\begin{equation}f(u) \geq f(\xi) - f'(\xi) \xi + f'(\xi)u\end{equation}$
因为不等式是恒成立的，并且等号是有可能取到的，因此可以导出
$\begin{equation}f(u) = \max_{\xi\in\mathbb{D}}\big\{f(\xi) - f'(\xi) \xi + f'(\xi)u\big\}\end{equation}$
换新的记号，记 $t=f'(\xi)$ ，并从中反解出 $\xi$ （对于凸函数，这总能做到，读者可以自己尝试证明），然后记
$\begin{equation}g(t) = - f(\xi) + f'(\xi) \xi\end{equation}$
那么就有
$\begin{equation}f(u) = \max_{t\in f'(\mathbb{D})}\big\{t u - g(t)\big\}\end{equation}$
这里的 $g(t)$ 就称为 $f(u)$ 的共轭函数。留意花括号里边的式子，给定 $f$ 后， $g$ 也确定了，并且整个式子关于 $u$ 是线性的。所以总的来说，我们做了这样的一件事情：

对一个凸函数给出了线性近似，并且通过最大化里边的参数就可以达到原来的值。

注意给定 $u$ ，我们都要最大化一次 $t$ 才能得到尽可能接近 $f(u)$ 的结果，否则随便代入一个 $t$ ，只能保证得到下界，而不能确保误差大小。所以它称为“局部变分方法”，因为要在每一个点（局部）处都要进行最大化（变分）。这样一来，我们可以理解为 $t$ 实际上是 $u$ 的函数，即
$\begin{equation}f(u) = \max_{T\text{是值域为}f'(\mathbb{D})\text{的函数}}\big\{T(u) u - g(T(u))\big\}\label{eq:max-conj}\end{equation}$

上述讨论过程实际上已经给出了计算凸共轭的方法，在这里我们直接给出上表对应的凸函数的共轭函数。
$\begin{array}{c|c}\hline f(u) & \textbf{对应的共轭}g(t) & f'(\mathbb{D}) & 激活函数\\ \hline \frac{1}{2}|u - 1| & t & \left[-\frac{1}{2},\frac{1}{2}\right] & \frac{1}{2}\tanh(x)\\ \hline u \log u & e^{t-1} & \mathbb{R} & x\\ \hline - \log u & -1 - \log(-t) & \mathbb{R}_- & -e^{x}\\ \hline \frac{(1 - u)^{2}}{u} & 2 - 2\sqrt{1-t} & (-\infty, 1) & 1-e^x\\ \hline (u - 1)^{2} & \frac{1}{4}t^2+t & (-2,+\infty) & e^x-2\\ \hline (\sqrt{u} - 1)^{2} & \frac{t}{1-t} & (-\infty, 1) & 1-e^x\\ \hline (u - 1)\log u & W(e^{1-t})+\frac{1}{W(e^{1-t})}+t-2 & \mathbb{R} & x\\ \hline -\frac{u + 1}{2}\log \frac{1 + u}{2} + \frac{u}{2} \log u & -\frac{1}{2}\log(2-e^{2t}) & \left(-\infty,\frac{\log 2}{2}\right) & \frac{\log 2}{2}-\frac{1}{2}\log(1+e^{-x})\\ \hline \end{array}$
（注：这里的 $W$ 为朗伯W函数。）

f-GAN #

由上述推导，我们就可以给出f散度的估算公式，并且进一步给出f-GAN的一般框架。

f散度估计 #

计算 $f$ 散度有什么困难呢？根据定义 $\eqref{eq:f-div}$ ，我们同时需要知道两个概率分布 $P,Q$ 才可以计算两者的 $f$ 散度，但事实上在机器学习中很难做到这一点，有时我们最多只知道其中一个概率分布的解析形式，另外一个分布只有采样出来的样本，甚至很多情况下我们两个分布都不知道，只有对应的样本（也就是说要比较两批样本之间的相似性），所以就不能直接根据 $\eqref{eq:f-div}$ 来计算 $f$ 散度了。

结合 $\eqref{eq:f-div}$ 和 $\eqref{eq:max-conj}$ ，我们得到
$\begin{equation}\begin{aligned}\mathcal{D}_f(P\Vert Q) =& \max_{T}\int q(x) \left[\frac{p(x)}{q(x)}T\left(\frac{p(x)}{q(x)}\right)-g\left(T\left(\frac{p(x)}{q(x)}\right)\right)\right]dx\\ =& \max_{T}\int\left[p(x)\cdot T\left(\frac{p(x)}{q(x)}\right)-q(x)\cdot g\left(T\left(\frac{p(x)}{q(x)}\right)\right)\right]dx\end{aligned}\end{equation}$
将 $T\left(\frac{p(x)}{q(x)}\right)$ 记为整体 $T(x)$ ，那么就有
$\begin{equation}\mathcal{D}_f(P\Vert Q) = \max_{T}\Big(\mathbb{E}_{x\sim p(x)}[T(x)]-\mathbb{E}_{x\sim q(x)}[g(T(x))]\Big)\label{eq:f-div-e}\end{equation}$
式 $\eqref{eq:f-div-e}$ 就是估计 $f$ 散度的基础公式了。意思就是说：分别从两个分布中采样，然后分别计算 $T(x)$ 和 $g(T(x))$ 的平均值，优化 $T$ ，让它们的差尽可能地大，最终的结果就是 $f$ 散度的近似值了。显然 $T(x)$ 可以用足够复杂的神经网络拟合，我们只需要优化神经网络的参数。

注意在对凸函数的讨论中，我们在最大化目标的时候，对 $T$ 的值域是有限制的。因此，在 $T$ 的最后一层，我们必须设计适当的激活函数，使得 $T$ 满足要求的值域。当然激活函数的选择不是唯一的，参考的激活函数已经列举在前表。注意，尽管理论上激活函数的选取是任意的，但是为了优化上的容易，应该遵循几个原则：

1、对应的定义域为 $\mathbb{R}$ ，对应的值域为要求值域（边界点可以忽略）；
2、最好选择全局光滑的函数，不要简单地截断，例如要求值域为 $\mathbb{R}_+$ 的话，不要直接用 $relu(x)$ ，可以考虑的是 $e^x$ 或者 $\log(1+e^x)$ ；
3、注意式 $\eqref{eq:f-div-e}$ 的第二项包含了 $g(T(x))$ ，也就是 $g$ 和 $T$ 的复合计算，因此选择激活函数时，最好使得它与 $g$ 的复合运算比较简单。

GAN批发 #

好了，说了那么久，几乎都已经到文章结尾了，似乎还没有正式说到GAN。事实上，GAN可以算是整篇文章的副产物而已。

GAN希望训练一个生成器，将高斯分布映射到我们所需要的数据集分布，那就需要比较两个分布之间的差异了，经过前面的过程，其实就很简单了，随便找一种 $f$ 散度都可以了。然后用式 $\eqref{eq:f-div-e}$ 对 $f$ 散度进行估计，估计完之后，我们就有 $f$ 散度的模型了，这时候生成器不是希望缩小分布的差异吗？最小化 $f$ 散度就行了。所以写成一个表达式就是
$\begin{equation}\min_G\max_{T}\Big(\mathbb{E}_{x\sim p(x)}[T(x)]-\mathbb{E}_{x=G(z),z\sim q(z)}[g(T(x))]\Big)\label{eq:f-div-gan}\end{equation}$
或者反过来：
$\begin{equation}\min_G\max_{T}\Big(\mathbb{E}_{x=G(z),z\sim q(z)}[T(x)]-\mathbb{E}_{x\sim p(x)}[g(T(x))]\Big)\label{eq:f-div-gan-2}\end{equation}$
就这样完了～

需要举几个例子？好吧，先用JS散度看看。把所有东西式子一步步代进去，你会发现最终结果是（略去了 $\log 2$ 的常数项）
$\begin{equation}\min_G\max_{D}\Big(\mathbb{E}_{x\sim p(x)}[\log D(x)] + \mathbb{E}_{x=G(z),z\sim q(z)}[\log(1-D(x))]\Big)\end{equation}$
其中 $D$ 用 $\sigma(x)=1/(1+e^{-x})$ 激活。这就是最原始版本的GAN了。

用Hellinger距离试试？结果是
$\begin{equation}\min_G\max_{D}\Big(-\mathbb{E}_{x\sim p(x)}[e^{D(x)}] - \mathbb{E}_{x=G(z),z\sim q(z)}[e^{-D(x)}]\Big)\end{equation}$
这里的 $D(x)$ 是线性激活。这个貌似还没有命名？不过论文中已经对它做过实验了。

那用KL散度呢？因为KL散度是不对称的，所以有两个结果，分别为
$\begin{equation}\min_G\max_{D}\Big(\mathbb{E}_{x\sim p(x)}[D(x)] - \mathbb{E}_{x=G(z),z\sim q(z)}[e^{D(x)-1}]\Big)\end{equation}$
或
$\begin{equation}\min_G\max_{D}\Big(\mathbb{E}_{x=G(z),z\sim q(z)}[D(x)] - \mathbb{E}_{x\sim p(x)}[e^{D(x)-1}]\Big)\end{equation}$
这里的 $D(x)$ 也是线性激活。

好吧，不再举例了。其实这些 $f$ 散度本质上都差不多，看不到效果差别有多大。不过可以注意到，JS散度和Hellinger距离都是对称的、有界的，这是一个非常好的性质，以后我们会用到。

总结 #

说白了，本文主要目的还是介绍 $f$ 散度及其局部变分估算而已～所以大部分还是理论文字，GAN只占一小部分。

当然，经过一番折腾，确实可以达到“GAN生产车间”的结果（取决于你有多少种 $f$ 散度），这些新折腾出来的GAN可能并不像我们想象中的GAN，但它们确实在优化 $f$ 散度。不过，以往标准GAN（对应JS散度）有的问题，其实 $f$ 散度照样会有，因此f-GAN这个工作更大的价值在于“统一”，从生成模型的角度，并没有什么突破。

转载到请包括本文地址：https://spaces.ac.cn/archives/6016

更详细的转载事宜请参考：《科学空间FAQ》

如果您还有什么疑惑或建议，欢迎在下方评论区继续讨论。

如果您觉得本文还不错，欢迎分享/打赏本文。打赏并非要从中获得收益，而是希望知道科学空间获得了多少读者的真心关注。当然，如果你无视它，也不会影响你的阅读。再次表示欢迎和感谢！

如果您需要引用本文，请参考：

苏剑林. (Sep. 29, 2018). 《f-GAN简介：GAN模型的生产车间》[Blog post]. Retrieved from https://spaces.ac.cn/archives/6016

@online{kexuefm-6016,
        title={f-GAN简介：GAN模型的生产车间},
        author={苏剑林},
        year={2018},
        month={Sep},
        url={\url{https://spaces.ac.cn/archives/6016}},
}

分类：数学研究,信息时代标签：变分, GAN, 推断, 生成模型 59 评论

< 细水长flow之f-VAEs：Glow与VAEs的联姻 | 深度学习的互信息：无监督提取特征 >

你也许还对下面的内容感兴趣

发表你的看法

深度学习的互信息：无监督提取特征 R11; 闪念基因

October 2nd, 2018

[...]在文章《f-GAN简介：GAN模型的生产车间》中，我们介绍了一般的ff散度的局部变分推断（那篇文章的式(13)(13)）[...]

回复评论

贾耕云

October 7th, 2018

苏老师，您这篇文章引用的论文具体名称是啥呢，我想看看原论文。

回复评论

苏剑林发表于 October 7th, 2018

https://arxiv.org/abs/1606.00709

回复评论

unkown

October 8th, 2018

请问(14)到(15)怎么代入的，楼主能否写详细点，怎么突然就出来GAN的式子了，吃瓜群众表示有点不能接受

回复评论

苏剑林发表于 October 8th, 2018

很简单呀，查表JS散度对应 $f(u)=-\frac{u + 1}{2}\log \frac{1 + u}{2} + \frac{u}{2} \log u$ ，再查表对应 $g(t)=-\frac{1}{2}\log(2-e^{2t})$ ，激活函数是 $\frac{\log 2}{2}-\frac{1}{2}\log(1+e^{-x})$ ，所有东西都有了，代入 $(14)$ 不困难吧？

假设施加激活函数前的结果是 $V(x)$ ，那么 $T(x)=\frac{\log 2}{2}-\frac{1}{2}\log\left(1+e^{-V(x)}\right)=\frac{\log 2}{2} + \frac{1}{2}\log \sigma(V(x))$ ， $g(T(x))=-\frac{1}{2}\log\frac{2e^{-V(x)}}{1+e^{-V(x)}}=-\frac{\log 2}{2} - \frac{1}{2}\log \left(1-\sigma(V(x))\right)$ ，除去常数项，不就是 $(15)$ ？

自己动手算一下就行了～

回复评论

unkown 发表于 October 8th, 2018

谢谢指教^_^

回复评论

苏剑林发表于 October 8th, 2018

做了些微调，原来的参考表格有些小毛病。

回复评论

test123 发表于 March 16th, 2021

想请教一下这里的

$\begin{equation} \frac{1}{2}\log \left(1-\sigma(V(x))\right) 是因为 \frac{1}{2}\log \left(\sigma(V(x))\right) \end{equation}$ 等价的关系得到公式（15）

回复评论

苏剑林发表于 March 17th, 2021

啥意思？

回复评论

test123 发表于 March 17th, 2021

我的意思是g(T(X))算出来的结果是
$\begin{equation} \log (1-\sigma(V(x)) \end{equation}$
而T(X)的计算结果
$\begin{equation} \log(\sigma(V(x)) \end{equation}$
这两个也不相等。

回复评论

苏剑林发表于 March 17th, 2021

很抱歉，我还是不知道你在说什么。是不相等然后呢？把问题表达清楚有这么难吗？

回复评论

test123 发表于 March 17th, 2021

我的意思，既然不相等，怎么由14式推导到15式？或者说14式15式之间只是符号进行了转换，而不是由14式推导出15式？

苏剑林发表于 March 17th, 2021

@test123|comment-15814

所以，为啥现在才能把问题给说清楚呢......

我没说 $(14)$ 式推出 $(15)$ 式，我说的是从 $(13)$ 式出发，如果你假设 $p(x)$ 是真实样本， $q(z)$ 是伪造样本，那么就得到 $(14)$ ，反过来就得到 $(15)$ 。因为f散度并不一定是对称的，所以一般都能导出两种略有不同的对抗形式。

龙行发表于 November 22nd, 2023

苏神，我斗胆问一下，带入JS散度后发现 $D(X)$ 是用来逼近 $1/(1+e^{-V(x)})$ 的，但是带入Hellinger距离和KL散度后发现 $D(X)$ 是用来直接拟合 $V(x)$ 的，为什么会有这种区别，或者说 $D(X)$ 用来逼近 $1/(1+e^{-V(x)})$ 为啥合理？

回复评论

求知者

October 12th, 2018

从（8）到（10）式的过度不太理解，为什么要令 $t=f'(\xi)$ ， $\begin{equation}g(t) = - f(\xi) + f'(\xi) \xi\end{equation}$

回复评论

苏剑林发表于 October 12th, 2018

无所谓，你还是用回 $\xi$ 作为参数也可以呀。我这只是跟主流的凸对偶理论对应起来罢了。

回复评论

Devymex 发表于 October 6th, 2019

请问能否详细说明一下表格中的g(t)的表达式是怎么得到的？

回复评论

苏剑林发表于 October 7th, 2019

$g(t)$ 就是从 $t=f'(\xi)$ 中解出 $\xi$ 然后代入 $(9)$ 式，本文已经说得很清楚了。

回复评论

xiecl

October 30th, 2018

请问一下：第一个表格中的 $Pearson$ 和 $Neyman$ 的计算公式和对应的 $f$ 是不是倒过来了，还是我算错了

回复评论

苏剑林发表于 October 30th, 2018

检查了一下，确实调过来了，感谢指出。

回复评论

Intro to GAN R11; Tingkai's Blog

November 22nd, 2018

[...]f-GAN简介：GAN模型的生产车间[...]

回复评论

jamesp

December 3rd, 2018

基于copula的散度估计博主有了解吗，诸多问题不懂啊

回复评论

myeag

December 23rd, 2018

原论文里面导出 (12) 应该是额外用了一步琴生不等式? 博主有空补充下?

回复评论

苏剑林发表于 December 24th, 2018

$(4)\sim (11)$ 式都是导出 $(12)$ 式的基础，已经足够了，何来詹森不等式？

回复评论

myeag 发表于 December 24th, 2018

具体来说, 原论文中把 max(supremum)从积分里面提出去用了一次. 你的 (12) 看起来是省去了这一步?

回复评论

苏剑林发表于 December 25th, 2018

我不知道你有没有看 $(4)\sim (11)$ ，它几乎是 $(12)$ 的一个严格、完整的证明了。

回复评论

myeag 发表于 December 25th, 2018

ok, 看起来博主是在 (3) 中把 max 提出去了. 我之前确实是看错了. 感谢您的回复.

回复评论

苏剑林发表于 December 25th, 2018

$(2),(3)$ 只是对散度的基本性质进行证明，跟max没关系。后面的 $(4)\sim (12)$ 是将散度转化到对偶空间，最终结果是 $(12)$ 式，理论基础是 $(6)$ 式，跟詹森不等式没有直接关系。

回复评论

zhb 发表于 February 28th, 2024

原论文里公式 4 写的是
$\begin{aligned} D_f(P\|Q) & = \int_{x} q(x) \max_t \left\{t\frac{p(x)}{q(x)} - f^*(t)\right\} \mathrm{d}x \\ & \geq \max_T \int_{x} q(x) \left(T(x)\frac{p(x)}{q(x)} - f^*(T(x))\right) \mathrm{d}x, \end{aligned}$
作者说利用琴生不等式，期望和 supremum 交换次序后得到大于等于号。

我赞成博主的观点，这里可以是严格的等于号，不需要变成大于等于号，只要能证明
$\int_x \max_t h(t, x) \mathrm{d}x = \max_T \int_x h(T(x), x) \mathrm{d}x$
这个等式成立即可。由于对于任意的 $T$ ，在任意的 $x$ 上都有 $h(T(x), x) \leq \max_t h(t, x)$ ，因此
$\int_x h(T(x), x) \leq \int_x \max_x h(t, x) \mathrm{d}x,$
而且等于号可以取到，所以 $\int_x \max_t h(t, x) \mathrm{d}x = \max_T \int_x h(T(x), x) \mathrm{d}x$ 成立。

回复评论

苏剑林发表于 February 29th, 2024

谢谢。要证明确实如此，不过我感觉这个可交互性似乎算是比较显然的了，毕竟不是min-max的那种可交换性比较复杂。

回复评论

maosheng

April 2nd, 2019

苏神您好，请问一下激活函数的问题。基于三楼的评论，计算T(x)时用到了激活函数，得到g(T(x))之后又说D(x)被sigma函数激活，应该如何理解？

回复评论

苏剑林发表于 April 3rd, 2019

你对比 $(14)$ 和 $(16)$ ，我说 $(16)$ 中 $D$ 用 $\sigma(\cdot)$ 激活，不就相当于 $(14)$ 中 $T$ 用 $\log \sigma(\cdot)$ 了吗？变成 $(16)$ 是因为通常来说 $(16)$ 更为大家熟悉，而本质形式是 $(14)$ 或者 $(15)$ 。

回复评论

maosheng 发表于 April 3rd, 2019

谢谢您的回复

回复评论

kingdeewang

April 3rd, 2019

苏神，关于激活函数。比如ulogu的激活函数为x，有没有详细推导公式，或者相关说明，为什么这么选择？

回复评论

苏剑林发表于 April 3rd, 2019

类似这里@苏剑林|comment-9908的步骤，自己好好代入算一算。

回复评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

f-GAN简介：GAN模型的生产车间

局部变分 #

f散度 #

凸函数 #

凸共轭 #

f-GAN #

f散度估计 #

GAN批发 #

总结 #

你也许还对下面的内容感兴趣

内容速览

智能搜索

热门标签

随机文章

最近评论

友情链接