包含关键字最大值函数的文章 - 科学空间|Scientific Spaces

1 Jun

如何训练你的准确率？

By 苏剑林 | 2022-06-01 | 26600位读者 | 引用

最近Arxiv上的一篇论文《EXACT: How to Train Your Accuracy》引起了笔者的兴趣，顾名思义这是介绍如何直接以准确率为训练目标来训练模型的。正好笔者之前也对此有过一些分析，如《函数光滑化杂谈：不可导函数的可导逼近》、《再谈类别不平衡问题：调节权重与魔改Loss的对比联系》等，所以带着之前的研究经验很快完成了论文的阅读，写下了这篇总结，并附上了最近关于这个主题的一些新思考。

失实的例子

论文开头指出，我们平时用的分类损失函数是交叉熵或者像SVM中的Hinge Loss，这两个损失均不能很好地拟合最终的评价指标准确率。为了说明这一点，论文举了一个很简单的例子：假设数据只有$\{(-0.25,-1),(0,-1),(0.25,,1)\}$三个点，$-1$和$1$分别代表负类和正类，待拟合模型是$f(x)=x-b$，$b$是参数，我们希望通过$\text{sign}(f(x))$来预测类别。如果用“sigmoid + 交叉熵”，那么损失函数就是$-\log \frac{1}{1+e^{-l \cdot f(x)}}$，$(x,l)$代表一对标签数据；如果用Hinge Loss，则是$\max(0, 1 - l\cdot f(x))$。

点击阅读全文...

分类：信息时代标签：概率, 优化, 损失函数阅读全文 6 评论

7 Jun

相对位置编码Transformer的一个理论缺陷与对策

By 苏剑林 | 2022-06-07 | 92899位读者 | 引用

位置编码是Transformer中很重要的一环，在《让研究人员绞尽脑汁的Transformer位置编码》中我们就总结了一些常见的位置编码设计。大体上，我们将Transformer的位置编码分为“绝对位置编码”和“相对位置编码”两类，其中“相对位置编码”在众多NLP/CV的实验表现相对来说更加好些。

然而，我们可以发现，目前相对位置编码几乎都是在Softmax之前的Attention矩阵上进行操作的，这种施加方式实际上都存在一个理论上的缺陷，使得Transformer无法成为“万能拟合器”。本文就来分析这个问题，并探讨一些解决方案。

简单探针

顾名思义，位置编码就是用来给模型补充上位置信息的。那么，如何判断一个模型有没有足够的识别位置的能力呢？笔者之前曾构思过一个简单的探针实验：

对于一个有识别位置能力的模型，应该有能力准确实现如下映射 \begin{equation}\begin{array}{lc} \text{输入：} & [0, 0, \cdots, 0, 0] \\ & \downarrow\\ \text{输出：} & [1, 2, \cdots, n-1, n] \end{array}\end{equation}

点击阅读全文...

分类：信息时代标签：语言模型, attention, 位置编码阅读全文 30 评论

19 Jul

生成扩散模型漫谈（三）：DDPM = 贝叶斯 + 去噪

By 苏剑林 | 2022-07-19 | 135505位读者 | 引用

到目前为止，笔者给出了生成扩散模型DDPM的两种推导，分别是《生成扩散模型漫谈（一）：DDPM = 拆楼 + 建楼》中的通俗类比方案和《生成扩散模型漫谈（二）：DDPM = 自回归式VAE》中的变分自编码器方案。两种方案可谓各有特点，前者更为直白易懂，但无法做更多的理论延伸和定量理解，后者理论分析上更加完备一些，但稍显形式化，启发性不足。

贝叶斯定理（来自维基百科）

在这篇文章中，我们再分享DDPM的一种推导，它主要利用到了贝叶斯定理来简化计算，整个过程的“推敲”味道颇浓，很有启发性。不仅如此，它还跟我们后面将要介绍的DDIM模型有着紧密的联系。

点击阅读全文...

分类：信息时代标签：概率, 生成模型, DDPM, 扩散阅读全文 98 评论

6 Jul

生成扩散模型漫谈（二）：DDPM = 自回归式VAE

By 苏剑林 | 2022-07-06 | 125122位读者 | 引用

在文章《生成扩散模型漫谈（一）：DDPM = 拆楼 + 建楼》中，我们为生成扩散模型DDPM构建了“拆楼-建楼”的通俗类比，并且借助该类比完整地推导了生成扩散模型DDPM的理论形式。在该文章中，我们还指出DDPM本质上已经不是传统的扩散模型了，它更多的是一个变分自编码器VAE，实际上DDPM的原论文中也是将它按照VAE的思路进行推导的。

所以，本文就从VAE的角度来重新介绍一版DDPM，同时分享一下自己的Keras实现代码和实践经验。

Github地址：https://github.com/bojone/Keras-DDPM

多步突破

在传统的VAE中，编码过程和生成过程都是一步到位的：
\begin{equation}\text{编码:}\,\,x\to z\,,\quad \text{生成:}\,\,z\to x\end{equation}

点击阅读全文...

分类：信息时代标签：vae, 生成模型, DDPM, 扩散阅读全文 68 评论

27 Jul

生成扩散模型漫谈（四）：DDIM = 高观点DDPM

By 苏剑林 | 2022-07-27 | 203549位读者 | 引用

相信很多读者都听说过甚至读过克莱因的《高观点下的初等数学》这套书，顾名思义，这是在学到了更深入、更完备的数学知识后，从更高的视角重新审视过往学过的初等数学，以得到更全面的认知，甚至达到温故而知新的效果。类似的书籍还有很多，比如《重温微积分》、《复分析：可视化方法》等。

回到扩散模型，目前我们已经通过三篇文章从不同视角去解读了DDPM，那么它是否也存在一个更高的理解视角，让我们能从中得到新的收获呢？当然有，《Denoising Diffusion Implicit Models》介绍的DDIM模型就是经典的案例，本文一起来欣赏它。

思路分析

在《生成扩散模型漫谈（三）：DDPM = 贝叶斯 + 去噪》中，我们提到过该文章所介绍的推导跟DDIM紧密相关。具体来说，文章的推导路线可以简单归纳如下：
\begin{equation}p(\boldsymbol{x}_t|\boldsymbol{x}_{t-1})\xrightarrow{\text{推导}}p(\boldsymbol{x}_t|\boldsymbol{x}_0)\xrightarrow{\text{推导}}p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t, \boldsymbol{x}_0)\xrightarrow{\text{近似}}p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t)\end{equation}

点击阅读全文...

分类：信息时代标签：微分方程, 生成模型, DDPM, 扩散阅读全文 136 评论

12 Aug

生成扩散模型漫谈（七）：最优扩散方差估计（上）

By 苏剑林 | 2022-08-12 | 74508位读者 | 引用

对于生成扩散模型来说，一个很关键的问题是生成过程的方差应该怎么选择，因为不同的方差会明显影响生成效果。

在《生成扩散模型漫谈（二）：DDPM = 自回归式VAE》我们提到，DDPM分别假设数据服从两种特殊分布推出了两个可用的结果；《生成扩散模型漫谈（四）：DDIM = 高观点DDPM》中的DDIM则调整了生成过程，将方差变为超参数，甚至允许零方差生成，但方差为0的DDIM的生成效果普遍差于方差非0的DDPM；而《生成扩散模型漫谈（五）：一般框架之SDE篇》显示前、反向SDE的方差应该是一致的，但这原则上在$\Delta t\to 0$时才成立；《Improved Denoising Diffusion Probabilistic Models》则提出将它视为可训练参数来学习，但会增加训练难度。

所以，生成过程的方差究竟该怎么设置呢？今年的两篇论文《Analytic-DPM: an Analytic Estimate of the Optimal Reverse Variance in Diffusion Probabilistic Models》和《Estimating the Optimal Covariance with Imperfect Mean in Diffusion Probabilistic Models》算是给这个问题提供了比较完美的答案。接下来我们一起欣赏一下它们的结果。

点击阅读全文...

分类：信息时代标签：优化, 生成模型, DDPM, 扩散阅读全文 41 评论

3 Aug

生成扩散模型漫谈（五）：一般框架之SDE篇

By 苏剑林 | 2022-08-03 | 185112位读者 | 引用

在写生成扩散模型的第一篇文章时，就有读者在评论区推荐了宋飏博士的论文《Score-Based Generative Modeling through Stochastic Differential Equations》，可以说该论文构建了一个相当一般化的生成扩散模型理论框架，将DDPM、SDE、ODE等诸多结果联系了起来。诚然，这是一篇好论文，但并不是一篇适合初学者的论文，里边直接用到了随机微分方程（SDE）、Fokker-Planck方程、得分匹配等大量结果，上手难度还是颇大的。

不过，在经过了前四篇文章的积累后，现在我们可以尝试去学习一下这篇论文了。在接下来的文章中，笔者将尝试从尽可能少的理论基础出发，尽量复现原论文中的推导结果。

随机微分

在DDPM中，扩散过程被划分为了固定的$T$步，还是用《生成扩散模型漫谈（一）：DDPM = 拆楼 + 建楼》的类比来说，就是“拆楼”和“建楼”都被事先划分为了$T$步，这个划分有着相当大的人为性。事实上，真实的“拆”、“建”过程应该是没有刻意划分的步骤的，我们可以将它们理解为一个在时间上连续的变换过程，可以用随机微分方程（Stochastic Differential Equation，SDE）来描述。

点击阅读全文...

分类：信息时代标签：微分方程, 生成模型, DDPM, 扩散阅读全文 157 评论

7 Dec

从局部到全局：语义相似度的测地线距离

By 苏剑林 | 2022-12-07 | 30670位读者 | 引用

前段时间在最近的一篇论文《Unsupervised Opinion Summarization Using Approximate Geodesics》中学到了一个新的概念，叫做“测地线距离（Geodesic Distance）”，感觉有点意思，特来跟大家分享一下。

对笔者来说，“新”的不是测地线距离概念本身（以前学黎曼几何的时候就已经接触过了），而是语义相似度领域原来也可以巧妙地构造出测地线距离出来，并在某些场景下发挥作用。如果乐意，我们还可以说这是“流形上的语义相似度”，是不是瞬间就高级了不少？

论文梗概

首先，我们简单总结一下原论文的主要内容。顾名思义，论文的主题是摘要，通常我们的无监督摘要是这样做的：假设文章由$n$个句子$t_1,t_2,\cdots,t_n$组成，给每个句子设计打分函数$s(t_i)$（经典的是tf-idf及其变体），然后挑出打分最大的若干个句子作为摘要。当然，论文做的不是简单的摘要，而是“Opinion Summarization”，这个“Opinion”，我们可以理解为实现给定的主题或者中心$c$，摘要应该倾向于抽取出与$c$相关的句子，所以打分函数应该还应该跟$c$有关，即$s(t_i, c)$。

点击阅读全文...

分类：信息时代标签：黎曼几何, 语义, 语义相似度阅读全文 11 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

如何训练你的准确率？

失实的例子

相对位置编码Transformer的一个理论缺陷与对策

简单探针

生成扩散模型漫谈（三）：DDPM = 贝叶斯 + 去噪

生成扩散模型漫谈（二）：DDPM = 自回归式VAE

多步突破

生成扩散模型漫谈（四）：DDIM = 高观点DDPM

思路分析

生成扩散模型漫谈（七）：最优扩散方差估计（上）

生成扩散模型漫谈（五）：一般框架之SDE篇

随机微分

从局部到全局：语义相似度的测地线距离

论文梗概

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接