包含关键字算子与线性常微分方程的文章

7 Oct

深度学习中的Lipschitz约束：泛化与生成模型

By 苏剑林 | 2018-10-07 | 154085位读者 | 引用

前言：去年写过一篇WGAN-GP的入门读物《互怼的艺术：从零直达WGAN-GP》，提到通过梯度惩罚来为WGAN的判别器增加Lipschitz约束（下面简称“L约束”）。前几天遐想时再次想到了WGAN，总觉得WGAN的梯度惩罚不够优雅，后来也听说WGAN在条件生成时很难搞（因为不同类的随机插值就开始乱了...），所以就想琢磨一下能不能搞出个新的方案来给判别器增加L约束。

闭门造车想了几天，然后发现想出来的东西别人都已经做了，果然是只有你想不到，没有别人做不到。主要包含在这两篇论文中：《Spectral Norm Regularization for Improving the Generalizability of Deep Learning》和《Spectral Normalization for Generative Adversarial Networks》。

所以这篇文章就按照自己的理解思路，对L约束相关的内容进行简单的介绍。注意本文的主题是L约束，并不只是WGAN。它可以用在生成模型中，也可以用在一般的监督学习中。

L约束与泛化

扰动敏感

记输入为$x$，输出为$y$，模型为$f$，模型参数为$w$，记为
$$\begin{equation}y = f_w(x)\end{equation}$$
很多时候，我们希望得到一个“稳健”的模型。何为稳健？一般来说有两种含义，一是对于参数扰动的稳定性，比如模型变成了$f_{w+\Delta w}(x)$后是否还能达到相近的效果？如果在动力学系统中，还要考虑模型最终是否能恢复到$f_w(x)$；二是对于输入扰动的稳定性，比如输入从$x$变成了$x+\Delta x$后，$f_w(x+\Delta x)$是否能给出相近的预测结果。读者或许已经听说过深度学习模型存在“对抗攻击样本”，比如图片只改变一个像素就给出完全不一样的分类结果，这就是模型对输入过于敏感的案例。

点击阅读全文...

分类：信息时代标签：深度学习, GAN, 生成模型, 泛化阅读全文 46 评论

12 Jan

CoSENT（二）：特征式匹配与交互式匹配有多大差距？

By 苏剑林 | 2022-01-12 | 92350位读者 | 引用

一般来说，文本匹配有交互式（Interaction-based）和特征式（Representation-based）两种实现方案，其中交互式是指将两个文本拼接在一起当成单文本进行分类，而特征式则是指两个句子分别由编码器编码为句向量后再做简单的融合处理（算cos值或者接一个浅层网络）。通常的结论是，交互式由于使得两个文本能够进行充分的比较，所以它准确性通常较好，但明显的缺点是在检索场景的效率较差；而特征式则可以提前计算并缓存好句向量，所以它有着较高的效率，但由于句子间的交互程度较浅，所以通常效果不如交互式。

上一篇文章笔者介绍了CoSENT，它本质上也是一种特征式方案，并且相比以往的特征式方案效果有所提高。于是笔者的好胜心就上来了：CoSENT能比得过交互式吗？特征式相比交互式的差距有多远呢？本文就来做个比较。

自动阈值

在文章《CoSENT（一）：比Sentence-BERT更有效的句向量方案》中，我们评测CoSENT所用的指标是Spearman系数，它是一个只依赖于预测结果相对顺序的指标，不依赖于阈值，比较适合检索场景的评测。但如果评测指标是accuracy或者F1这些分类指标，则必须确定一个阈值，将预测结果大于这个数的预测结果视为正、小于则为负，然后才能计算指标。在二分类的场景，我们用二分法就可以有效地确定这个阈值。

点击阅读全文...

分类：信息时代标签：语义, 语义相似度, 对比学习阅读全文 40 评论

12 Jan

Transformer升级之路：7、长度外推性与局部注意力

By 苏剑林 | 2023-01-12 | 93534位读者 | 引用

对于Transformer模型来说，其长度的外推性是我们一直在追求的良好性质，它是指我们在短序列上训练的模型，能否不用微调地用到长序列上并依然保持不错的效果。之所以追求长度外推性，一方面是理论的完备性，觉得这是一个理想模型应当具备的性质，另一方面也是训练的实用性，允许我们以较低成本（在较短序列上）训练出一个长序列可用的模型。

下面我们来分析一下加强Transformer长度外推性的关键思路，并由此给出一个“超强基线”方案，然后我们带着这个“超强基线”来分析一些相关的研究工作。

思维误区

第一篇明确研究Transformer长度外推性的工作应该是ALIBI，出自2021年中期，距今也不算太久。为什么这么晚（相比Transformer首次发表的2017年）才有人专门做这个课题呢？估计是因为我们长期以来，都想当然地认为Transformer的长度外推性是位置编码的问题，找到更好的位置编码就行了。

点击阅读全文...

分类：信息时代标签：语言模型, attention, 位置编码, 外推阅读全文 43 评论

13 May

缓存与效果的极限拉扯：从MHA、MQA、GQA到MLA

By 苏剑林 | 2024-05-13 | 83680位读者 | 引用

前几天，幻方发布的DeepSeek-V2引起了大家的热烈讨论。首先，最让人哗然的是1块钱100万token的价格，普遍比现有的各种竞品API便宜了两个数量级，以至于有人调侃“这个价格哪怕它输出乱码，我也会认为这个乱码是一种艺术”；其次，从模型的技术报告看，如此便宜的价格背后的关键技术之一是它新提出的MLA（Multi-head Latent Attention），这是对GQA的改进，据说能比GQA更省更好，也引起了读者的广泛关注。

接下来，本文将跟大家一起梳理一下从MHA、MQA、GQA到MLA的演变历程，并着重介绍一下MLA的设计思路。

MHA

MHA（Multi-Head Attention），也就是多头注意力，是开山之作《Attention is all you need》所提出的一种Attention形式，可以说它是当前主流LLM的基础工作。在数学上，多头注意力MHA等价于多个独立的单头注意力的拼接，假设输入的（行）向量序列为$\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_l$，其中$\boldsymbol{x}_i\in\mathbb{R}^d$，那么MHA可以形式地记为

点击阅读全文...

分类：信息时代标签：优化, 语言模型, 生成模型, attention 阅读全文 92 评论

16 Aug

电脑修好了，Blog正常更新

By 苏剑林 | 2009-08-16 | 19132位读者 | 引用

前两天电脑被我随便设置弄“坏”了，昨天折腾了一整天，没有办法，今天送到专卖店修理，不到三分钟，OK！.....

病症：

电脑能够启动，但是启动前那一声尖锐的“嘟”不见了，鼠标、键盘都不亮，显示器无信号。总而言之，就是主机仿佛停止了与外界的一切联系。

点击阅读全文...

分类：生活/情感标签：网站, 电脑, 故障阅读全文 1 评论

28 Feb

【问答】为什么绿色星星非常罕见呢?

By 苏剑林 | 2010-02-28 | 28991位读者 | 引用

问题:
为什么绿色星星非常罕见呢?

例如绿星的有天秤座的氐宿四，2.61等，以其温度來說，应该是蓝白色，但往往让人看成綠色。

整理自：http://www.astronomy.com.cn/bbs/thread-13918-2-1.html

点击阅读全文...

分类：问题百科标签：恒星, 光谱, 问答阅读全文抢沙发

26 Dec

体积与阿达马不等式

By 苏剑林 | 2013-12-26 | 37711位读者 | 引用

阿达马不等式
设有$n$阶实矩阵$\boldsymbol{A}=(a_{ij})_{n\times n}$，那么它的行列式满足阿达马(Hadamard)不等式
$$\begin{equation}
\left(\det \boldsymbol{A}\right)^2 \leq \prod\limits_{i=1}^{n}\left(a_{1i}^2+a_{2i}^2+\dots+a_{ni}^2\right)
\end{equation}$$

这是阿达马在1893年首先发表的。根据体积就是行列式的说法，上述不等式具有相当明显的几何意义。当$n=2$时，它就是说平行四边形的面积不大于两边长的乘积；当$n=3$时，它就是说平行六面体的体积不大于三条棱长的乘积；高维可以类比。这些结论在几何中几乎都是“显然成立”的东西。因此很难理解为什么这个不等式在1893年才被发现。当然，代数不会接受如此笼统的说法，它需要严格的证明。

点击阅读全文...

分类：数学研究标签：不等式, 几何, 矩阵, 行列式阅读全文 2 评论

19 Oct

【理解黎曼几何】6. 曲率的计数与计算(Python)

By 苏剑林 | 2016-10-19 | 54891位读者 | 引用

曲率的独立分量

黎曼曲率张量是一个非常重要的张量，当且仅当它全部分量为0时，空间才是平直的。它也出现在爱因斯坦的场方程中。总而言之，只要涉及到黎曼几何，黎曼曲率张量就必然是核心内容。

已经看到，黎曼曲率张量有4个指标，这也意味着它有$n^4$个分量，$n$是空间的维数。那么在2、3、4维空间中，它就有16、81、256个分量了，可见，要计算它，是一件相当痛苦的事情。幸好，这个张量有很多的对称性质，使得独立分量的数目大大减少，我们来分析这一点。

首先我们来导出黎曼曲率张量的一些对称性质，这部分内容是跟经典教科书是一致的。定义
$$R_{\mu\alpha\beta\gamma}=g_{\mu\nu}R^{\nu}_{\alpha\beta\gamma} \tag{50} $$
定义这个量的原因，要谈及逆变张量和协变张量的区别，我们这里主要关心几何观，因此略过对张量的详细分析。这个量被称为完全协变的黎曼曲率张量，有时候也直接叫做黎曼曲率张量，只要不至于混淆，一般不做区分。通过略微冗长的代数运算（在一般的微分几何、黎曼几何或者广义相对论教材中都有），可以得到
$$\begin{aligned}&R_{\mu\alpha\beta\gamma}=-R_{\mu\alpha\gamma\beta}\\
&R_{\mu\alpha\beta\gamma}=-R_{\alpha\mu\beta\gamma}\\
&R_{\mu\alpha\beta\gamma}=R_{\beta\gamma\mu\alpha}\\
&R_{\mu\alpha\beta\gamma}+R_{\mu\beta\gamma\alpha}+R_{\mu\gamma\alpha\beta}=0
\end{aligned} \tag{51} $$

点击阅读全文...

分类：数学研究标签：几何, 曲率, python, 黎曼几何, 排列组合阅读全文 3 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

深度学习中的Lipschitz约束：泛化与生成模型

L约束与泛化

扰动敏感

CoSENT（二）：特征式匹配与交互式匹配有多大差距？

自动阈值

Transformer升级之路：7、长度外推性与局部注意力

思维误区

缓存与效果的极限拉扯：从MHA、MQA、GQA到MLA

MHA

电脑修好了，Blog正常更新

【问答】为什么绿色星星非常罕见呢?

体积与阿达马不等式

【理解黎曼几何】6. 曲率的计数与计算(Python)

曲率的独立分量

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接