包含关键字向量的文章 - 科学空间|Scientific Spaces

19 Mar

为什么需要残差？一个来自DeepNet的视角

By 苏剑林 | 2022-03-19 | 42721位读者 | 引用

在《训练1000层的Transformer究竟有什么困难？》中我们介绍了微软提出的能训练1000层Transformer的DeepNet技术。而对于DeepNet，读者一般也有两种反应，一是为此感到惊叹而点赞，另一则是觉得新瓶装旧酒没意思。出现后一种反应的读者，往往是因为DeepNet所提出的两个改进点——增大恒等路径权重和降低残差分支初始化——实在过于稀松平常，并且其他工作也出现过类似的结论，因此很难有什么新鲜感。

诚然，单从结论来看，DeepNet实在算不上多有意思，但笔者觉得，DeepNet的过程远比结论更为重要，它有意思的地方在于提供了一个简明有效的梯度量级分析思路，并可以用于分析很多相关问题，比如本文要讨论的“为什么需要残差”，它就可以给出一个比较贴近本质的答案。

增量爆炸

为什么需要残差？答案是有了残差才更好训练深层模型，这里的深层可能是百层、千层甚至万层。那么问题就变成了为什么没有残差就不容易训练深层模型呢？

点击阅读全文...

分类：信息时代标签：模型, 优化, 深度学习, 梯度阅读全文 24 评论

11 Apr

熵不变性Softmax的一个快速推导

By 苏剑林 | 2022-04-11 | 13613位读者 | 引用

在文章《从熵不变性看Attention的Scale操作》中，我们推导了一版具有熵不变性质的注意力机制：
\begin{equation}Attention(Q,K,V) = softmax\left(\frac{\kappa \log n}{d}QK^{\top}\right)V\label{eq:a}\end{equation}
可以观察到，它主要是往Softmax里边引入了长度相关的缩放因子$\log n$来实现的。原来的推导比较繁琐，并且做了较多的假设，不利于直观理解，本文为其补充一个相对简明快速的推导。

推导过程

我们可以抛开注意力机制的背景，直接设有$s_1,s_2,\cdots,s_n\in\mathbb{R}$，定义
$$p_i = \frac{e^{\lambda s_i}}{\sum\limits_{i=1}^n e^{\lambda s_i}}$$

点击阅读全文...

分类：数学研究标签：近似, 熵, attention 阅读全文 4 评论

15 Apr

GlobalPointer下的“KL散度”应该是怎样的？

By 苏剑林 | 2022-04-15 | 19405位读者 | 引用

最近有读者提到想测试一下GlobalPointer与R-Drop结合的效果，但不知道GlobalPointer下的KL散度该怎么算。像R-Drop或者虚拟对抗训练这些正则化手段，里边都需要算概率分布的KL散度，但GlobalPointer的预测结果并非一个概率分布，因此无法直接进行计算。

经过一番尝试，笔者给出了一个可用的形式，并通过简单实验验证了它的可行性，遂在此介绍笔者的分析过程。

对称散度

KL散度是关于两个概率分布的函数，它是不对称的，即$KL(p\Vert q)$通常不等于$KL(q\Vert p)$，在实际应用中，我们通常使用对称化的KL散度：
\begin{equation}D(p,q) = KL(p\Vert q) + KL(q\Vert p)\end{equation}

点击阅读全文...

分类：数学研究标签：损失函数, 对抗训练, NER, 正则化阅读全文 4 评论

20 Apr

你的语言模型有没有“无法预测的词”？

By 苏剑林 | 2022-04-20 | 15365位读者 | 引用

众所周知，分类模型通常都是先得到编码向量，然后接一个Dense层预测每个类别的概率，而预测时则是输出概率最大的类别。但大家是否想过这样一种可能：训练好的分类模型可能存在“无法预测的类别”，即不管输入是什么，都不可能预测出某个类别$k$，类别$k$永远不可能成为概率最大的那个。

当然，这种情况一般只出现在类别数远远超过编码向量维度的场景，常规的分类问题很少这么极端的。然而，我们知道语言模型本质上也是一个分类模型，它的类别数也就是词表的总大小，往往是远超过向量维度的，那么我们的语言模型是否有“无法预测的词”？（只考虑Greedy解码）

是否存在

ACL2022的论文《Low-Rank Softmax Can Have Unargmaxable Classes in Theory but Rarely in Practice》首先探究了这个问题，正如其标题所言，答案是“理论上存在但实际出现概率很小”。

点击阅读全文...

分类：信息时代标签：语言模型, 多任务阅读全文 4 评论

18 May

当BERT-whitening引入超参数：总有一款适合你

By 苏剑林 | 2022-05-18 | 27501位读者 | 引用

在《你可能不需要BERT-flow：一个线性变换媲美BERT-flow》中，笔者提出了BERT-whitening，验证了一个线性变换就能媲美当时的SOTA方法BERT-flow。此外，BERT-whitening还可以对句向量进行降维，带来更低的内存占用和更快的检索速度。然而，在《无监督语义相似度哪家强？我们做了个比较全面的评测》中我们也发现，whitening操作并非总能带来提升，有些模型本身就很贴合任务（如经过有监督训练的SimBERT），那么额外的whitening操作往往会降低效果。

为了弥补这个不足，本文提出往BERT-whitening中引入了两个超参数，通过调节这两个超参数，我们几乎可以总是获得“降维不掉点”的结果。换句话说，即便是原来加上whitening后效果会下降的任务，如今也有机会在降维的同时获得相近甚至更好的效果了。

方法概要

目前BERT-whitening的流程是：
\begin{equation}\begin{aligned}
\tilde{\boldsymbol{x}}_i =&\, (\boldsymbol{x}_i - \boldsymbol{\mu})\boldsymbol{U}\boldsymbol{\Lambda}^{-1/2} \\
\boldsymbol{\mu} =&\, \frac{1}{N}\sum\limits_{i=1}^N \boldsymbol{x}_i \\
\boldsymbol{\Sigma} =&\, \frac{1}{N}\sum\limits_{i=1}^N (\boldsymbol{x}_i - \boldsymbol{\mu})^{\top}(\boldsymbol{x}_i - \boldsymbol{\mu}) = \boldsymbol{U}\boldsymbol{\Lambda}\boldsymbol{U}^{\top} \,\,(\text{SVD分解})
\end{aligned}\end{equation}

点击阅读全文...

分类：信息时代标签：语言模型, 语义, 语义相似度阅读全文 14 评论

25 May

从重参数的角度看离散概率分布的构建

By 苏剑林 | 2022-05-25 | 12298位读者 | 引用

一般来说，神经网络的输出都是无约束的，也就是值域为$\mathbb{R}$，而为了得到有约束的输出，通常是采用加激活函数的方式。例如，如果我们想要输出一个概率分布来代表每个类别的概率，那么通常在最后加上Softmax作为激活函数。那么一个紧接着的疑问就是：除了Softmax，还有什么别的操作能生成一个概率分布吗？

在《漫谈重参数：从正态分布到Gumbel Softmax》中，我们介绍了Softmax的重参数操作，本文将这个过程反过来，即先定义重参数操作，然后去反推对应的概率分布，从而得到一个理解概率分布构建的新视角。

问题定义

假设模型的输出向量为$\boldsymbol{\mu}=[\mu_1,\cdots,\mu_n]\in\mathbb{R}^n$，不失一般性，这里假设$\mu_i$两两不等。我们希望通过某个变换$\mathcal{T}$将$\boldsymbol{\mu}$转换为$n$元概率分布$\boldsymbol{p}=[p_1,\cdots,p_n]$，并保持一定的性质。比如，最基本的要求是：
\begin{equation}{\color{red}1.}\,p_i\geq 0 \qquad {\color{red}2.}\,\sum_i p_i = 1 \qquad {\color{red}3.}\,p_i \geq p_j \Leftrightarrow \mu_i \geq \mu_j\end{equation}

点击阅读全文...

分类：数学研究标签：概率, 重参数阅读全文 2 评论

1 Jun

如何训练你的准确率？

By 苏剑林 | 2022-06-01 | 19935位读者 | 引用

最近Arxiv上的一篇论文《EXACT: How to Train Your Accuracy》引起了笔者的兴趣，顾名思义这是介绍如何直接以准确率为训练目标来训练模型的。正好笔者之前也对此有过一些分析，如《函数光滑化杂谈：不可导函数的可导逼近》、《再谈类别不平衡问题：调节权重与魔改Loss的对比联系》等，所以带着之前的研究经验很快完成了论文的阅读，写下了这篇总结，并附上了最近关于这个主题的一些新思考。

失实的例子

论文开头指出，我们平时用的分类损失函数是交叉熵或者像SVM中的Hinge Loss，这两个损失均不能很好地拟合最终的评价指标准确率。为了说明这一点，论文举了一个很简单的例子：假设数据只有$\{(-0.25,-1),(0,-1),(0.25,,1)\}$三个点，$-1$和$1$分别代表负类和正类，待拟合模型是$f(x)=x-b$，$b$是参数，我们希望通过$\text{sign}(f(x))$来预测类别。如果用“sigmoid + 交叉熵”，那么损失函数就是$-\log \frac{1}{1+e^{-l \cdot f(x)}}$，$(x,l)$代表一对标签数据；如果用Hinge Loss，则是$\max(0, 1 - l\cdot f(x))$。

点击阅读全文...

分类：信息时代标签：概率, 优化, 损失函数阅读全文 6 评论

7 Jun

相对位置编码Transformer的一个理论缺陷与对策

By 苏剑林 | 2022-06-07 | 46775位读者 | 引用

位置编码是Transformer中很重要的一环，在《让研究人员绞尽脑汁的Transformer位置编码》中我们就总结了一些常见的位置编码设计。大体上，我们将Transformer的位置编码分为“绝对位置编码”和“相对位置编码”两类，其中“相对位置编码”在众多NLP/CV的实验表现相对来说更加好些。

然而，我们可以发现，目前相对位置编码几乎都是在Softmax之前的Attention矩阵上进行操作的，这种施加方式实际上都存在一个理论上的缺陷，使得Transformer无法成为“万能拟合器”。本文就来分析这个问题，并探讨一些解决方案。

简单探针

顾名思义，位置编码就是用来给模型补充上位置信息的。那么，如何判断一个模型有没有足够的识别位置的能力呢？笔者之前曾构思过一个简单的探针实验：

对于一个有识别位置能力的模型，应该有能力准确实现如下映射 \begin{equation}\begin{array}{lc} \text{输入：} & [0, 0, \cdots, 0, 0] \\ & \downarrow\\ \text{输出：} & [1, 2, \cdots, n-1, n] \end{array}\end{equation}

点击阅读全文...

分类：信息时代标签：语言模型, attention, 位置编码阅读全文 28 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

为什么需要残差？一个来自DeepNet的视角

增量爆炸

熵不变性Softmax的一个快速推导

推导过程

GlobalPointer下的“KL散度”应该是怎样的？

对称散度

你的语言模型有没有“无法预测的词”？

是否存在

当BERT-whitening引入超参数：总有一款适合你

方法概要

从重参数的角度看离散概率分布的构建

问题定义

如何训练你的准确率？

失实的例子

相对位置编码Transformer的一个理论缺陷与对策

简单探针

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接