包含关键字神经辐射场的文章 - 科学空间|Scientific Spaces

10 Sep

曾被嫌弃的预训练任务NSP，做出了优秀的Zero Shot效果

By 苏剑林 | 2021-09-10 | 53869位读者 | 引用

在五花八门的预训练任务设计中，NSP通常认为是比较糟糕的一种，因为它难度较低，加入到预训练中并没有使下游任务微调时有明显受益，甚至RoBERTa的论文显示它会带来负面效果。所以，后续的预训练工作一般有两种选择：一是像RoBERTa一样干脆去掉NSP任务，二是像ALBERT一样想办法提高NSP的难度。也就是说，一直以来NSP都是比较“让人嫌弃”的。

不过，反转来了，NSP可能要“翻身”了。最近的一篇论文《NSP-BERT: A Prompt-based Zero-Shot Learner Through an Original Pre-training Task--Next Sentence Prediction》（下面简称NSP-BERT）显示NSP居然也可以做到非常不错的Zero Shot效果！这又是一个基于模版（Prompt）的Few/Zero Shot的经典案例，只不过这一次的主角是NSP。

背景回顾

曾经我们认为预训练纯粹就是预训练，它只是为下游任务的训练提供更好的初始化，像BERT的预训练任务有MLM（Masked Language Model和NSP（Next Sentence Prediction），在相当长的一段时间内，大家都不关心这两个预训练任务本身，而只是专注于如何通过微调来使得下游任务获得更好的性能。哪怕是T5将模型参数训练到了110亿，走的依然是“预训练+微调”这一路线。

点击阅读全文...

分类：信息时代标签：无监督, 语言模型, NLP, 模版阅读全文 8 评论

22 Oct

CAN：借助先验分布提升分类性能的简单后处理技巧

By 苏剑林 | 2021-10-22 | 143851位读者 | 引用

顾名思义，本文将会介绍一种用于分类问题的后处理技巧——CAN（Classification with Alternating Normalization），出自论文《When in Doubt: Improving Classification Performance with Alternating Normalization》。经过笔者的实测，CAN确实多数情况下能提升多分类问题的效果，而且几乎没有增加预测成本，因为它仅仅是对预测结果的简单重新归一化操作。

有趣的是，其实CAN的思想是非常朴素的，朴素到每个人在生活中都应该用过同样的思想。然而，CAN的论文却没有很好地说清楚这个思想，只是纯粹形式化地介绍和实验这个方法。本文的分享中，将会尽量将算法思想介绍清楚。

思想例子

假设有一个二分类问题，模型对于输入$a$给出的预测结果是$p^{(a)} = [0.05, 0.95]$，那么我们就可以给出预测类别为$1$；接下来，对于输入$b$，模型给出的预测结果是$p^{(b)}=[0.5,0.5]$，这时候处于最不确定的状态，我们也不知道输出哪个类别好。

点击阅读全文...

分类：信息时代标签：模型, 概率, 分析, 技巧阅读全文 49 评论

11 Dec

输入梯度惩罚与参数梯度惩罚的一个不等式

By 苏剑林 | 2021-12-11 | 23103位读者 | 引用

在本博客中，已经多次讨论过梯度惩罚相关内容了。从形式上来看，梯度惩罚项分为两种，一种是关于输入的梯度惩罚$\Vert\nabla_{\boldsymbol{x}} f(\boldsymbol{x};\boldsymbol{\theta})\Vert^2$，在《对抗训练浅谈：意义、方法和思考（附Keras实现）》、《泛化性乱弹：从随机噪声、梯度惩罚到虚拟对抗训练》等文章中我们讨论过，另一种则是关于参数的梯度惩罚$\Vert\nabla_{\boldsymbol{\theta}} f(\boldsymbol{x};\boldsymbol{\theta})\Vert^2$，在《从动力学角度看优化算法（五）：为什么学习率不宜过小？》、《我们真的需要把训练集的损失降低到零吗？》等文章我们讨论过。

在相关文章中，两种梯度惩罚都声称有着提高模型泛化性能的能力，那么两者有没有什么联系呢？笔者从Google最近的一篇论文《The Geometric Occam's Razor Implicit in Deep Learning》学习到了两者的一个不等式，算是部分地回答了这个问题，并且感觉以后可能用得上，在此做个笔记。

最终结果

假设有一个$l$层的MLP模型，记为
\begin{equation}\boldsymbol{h}^{(t+1)} = g^{(t)}(\boldsymbol{W}^{(t)}\boldsymbol{h}^{(t)}+\boldsymbol{b}^{(t)})\end{equation}
其中$g^{(t)}$是当前层的激活函数，$t\in\{1,2,\cdots,l\}$，并记$\boldsymbol{h}^{(1)}$为$\boldsymbol{x}$，即模型的原始输入，为了方便后面的推导，我们记$\boldsymbol{z}^{(t+1)}=\boldsymbol{W}^{(t)}\boldsymbol{h}^{(t)}+\boldsymbol{b}^{(t)}$；参数全体为$\boldsymbol{\theta}=\{\boldsymbol{W}^{(1)},\boldsymbol{b}^{(1)},\boldsymbol{W}^{(2)},\boldsymbol{b}^{(2)},\cdots,\boldsymbol{W}^{(l)},\boldsymbol{b}^{(l)}\}$。设$f$是$\boldsymbol{h}^{(l+1)}$的任意标量函数，那么成立不等式
\begin{equation}\Vert\nabla_{\boldsymbol{x}} f\Vert^2\left(\frac{1 + \Vert \boldsymbol{h}^{(1)}\Vert^2}{\Vert\boldsymbol{W}^{(1)}\Vert^2 \Vert\nabla_{\boldsymbol{x}}\boldsymbol{h}^{(1)}\Vert^2}+\cdots+\frac{1 + \Vert \boldsymbol{h}^{(l)}\Vert^2}{\Vert\boldsymbol{W}^{(l)}\Vert^2 \Vert\nabla_{\boldsymbol{x}}\boldsymbol{h}^{(l)}\Vert^2}\right)\leq \Vert\nabla_{\boldsymbol{\theta}} f\Vert^2\label{eq:f}\end{equation}

点击阅读全文...

分类：数学研究标签：不等式, 优化, 梯度, 泛化阅读全文抢沙发

17 Dec

Seq2Seq+前缀树：检索任务新范式（以KgCLUE为例）

By 苏剑林 | 2021-12-17 | 64536位读者 | 引用

两年前，在《万能的seq2seq：基于seq2seq的阅读理解问答》和《“非自回归”也不差：基于MLM的阅读理解问答》中，我们在尝试过分别利用“Seq2Seq+前缀树”和“MLM+前缀树”的方式做抽取式阅读理解任务，并获得了不错的结果。而在去年的ICLR2021上，Facebook的论文《Autoregressive Entity Retrieval》同样利用“Seq2Seq+前缀树”的组合，在实体链接和文档检索上做到了效果与效率的“双赢”。

事实上，“Seq2Seq+前缀树”的组合理论上可以用到任意检索型任务中，堪称是检索任务的“新范式”。本文将再次回顾“Seq2Seq+前缀树”的思路，并用它来实现最近推出的KgCLUE知识图谱问答榜单的一个baseline。

本文baseline模型示意图

点击阅读全文...

分类：信息时代标签：代码, 语义, keras, 相似度阅读全文 17 评论

6 Jan

CoSENT（一）：比Sentence-BERT更有效的句向量方案

By 苏剑林 | 2022-01-06 | 215646位读者 | 引用

学习句向量的方案大致上可以分为无监督和有监督两大类，其中有监督句向量比较主流的方案是Facebook提出的“InferSent”，而后的“Sentence-BERT”进一步在BERT上肯定了它的有效性。然而，不管是InferSent还是Sentence-BERT，它们在理论上依然相当令人迷惑，因为它们虽然有效，但存在训练和预测不一致的问题，而如果直接优化预测目标cos值，效果往往特别差。

最近，笔者再次思考了这个问题，经过近一周的分析和实验，大致上确定了InferSent有效以及直接优化cos值无效的原因，并提出了一个优化cos值的新方案CoSENT（Cosine Sentence）。实验显示，CoSENT在收敛速度和最终效果上普遍都比InferSent和Sentence-BERT要好。

朴素思路

本文的场景是利用文本匹配的标注数据来构建句向量模型，其中所利用到的标注数据是常见的句子对样本，即每条样本是“(句子1, 句子2, 标签)”的格式，它们又大致上可以分类“是非类型”、“NLI类型”、“打分类型”三种，参考《用开源的人工标注数据来增强RoFormer-Sim》中的“分门别类”一节。

失效的Cos

简单起见，我们可以先只考虑“是非类型”的数据，即“(句子1, 句子2, 是否相似)”的样本。假设两个句子经过编码模型后分别得到向量$u,v$，由于检索阶段计算的是余弦相似度$\cos(u,v)=\frac{\langle u,v\rangle}{\Vert u\Vert \Vert v\Vert}$，所以比较自然的想法是设计基于$\cos(u,v)$的损失函数，比如
\begin{align}t\cdot (1 - \cos(u, v)) + (1 - t) \cdot (1 + \cos(u,v))\label{eq:cos-1}\\
t\cdot (1 - \cos(u, v))^2 + (1 - t) \cdot \cos^2(u,v)\label{eq:cos-2}
\end{align}

点击阅读全文...

分类：信息时代标签：语义, 语义相似度, 对比学习阅读全文 125 评论

24 Dec

概率分布的熵归一化（Entropy Normalization）

By 苏剑林 | 2021-12-24 | 46819位读者 | 引用

在上一篇文章《从熵不变性看Attention的Scale操作》中，我们从熵不变性的角度推导了一个新的Attention Scale，并且实验显示具有熵不变性的新Scale确实能使得Attention的外推性能更好。这时候笔者就有一个很自然的疑问：

有没有类似L2 Normalization之类的操作，可以直接对概率分布进行变换，使得保持原始分布主要特性的同时，让它的熵为指定值？

笔者带着疑问搜索了一番，发现没有类似的研究，于是自己尝试推导了一下，算是得到了一个基本满意的结果，暂称为“熵归一化（Entropy Normalization）”，记录在此，供有需要的读者参考。

幂次变换

首先，假设$n$元分布$(p_1,p_2,\cdots,p_n)$，它的熵定义为
\begin{equation}\mathcal{H} = -\sum_i p_i \log p_i = \mathbb{E}[-\log p_i]\end{equation}

点击阅读全文...

分类：数学研究标签：概率, 熵阅读全文 9 评论

8 Feb

多任务学习漫谈（二）：行梯度之事

By 苏剑林 | 2022-02-08 | 50602位读者 | 引用

在《多任务学习漫谈（一）：以损失之名》中，我们从损失函数的角度初步探讨了多任务学习问题，最终发现如果想要结果同时具有缩放不变性和平移不变性，那么用梯度的模长倒数作为任务的权重是一个比较简单的选择。我们继而分析了，该设计等价于将每个任务的梯度单独进行归一化后再相加，这意味着多任务的“战场”从损失函数转移到了梯度之上：看似在设计损失函数，实则在设计更好的梯度，所谓“以损失之名，行梯度之事”。

那么，更好的梯度有什么标准呢？如何设计出更好的梯度呢？本文我们就从梯度的视角来理解多任务学习，试图直接从设计梯度的思路出发构建多任务学习算法。

整体思路

我们知道，对于单任务学习，常用的优化方法就是梯度下降，那么它是怎么推导的呢？同样的思路能不能直接用于多任务学习呢？这便是这一节要回答的问题。

点击阅读全文...

分类：信息时代标签：深度学习, 损失函数, 梯度, 多任务阅读全文 15 评论

25 Jan

Efficient GlobalPointer：少点参数，多点效果

By 苏剑林 | 2022-01-25 | 116358位读者 | 引用

在《GlobalPointer：用统一的方式处理嵌套和非嵌套NER》中，我们提出了名为“GlobalPointer”的token-pair识别模块，当它用于NER时，能统一处理嵌套和非嵌套任务，并在非嵌套场景有着比CRF更快的速度和不逊色于CRF的效果。换言之，就目前的实验结果来看，至少在NER场景，我们可以放心地将CRF替换为GlobalPointer，而不用担心效果和速度上的损失。

在这篇文章中，我们提出GlobalPointer的一个改进版——Efficient GlobalPointer，它主要针对原GlobalPointer参数利用率不高的问题进行改进，明显降低了GlobalPointer的参数量。更有趣的是，多个任务的实验结果显示，参数量更少的Efficient GlobalPointer反而还取得更好的效果。

大量的参数

这里简单回顾一下GlobalPointer，详细介绍则请读者阅读《GlobalPointer：用统一的方式处理嵌套和非嵌套NER》。简单来说，GlobalPointer是基于内积的token-pair识别模块，它可以用于NER场景，因为对于NER来说我们只需要把每一类实体的“(首, 尾)”这样的token-pair识别出来就行了。

点击阅读全文...

分类：信息时代标签：模型, NLP, NER 阅读全文 63 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

曾被嫌弃的预训练任务NSP，做出了优秀的Zero Shot效果

背景回顾

CAN：借助先验分布提升分类性能的简单后处理技巧

思想例子

输入梯度惩罚与参数梯度惩罚的一个不等式

最终结果

Seq2Seq+前缀树：检索任务新范式（以KgCLUE为例）

CoSENT（一）：比Sentence-BERT更有效的句向量方案

朴素思路

失效的Cos

概率分布的熵归一化（Entropy Normalization）

幂次变换

多任务学习漫谈（二）：行梯度之事

整体思路

Efficient GlobalPointer：少点参数，多点效果

大量的参数

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接