包含关键字自然极值的文章 - 科学空间|Scientific Spaces

19 Jul

用开源的人工标注数据来增强RoFormer-Sim

By 苏剑林 | 2021-07-19 | 153642位读者 | 引用

大家知道，从SimBERT到SimBERTv2（RoFormer-Sim），我们算是为中文文本相似度任务建立了一个还算不错的基准模型。然而，SimBERT和RoFormer-Sim本质上都只是“弱监督”模型，跟“无监督”类似，我们不能指望纯弱监督的模型能达到完美符合人的认知效果。所以，为了进一步提升RoFormer-Sim的效果，我们尝试了使用开源的一些标注数据来辅助训练。本文就来介绍我们的探索过程。

有的读者可能想：有监督有啥好讲的？不就是直接训练么？说是这么说，但其实并没有那么“显然易得”，还是有些“雷区”的，所以本文也算是一份简单的“扫雷指南”吧。

前情回顾

笔者发现，自从SimBERT发布后，读者问得最多的问题大概是：

为什么“我喜欢北京”跟“我不喜欢北京”相似度这么高？它们不是意思相反吗？

点击阅读全文...

分类：信息时代标签：语言模型, 生成模型, 文本生成阅读全文 59 评论

22 Jul

概率视角下的线性模型：逻辑回归有解析解吗？

By 苏剑林 | 2021-07-22 | 85377位读者 | 引用

我们知道，线性回归是比较简单的问题，它存在解析解，而它的变体逻辑回归（Logistic Regression）却没有解析解，这不能不说是一个遗憾。因为逻辑回归虽然也叫“回归”，但它实际上是用于分类问题的，而对于很多读者来说分类比回归更加常见。准确来说，我们说逻辑回归没有解析解，说的是“最大似然估计下逻辑回归没有解析解”。那么，这是否意味着，如果我们不用最大似然估计，是否能找到一个可用的解析解呢？

逻辑回归示意图

本文将会从非最大似然的角度，推导逻辑回归的一个解析解，简单的实验表明它效果不逊色于梯度下降求出来的最大似然解。此外，这个解析解还易于推广到单层Softmax多分类模型。

点击阅读全文...

分类：数学研究标签：模型, 概率, 优化阅读全文 26 评论

1 Sep

从三角不等式到Margin Softmax

By 苏剑林 | 2021-09-01 | 36670位读者 | 引用

在《基于GRU和AM-Softmax的句子相似度模型》中我们介绍了AM-Softmax，它是一种带margin的softmax，通常用于用分类做检索的场景。当时通过图示的方式简单说了一下引入margin是因为“分类与排序的不等价性”，但没有比较定量地解释这种不等价性的来源。

在这篇文章里，我们来重提这个话题，从距离的三角不等式的角度来推导和理解margin的必要性。

三角不等式

平时，我们说的距离一般指比较直观的“欧氏距离”，但在数学上距离，距离又叫“度量”，它有公理化的定义，是指定义在某个集合上的二元函数 $d(x,y)$ ，满足：

点击阅读全文...

分类：信息时代标签：损失函数, 相似度阅读全文 4 评论

9 Aug

线性Transformer应该不是你要等的那个模型

By 苏剑林 | 2021-08-09 | 113719位读者 | 引用

在本博客中，我们已经多次讨论过线性Attention的相关内容。介绍线性Attention的逻辑大体上都是：标准Attention具有 $\mathcal{O}(n^2)$ 的平方复杂度，是其主要的“硬伤”之一，于是我们 $\mathcal{O}(n)$ 复杂度的改进模型，也就是线性Attention。有些读者看到线性Attention的介绍后，就一直很期待我们发布基于线性Attention的预训练模型，以缓解他们被BERT的算力消耗所折腾的“死去活来”之苦。

然而，本文要说的是：抱有这种念头的读者可能要失望了，标准Attention到线性Attention的转换应该远远达不到你的预期，而BERT那么慢的原因也并不是因为标准Attention的平方复杂度。

BERT之反思

按照直观理解，平方复杂度换成线性复杂度不应该要“突飞猛进”才对嘛？怎么反而“远远达不到预期”？出现这个疑惑的主要原因，是我们一直以来都没有仔细评估一下常规的Transformer模型（如BERT）的整体计算量。

点击阅读全文...

分类：信息时代标签：模型, 矩阵, attention 阅读全文 40 评论

26 Jul

FlatNCE：小批次对比学习效果差的原因竟是浮点误差？

By 苏剑林 | 2021-07-26 | 50270位读者 | 引用

自SimCLR在视觉无监督学习大放异彩以来，对比学习逐渐在CV乃至NLP中流行了起来，相关研究和工作越来越多。标准的对比学习的一个广为人知的缺点是需要比较大的batch_size（SimCLR在batch_size=4096时效果最佳），小batch_size的时候效果会明显降低，为此，后续工作的改进方向之一就是降低对大batch_size的依赖。那么，一个很自然的问题是：标准的对比学习在小batch_size时效果差的原因究竟是什么呢？

近日，一篇名为《Simpler, Faster, Stronger: Breaking The log-K Curse On Contrastive Learners With FlatNCE》对此问题作出了回答：因为浮点误差。看起来真的很让人难以置信，但论文的分析确实颇有道理，并且所提出的改进FlatNCE确实也工作得更好，让人不得不信服。

细微之处

接下来，笔者将按照自己的理解和记号来介绍原论文的主要内容。对比学习（Contrastive Learning）就不帮大家详细复习了，大体上来说，对于某个样本 $x$ ，我们需要构建 $K$ 个配对样本 $y_1,y_2,\cdots,y_K$ ，其中 $y_t$ 是正样本而其余都是负样本，然后分别给每个样本对 $(x, y_i)$ 打分，分别记为 $s_1,s_2,\cdots,s_K$ ，对比学习希望拉大正负样本对的得分差，通常直接用交叉熵作为损失：
$\begin{equation}-\log \frac{e^{s_t}}{\sum\limits_i e^{s_i}} = \log \left(\sum_i e^{s_i}\right) - s_t = \log \left(1 + \sum_{i\neq t} e^{s_i - s_t}\right)\end{equation}$

点击阅读全文...

分类：信息时代标签：优化, 损失函数, 对比学习阅读全文 8 评论

6 Aug

Transformer升级之路：5、作为无限维的线性Attention

By 苏剑林 | 2021-08-06 | 25358位读者 | 引用

在《Performer：用随机投影将Attention的复杂度线性化》中我们了解到Google提出的Performer模型，它提出了一种随机投影方案，可以将标准Attention转化为线性Attention，并保持一定的近似。理论上来说，只要投影的维度足够大，那么可以足够近似标准Attention。换句话说，标准Attention可以视作一个无限维的线性Attention。

本文将介绍笔者构思的另外两种将标准Attention转换为无限维线性Attention的思路，不同于Performer的随机投影，笔者构思的这两种方案都是确定性的，并且能比较方便地感知近似程度。

简要介绍

关于标准Attention和线性Attention，这里就不多做介绍了，还不了解的读者可以参考笔者之前的文章《线性Attention的探索：Attention必须有个Softmax吗？》和《Transformer升级之路：3、从Performer到线性Attention》。简单来说，标准Attention的计算方式为
$\begin{equation}a_{i,j}=\frac{e^{\boldsymbol{q}_i\cdot \boldsymbol{k}_j}}{\sum\limits_j e^{\boldsymbol{q}_i\cdot \boldsymbol{k}_j}}\end{equation}$

点击阅读全文...

分类：信息时代标签：语言模型, attention, 核方法阅读全文抢沙发

17 Aug

浅谈Transformer的初始化、参数化与标准化

By 苏剑林 | 2021-08-17 | 195559位读者 | 引用

前几天在训练一个新的Transformer模型的时候，发现怎么训都不收敛了。经过一番debug，发现是在做Self Attention的时候 $\boldsymbol{Q}\boldsymbol{K}^{\top}$ 之后忘记除以 $\sqrt{d}$ 了，于是重新温习了一下为什么除以 $\sqrt{d}$ 如此重要的原因。当然，Google的T5确实是没有除以 $\sqrt{d}$ 的，但它依然能够正常收敛，那是因为它在初始化策略上做了些调整，所以这个事情还跟初始化有关。

藉着这个机会，本文跟大家一起梳理一下模型的初始化、参数化和标准化等内容，相关讨论将主要以Transformer为心中展开。

采样分布

初始化自然是随机采样的的，所以这里先介绍一下常用的采样分布。一般情况下，我们都是从指定均值和方差的随机分布中进行采样来初始化。其中常用的随机分布有三个：正态分布（Normal）、均匀分布（Uniform）和截尾正态分布（Truncated Normal）。

点击阅读全文...

分类：数学研究,信息时代标签：模型, 优化, 梯度, attention 阅读全文 89 评论

22 Oct

CAN：借助先验分布提升分类性能的简单后处理技巧

By 苏剑林 | 2021-10-22 | 160233位读者 | 引用

顾名思义，本文将会介绍一种用于分类问题的后处理技巧——CAN（Classification with Alternating Normalization），出自论文《When in Doubt: Improving Classification Performance with Alternating Normalization》。经过笔者的实测，CAN确实多数情况下能提升多分类问题的效果，而且几乎没有增加预测成本，因为它仅仅是对预测结果的简单重新归一化操作。

有趣的是，其实CAN的思想是非常朴素的，朴素到每个人在生活中都应该用过同样的思想。然而，CAN的论文却没有很好地说清楚这个思想，只是纯粹形式化地介绍和实验这个方法。本文的分享中，将会尽量将算法思想介绍清楚。

思想例子

假设有一个二分类问题，模型对于输入 $a$ 给出的预测结果是 $p^{(a)} = [0.05, 0.95]$ ，那么我们就可以给出预测类别为 $1$ ；接下来，对于输入 $b$ ，模型给出的预测结果是 $p^{(b)}=[0.5,0.5]$ ，这时候处于最不确定的状态，我们也不知道输出哪个类别好。

点击阅读全文...

分类：信息时代标签：模型, 概率, 分析, 技巧阅读全文 49 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

用开源的人工标注数据来增强RoFormer-Sim

前情回顾

概率视角下的线性模型：逻辑回归有解析解吗？

从三角不等式到Margin Softmax

三角不等式

线性Transformer应该不是你要等的那个模型

BERT之反思

FlatNCE：小批次对比学习效果差的原因竟是浮点误差？

细微之处

Transformer升级之路：5、作为无限维的线性Attention

简要介绍

浅谈Transformer的初始化、参数化与标准化

采样分布

CAN：借助先验分布提升分类性能的简单后处理技巧

思想例子

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接