包含关键字从动力学角度看优化算法的文章

16 Feb

Nyströmformer：基于矩阵分解的线性化Attention方案

By 苏剑林 | 2021-02-16 | 51244位读者 | 引用

标准Attention的 $\mathcal{O}(n^2)$ 复杂度可真是让研究人员头大。前段时间我们在博文《Performer：用随机投影将Attention的复杂度线性化》中介绍了Google的Performer模型，它通过随机投影的方式将标准Attention转化为线性Attention。无独有偶，前些天Arxiv上放出了AAAI 2021的一篇论文《Nyströmformer: A Nyström-Based Algorithm for Approximating Self-Attention》，里边又提出了一种从另一个角度把标准Attention线性化的方案。

Nyströmformer结构示意图

该方案写的是Nyström-Based，顾名思义是利用了Nyström方法来近似标准Attention的。但是坦白说，在看到这篇论文之前，笔者也完全没听说过Nyström方法，而纵观整篇论文，里边也全是笔者一眼看上去感觉很茫然的矩阵分解推导，理解起来颇为困难。不过有趣的是，尽管作者的推导很复杂，但笔者发现最终的结果可以通过一个相对来说更简明的方式来理解，遂将笔者对Nyströmformer的理解整理在此，供大家参考。

点击阅读全文...

分类：信息时代标签：矩阵, 语言模型, attention 阅读全文 9 评论

9 Oct

关于WhiteningBERT原创性的疑问和沟通

By 苏剑林 | 2021-10-09 | 72507位读者 | 引用

在文章《你可能不需要BERT-flow：一个线性变换媲美BERT-flow》中，笔者受到BERT-flow的启发，提出了一种名为BERT-whitening的替代方案，它比BERT-flow更简单，但多数数据集下能取得相近甚至更好的效果，此外它还可以用于对句向量降维以提高检索速度。后来，笔者跟几位合作者一起补充了BERT-whitening的实验，并将其写成了英文论文《Whitening Sentence Representations for Better Semantics and Faster Retrieval》，在今年3月29日发布在Arxiv上。

然而，大约一周后，一篇名为《WhiteningBERT: An Easy Unsupervised Sentence Embedding Approach》的论文（下面简称WhiteningBERT）出现在Arxiv上，内容跟BERT-whitening高度重合，有读者看到后向我反馈WhiteningBERT抄袭了BERT-whitening。本文跟关心此事的读者汇报一下跟WhiteningBERT的作者之间的沟通结果。

时间节点

首先，回顾一下BERT-whitening的相关时间节点，以帮助大家捋一下事情的发展顺序：

点击阅读全文...

分类：信息时代,生活/情感标签：情感, 模型, 工作阅读全文 17 评论

24 Sep

让人惊叹的Johnson-Lindenstrauss引理：应用篇

By 苏剑林 | 2021-09-24 | 38897位读者 | 引用

上一篇文章《让人惊叹的Johnson-Lindenstrauss引理：理论篇》中，我们比较详细地介绍了Johnson-Lindenstrauss引理（JL引理）的理论推导，这一篇我们来关注它的应用。

作为一个内容上本身就跟降维相关的结论，JL引理最基本的自然就是作为一个降维方法来用。但除了这个直接应用外，很多看似不相关的算法，比如局部敏感哈希（LSH）、随机SVD等，本质上也依赖于JL引理。此外，对于机器学习模型来说，JL引理通常还能为我们的维度选择提供一些理论解释。

降维的工具

JL引理提供了一个非常简单直接的“随机投影”降维思路：

给定 $N$ 个向量 $v_1,v_2,\cdots,v_N\in\mathbb{R}^m$ ，如果想要将它降到 $n$ 维，那么只需要从 $\mathcal{N}(0,1/n)$ 中采样一个 $n\times m$ 矩阵 $A$ ，然后 $Av_1,Av_2,\cdots,Av_N$ 就是降维后的结果。

点击阅读全文...

分类：数学研究,信息时代标签：模型, 分析, 维度, 机器学习阅读全文 4 评论

8 Mar

Transformer升级之路：1、Sinusoidal位置编码追根溯源

By 苏剑林 | 2021-03-08 | 161024位读者 | 引用

最近笔者做了一些理解和改进Transformer的尝试，得到了一些似乎还有价值的经验和结论，遂开一个专题总结一下，命名为“Transformer升级之路”，既代表理解上的深入，也代表结果上的改进。

作为该专题的第一篇文章，笔者将会介绍自己对Google在《Attention is All You Need》中提出来的Sinusoidal位置编码
$\begin{equation}\left\{\begin{aligned}&\boldsymbol{p}_{k,2i}=\sin\Big(k/10000^{2i/d}\Big)\\ &\boldsymbol{p}_{k, 2i+1}=\cos\Big(k/10000^{2i/d}\Big) \end{aligned}\right.\label{eq:sin}\end{equation}$
的新理解，其中 $\boldsymbol{p}_{k,2i},\boldsymbol{p}_{k,2i+1}$ 分别是位置 $k$ 的编码向量的第 $2i,2i+1$ 个分量， $d$ 是向量维度。

作为位置编码的一个显式解，Google在原论文中对它的描述却寥寥无几，只是简单提及了它可以表达相对位置信息，后来知乎等平台上也出现了一些解读，它的一些特点也逐步为大家所知，但总体而言比较零散。特别是对于“它是怎么想出来的”、“非得要这个形式不可吗”等原理性问题，还没有比较好的答案。

因此，本文主要围绕这些问题展开思考，可能在思考过程中读者会有跟笔者一样的感觉，即越思考越觉得这个设计之精妙漂亮，让人叹服～

点击阅读全文...

分类：数学研究标签：复数, 分析, attention, 位置编码阅读全文 94 评论

11 Apr

无监督语义相似度哪家强？我们做了个比较全面的评测

By 苏剑林 | 2021-04-11 | 159459位读者 | 引用

一月份的时候，笔者写了《你可能不需要BERT-flow：一个线性变换媲美BERT-flow》，指出无监督语义相似度的SOTA模型BERT-flow其实可以通过一个简单的线性变换（白化操作，BERT-whitening）达到。随后，我们进一步完善了实验结果，写成了论文《Whitening Sentence Representations for Better Semantics and Faster Retrieval》。这篇博客将对这篇论文的内容做一个基本的梳理，并在5个中文语义相似度任务上进行了补充评测，包含了600多个实验结果。

Github链接：https://github.com/bojone/BERT-whitening

方法概要

BERT-whitening的思路很简单，就是在得到每个句子的句向量 $\{x_i\}_{i=1}^N$ 后，对这些矩阵进行一个白化（也就是PCA），使得每个维度的均值为0、协方差矩阵为单位阵，然后保留 $k$ 个主成分，流程如下图：

BERT-whitening的基本流程

点击阅读全文...

分类：信息时代标签：语言模型, 语义, 语义相似度阅读全文 65 评论

31 Oct

bert4keras在手，baseline我有：CLUE基准代码

By 苏剑林 | 2021-10-31 | 85523位读者 | 引用

CLUE（Chinese GLUE）是中文自然语言处理的一个评价基准，目前也已经得到了较多团队的认可。CLUE官方Github提供了tensorflow和pytorch的baseline，但并不易读，而且也不方便调试。事实上，不管是tensorflow还是pytorch，不管是CLUE还是GLUE，笔者认为能找到的baseline代码，都很难称得上人性化，试图去理解它们是一件相当痛苦的事情。

所以，笔者决定基于bert4keras实现一套CLUE的baseline。经过一段时间的测试，基本上复现了官方宣称的基准成绩，并且有些任务还更优。最重要的是，所有代码尽量保持了清晰易读的特点，真·“Deep Learning for Humans”。

代码链接：https://github.com/bojone/CLUE-bert4keras

代码简介

下面简单介绍一下该代码中各个任务baseline的构建思路。在阅读文章和代码之前，请读者自行先观察一下每个任务的数据格式，这里不对任务数据进行详细介绍。

点击阅读全文...

分类：信息时代标签：模型, 代码, keras 阅读全文 28 评论

22 Oct

CAN：借助先验分布提升分类性能的简单后处理技巧

By 苏剑林 | 2021-10-22 | 160163位读者 | 引用

顾名思义，本文将会介绍一种用于分类问题的后处理技巧——CAN（Classification with Alternating Normalization），出自论文《When in Doubt: Improving Classification Performance with Alternating Normalization》。经过笔者的实测，CAN确实多数情况下能提升多分类问题的效果，而且几乎没有增加预测成本，因为它仅仅是对预测结果的简单重新归一化操作。

有趣的是，其实CAN的思想是非常朴素的，朴素到每个人在生活中都应该用过同样的思想。然而，CAN的论文却没有很好地说清楚这个思想，只是纯粹形式化地介绍和实验这个方法。本文的分享中，将会尽量将算法思想介绍清楚。

思想例子

假设有一个二分类问题，模型对于输入 $a$ 给出的预测结果是 $p^{(a)} = [0.05, 0.95]$ ，那么我们就可以给出预测类别为 $1$ ；接下来，对于输入 $b$ ，模型给出的预测结果是 $p^{(b)}=[0.5,0.5]$ ，这时候处于最不确定的状态，我们也不知道输出哪个类别好。

点击阅读全文...

分类：信息时代标签：模型, 概率, 分析, 技巧阅读全文 49 评论

4 Dec

开局一段扯，数据全靠编？真被一篇“神论文”气到了

By 苏剑林 | 2021-12-04 | 60002位读者 | 引用

这篇文章谈一下笔者被昨天出来的一篇“神论文”气到了的经历。

这篇“神论文”是《How not to Lie with a Benchmark: Rearranging NLP Leaderboards》，论文的大致内容是说目前很多排行榜算平均都用算术平均，而它认为几何平均与调和平均更加合理。最关键是它还对GLUE、SuperGLUE等榜单上的模型用几何平均和调和平均重新算了一下排名，结果发现那些超过人类的模型在新的平均方案下都没超过人类了。

看上去是不是觉得挺有意思的？我也觉得挺有意思的，所以打算写一篇博客介绍一下它。结果博客快写完了，然后在对数据的时候，发现里边表格的数据全是乱来的！！！真实的结果完全不支撑它的结论！！！所以，这篇博客就从“表扬大会”变成了“批评大会”...

点击阅读全文...

分类：信息时代,生活/情感标签：情感, 模型阅读全文 10 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

Nyströmformer：基于矩阵分解的线性化Attention方案

关于WhiteningBERT原创性的疑问和沟通

时间节点

让人惊叹的Johnson-Lindenstrauss引理：应用篇

降维的工具

Transformer升级之路：1、Sinusoidal位置编码追根溯源

无监督语义相似度哪家强？我们做了个比较全面的评测

方法概要

bert4keras在手，baseline我有：CLUE基准代码

代码简介

CAN：借助先验分布提升分类性能的简单后处理技巧

思想例子

开局一段扯，数据全靠编？真被一篇“神论文”气到了

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接