科学空间|Scientific Spaces

感谢国家天文台LAMOST项目之“宇宙驿站”提供网络空间和数据库资源! 感谢国家天文台崔辰州博士等人的多方努力和技术支持！

科学空间致力于知识分享，所以欢迎您转载本站文章，但转载本站内容必须遵循 署名-非商业用途-保持一致 的创作共用协议。

参与科学空间

为了保证你的利益，推荐你注册为本站会员。同时欢迎通过邮件或留言进行交流、建议或反馈科学空间的问题。
会员注册会员登录查看全站文章归档页

26 Apr

中文任务还是SOTA吗？我们给SimCSE补充了一些实验

By 苏剑林 | 2021-04-26 | 320736位读者 | Kimi 引用

今年年初，笔者受到BERT-flow的启发，构思了成为“BERT-whitening”的方法，并一度成为了语义相似度的新SOTA（参考《你可能不需要BERT-flow：一个线性变换媲美BERT-flow》，论文为《Whitening Sentence Representations for Better Semantics and Faster Retrieval》）。然而“好景不长”，在BERT-whitening提交到Arxiv的不久之后，Arxiv上出现了至少有两篇结果明显优于BERT-whitening的新论文。

第一篇是《Generating Datasets with Pretrained Language Models》，这篇借助模板从GPT2_XL中无监督地构造了数据对来训练相似度模型，个人认为虽然有一定的启发而且效果还可以，但是复现的成本和变数都太大。另一篇则是本文的主角《SimCSE: Simple Contrastive Learning of Sentence Embeddings》，它提出的SimCSE在英文数据上显著超过了BERT-flow和BERT-whitening，并且方法特别简单～

那么，SimCSE在中文上同样有效吗？能大幅提高中文语义相似度的效果吗？本文就来做些补充实验。

开源地址：https://github.com/bojone/SimCSE

点击阅读全文...

分类：信息时代标签：语言模型, 语义, 语义相似度, 对比学习阅读全文 122 评论

22 Apr

Transformer升级之路：3、从Performer到线性Attention

By 苏剑林 | 2021-04-22 | 82787位读者 | Kimi 引用

看过笔者之前的文章《线性Attention的探索：Attention必须有个Softmax吗？》和《Performer：用随机投影将Attention的复杂度线性化》的读者，可能会觉得本文的标题有点不自然，因为是先有线性Attention然后才有Performer的，它们的关系为“Performer是线性Attention的一种实现，在保证线性复杂度的同时保持了对标准Attention的近似”，所以正常来说是“从线性Attention到Performer”才对。

然而，本文并不是打算梳理线性Attention的发展史，而是打算反过来思考Performer给线性Attention所带来的启示，所以是“从Performer到线性Attention”。

激活函数

线性Attention的常见形式是
\begin{equation}Attention(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V})_i = \frac{\sum\limits_{j=1}^n \text{sim}(\boldsymbol{q}_i, \boldsymbol{k}_j)\boldsymbol{v}_j}{\sum\limits_{j=1}^n \text{sim}(\boldsymbol{q}_i, \boldsymbol{k}_j)} = \frac{\sum\limits_{j=1}^n \phi(\boldsymbol{q}_i)^{\top} \varphi(\boldsymbol{k}_j)\boldsymbol{v}_j}{\sum\limits_{j=1}^n \phi(\boldsymbol{q}_i)^{\top} \varphi(\boldsymbol{k}_j)}\end{equation}

点击阅读全文...

分类：信息时代标签：语言模型, attention 阅读全文 15 评论

16 Apr

搜狐文本匹配：基于条件LayerNorm的多任务baseline

By 苏剑林 | 2021-04-16 | 122581位读者 | Kimi 引用

前段时间看到了“2021搜狐校园文本匹配算法大赛”，觉得赛题颇有意思，便尝试了一下，不过由于比赛本身只是面向在校学生，所以笔者是不能作为正式参赛人员参赛的，因此把自己的做法开源出来，作为比赛baseline供大家参考。

Github链接：https://github.com/bojone/sohu2021-baseline

赛题介绍

顾名思义，比赛的任务是文本匹配，即判断两个文本是否相似，本来是比较常规的任务，但有意思的是它分了多个子任务。具体来说，它分A、B两大类，A类匹配标准宽松一些，B类匹配标准严格一些，然后每个大类下又分为“短短匹配”、“短长匹配”、“长长匹配”3个小类，因此，虽然任务类型相同，但严格来看它是六个不同的子任务。

点击阅读全文...

分类：信息时代标签：语言模型, 比赛, 语义相似度阅读全文 39 评论

11 Apr

无监督语义相似度哪家强？我们做了个比较全面的评测

By 苏剑林 | 2021-04-11 | 199270位读者 | Kimi 引用

一月份的时候，笔者写了《你可能不需要BERT-flow：一个线性变换媲美BERT-flow》，指出无监督语义相似度的SOTA模型BERT-flow其实可以通过一个简单的线性变换（白化操作，BERT-whitening）达到。随后，我们进一步完善了实验结果，写成了论文《Whitening Sentence Representations for Better Semantics and Faster Retrieval》。这篇博客将对这篇论文的内容做一个基本的梳理，并在5个中文语义相似度任务上进行了补充评测，包含了600多个实验结果。

Github链接：https://github.com/bojone/BERT-whitening

方法概要

BERT-whitening的思路很简单，就是在得到每个句子的句向量$\{x_i\}_{i=1}^N$后，对这些矩阵进行一个白化（也就是PCA），使得每个维度的均值为0、协方差矩阵为单位阵，然后保留$k$个主成分，流程如下图：

BERT-whitening的基本流程

点击阅读全文...

分类：信息时代标签：语言模型, 语义, 语义相似度阅读全文 65 评论

3 Apr

P-tuning：自动构建模版，释放语言模型潜能

By 苏剑林 | 2021-04-03 | 225335位读者 | Kimi 引用

在之前的文章《必须要GPT3吗？不，BERT的MLM模型也能小样本学习》中，我们介绍了一种名为Pattern-Exploiting Training（PET）的方法，它通过人工构建的模版与BERT的MLM模型结合，能够起到非常好的零样本、小样本乃至半监督学习效果，而且该思路比较优雅漂亮，因为它将预训练任务和下游任务统一起来了。然而，人工构建这样的模版有时候也是比较困难的，而且不同的模版效果差别也很大，如果能够通过少量样本来自动构建模版，也是非常有价值的。

P-tuning直接使用[unused]来构建模版，不关心模版的自然语言性

最近Arxiv上的论文《GPT Understands, Too》提出了名为P-tuning的方法，成功地实现了模版的自动构建。不仅如此，借助P-tuning，GPT在SuperGLUE上的成绩首次超过了同等级别的BERT模型，这颠覆了一直以来“GPT不擅长NLU”的结论，也是该论文命名的缘由。

点击阅读全文...

分类：信息时代标签：语言模型, NLP 阅读全文 64 评论

23 Mar

Transformer升级之路：2、博采众长的旋转式位置编码

By 苏剑林 | 2021-03-23 | 567898位读者 | Kimi 引用

上一篇文章中，我们对原始的Sinusoidal位置编码做了较为详细的推导和理解，总的感觉是Sinusoidal位置编码是一种“想要成为相对位置编码的绝对位置编码”。一般来说，绝对位置编码具有实现简单、计算速度快等优点，而相对位置编码则直接地体现了相对位置信号，跟我们的直观理解吻合，实际性能往往也更好。由此可见，如果可以通过绝对位置编码的方式实现相对位置编码，那么就是“集各家之所长”、“鱼与熊掌兼得”了。Sinusoidal位置编码隐约做到了这一点，但并不够好。

本文将会介绍我们自研的Rotary Transformer（RoFormer）模型，它的主要改动是应用了笔者构思的“旋转式位置编码（Rotary Position Embedding，RoPE）”，这是一种配合Attention机制能达到“绝对位置编码的方式实现相对位置编码”的设计。而也正因为这种设计，它还是目前唯一一种可用于线性Attention的相对位置编码。

RoFormer：https://github.com/ZhuiyiTechnology/roformer

点击阅读全文...

分类：信息时代标签：复数, 语言模型, attention, 位置编码, rope 阅读全文 181 评论

15 Mar

WGAN的成功，可能跟Wasserstein距离没啥关系

By 苏剑林 | 2021-03-15 | 75643位读者 | Kimi 引用

WGAN，即Wasserstein GAN，算是GAN史上一个比较重要的理论突破结果，它将GAN中两个概率分布的度量从f散度改为了Wasserstein距离，从而使得WGAN的训练过程更加稳定，而且生成质量通常也更好。Wasserstein距离跟最优传输相关，属于Integral Probability Metric（IPM）的一种，这类概率度量通常有着更优良的理论性质，因此WGAN的出现也吸引了很多人从最优传输和IPMs的角度来理解和研究GAN模型。

然而，最近Arxiv上的论文《Wasserstein GANs Work Because They Fail (to Approximate the Wasserstein Distance)》则指出，尽管WGAN是从Wasserstein GAN推导出来的，但是现在成功的WGAN并没有很好地近似Wasserstein距离，相反如果我们对Wasserstein距离做更好的近似，效果反而会变差。事实上，笔者一直以来也有这个疑惑，即Wasserstein距离本身并没有体现出它能提升GAN效果的必然性，该论文的结论则肯定了该疑惑，所以GAN能成功的原因依然很迷～

点击阅读全文...

分类：信息时代标签：优化, GAN, 生成模型阅读全文 14 评论

8 Mar

Transformer升级之路：1、Sinusoidal位置编码追根溯源

By 苏剑林 | 2021-03-08 | 251044位读者 | Kimi 引用

最近笔者做了一些理解和改进Transformer的尝试，得到了一些似乎还有价值的经验和结论，遂开一个专题总结一下，命名为“Transformer升级之路”，既代表理解上的深入，也代表结果上的改进。

作为该专题的第一篇文章，笔者将会介绍自己对Google在《Attention is All You Need》中提出来的Sinusoidal位置编码
\begin{equation}\left\{\begin{aligned}&\boldsymbol{p}_{k,2i}=\sin\Big(k/10000^{2i/d}\Big)\\
&\boldsymbol{p}_{k, 2i+1}=\cos\Big(k/10000^{2i/d}\Big)
\end{aligned}\right.\label{eq:sin}\end{equation}
的新理解，其中$\boldsymbol{p}_{k,2i},\boldsymbol{p}_{k,2i+1}$分别是位置$k$的编码向量的第$2i,2i+1$个分量，$d$是向量维度。

作为位置编码的一个显式解，Google在原论文中对它的描述却寥寥无几，只是简单提及了它可以表达相对位置信息，后来知乎等平台上也出现了一些解读，它的一些特点也逐步为大家所知，但总体而言比较零散。特别是对于“它是怎么想出来的”、“非得要这个形式不可吗”等原理性问题，还没有比较好的答案。

因此，本文主要围绕这些问题展开思考，可能在思考过程中读者会有跟笔者一样的感觉，即越思考越觉得这个设计之精妙漂亮，让人叹服～

点击阅读全文...

分类：数学研究标签：复数, 分析, attention, 位置编码阅读全文 97 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前32岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

参与科学空间

中文任务还是SOTA吗？我们给SimCSE补充了一些实验

Transformer升级之路：3、从Performer到线性Attention

激活函数

搜狐文本匹配：基于条件LayerNorm的多任务baseline

赛题介绍

无监督语义相似度哪家强？我们做了个比较全面的评测

方法概要

P-tuning：自动构建模版，释放语言模型潜能

Transformer升级之路：2、博采众长的旋转式位置编码

WGAN的成功，可能跟Wasserstein距离没啥关系

Transformer升级之路：1、Sinusoidal位置编码追根溯源

关于站长

智能搜索

热门标签

最新文章

最近评论

友情链接