包含关键字变形梯度的时间导数的文章

19 Jul

通过互信息思想来缓解类别不平衡问题

By 苏剑林 | 2020-07-19 | 156711位读者 | 引用

类别不平衡问题，也叫“长尾问题”，是机器学习面临的常见问题之一，尤其是来源于真实场景下的数据集，几乎都是类别不平衡的。大概在两年前，笔者也思考过这个问题，当时正好对“互信息”相关的内容颇有心得，所以构思了一种基于互信息思想的解决办法，但又想了一下，那思路似乎过于平凡，所以就没有深究。然而，前几天在arxiv上刷到Google的一篇文章《Long-tail learning via logit adjustment》，意外地发现里边包含了跟笔者当初的构思几乎一样的方法，这才意识到当初放弃的思路原来还能达到SOTA的水平～于是结合这篇论文，将笔者当初的构思过程整理于此，希望不会被读者嫌弃“马后炮”。

问题描述

这里主要关心的是单标签的多分类问题，假设有$1,2,\cdots,K$共$K$个候选类别，训练数据为$(x,y)\sim\mathcal{D}$，建模的分布为$p_{\theta}(y|x)$，那么我们的优化目标是最大似然，或者说最小化交叉熵，即
\begin{equation}\mathop{\text{argmin}}_{\theta}\,\mathbb{E}_{(x,y)\sim\mathcal{D}}[-\log p_{\theta}(y|x)]\end{equation}

点击阅读全文...

分类：信息时代标签：优化, 互信息, 损失函数阅读全文 93 评论

29 Sep

第1000篇文章

By 苏剑林 | 2020-09-29 | 54605位读者 | 引用

后台提示，本文是科学空间的第1000篇文章。

本想写下一篇文章的，但是看到这个提示，就先瞎写个水文纪念一下。都说人老了就喜欢各种感叹，这话还真不假。看到别人高考来个感想，博客十周年了来个感想，现在第1000篇文章了也来个感想，似乎总想找点理由感叹一下一样。那今天又能扯些啥犊子呢？

1000

首先，自恋一下。1000篇文章，如果要印刷下来，就算每篇文章印一页，那也能印个1000页了，相信不少人都没捧起过1000页的书吧（我还真读过，有文章为证：《哈哈，我的“〈圣经〉”到了》），我居然能写个1000篇，也是挺佩服自己的。当然，早期的文章有部分是转载的，不是全部都自己写的，不过还是坚持了不少原创内容，而且就算是转载的也是经过自己编辑整理的，不算纯Copy，所以也勉强能说的过去吧。

然后，庆幸一下。博客开始的主题是天文和科普，后来慢慢偏向了理论物理和数学，现在则偏向了机器学习，但不管怎样，总算很庆幸地在科学这条路坚持了下来。虽然没有像幼时设想的那样成为一名真正的自然科学家/数学家，但终究有点相关，闲时依然可以做做科学计算，勉强也对得起当初的梦想。

点击阅读全文...

分类：生活/情感标签：生活, 节日, 情感阅读全文 22 评论

11 Nov

当GPT遇上中国象棋：写过文章解过题，要不再来下盘棋？

By 苏剑林 | 2020-11-11 | 53776位读者 | 引用

中国象棋

不知道读者有没有看过量子位年初的文章《最强写作AI竟然学会象棋和作曲，语言模型跨界操作引热议，在线求战》，里边提到有网友用GPT2模型训练了一个下国际象棋的模型。笔者一直在想，这么有趣的事情怎么可以没有中文版呢？对于国际象棋来说，其中文版自然就是中国象棋了，于是我一直有想着把它的结果在中国象棋上面复现一下。拖了大半年，在最近几天终于把这个事情完成了，在此跟大家分享一下。

象棋谱式
将军不离九宫内，士止相随不出官。
象飞四方营四角，马行一步一尖冲。
炮须隔子打一子，车行直路任西东。
唯卒只能行一步，过河横进退无踪。

点击阅读全文...

分类：信息时代标签：中国象棋, 语言模型, attention 阅读全文 19 评论

4 Dec

层次分解位置编码，让BERT可以处理超长文本

By 苏剑林 | 2020-12-04 | 120972位读者 | 引用

大家都知道，目前的主流的BERT模型最多能处理512个token的文本。导致这一瓶颈的根本原因是BERT使用了从随机初始化训练出来的绝对位置编码，一般的最大位置设为了512，因此顶多只能处理512个token，多出来的部分就没有位置编码可用了。当然，还有一个重要的原因是Attention的$\mathcal{O}(n^2)$复杂度，导致长序列时显存用量大大增加，一般显卡也finetune不了。

位置编码的层次分解示意图

本文主要面向前一个原因，即假设有足够多的显存前提下，如何简单修改当前最大长度为512的BERT模型，使得它可以直接处理更长的文本，主要思路是层次分解已经训练好的绝对位置编码，使得它可以延拓到更长的位置。

点击阅读全文...

分类：信息时代标签：模型, 优化, attention 阅读全文 52 评论

8 Mar

Transformer升级之路：1、Sinusoidal位置编码追根溯源

By 苏剑林 | 2021-03-08 | 134850位读者 | 引用

最近笔者做了一些理解和改进Transformer的尝试，得到了一些似乎还有价值的经验和结论，遂开一个专题总结一下，命名为“Transformer升级之路”，既代表理解上的深入，也代表结果上的改进。

作为该专题的第一篇文章，笔者将会介绍自己对Google在《Attention is All You Need》中提出来的Sinusoidal位置编码
\begin{equation}\left\{\begin{aligned}&\boldsymbol{p}_{k,2i}=\sin\Big(k/10000^{2i/d}\Big)\\
&\boldsymbol{p}_{k, 2i+1}=\cos\Big(k/10000^{2i/d}\Big)
\end{aligned}\right.\label{eq:sin}\end{equation}
的新理解，其中$\boldsymbol{p}_{k,2i},\boldsymbol{p}_{k,2i+1}$分别是位置$k$的编码向量的第$2i,2i+1$个分量，$d$是向量维度。

作为位置编码的一个显式解，Google在原论文中对它的描述却寥寥无几，只是简单提及了它可以表达相对位置信息，后来知乎等平台上也出现了一些解读，它的一些特点也逐步为大家所知，但总体而言比较零散。特别是对于“它是怎么想出来的”、“非得要这个形式不可吗”等原理性问题，还没有比较好的答案。

因此，本文主要围绕这些问题展开思考，可能在思考过程中读者会有跟笔者一样的感觉，即越思考越觉得这个设计之精妙漂亮，让人叹服～

点击阅读全文...

分类：数学研究标签：复数, 分析, attention, 位置编码阅读全文 83 评论

22 Apr

Transformer升级之路：3、从Performer到线性Attention

By 苏剑林 | 2021-04-22 | 56036位读者 | 引用

看过笔者之前的文章《线性Attention的探索：Attention必须有个Softmax吗？》和《Performer：用随机投影将Attention的复杂度线性化》的读者，可能会觉得本文的标题有点不自然，因为是先有线性Attention然后才有Performer的，它们的关系为“Performer是线性Attention的一种实现，在保证线性复杂度的同时保持了对标准Attention的近似”，所以正常来说是“从线性Attention到Performer”才对。

然而，本文并不是打算梳理线性Attention的发展史，而是打算反过来思考Performer给线性Attention所带来的启示，所以是“从Performer到线性Attention”。

激活函数

线性Attention的常见形式是
\begin{equation}Attention(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V})_i = \frac{\sum\limits_{j=1}^n \text{sim}(\boldsymbol{q}_i, \boldsymbol{k}_j)\boldsymbol{v}_j}{\sum\limits_{j=1}^n \text{sim}(\boldsymbol{q}_i, \boldsymbol{k}_j)} = \frac{\sum\limits_{j=1}^n \phi(\boldsymbol{q}_i)^{\top} \varphi(\boldsymbol{k}_j)\boldsymbol{v}_j}{\sum\limits_{j=1}^n \phi(\boldsymbol{q}_i)^{\top} \varphi(\boldsymbol{k}_j)}\end{equation}

点击阅读全文...

分类：信息时代标签：语言模型, attention 阅读全文 13 评论

26 Apr

中文任务还是SOTA吗？我们给SimCSE补充了一些实验

By 苏剑林 | 2021-04-26 | 231995位读者 | 引用

今年年初，笔者受到BERT-flow的启发，构思了成为“BERT-whitening”的方法，并一度成为了语义相似度的新SOTA（参考《你可能不需要BERT-flow：一个线性变换媲美BERT-flow》，论文为《Whitening Sentence Representations for Better Semantics and Faster Retrieval》）。然而“好景不长”，在BERT-whitening提交到Arxiv的不久之后，Arxiv上出现了至少有两篇结果明显优于BERT-whitening的新论文。

第一篇是《Generating Datasets with Pretrained Language Models》，这篇借助模板从GPT2_XL中无监督地构造了数据对来训练相似度模型，个人认为虽然有一定的启发而且效果还可以，但是复现的成本和变数都太大。另一篇则是本文的主角《SimCSE: Simple Contrastive Learning of Sentence Embeddings》，它提出的SimCSE在英文数据上显著超过了BERT-flow和BERT-whitening，并且方法特别简单～

那么，SimCSE在中文上同样有效吗？能大幅提高中文语义相似度的效果吗？本文就来做些补充实验。

开源地址：https://github.com/bojone/SimCSE

点击阅读全文...

分类：信息时代标签：语言模型, 语义, 语义相似度, 对比学习阅读全文 118 评论

4 Dec

开局一段扯，数据全靠编？真被一篇“神论文”气到了

By 苏剑林 | 2021-12-04 | 55081位读者 | 引用

这篇文章谈一下笔者被昨天出来的一篇“神论文”气到了的经历。

这篇“神论文”是《How not to Lie with a Benchmark: Rearranging NLP Leaderboards》，论文的大致内容是说目前很多排行榜算平均都用算术平均，而它认为几何平均与调和平均更加合理。最关键是它还对GLUE、SuperGLUE等榜单上的模型用几何平均和调和平均重新算了一下排名，结果发现那些超过人类的模型在新的平均方案下都没超过人类了。

看上去是不是觉得挺有意思的？我也觉得挺有意思的，所以打算写一篇博客介绍一下它。结果博客快写完了，然后在对数据的时候，发现里边表格的数据全是乱来的！！！真实的结果完全不支撑它的结论！！！所以，这篇博客就从“表扬大会”变成了“批评大会”...

点击阅读全文...

分类：信息时代,生活/情感标签：情感, 模型阅读全文 10 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

通过互信息思想来缓解类别不平衡问题

问题描述

第1000篇文章

当GPT遇上中国象棋：写过文章解过题，要不再来下盘棋？

层次分解位置编码，让BERT可以处理超长文本

Transformer升级之路：1、Sinusoidal位置编码追根溯源

Transformer升级之路：3、从Performer到线性Attention

激活函数

中文任务还是SOTA吗？我们给SimCSE补充了一些实验

开局一段扯，数据全靠编？真被一篇“神论文”气到了

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接