包含关键字 TransformerTransformer升级之路的文章

15 Mar

WGAN的成功，可能跟Wasserstein距离没啥关系

By 苏剑林 | 2021-03-15 | 54467位读者 | 引用

WGAN，即Wasserstein GAN，算是GAN史上一个比较重要的理论突破结果，它将GAN中两个概率分布的度量从f散度改为了Wasserstein距离，从而使得WGAN的训练过程更加稳定，而且生成质量通常也更好。Wasserstein距离跟最优传输相关，属于Integral Probability Metric（IPM）的一种，这类概率度量通常有着更优良的理论性质，因此WGAN的出现也吸引了很多人从最优传输和IPMs的角度来理解和研究GAN模型。

然而，最近Arxiv上的论文《Wasserstein GANs Work Because They Fail (to Approximate the Wasserstein Distance)》则指出，尽管WGAN是从Wasserstein GAN推导出来的，但是现在成功的WGAN并没有很好地近似Wasserstein距离，相反如果我们对Wasserstein距离做更好的近似，效果反而会变差。事实上，笔者一直以来也有这个疑惑，即Wasserstein距离本身并没有体现出它能提升GAN效果的必然性，该论文的结论则肯定了该疑惑，所以GAN能成功的原因依然很迷～

点击阅读全文...

分类：信息时代标签：优化, GAN, 生成模型阅读全文 14 评论

26 Apr

中文任务还是SOTA吗？我们给SimCSE补充了一些实验

By 苏剑林 | 2021-04-26 | 232585位读者 | 引用

今年年初，笔者受到BERT-flow的启发，构思了成为“BERT-whitening”的方法，并一度成为了语义相似度的新SOTA（参考《你可能不需要BERT-flow：一个线性变换媲美BERT-flow》，论文为《Whitening Sentence Representations for Better Semantics and Faster Retrieval》）。然而“好景不长”，在BERT-whitening提交到Arxiv的不久之后，Arxiv上出现了至少有两篇结果明显优于BERT-whitening的新论文。

第一篇是《Generating Datasets with Pretrained Language Models》，这篇借助模板从GPT2_XL中无监督地构造了数据对来训练相似度模型，个人认为虽然有一定的启发而且效果还可以，但是复现的成本和变数都太大。另一篇则是本文的主角《SimCSE: Simple Contrastive Learning of Sentence Embeddings》，它提出的SimCSE在英文数据上显著超过了BERT-flow和BERT-whitening，并且方法特别简单～

那么，SimCSE在中文上同样有效吗？能大幅提高中文语义相似度的效果吗？本文就来做些补充实验。

开源地址：https://github.com/bojone/SimCSE

点击阅读全文...

分类：信息时代标签：语言模型, 语义, 语义相似度, 对比学习阅读全文 118 评论

27 Sep

关于维度公式“n > 8.33 log N”的可用性分析

By 苏剑林 | 2021-09-27 | 40179位读者 | 引用

在之前的文章《最小熵原理（六）：词向量的维度应该怎么选择？》中，我们基于最小熵思想推导出了一个词向量维度公式“$n > 8.33\log N$”，然后在《让人惊叹的Johnson-Lindenstrauss引理：应用篇》中我们进一步指出，该结果与JL引理所给出的$\mathcal{O}(\log N)$是吻合的。

既然理论上看上去很完美，那么自然就有读者发问了：实验结果如何呢？8.33这个系数是最优的吗？本文就对此问题的相关内容做一个简单汇总。

词向量

首先，我们可以直接，当$N$为10万时，$8.33\log N\approx 96$，当$N$为500万时，$8.33\log N\approx 128$。这说明，至少在数量级上，该公式给出的结果是很符合我们实际所用维度的，因为在词向量时代，我们自行训练的词向量维度也就是100维左右。可能有读者会质疑，目前开源的词向量多数是300维的，像BERT的Embedding层都达到了768维，这不是明显偏离了你的结果了？

点击阅读全文...

分类：信息时代标签：维度, 熵, 词向量阅读全文 5 评论

19 Jul

用开源的人工标注数据来增强RoFormer-Sim

By 苏剑林 | 2021-07-19 | 140156位读者 | 引用

大家知道，从SimBERT到SimBERTv2（RoFormer-Sim），我们算是为中文文本相似度任务建立了一个还算不错的基准模型。然而，SimBERT和RoFormer-Sim本质上都只是“弱监督”模型，跟“无监督”类似，我们不能指望纯弱监督的模型能达到完美符合人的认知效果。所以，为了进一步提升RoFormer-Sim的效果，我们尝试了使用开源的一些标注数据来辅助训练。本文就来介绍我们的探索过程。

有的读者可能想：有监督有啥好讲的？不就是直接训练么？说是这么说，但其实并没有那么“显然易得”，还是有些“雷区”的，所以本文也算是一份简单的“扫雷指南”吧。

前情回顾

笔者发现，自从SimBERT发布后，读者问得最多的问题大概是：

为什么“我喜欢北京”跟“我不喜欢北京”相似度这么高？它们不是意思相反吗？

点击阅读全文...

分类：信息时代标签：语言模型, 生成模型, 文本生成阅读全文 59 评论

26 Jul

FlatNCE：小批次对比学习效果差的原因竟是浮点误差？

By 苏剑林 | 2021-07-26 | 46180位读者 | 引用

自SimCLR在视觉无监督学习大放异彩以来，对比学习逐渐在CV乃至NLP中流行了起来，相关研究和工作越来越多。标准的对比学习的一个广为人知的缺点是需要比较大的batch_size（SimCLR在batch_size=4096时效果最佳），小batch_size的时候效果会明显降低，为此，后续工作的改进方向之一就是降低对大batch_size的依赖。那么，一个很自然的问题是：标准的对比学习在小batch_size时效果差的原因究竟是什么呢？

近日，一篇名为《Simpler, Faster, Stronger: Breaking The log-K Curse On Contrastive Learners With FlatNCE》对此问题作出了回答：因为浮点误差。看起来真的很让人难以置信，但论文的分析确实颇有道理，并且所提出的改进FlatNCE确实也工作得更好，让人不得不信服。

细微之处

接下来，笔者将按照自己的理解和记号来介绍原论文的主要内容。对比学习（Contrastive Learning）就不帮大家详细复习了，大体上来说，对于某个样本$x$，我们需要构建$K$个配对样本$y_1,y_2,\cdots,y_K$，其中$y_t$是正样本而其余都是负样本，然后分别给每个样本对$(x, y_i)$打分，分别记为$s_1,s_2,\cdots,s_K$，对比学习希望拉大正负样本对的得分差，通常直接用交叉熵作为损失：
\begin{equation}-\log \frac{e^{s_t}}{\sum\limits_i e^{s_i}} = \log \left(\sum_i e^{s_i}\right) - s_t = \log \left(1 + \sum_{i\neq t} e^{s_i - s_t}\right)\end{equation}

点击阅读全文...

分类：信息时代标签：优化, 损失函数, 对比学习阅读全文 8 评论

22 Oct

CAN：借助先验分布提升分类性能的简单后处理技巧

By 苏剑林 | 2021-10-22 | 147952位读者 | 引用

顾名思义，本文将会介绍一种用于分类问题的后处理技巧——CAN（Classification with Alternating Normalization），出自论文《When in Doubt: Improving Classification Performance with Alternating Normalization》。经过笔者的实测，CAN确实多数情况下能提升多分类问题的效果，而且几乎没有增加预测成本，因为它仅仅是对预测结果的简单重新归一化操作。

有趣的是，其实CAN的思想是非常朴素的，朴素到每个人在生活中都应该用过同样的思想。然而，CAN的论文却没有很好地说清楚这个思想，只是纯粹形式化地介绍和实验这个方法。本文的分享中，将会尽量将算法思想介绍清楚。

思想例子

假设有一个二分类问题，模型对于输入$a$给出的预测结果是$p^{(a)} = [0.05, 0.95]$，那么我们就可以给出预测类别为$1$；接下来，对于输入$b$，模型给出的预测结果是$p^{(b)}=[0.5,0.5]$，这时候处于最不确定的状态，我们也不知道输出哪个类别好。

点击阅读全文...

分类：信息时代标签：模型, 概率, 分析, 技巧阅读全文 49 评论

4 Dec

开局一段扯，数据全靠编？真被一篇“神论文”气到了

By 苏剑林 | 2021-12-04 | 55304位读者 | 引用

这篇文章谈一下笔者被昨天出来的一篇“神论文”气到了的经历。

这篇“神论文”是《How not to Lie with a Benchmark: Rearranging NLP Leaderboards》，论文的大致内容是说目前很多排行榜算平均都用算术平均，而它认为几何平均与调和平均更加合理。最关键是它还对GLUE、SuperGLUE等榜单上的模型用几何平均和调和平均重新算了一下排名，结果发现那些超过人类的模型在新的平均方案下都没超过人类了。

看上去是不是觉得挺有意思的？我也觉得挺有意思的，所以打算写一篇博客介绍一下它。结果博客快写完了，然后在对数据的时候，发现里边表格的数据全是乱来的！！！真实的结果完全不支撑它的结论！！！所以，这篇博客就从“表扬大会”变成了“批评大会”...

点击阅读全文...

分类：信息时代,生活/情感标签：情感, 模型阅读全文 10 评论

9 Dec

变分自编码器（八）：估计样本概率密度

By 苏剑林 | 2021-12-09 | 62919位读者 | 引用

在本系列的前面几篇文章中，我们已经从多个角度来理解了VAE，一般来说，用VAE是为了得到一个生成模型，或者是做更好的编码模型，这都是VAE的常规用途。但除了这些常规应用外，还有一些“小众需求”，比如用来估计$x$的概率密度，这在做压缩的时候通常会用到。

本文就从估计概率密度的角度来了解和推导一下VAE模型。

两个问题

所谓估计概率密度，就是在已知样本$x_1,x_2,\cdots,x_N\sim \tilde{p}(x)$的情况下，用一个待定的概率密度簇$q_{\theta}(x)$去拟合这批样本，拟合的目标一般是最小化负对数似然：
\begin{equation}\mathbb{E}_{x\sim \tilde{p}(x)}[-\log q_{\theta}(x)] = -\frac{1}{N}\sum_{i=1}^N \log q_{\theta}(x_i)\label{eq:mle}\end{equation}

点击阅读全文...

分类：信息时代标签：概率, 变分, vae, 生成模型阅读全文 24 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

WGAN的成功，可能跟Wasserstein距离没啥关系

中文任务还是SOTA吗？我们给SimCSE补充了一些实验

关于维度公式“n > 8.33 log N”的可用性分析

词向量

用开源的人工标注数据来增强RoFormer-Sim

前情回顾

FlatNCE：小批次对比学习效果差的原因竟是浮点误差？

细微之处

CAN：借助先验分布提升分类性能的简单后处理技巧

思想例子

开局一段扯，数据全靠编？真被一篇“神论文”气到了

变分自编码器（八）：估计样本概率密度

两个问题

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接