包含关键字混合高斯模型的文章 - 科学空间|Scientific Spaces

26 Jul

FlatNCE：小批次对比学习效果差的原因竟是浮点误差？

By 苏剑林 | 2021-07-26 | 44680位读者 | 引用

自SimCLR在视觉无监督学习大放异彩以来，对比学习逐渐在CV乃至NLP中流行了起来，相关研究和工作越来越多。标准的对比学习的一个广为人知的缺点是需要比较大的batch_size（SimCLR在batch_size=4096时效果最佳），小batch_size的时候效果会明显降低，为此，后续工作的改进方向之一就是降低对大batch_size的依赖。那么，一个很自然的问题是：标准的对比学习在小batch_size时效果差的原因究竟是什么呢？

近日，一篇名为《Simpler, Faster, Stronger: Breaking The log-K Curse On Contrastive Learners With FlatNCE》对此问题作出了回答：因为浮点误差。看起来真的很让人难以置信，但论文的分析确实颇有道理，并且所提出的改进FlatNCE确实也工作得更好，让人不得不信服。

细微之处

接下来，笔者将按照自己的理解和记号来介绍原论文的主要内容。对比学习（Contrastive Learning）就不帮大家详细复习了，大体上来说，对于某个样本$x$，我们需要构建$K$个配对样本$y_1,y_2,\cdots,y_K$，其中$y_t$是正样本而其余都是负样本，然后分别给每个样本对$(x, y_i)$打分，分别记为$s_1,s_2,\cdots,s_K$，对比学习希望拉大正负样本对的得分差，通常直接用交叉熵作为损失：
\begin{equation}-\log \frac{e^{s_t}}{\sum\limits_i e^{s_i}} = \log \left(\sum_i e^{s_i}\right) - s_t = \log \left(1 + \sum_{i\neq t} e^{s_i - s_t}\right)\end{equation}

点击阅读全文...

分类：信息时代标签：优化, 损失函数, 对比学习阅读全文 8 评论

6 Aug

Transformer升级之路：5、作为无限维的线性Attention

By 苏剑林 | 2021-08-06 | 23121位读者 | 引用

在《Performer：用随机投影将Attention的复杂度线性化》中我们了解到Google提出的Performer模型，它提出了一种随机投影方案，可以将标准Attention转化为线性Attention，并保持一定的近似。理论上来说，只要投影的维度足够大，那么可以足够近似标准Attention。换句话说，标准Attention可以视作一个无限维的线性Attention。

本文将介绍笔者构思的另外两种将标准Attention转换为无限维线性Attention的思路，不同于Performer的随机投影，笔者构思的这两种方案都是确定性的，并且能比较方便地感知近似程度。

简要介绍

关于标准Attention和线性Attention，这里就不多做介绍了，还不了解的读者可以参考笔者之前的文章《线性Attention的探索：Attention必须有个Softmax吗？》和《Transformer升级之路：3、从Performer到线性Attention》。简单来说，标准Attention的计算方式为
\begin{equation}a_{i,j}=\frac{e^{\boldsymbol{q}_i\cdot \boldsymbol{k}_j}}{\sum\limits_j e^{\boldsymbol{q}_i\cdot \boldsymbol{k}_j}}\end{equation}

点击阅读全文...

分类：信息时代标签：语言模型, attention, 核方法阅读全文抢沙发

24 Aug

隐藏在动量中的梯度累积：少更新几步，效果反而更好？

By 苏剑林 | 2021-08-24 | 32318位读者 | 引用

我们知道，梯度累积是在有限显存下实现大batch_size训练的常用技巧。在之前的文章《用时间换取效果：Keras梯度累积优化器》中，我们就简单介绍过梯度累积的实现，大致的思路是新增一组参数来缓存梯度，最后用缓存的梯度来更新模型。美中不足的是，新增一组参数会带来额外的显存占用。

这几天笔者在思考优化器的时候，突然意识到：梯度累积其实可以内置在带动量的优化器中！带着这个思路，笔者对优化了进行了一些推导和实验，最后还得到一个有意思但又有点反直觉的结论：少更新几步参数，模型最终效果可能会变好！

注：本文下面的结果，几乎原封不动且没有引用地出现在Google的论文《Combined Scaling for Zero-shot Transfer Learning》中，在此不做过多评价，请读者自行品评。

SGDM

在正式讨论之前，我们定义函数
\begin{equation}\chi_{t/k} = \left\{ \begin{aligned}&1,\quad t \equiv 0\,(\text{mod}\, k) \\
&0,\quad t \not\equiv 0\,(\text{mod}\, k)
\end{aligned}\right.\end{equation}
也就是说，$t$是一个整数，当它是$k$的倍数时，$\chi_{t/k}=1$，否则$\chi_{t/k}=0$，这其实就是一个$t$能否被$k$整除的示性函数。在后面的讨论中，我们将反复用到这个函数。

点击阅读全文...

分类：信息时代标签：模型, 分析, 梯度, 优化器阅读全文 3 评论

17 Sep

让人惊叹的Johnson-Lindenstrauss引理：理论篇

By 苏剑林 | 2021-09-17 | 82187位读者 | 引用

今天我们来学习Johnson-Lindenstrauss引理，由于名字比较长，下面都简称“JL引理”。

个人认为，JL引理是每一个计算机科学的同学都必须了解的神奇结论之一，它是一个关于降维的著名的结果，它也是高维空间中众多反直觉的“维度灾难”现象的经典例子之一。可以说，JL引理是机器学习中各种降维、Hash等技术的理论基础，此外，在现代机器学习中，JL引理也为我们理解、调试模型维度等相关参数提供了重要的理论支撑。

对数的维度

JL引理，可以非常通俗地表达为：

通俗版JL引理：塞下$N$个向量，只需要$\mathcal{O}(\log N)$维空间。

点击阅读全文...

分类：数学研究,信息时代标签：模型, 分析, 维度, 机器学习阅读全文 36 评论

10 Sep

曾被嫌弃的预训练任务NSP，做出了优秀的Zero Shot效果

By 苏剑林 | 2021-09-10 | 53863位读者 | 引用

在五花八门的预训练任务设计中，NSP通常认为是比较糟糕的一种，因为它难度较低，加入到预训练中并没有使下游任务微调时有明显受益，甚至RoBERTa的论文显示它会带来负面效果。所以，后续的预训练工作一般有两种选择：一是像RoBERTa一样干脆去掉NSP任务，二是像ALBERT一样想办法提高NSP的难度。也就是说，一直以来NSP都是比较“让人嫌弃”的。

不过，反转来了，NSP可能要“翻身”了。最近的一篇论文《NSP-BERT: A Prompt-based Zero-Shot Learner Through an Original Pre-training Task--Next Sentence Prediction》（下面简称NSP-BERT）显示NSP居然也可以做到非常不错的Zero Shot效果！这又是一个基于模版（Prompt）的Few/Zero Shot的经典案例，只不过这一次的主角是NSP。

背景回顾

曾经我们认为预训练纯粹就是预训练，它只是为下游任务的训练提供更好的初始化，像BERT的预训练任务有MLM（Masked Language Model和NSP（Next Sentence Prediction），在相当长的一段时间内，大家都不关心这两个预训练任务本身，而只是专注于如何通过微调来使得下游任务获得更好的性能。哪怕是T5将模型参数训练到了110亿，走的依然是“预训练+微调”这一路线。

点击阅读全文...

分类：信息时代标签：无监督, 语言模型, NLP, 模版阅读全文 8 评论

18 Oct

初始化方法中非方阵的维度平均策略思考

By 苏剑林 | 2021-10-18 | 30552位读者 | 引用

在《从几何视角来理解模型参数的初始化策略》、《浅谈Transformer的初始化、参数化与标准化》等文章，我们讨论过模型的初始化方法，大致的思路是：如果一个$n\times n$的方阵用均值为0、方差为$1/n$的独立同分布初始化，那么近似于一个正交矩阵，使得数据二阶矩（或方差）在传播过程中大致保持不变。

那如果是$m\times n$的非方阵呢？常见的思路（Xavier初始化）是综合考虑前向传播和反向传播，所以使用均值为0、方差为$2/(m+n)$的独立同分布初始化。但这个平均更多是“拍脑袋”的，本文就来探究一下有没有更好的平均方案。

基础回顾

Xavier初始化是考虑如下的全连接层（设输入节点数为$m$，输出节点数为$n$）
\begin{equation} y_j = b_j + \sum_i x_i w_{i,j}\end{equation}

点击阅读全文...

分类：信息时代标签：模型, 优化, 梯度阅读全文 3 评论

22 Oct

CAN：借助先验分布提升分类性能的简单后处理技巧

By 苏剑林 | 2021-10-22 | 143834位读者 | 引用

顾名思义，本文将会介绍一种用于分类问题的后处理技巧——CAN（Classification with Alternating Normalization），出自论文《When in Doubt: Improving Classification Performance with Alternating Normalization》。经过笔者的实测，CAN确实多数情况下能提升多分类问题的效果，而且几乎没有增加预测成本，因为它仅仅是对预测结果的简单重新归一化操作。

有趣的是，其实CAN的思想是非常朴素的，朴素到每个人在生活中都应该用过同样的思想。然而，CAN的论文却没有很好地说清楚这个思想，只是纯粹形式化地介绍和实验这个方法。本文的分享中，将会尽量将算法思想介绍清楚。

思想例子

假设有一个二分类问题，模型对于输入$a$给出的预测结果是$p^{(a)} = [0.05, 0.95]$，那么我们就可以给出预测类别为$1$；接下来，对于输入$b$，模型给出的预测结果是$p^{(b)}=[0.5,0.5]$，这时候处于最不确定的状态，我们也不知道输出哪个类别好。

点击阅读全文...

分类：信息时代标签：模型, 概率, 分析, 技巧阅读全文 49 评论

15 Nov

WGAN新方案：通过梯度归一化来实现L约束

By 苏剑林 | 2021-11-15 | 53320位读者 | 引用

当前，WGAN主流的实现方式包括参数裁剪（Weight Clipping）、谱归一化（Spectral Normalization）、梯度惩罚（Gradient Penalty），本来则来介绍一种新的实现方案：梯度归一化（Gradient Normalization），该方案出自两篇有意思的论文，分别是《Gradient Normalization for Generative Adversarial Networks》和《GraN-GAN: Piecewise Gradient Normalization for Generative Adversarial Networks》。

有意思在什么地方呢？从标题可以看到，这两篇论文应该是高度重合的，甚至应该是同一作者的。但事实上，这是两篇不同团队的、大致是同一时期的论文，一篇中了ICCV，一篇中了WACV，它们基于同样的假设推出了几乎一样的解决方案，内容重合度之高让我一直以为是同一篇论文。果然是巧合无处不在啊～

点击阅读全文...

分类：信息时代标签：无监督, GAN, 生成模型阅读全文 14 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

FlatNCE：小批次对比学习效果差的原因竟是浮点误差？

细微之处

Transformer升级之路：5、作为无限维的线性Attention

简要介绍

隐藏在动量中的梯度累积：少更新几步，效果反而更好？

SGDM

让人惊叹的Johnson-Lindenstrauss引理：理论篇

对数的维度

曾被嫌弃的预训练任务NSP，做出了优秀的Zero Shot效果

背景回顾

初始化方法中非方阵的维度平均策略思考

基础回顾

CAN：借助先验分布提升分类性能的简单后处理技巧

思想例子

WGAN新方案：通过梯度归一化来实现L约束

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接