包含关键字 adam优化器的文章 - 科学空间|Scientific Spaces

26 Jan

Seq2Seq重复解码现象的理论分析尝试

By 苏剑林 | 2021-01-26 | 32781位读者 | 引用

去年笔者写过博文《如何应对Seq2Seq中的“根本停不下来”问题？》，里边介绍了一篇论文中对Seq2Seq解码不停止现象的处理，并指出那篇论文只是提了一些应对该问题的策略，并没有提供原理上的理解。近日，笔者在Arixv读到了AAAI 2021的一篇名为《A Theoretical Analysis of the Repetition Problem in Text Generation》的论文，里边从理论上分析了Seq2Seq重复解码现象。从本质上来看，重复解码和解码不停止其实都是同理的，所以这篇新论文算是填补了前面那篇论文的空白。

经过学习，笔者发现该论文确实有不少可圈可点之处，值得一读。笔者对原论文中的分析过程做了一些精简、修正和推广，将结果记录成此文，供大家参考。此外，抛开问题背景不讲，读者也可以将本文当成一节矩阵分析习题课，供大家复习线性代数哈～

点击阅读全文...

分类：数学研究,信息时代标签：矩阵, 语言模型, 文本生成, 解码阅读全文 5 评论

16 Feb

Nyströmformer：基于矩阵分解的线性化Attention方案

By 苏剑林 | 2021-02-16 | 46081位读者 | 引用

标准Attention的$\mathcal{O}(n^2)$复杂度可真是让研究人员头大。前段时间我们在博文《Performer：用随机投影将Attention的复杂度线性化》中介绍了Google的Performer模型，它通过随机投影的方式将标准Attention转化为线性Attention。无独有偶，前些天Arxiv上放出了AAAI 2021的一篇论文《Nyströmformer: A Nyström-Based Algorithm for Approximating Self-Attention》，里边又提出了一种从另一个角度把标准Attention线性化的方案。

Nyströmformer结构示意图

该方案写的是Nyström-Based，顾名思义是利用了Nyström方法来近似标准Attention的。但是坦白说，在看到这篇论文之前，笔者也完全没听说过Nyström方法，而纵观整篇论文，里边也全是笔者一眼看上去感觉很茫然的矩阵分解推导，理解起来颇为困难。不过有趣的是，尽管作者的推导很复杂，但笔者发现最终的结果可以通过一个相对来说更简明的方式来理解，遂将笔者对Nyströmformer的理解整理在此，供大家参考。

点击阅读全文...

分类：信息时代标签：矩阵, 语言模型, attention 阅读全文 9 评论

8 Jul

两个多元正态分布的KL散度、巴氏距离和W距离

By 苏剑林 | 2021-07-08 | 109258位读者 | 引用

正态分布是最常见的连续型概率分布之一。它是给定均值和协方差后的最大熵分布（参考《“熵”不起：从熵、最大熵原理到最大熵模型（二）》），也可以看作任意连续型分布的二阶近似，它的地位就相当于一般函数的线性近似。从这个角度来看，正态分布算得上是最简单的连续型分布了。也正因为简单，所以对于很多估计量来说，它都能写出解析解来。

本文主要来计算两个多元正态分布的几种度量，包括KL散度、巴氏距离和W距离，它们都有显式解析解。

正态分布

这里简单回顾一下正态分布的一些基础知识。注意，仅仅是回顾，这还不足以作为正态分布的入门教程。

概率密度

正态分布，也即高斯分布，是定义在$\mathbb{R}^n$上的连续型概率分布，其概率密度函数为
\begin{equation}p(\boldsymbol{x})=\frac{1}{\sqrt{(2\pi)^n \det(\boldsymbol{\Sigma})}}\exp\left\{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{\top}\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right\}\end{equation}

点击阅读全文...

分类：数学研究标签：概率, 矩阵, 优化阅读全文 30 评论

24 Sep

让人惊叹的Johnson-Lindenstrauss引理：应用篇

By 苏剑林 | 2021-09-24 | 36495位读者 | 引用

上一篇文章中，我们比较详细地介绍了Johnson-Lindenstrauss引理（JL引理）的理论推导，这一篇我们来关注它的应用。

作为一个内容上本身就跟降维相关的结论，JL引理最基本的自然就是作为一个降维方法来用。但除了这个直接应用外，很多看似不相关的算法，比如局部敏感哈希（LSH）、随机SVD等，本质上也依赖于JL引理。此外，对于机器学习模型来说，JL引理通常还能为我们的维度选择提供一些理论解释。

降维的工具

JL引理提供了一个非常简单直接的“随机投影”降维思路：

给定$N$个向量$v_1,v_2,\cdots,v_N\in\mathbb{R}^m$，如果想要将它降到$n$维，那么只需要从$\mathcal{N}(0,1/n)$中采样一个$n\times m$矩阵$A$，然后$Av_1,Av_2,\cdots,Av_N$就是降维后的结果。

点击阅读全文...

分类：数学研究,信息时代标签：模型, 分析, 维度, 机器学习阅读全文 2 评论

22 Apr

Transformer升级之路：3、从Performer到线性Attention

By 苏剑林 | 2021-04-22 | 57170位读者 | 引用

看过笔者之前的文章《线性Attention的探索：Attention必须有个Softmax吗？》和《Performer：用随机投影将Attention的复杂度线性化》的读者，可能会觉得本文的标题有点不自然，因为是先有线性Attention然后才有Performer的，它们的关系为“Performer是线性Attention的一种实现，在保证线性复杂度的同时保持了对标准Attention的近似”，所以正常来说是“从线性Attention到Performer”才对。

然而，本文并不是打算梳理线性Attention的发展史，而是打算反过来思考Performer给线性Attention所带来的启示，所以是“从Performer到线性Attention”。

激活函数

线性Attention的常见形式是
\begin{equation}Attention(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V})_i = \frac{\sum\limits_{j=1}^n \text{sim}(\boldsymbol{q}_i, \boldsymbol{k}_j)\boldsymbol{v}_j}{\sum\limits_{j=1}^n \text{sim}(\boldsymbol{q}_i, \boldsymbol{k}_j)} = \frac{\sum\limits_{j=1}^n \phi(\boldsymbol{q}_i)^{\top} \varphi(\boldsymbol{k}_j)\boldsymbol{v}_j}{\sum\limits_{j=1}^n \phi(\boldsymbol{q}_i)^{\top} \varphi(\boldsymbol{k}_j)}\end{equation}

点击阅读全文...

分类：信息时代标签：语言模型, attention 阅读全文 13 评论

19 Jul

用开源的人工标注数据来增强RoFormer-Sim

By 苏剑林 | 2021-07-19 | 141923位读者 | 引用

大家知道，从SimBERT到SimBERTv2（RoFormer-Sim），我们算是为中文文本相似度任务建立了一个还算不错的基准模型。然而，SimBERT和RoFormer-Sim本质上都只是“弱监督”模型，跟“无监督”类似，我们不能指望纯弱监督的模型能达到完美符合人的认知效果。所以，为了进一步提升RoFormer-Sim的效果，我们尝试了使用开源的一些标注数据来辅助训练。本文就来介绍我们的探索过程。

有的读者可能想：有监督有啥好讲的？不就是直接训练么？说是这么说，但其实并没有那么“显然易得”，还是有些“雷区”的，所以本文也算是一份简单的“扫雷指南”吧。

前情回顾

笔者发现，自从SimBERT发布后，读者问得最多的问题大概是：

为什么“我喜欢北京”跟“我不喜欢北京”相似度这么高？它们不是意思相反吗？

点击阅读全文...

分类：信息时代标签：语言模型, 生成模型, 文本生成阅读全文 59 评论

22 Jul

概率视角下的线性模型：逻辑回归有解析解吗？

By 苏剑林 | 2021-07-22 | 78923位读者 | 引用

我们知道，线性回归是比较简单的问题，它存在解析解，而它的变体逻辑回归（Logistic Regression）却没有解析解，这不能不说是一个遗憾。因为逻辑回归虽然也叫“回归”，但它实际上是用于分类问题的，而对于很多读者来说分类比回归更加常见。准确来说，我们说逻辑回归没有解析解，说的是“最大似然估计下逻辑回归没有解析解”。那么，这是否意味着，如果我们不用最大似然估计，是否能找到一个可用的解析解呢？

逻辑回归示意图

本文将会从非最大似然的角度，推导逻辑回归的一个解析解，简单的实验表明它效果不逊色于梯度下降求出来的最大似然解。此外，这个解析解还易于推广到单层Softmax多分类模型。

点击阅读全文...

分类：数学研究标签：模型, 概率, 优化阅读全文 26 评论

17 Sep

让人惊叹的Johnson-Lindenstrauss引理：理论篇

By 苏剑林 | 2021-09-17 | 85987位读者 | 引用

今天我们来学习Johnson-Lindenstrauss引理，由于名字比较长，下面都简称“JL引理”。

个人认为，JL引理是每一个计算机科学的同学都必须了解的神奇结论之一，它是一个关于降维的著名的结果，它也是高维空间中众多反直觉的“维度灾难”现象的经典例子之一。可以说，JL引理是机器学习中各种降维、Hash等技术的理论基础，此外，在现代机器学习中，JL引理也为我们理解、调试模型维度等相关参数提供了重要的理论支撑。

对数的维度

JL引理，可以非常通俗地表达为：

通俗版JL引理：塞下$N$个向量，只需要$\mathcal{O}(\log N)$维空间。

点击阅读全文...

分类：数学研究,信息时代标签：模型, 分析, 维度, 机器学习阅读全文 38 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

Seq2Seq重复解码现象的理论分析尝试

Nyströmformer：基于矩阵分解的线性化Attention方案

两个多元正态分布的KL散度、巴氏距离和W距离

正态分布

概率密度

让人惊叹的Johnson-Lindenstrauss引理：应用篇

降维的工具

Transformer升级之路：3、从Performer到线性Attention

激活函数

用开源的人工标注数据来增强RoFormer-Sim

前情回顾

概率视角下的线性模型：逻辑回归有解析解吗？

让人惊叹的Johnson-Lindenstrauss引理：理论篇

对数的维度

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接