包含关键字回归问题的文章 - 科学空间|Scientific Spaces

14 Dec

基于Conditional Layer Normalization的条件文本生成

By 苏剑林 | 2019-12-14 | 112240位读者 | 引用

从文章《从语言模型到Seq2Seq：Transformer如戏，全靠Mask》中我们可以知道，只要配合适当的Attention Mask，Bert（或者其他Transformer模型）就可以用来做无条件生成（Language Model）和序列翻译（Seq2Seq）任务。

可如果是有条件生成呢？比如控制文本的类别，按类别随机生成文本，也就是Conditional Language Model；又比如传入一副图像，来生成一段相关的文本描述，也就是Image Caption。

VQ-VAE的简明介绍：量子化自编码器

By 苏剑林 | 2019-06-24 | 309708位读者 | 引用

印象中很早之前就看到过VQ-VAE，当时对它并没有什么兴趣，而最近有两件事情重新引起了我对它的兴趣。一是VQ-VAE-2实现了能够匹配BigGAN的生成效果（来自机器之心的报道）；二是我最近看一篇NLP论文《Unsupervised Paraphrasing without Translation》时发现里边也用到了VQ-VAE。这两件事情表明VQ-VAE应该是一个颇为通用和有意思的模型，所以我决定好好读读它。

个人复现的VQ-VAE在CelebA上的重构效果。可以留意到细节保留得还不错，但稍微放大后能留意到仍有一些模糊感。

点击阅读全文...

分类：信息时代标签：无监督, 生成模型, 编码, 离散化阅读全文 145 评论

6 Jul

你跳绳的时候，想过绳子的形状曲线是怎样的吗？

By 苏剑林 | 2019-07-06 | 48712位读者 | 引用

前几天，好几个数学/物理群都在转发李永乐老师发在他微博里的一道题：

绳子固定在杆上旋转的曲线问题

想起好久没有做数学物理题了，所以我也思考了一下，也搜了一些资料，在此与大家分享一下。

线性Attention的探索：Attention必须有个Softmax吗？

By 苏剑林 | 2020-07-04 | 213723位读者 | 引用

众所周知，尽管基于Attention机制的Transformer类模型有着良好的并行性能，但它的空间和时间复杂度都是$\mathcal{O}(n^2)$级别的，$n$是序列长度，所以当$n$比较大时Transformer模型的计算量难以承受。近来，也有不少工作致力于降低Transformer模型的计算量，比如模型剪枝、量化、蒸馏等精简技术，又或者修改Attention结构，使得其复杂度能降低到$\mathcal{O}(n\log n)$甚至$\mathcal{O}(n)$。

前几天笔者读到了论文《Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention》，了解到了线性化Attention（Linear Attention）这个探索点，继而阅读了一些相关文献，有一些不错的收获，最后将自己对线性化Attention的理解汇总在此文中。

Attention

当前最流行的Attention机制当属Scaled-Dot Attention，形式为
\begin{equation}Attention(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V}) = softmax\left(\boldsymbol{Q}\boldsymbol{K}^{\top}\right)\boldsymbol{V}\label{eq:std-att}\end{equation}
这里的$\boldsymbol{Q}\in\mathbb{R}^{n\times d_k}, \boldsymbol{K}\in\mathbb{R}^{m\times d_k}, \boldsymbol{V}\in\mathbb{R}^{m\times d_v}$，简单起见我们就没显式地写出Attention的缩放因子了。本文我们主要关心Self Attention场景，所以为了介绍上的方便统一设$\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V}\in\mathbb{R}^{n\times d}$，一般场景下都有$n > d$甚至$n\gg d$（BERT base里边$d=64$）。

点击阅读全文...

分类：信息时代标签：模型, 文本生成, attention 阅读全文 102 评论

10 Jul

强大的NVAE：以后再也不能说VAE生成的图像模糊了

By 苏剑林 | 2020-07-10 | 106361位读者 | 引用

昨天早上，笔者在日常刷arixv的时候，然后被一篇新出来的论文震惊了！论文名字叫做《NVAE: A Deep Hierarchical Variational Autoencoder》，顾名思义是做VAE的改进工作的，提出了一个叫NVAE的新模型。说实话，笔者点进去的时候是不抱什么希望的，因为笔者也算是对VAE有一定的了解，觉得VAE在生成模型方面的能力终究是有限的。结果，论文打开了，呈现出来的画风是这样的：

NVAE的人脸生成效果

然后笔者的第一感觉是这样的：

W!T!F! 这真的是VAE生成的效果？这还是我认识的VAE么？看来我对VAE的认识还是太肤浅了啊，以后再也不能说VAE生成的图像模糊了...

点击阅读全文...

分类：信息时代标签：变分, vae, 生成模型阅读全文 37 评论

14 Aug

L2正则没有想象那么好？可能是“权重尺度偏移”惹的祸

By 苏剑林 | 2020-08-14 | 35180位读者 | 引用

L2正则是机器学习常用的一种防止过拟合的方法（应该也是一道经常遇到的面试题）。简单来说，它就是希望权重的模长尽可能小一点，从而能抵御的扰动多一点，最终提高模型的泛化性能。但是读者可能也会发现，L2正则的表现通常没有理论上说的那么好，很多时候加了可能还有负作用。最近的一篇文章《Improve Generalization and Robustness of Neural Networks via Weight Scale Shifting Invariant Regularizations》从“权重尺度偏移”这个角度分析了L2正则的弊端，并提出了新的WEISSI正则项。整个分析过程颇有意思，在这里与大家分享一下。

TeaForN：让Teacher Forcing更有“远见”一些

By 苏剑林 | 2020-10-27 | 39149位读者 | 引用

Teacher Forcing是Seq2Seq模型的经典训练方式，而Exposure Bias则是Teacher Forcing的经典缺陷，这对于搞文本生成的同学来说应该是耳熟能详的事实了。笔者之前也曾写过博文《Seq2Seq中Exposure Bias现象的浅析与对策》，初步地分析过Exposure Bias问题。

Teacher Forcing示意图

本文则介绍Google新提出的一种名为“TeaForN”的缓解Exposure Bias现象的方案，来自论文《TeaForN: Teacher-Forcing with N-grams》，它通过嵌套迭代的方式，让模型能提前预估到后$N$个token（而不仅仅是当前要预测的token），其处理思路上颇有可圈可点之处，值得我们学习。

（注：为了尽量跟本博客旧文章保持一致，本文的记号与原论文的记号有所不同，请大家以理解符号含义为主，不要强记符号形式。）

点击阅读全文...

分类：信息时代标签：优化, 语言模型, 文本生成阅读全文 9 评论

7 Jan

【搜出来的文本】⋅（一）从文本生成到搜索采样

By 苏剑林 | 2021-01-07 | 60266位读者 | 引用

最近，笔者入了一个新坑：基于离散优化的思想做一些文本生成任务。简单来说，就是把我们要生成文本的目标量化地写下来，构建一个分布，然后搜索这个分布的最大值点或者从这个分布中进行采样，这个过程通常不需要标签数据的训练。由于语言是离散的，因此梯度下降之类的连续函数优化方法不可用，并且由于这个分布通常没有容易采样的形式，直接采样也不可行，因此需要一些特别设计的采样算法，比如拒绝采样（Rejection Sampling）、MCMC（Markov Chain Monte Carlo）、MH采样（Metropolis-Hastings Sampling）、吉布斯采样（Gibbs Sampling），等等。

有些读者可能会觉得有些眼熟，似乎回到了让人头大的学习LDA（Latent Dirichlet Allocation）的那些年？没错，上述采样算法其实也是理解LDA模型的必备基础。本文我们就来回顾这些形形色色的采样算法，它们将会出现在后面要介绍的丰富的文本生成应用中。

点击阅读全文...

分类：信息时代标签：文本生成, 采样, 离散优化, MCMC 阅读全文 24 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

基于Conditional Layer Normalization的条件文本生成

相关工作

VQ-VAE的简明介绍：量子化自编码器

你跳绳的时候，想过绳子的形状曲线是怎样的吗？

相关内容

线性Attention的探索：Attention必须有个Softmax吗？

Attention

强大的NVAE：以后再也不能说VAE生成的图像模糊了

L2正则没有想象那么好？可能是“权重尺度偏移”惹的祸

相关内容

L2正则的理解

TeaForN：让Teacher Forcing更有“远见”一些

【搜出来的文本】⋅（一）从文本生成到搜索采样

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接