包含关键字 G 的文章 - 科学空间|Scientific Spaces

10 Oct

变分自编码器 = 最小化先验分布 + 最大化互信息

By 苏剑林 | 2018-10-10 | 128171位读者 | 引用

这篇文章很简短，主要描述的是一个很有用、也不复杂、但是我居然这么久才发现的事实～

在《深度学习的互信息：无监督提取特征》一文中，我们通过先验分布和最大化互信息两个loss的加权组合来得到Deep INFOMAX模型最后的loss。在那篇文章中，虽然把故事讲完了，但是某种意义上来说，那只是个拼凑的loss。而本文则要证明那个loss可以由变分自编码器自然地导出来。

过程

不厌其烦地重复一下，变分自编码器（VAE）需要优化的loss是
\begin{equation}\begin{aligned}&KL(\tilde{p}(x)p(z|x)\Vert q(z)q(x|z))\\
=&\iint \tilde{p}(x)p(z|x)\log \frac{\tilde{p}(x)p(z|x)}{q(x|z)q(z)} dzdx\end{aligned}\end{equation}
相关的论述在本博客已经出现多次了。VAE中既包含编码器，又包含解码器，如果我们只需要编码特征，那么再训练一个解码器就显得很累赘了。所以重点是怎么将解码器去掉。

其实再简单不过了，把VAE的loss分开两部分

点击阅读全文...

分类：信息时代标签：变分, 互信息, vae 阅读全文 36 评论

16 Oct

再谈非方阵的行列式

By 苏剑林 | 2018-10-16 | 52838位读者 | 引用

几年前，笔者曾经以自己对矩阵的粗浅理解写了一个“理解矩阵”系列，其中有一篇《为什么只有方阵有行列式？》讨论了非方阵的行列式问题，里边给出了“非方针的行列式不好看”和“方阵的行列式就够了”的观点。本文来再次思考这个问题。

首先回顾方阵的行列式，其实行列式最重要的价值在于它的几何意义：

n维方阵的行列式的绝对值，等于它的各个行（或列）向量所张成的n维立体的超体积。

这个几何意义是行列式的一切重要性的源头，相关的讨论可以参考《行列式的点滴》，它也是我们讨论非方阵行列式的基础。

分析

对于方阵$\boldsymbol{A}_{n\times n}$来说，可以将它看成$n$个行向量的组合，也可以看成$n$个列向量的组合，不管是哪一种，行列式的绝对值都等于这$n$个向量所张成的$n$维立体的超体积。换句话说，对于方阵来说，行、列向量的区分不改变行列式。

对于非方阵$\boldsymbol{B}_{n \times k}$就不一样了，不失一般性，假设$n > k$。我们可以将它看成$n$个$k$维行向量的组合，也可以看成$k$个$n$维列向量的组合。非方针的行列式，应该也具有同样含义，即它们所张成的立体的超体积。

我们来看第一种情况，如果看成$n$个$k$维行向量，那么就得视为这$n$个向量张成的$n$维体的超体积了，但是要注意$n > k$，因此这$n$个向量必然线性相关，因此它们根本就张不成一个$n$维体，也许是一个$n-1$维体甚至更低，这样一来，它的$n$维体的超体积自然为0。

但是第二种情况就没有那么平凡了。如果看成$k$个$n$维列向量，那么这$k$个向量虽然是$n$维的，但它们张成的是一个$k$维体，这$k$维体的超体积未必为0。我们就以这个非平凡的体积作为非方阵行列式的定义好了。

点击阅读全文...

分类：数学研究标签：向量, 矩阵, 行列式阅读全文 4 评论

29 Nov

Dropout视角下的MLM和MAE：一些新的启发

By 苏剑林 | 2021-11-29 | 76522位读者 | 引用

大家都知道，BERT的MLM（Masked Language Model）任务在预训练和微调时的不一致，也就是预训练出现了[MASK]而下游任务微调时没有[MASK]，是经常被吐槽的问题，很多工作都认为这是影响BERT微调性能的重要原因，并针对性地提出了很多改进，如XL-NET、ELECTRA、MacBERT等。本文我们将从Dropout的角度来分析MLM的这种不一致性，并且提出一种简单的操作来修正这种不一致性。

同样的分析还可以用于何凯明最近提出的比较热门的MAE（Masked Autoencoder）模型，结果是MAE相比MLM确实具有更好的一致性，由此我们可以引出一种可以能加快训练速度的正则化手段。

Dropout

首先，我们重温一下Dropout。从数学上来看，Dropout是通过伯努利分布来为模型引入随机噪声的操作，所以我们也简单复习一下伯努利分布。

点击阅读全文...

分类：信息时代标签：模型, 概率, 分析, 优化阅读全文 19 评论

1 Jan

2019年全年天象

By 苏剑林 | 2019-01-01 | 35273位读者 | 引用

Astronomy Calendar of Celestial Events
2019年全年天象

翻译自NASA：http://eclipse.gsfc.nasa.gov/SKYCAL/SKYCAL.html

（北京时间）

分类：天文探索标签：天象, 天文阅读全文抢沙发

14 Jan

基于CNN和序列标注的对联机器人

By 苏剑林 | 2019-01-14 | 44310位读者 | 引用

缘起

前几天在量子位公众号上看到了《这个脑洞清奇的对联AI，大家都玩疯了》一文，觉得挺有意思，难得的是作者还整理并公开了数据集，所以决定自己尝试一下。

动手

“对对联”，我们可以看成是一个句子生成任务，可以用seq2seq完成，跟笔者之前写的《玩转Keras之seq2seq自动生成标题》一样，稍微修改一下输入即可。上面提到的文章所用的方法也是seq2seq，可见这算是标准做法了。

点击阅读全文...

分类：信息时代标签：NLP, 文本生成阅读全文 5 评论

30 Oct

缅怀金庸 | 愿你登上10930小行星继续翱翔

By 苏剑林 | 2018-10-30 | 22227位读者 | 引用

金庸大师

金庸走了，享年94岁。

虽然说这些高龄大师们，不管是科学家还是文学家，他们在晚年基本上都不会有什么产出，过于理性的话会有“去了就去了，好像也没有什么损失”的感觉。然而，事实是大师的逝去总让我们有一种悲伤的震撼感，总让我们觉得似乎一个时代又逝去了。霍金是这样，金庸也是这样。

对于金老爷子来说，是一个武侠时代过去了，是一个江湖过去了。

飞雪连天射白鹿，笑书神侠倚碧鸳。

这个对联描述了金庸的14部作品，加上《越女剑》，就构成了他的15部武侠小说。金庸用这15部小说，描述了一个个活灵活现的江湖，不，说江湖好象都太小了，读完这15部作品，你会感觉他描述了整个中国几千年的历史、整个社会。

点击阅读全文...

分类：生活/情感标签：文学, 金庸阅读全文抢沙发

15 Nov

又一道川菜！媲美“开水白菜”的瓜燕穗肚

By 苏剑林 | 2018-11-15 | 35786位读者 | 引用

开水白菜是一道非常经典的四川名菜，是国宴级别的菜肴。以前就写过科普《不求珍馐百味，但愿开水白菜》来介绍了开水白菜。

好吃的东西有很多，开水白菜让我惦记的，是它那精致到极致的追求，是那种锋芒不露的内敛。

刚才浏览视频时，发现了另一道类似的菜肴：瓜燕穗肚。而且它也是一道川菜～用猪肚仁切成麦穗的形状，用冬瓜做成燕窝的外形，配合跟开水白菜一样的上等清汤，就构成了瓜燕穗肚。

“瓜燕穗肚”截图（没有什么高清图，我是直接从下面视频里截图的）

点击阅读全文...

分类：生活/情感标签：生活, 厨房, 饮食阅读全文 2 评论

27 Nov

从变分编码、信息瓶颈到正态分布：论遗忘的重要性

By 苏剑林 | 2018-11-27 | 161050位读者 | 引用

这是一篇“散文”，我们来谈一下有着千丝万缕联系的三个东西：变分自编码器、信息瓶颈、正态分布。

众所周知，变分自编码器是一个很经典的生成模型，但实际上它有着超越生成模型的含义；而对于信息瓶颈，大家也许相对陌生一些，然而事实上信息瓶颈在去年也热闹了一阵子；至于正态分布，那就不用说了，它几乎跟所有机器学习领域都有或多或少的联系。

那么，当它们三个碰撞在一块时，又有什么样的故事可说呢？它们跟“遗忘”又有什么关系呢？

变分自编码器

在本博客你可以搜索到若干几篇介绍VAE的文章。下面简单回顾一下。

理论形式回顾

简单来说，VAE的优化目标是：
\begin{equation}KL(\tilde{p}(x)p(z|x)\Vert q(z)q(x|z))=\iint \tilde{p}(x)p(z|x)\log \frac{\tilde{p}(x)p(z|x)}{q(x|z)q(z)} dzdx\end{equation}
其中$q(z)$是标准正态分布，$p(z|x),q(x|z)$是条件正态分布，分别对应编码器、解码器。具体细节可以参考《变分自编码器（二）：从贝叶斯观点出发》。

点击阅读全文...

分类：信息时代标签：概率, 变分, 互信息, vae 阅读全文 55 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

变分自编码器 = 最小化先验分布 + 最大化互信息

过程

再谈非方阵的行列式

分析

Dropout视角下的MLM和MAE：一些新的启发

Dropout

2019年全年天象

基于CNN和序列标注的对联机器人

缘起

动手

缅怀金庸 | 愿你登上10930小行星继续翱翔

又一道川菜！媲美“开水白菜”的瓜燕穗肚

从变分编码、信息瓶颈到正态分布：论遗忘的重要性

变分自编码器

理论形式回顾

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接