包含关键字核函数的文章 - 科学空间|Scientific Spaces

18 May

简明条件随机场CRF介绍（附带纯Keras实现）

By 苏剑林 | 2018-05-18 | 307712位读者 | 引用

笔者去年曾写过博文《果壳中的条件随机场(CRF In A Nutshell)》，以一种比较粗糙的方式介绍了一下条件随机场（CRF）模型。然而那篇文章显然有很多不足的地方，比如介绍不够清晰，也不够完整，还没有实现，在这里我们重提这个模型，将相关内容补充完成。

本文是对CRF基本原理的一个简明的介绍。当然，“简明”是相对而言中，要想真的弄清楚CRF，免不了要提及一些公式，如果只关心调用的读者，可以直接移到文末。

图示

按照之前的思路，我们依旧来对比一下普通的逐帧softmax和CRF的异同。

逐帧softmax

CRF主要用于序列标注问题，可以简单理解为是给序列中的每一帧都进行分类，既然是分类，很自然想到将这个序列用CNN或者RNN进行编码后，接一个全连接层用softmax激活，如下图所示

逐帧softmax并没有直接考虑输出的上下文关联

点击阅读全文...

分类：信息时代标签：模型, 概率图, keras, crf 阅读全文 102 评论

7 Jun

python简单实现gillespie模拟

By 苏剑林 | 2018-06-07 | 64930位读者 | 引用

由于专业需求，需要做主方程的随机模拟。在网上并没有找到适合的Python实现，遂自己写了一个，分享一下源码。至于gillespie算法本身就不介绍了，有需要的读者自然会懂，没需要的读者不建议去懂。

源码

其实基本的gillespie模拟算法很简单，也很好实现，下面就是一个参考例子：

点击阅读全文...

分类：物理化学标签：概率, 模拟, 随机, 主方程阅读全文 17 评论

13 Jun

“噪声对比估计”杂谈：曲径通幽之妙

By 苏剑林 | 2018-06-13 | 165512位读者 | 引用

说到噪声对比估计，或者“负采样”，大家可能立马就想到了Word2Vec。事实上，它的含义远不止于此，噪音对比估计（NCE, Noise Contrastive Estimation）是一个迂回但却异常精美的技巧，它使得我们在没法直接完成归一化因子（也叫配分函数）的计算时，就能够去估算出概率分布的参数。本文就让我们来欣赏一下NCE的曲径通幽般的美妙。

注：由于出发点不同，本文所介绍的“噪声对比估计”实际上更偏向于所谓的“负采样”技巧，但两者本质上是一样的，在此不作区分。

问题起源

问题的根源是难分难舍的指数概率分布～

指数族分布

在很多问题中都会出现指数族分布，即对于某个变量$\boldsymbol{x}$的概率$p(\boldsymbol{x})$，我们将其写成
$$p(\boldsymbol{x}) = \frac{e^{G(\boldsymbol{x})}}{Z}\tag{1}$$
其中$G(\boldsymbol{x})$是$\boldsymbol{x}$的某个“能量”函数，而$Z=\sum_{\boldsymbol{x}} e^{G(\boldsymbol{x})}$则是归一化常数，也叫配分函数。这种分布也称为“玻尔兹曼分布”。

点击阅读全文...

分类：数学研究标签：概率, 词向量, 估计阅读全文 73 评论

23 Jun

貌离神合的RNN与ODE：花式RNN简介

By 苏剑林 | 2018-06-23 | 94451位读者 | 引用

本来笔者已经决心不玩RNN了，但是在上个星期思考时忽然意识到RNN实际上对应了ODE（常微分方程）的数值解法，这为我一直以来想做的事情——用深度学习来解决一些纯数学问题——提供了思路。事实上这是一个颇为有趣和有用的结果，遂介绍一翻。顺便地，本文也涉及到了自己动手编写RNN的内容，所以本文也可以作为编写自定义的RNN层的一个简单教程。

注：本文并非前段时间的热点“神经ODE”的介绍（但有一定的联系）。

RNN基本

什么是RNN？

众所周知，RNN是“循环神经网络（Recurrent Neural Network）”，跟CNN不同，RNN可以说是一类模型的总称，而并非单个模型。简单来讲，只要是输入向量序列$(\boldsymbol{x}_1,\boldsymbol{x}_2,\dots,\boldsymbol{x}_T)$，输出另外一个向量序列$(\boldsymbol{y}_1,\boldsymbol{y}_2,\dots,\boldsymbol{y}_T)$，并且满足如下递归关系
$$\boldsymbol{y}_t=f(\boldsymbol{y}_{t-1}, \boldsymbol{x}_t, t)\tag{1}$$
的模型，都可以称为RNN。也正因为如此，原始的朴素RNN，还有改进的如GRU、LSTM、SRU等模型，我们都称为RNN，因为它们都可以作为上式的一个特例。还有一些看上去与RNN没关的内容，比如前不久介绍的CRF的分母的计算，实际上也是一个简单的RNN。

说白了，RNN其实就是递归计算。

点击阅读全文...

分类：数学研究,信息时代标签：微分方程, 递推, RNN 阅读全文 24 评论

7 Jul

从SamplePairing到mixup：神奇的正则项

By 苏剑林 | 2018-07-07 | 73776位读者 | 引用

SamplePairing和mixup是两种一脉相承的图像数据扩增手段，它们看起来很不合理，而操作则非常简单，但结果却非常漂亮：在多个图像分类任务中都表明它们能提高最终分类模型的精度。

某些读者会困惑于一个问题：为什么如此不合理的数据扩增手段，能得到如此好的效果？而本文则要表明，它们看起来是一种数据扩增方法，事实上它们是对模型的一种正则化方案。正如周星驰的电影《国产凌凌漆》的一句经典台词：

表面上看这是一个吹风机，其实它是一个刮胡刀。

数据扩增

让我们从数据扩增说起。数据扩增是指我们在对原始数据做一些简单的变换后，它们对应的类别往往不会变化，所以我们可以在原来数据的基础上，“造”出更多的数据来。比如一幅小狗的照片，将它水平翻转、轻微的旋转、裁剪、平移等操作后，我们认为它的类别没有变化，它还是原来的那只狗。这样一来，从一个样本我们可以衍生出好几个样本，从而增加了训练样本量。

狗

旋转的狗

点击阅读全文...

分类：信息时代标签：模型阅读全文 15 评论

18 Jul

用变分推断统一理解生成模型（VAE、GAN、AAE、ALI）

By 苏剑林 | 2018-07-18 | 324220位读者 | 引用

前言：我小学开始就喜欢纯数学，后来也喜欢上物理，还学习过一段时间的理论物理，直到本科毕业时，我才慢慢进入机器学习领域。所以，哪怕在机器学习领域中，我的研究习惯还保留着数学和物理的风格：企图从最少的原理出发，理解、推导尽可能多的东西。这篇文章是我这个理念的结果之一，试图以变分推断作为出发点，来统一地理解深度学习中的各种模型，尤其是各种让人眼花缭乱的GAN。本文已经挂到arxiv上，需要读英文原稿的可以移步到《Variational Inference: A Unified Framework of Generative Models and Some Revelations》。
下面是文章的介绍。其实，中文版的信息可能还比英文版要稍微丰富一些，原谅我这蹩脚的英语...

摘要：本文从一种新的视角阐述了变分推断，并证明了EM算法、VAE、GAN、AAE、ALI(BiGAN)都可以作为变分推断的某个特例。其中，论文也表明了标准的GAN的优化目标是不完备的，这可以解释为什么GAN的训练需要谨慎地选择各个超参数。最后，文中给出了一个可以改善这种不完备性的正则项，实验表明该正则项能增强GAN训练的稳定性。

近年来，深度生成模型，尤其是GAN，取得了巨大的成功。现在我们已经可以找到数十个乃至上百个GAN的变种。然而，其中的大部分都是凭着经验改进的，鲜有比较完备的理论指导。

本文的目标是通过变分推断来给这些生成模型建立一个统一的框架。首先，本文先介绍了变分推断的一个新形式，这个新形式其实在博客以前的文章中就已经介绍过，它可以让我们在几行字之内导出变分自编码器（VAE）和EM算法。然后，利用这个新形式，我们能直接导出GAN，并且发现标准GAN的loss实则是不完备的，缺少了一个正则项。如果没有这个正则项，我们就需要谨慎地调整超参数，才能使得模型收敛。

点击阅读全文...

分类：信息时代标签：变分, 深度学习, 推断阅读全文 124 评论

6 Aug

“让Keras更酷一些！”：精巧的层与花式的回调

By 苏剑林 | 2018-08-06 | 159616位读者 | 引用

Keras伴我走来

回想起进入机器学习领域的这两三年来，Keras是一直陪伴在笔者的身边。要不是当初刚掉进这个坑时碰到了Keras这个这么易用的框架，能快速实现我的想法，我也不确定我是否能有毅力坚持下来，毕竟当初是theano、pylearn、caffe、torch等的天下，哪怕在今天它们对我来说仍然像天书一般。

后来为了拓展视野，我也去学习了一段时间的tensorflow，用纯tensorflow写过若干程序，但不管怎样，仍然无法割舍Keras。随着对Keras的了解的深入，尤其是花了一点时间研究过Keras的源码后，我发现Keras并没有大家诟病的那样“欠缺灵活性”。事实上，Keras那精巧的封装，可以让我们轻松实现很多复杂的功能。我越来越感觉，Keras像是一件非常精美的艺术品，充分体现了Keras的开发者们深厚的创作功力。

本文介绍Keras中自定义模型的一些内容，相对而言，这属于Keras进阶的内容，刚入门的朋友请暂时忽略。

层的自定义

这里介绍Keras中自定义层及其一些运用技巧，在这之中我们可以看到Keras层的精巧之处。

点击阅读全文...

分类：信息时代标签：模型, 深度学习, 损失函数, keras 阅读全文 46 评论

11 Aug

细水长flow之NICE：流模型的基本概念与实现

By 苏剑林 | 2018-08-11 | 252579位读者 | 引用

前言：自从在机器之心上看到了glow模型之后（请看《下一个GAN？OpenAI提出可逆生成模型Glow》），我就一直对其念念不忘。现在机器学习模型层出不穷，我也经常关注一些新模型动态，但很少像glow模型那样让我怦然心动，有种“就是它了”的感觉。更意外的是，这个效果看起来如此好的模型，居然是我以前完全没有听说过的。于是我翻来覆去阅读了好几天，越读越觉得有意思，感觉通过它能将我之前的很多想法都关联起来。在此，先来个阶段总结。

背景

本文主要是《NICE: Non-linear Independent Components Estimation》一文的介绍和实现。这篇文章也是glow这个模型的基础文章之一，可以说它就是glow的奠基石。

艰难的分布

众所周知，目前主流的生成模型包括VAE和GAN，但事实上除了这两个之外，还有基于flow的模型（flow可以直接翻译为“流”，它的概念我们后面再介绍）。事实上flow的历史和VAE、GAN它们一样悠久，但是flow却鲜为人知。在我看来，大概原因是flow找不到像GAN一样的诸如“造假者-鉴别者”的直观解释吧，因为flow整体偏数学化，加上早期效果没有特别好但计算量又特别大，所以很难让人提起兴趣来。不过现在看来，OpenAI的这个好得让人惊叹的、基于flow的glow模型，估计会让更多的人投入到flow模型的改进中。

glow模型生成的高清人脸

点击阅读全文...

分类：信息时代标签：概率, 流模型, flow, 生成模型阅读全文 119 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

简明条件随机场CRF介绍（附带纯Keras实现）

图示

逐帧softmax

python简单实现gillespie模拟

源码

“噪声对比估计”杂谈：曲径通幽之妙

问题起源

指数族分布

貌离神合的RNN与ODE：花式RNN简介

RNN基本

什么是RNN？

从SamplePairing到mixup：神奇的正则项

数据扩增

用变分推断统一理解生成模型（VAE、GAN、AAE、ALI）

“让Keras更酷一些！”：精巧的层与花式的回调

Keras伴我走来

层的自定义

细水长flow之NICE：流模型的基本概念与实现

背景

艰难的分布

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接