包含关键字《自然极值》系列的文章 - 科学空间|Scientific Spaces

1 Mar

构造一个显式的、总是可逆的矩阵

By 苏剑林 | 2019-03-01 | 43274位读者 | 引用

从《恒等式 det(exp(A)) = exp(Tr(A)) 赏析》一文我们得到矩阵$\exp(\boldsymbol{A})$总是可逆的，它的逆就是$\exp(-\boldsymbol{A})$。问题是$\exp(\boldsymbol{A})$只是一个理论定义，单纯这样写没有什么价值，因为它要把每个$\boldsymbol{A}^n$都算出来。

有没有什么具体的例子呢？有，本文来构造一个显式的、总是可逆的矩阵。

其实思路非常简单，假设$\boldsymbol{x},\boldsymbol{y}$是两个$k$维列向量，那么$\boldsymbol{x}\boldsymbol{y}^{\top}$就是一个$k\times k$的矩阵，我们就来考虑
\begin{equation}\begin{aligned}\exp\left(\boldsymbol{x}\boldsymbol{y}^{\top}\right)=&\sum_{n=0}^{\infty}\frac{\left(\boldsymbol{x}\boldsymbol{y}^{\top}\right)^n}{n!}\\
=&\boldsymbol{I}+\boldsymbol{x}\boldsymbol{y}^{\top}+\frac{\boldsymbol{x}\boldsymbol{y}^{\top}\boldsymbol{x}\boldsymbol{y}^{\top}}{2}+\frac{\boldsymbol{x}\boldsymbol{y}^{\top}\boldsymbol{x}\boldsymbol{y}^{\top}\boldsymbol{x}\boldsymbol{y}^{\top}}{6}+\dots\end{aligned}\end{equation}

点击阅读全文...

分类：数学研究标签：矩阵, 行列式阅读全文 8 评论

10 Mar

“让Keras更酷一些！”：分层的学习率和自由的梯度

By 苏剑林 | 2019-03-10 | 100973位读者 | 引用

高举“让Keras更酷一些！”大旗，让Keras无限可能～

今天我们会用Keras做到两件很重要的事情：分层设置学习率和灵活操作梯度。

首先是分层设置学习率，这个用途很明显，比如我们在fine tune已有模型的时候，有些时候我们会固定一些层，但有时候我们又不想固定它，而是想要它以比其他层更低的学习率去更新，这个需求就是分层设置学习率了。对于在Keras中分层设置学习率，网上也有一定的探讨，结论都是要通过重写优化器来实现。显然这种方法不论在实现上还是使用上都不友好。

然后是操作梯度。操作梯度一个最直接的例子是梯度裁剪，也就是把梯度控制在某个范围内，Keras内置了这个方法。但是Keras内置的是全局的梯度裁剪，假如我要给每个梯度设置不同的裁剪方式呢？甚至我有其他的操作梯度的思路，那要怎么实施呢？不会又是重写优化器吧？

本文就来为上述问题给出尽可能简单的解决方案。

点击阅读全文...

分类：信息时代标签：模型, keras, 梯度, 学习率阅读全文 29 评论

26 Feb

非对抗式生成模型GLANN的简单介绍

By 苏剑林 | 2019-02-26 | 68886位读者 | 引用

前段时间看到facebook发表了一个非对抗的生成模型GLANN（去年12月挂在arxiv上），号称用非对抗的方式也能生成1024的高清人脸，于是饶有兴致地阅读了一番，确实有点收获，但也有点失望。至于为啥失望，大家阅读下去就明白了。

原论文：《Non-Adversarial Image Synthesis with Generative Latent Nearest Neighbors》

机器之心介绍：《为什么让GAN一家独大？Facebook提出非对抗式生成方法GLANN》

效果图：

GLANN效果图

点击阅读全文...

分类：信息时代标签：概率, 生成模型阅读全文 14 评论

14 Mar

圆周率节快乐！|| 原来已经写了十年博客～

By 苏剑林 | 2019-03-14 | 76981位读者 | 引用

今天是3月14日，刚好是3.14，也就是很多理科生都喜欢调侃的“圆周率节”（π day）～

π能否表示为一个分数？

点击阅读全文...

分类：生活/情感标签：生活, 节日, 情感, 数学家阅读全文 23 评论

28 Apr

“让Keras更酷一些！”：中间变量、权重滑动和安全生成器

By 苏剑林 | 2019-04-28 | 102286位读者 | 引用

继续“让Keras更酷一些”之旅。

今天我们会用Keras实现灵活地输出任意中间变量，还有无缝地进行权重滑动平均，最后顺便介绍一下生成器的进程安全写法。

首先是输出中间变量。在自定义层时，我们可能希望查看中间变量，这些需求有些是比较容易实现的，比如查看中间某个层的输出，只需要将截止到这个层的部分模型保存为一个新模型即可，但有些需求是比较困难的，比如在使用Attention层时我们可能希望查看那个Attention矩阵的值，如果用构建新模型的方法则会非常麻烦。而本文则给出一种简单的方法，彻底满足这个需求。

接着是权重滑动平均。权重滑动平均是稳定、加速模型训练甚至提升模型效果的一种有效方法，很多大型模型（尤其是GAN）几乎都用到了权重滑动平均。一般来说权重滑动平均是作为优化器的一部分，所以一般需要重写优化器才能实现它。本文介绍一个权重滑动平均的实现，它可以无缝插入到任意Keras模型中，不需要自定义优化器。

至于生成器的进程安全写法，则是因为Keras读取生成器的时候，用到了多进程，如果生成器本身也包含了一些多进程操作，那么可能就会导致异常，所以需要解决这个这个问题。

点击阅读全文...

分类：信息时代标签：模型, 优化, keras 阅读全文 34 评论

3 Jan

用bert4keras做三元组抽取

By 苏剑林 | 2020-01-03 | 258252位读者 | 引用

在开发bert4keras的时候就承诺过，会逐渐将之前用keras-bert实现的例子逐渐迁移到bert4keras来，而那里其中一个例子便是三元组抽取的任务。现在bert4keras的例子已经颇为丰富了，但还没有序列标注和信息抽取相关的任务，而三元组抽取正好是这样的一个任务，因此就补充上去了。

基于Bert的三元组抽取模型结构示意图

点击阅读全文...

分类：信息时代标签：语言模型, 信息抽取阅读全文 117 评论

18 Jun

当Bert遇上Keras：这可能是Bert最简单的打开姿势

By 苏剑林 | 2019-06-18 | 426093位读者 | 引用

Bert是什么，估计也不用笔者来诸多介绍了。虽然笔者不是很喜欢Bert，但不得不说，Bert确实在NLP界引起了一阵轩然大波。现在不管是中文还是英文，关于Bert的科普和解读已经满天飞了，隐隐已经超过了当年Word2Vec刚出来的势头了。有意思的是，Bert是Google搞出来的，当年的word2vec也是Google搞出来的，不管你用哪个，都是在跟着Google大佬的屁股跑啊～

Bert刚出来不久，就有读者建议我写个解读，但我终究还是没有写。一来，Bert的解读已经不少了，二来其实Bert也就是基于Attention的搞出来的大规模语料预训练的模型，本身在技术上不算什么创新，而关于Google的Attention我已经写过解读了，所以就提不起劲来写了。

Bert的预训练和微调（图片来自Bert的原论文）

总的来说，我个人对Bert一直也没啥兴趣，直到上个月末在做信息抽取比赛时，才首次尝试了Bert。因为后来想到，即使不感兴趣，终究也是得学会它，毕竟用不用是一回事，会不会又是另一回事。再加上在Keras中使用（fine tune）Bert，似乎还没有什么文章介绍，所以就分享一下自己的使用经验。

点击阅读全文...

分类：信息时代标签：语言模型, 比赛, 信息抽取, attention 阅读全文 168 评论

25 Nov

6个派生优化器的简单介绍及其实现

By 苏剑林 | 2019-11-25 | 52581位读者 | 引用

优化器可能是深度学习最“玄学”的一个模块之一了：有时候换一个优化器就能带来明显的提升，有时候别人说提升很多的优化器用到自己的任务上却一丁点用都没有，理论性质好的优化器不一定工作得很好，纯粹拍脑袋而来的优化器也未必就差了。但不管怎样，优化器终究也为热爱“深度炼丹”的同学提供了多一个选择。

近几年来，关于优化器的工作似乎也在慢慢增多，很多论文都提出了对常用优化器（尤其是Adam）的大大小小的改进。本文就汇总一些优化器工作或技巧，并统一给出了代码实现，供读者有需调用。

基本形式

所谓“派生”，就是指相关的技巧都是建立在已有的优化器上的，任意一个已有的优化器都可以用上这些技巧，从而变成一个新的优化器。

已有的优化器的基本形式为：
\begin{equation}\begin{aligned}\boldsymbol{g}_t =&\, \nabla_{\boldsymbol{\theta}} L\\
\boldsymbol{h}_t =&\, f(\boldsymbol{g}_{\leq t})\\
\boldsymbol{\theta}_{t+1} =&\, \boldsymbol{\theta}_t - \gamma \boldsymbol{h}_t
\end{aligned}\end{equation}
其中$\boldsymbol{g}_t$即梯度，而$\boldsymbol{g}_{\leq t}$指的是截止到当前步的所有梯度信息，它们经过某种运算$f$（比如累积动量、累积二阶矩校正学习率等）后得到$\boldsymbol{h}_t$，然后由$\boldsymbol{h}_t$来更新参数，这里的$\gamma$就是指学习率。

点击阅读全文...

分类：信息时代标签：python, keras, 优化器阅读全文 10 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

构造一个显式的、总是可逆的矩阵

“让Keras更酷一些！”：分层的学习率和自由的梯度

非对抗式生成模型GLANN的简单介绍

圆周率节快乐！|| 原来已经写了十年博客～

“让Keras更酷一些！”：中间变量、权重滑动和安全生成器

用bert4keras做三元组抽取

当Bert遇上Keras：这可能是Bert最简单的打开姿势

6个派生优化器的简单介绍及其实现

基本形式

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接