包含关键字超越摄动同伦分析方法导论的文章

26 Dec

“非自回归”也不差：基于MLM的阅读理解问答

By 苏剑林 | 2019-12-26 | 79851位读者 | 引用

前段时间写了《万能的seq2seq：基于seq2seq的阅读理解问答》，探索了以最通用的seq2seq的方式来做阅读理解式问答，并且取得相当不错的成绩（单模型0.77，超过参加比赛时精调的最佳模型）。这篇文章我们继续做这个任务，不过换一个思路，直接基于MLM模型来做，最终成绩基本一致，但能提高预测速度。

用MLM做阅读理解的模型图示（其中[M]表示[MASK]标记）

点击阅读全文...

分类：信息时代标签：问答, 语言模型, 生成模型, 文本生成阅读全文 23 评论

25 Nov

6个派生优化器的简单介绍及其实现

By 苏剑林 | 2019-11-25 | 50007位读者 | 引用

优化器可能是深度学习最“玄学”的一个模块之一了：有时候换一个优化器就能带来明显的提升，有时候别人说提升很多的优化器用到自己的任务上却一丁点用都没有，理论性质好的优化器不一定工作得很好，纯粹拍脑袋而来的优化器也未必就差了。但不管怎样，优化器终究也为热爱“深度炼丹”的同学提供了多一个选择。

近几年来，关于优化器的工作似乎也在慢慢增多，很多论文都提出了对常用优化器（尤其是Adam）的大大小小的改进。本文就汇总一些优化器工作或技巧，并统一给出了代码实现，供读者有需调用。

基本形式

所谓“派生”，就是指相关的技巧都是建立在已有的优化器上的，任意一个已有的优化器都可以用上这些技巧，从而变成一个新的优化器。

已有的优化器的基本形式为：
\begin{equation}\begin{aligned}\boldsymbol{g}_t =&\, \nabla_{\boldsymbol{\theta}} L\\
\boldsymbol{h}_t =&\, f(\boldsymbol{g}_{\leq t})\\
\boldsymbol{\theta}_{t+1} =&\, \boldsymbol{\theta}_t - \gamma \boldsymbol{h}_t
\end{aligned}\end{equation}
其中$\boldsymbol{g}_t$即梯度，而$\boldsymbol{g}_{\leq t}$指的是截止到当前步的所有梯度信息，它们经过某种运算$f$（比如累积动量、累积二阶矩校正学习率等）后得到$\boldsymbol{h}_t$，然后由$\boldsymbol{h}_t$来更新参数，这里的$\gamma$就是指学习率。

点击阅读全文...

分类：信息时代标签：python, keras, 优化器阅读全文 10 评论

24 Jun

VQ-VAE的简明介绍：量子化自编码器

By 苏剑林 | 2019-06-24 | 299725位读者 | 引用

印象中很早之前就看到过VQ-VAE，当时对它并没有什么兴趣，而最近有两件事情重新引起了我对它的兴趣。一是VQ-VAE-2实现了能够匹配BigGAN的生成效果（来自机器之心的报道）；二是我最近看一篇NLP论文《Unsupervised Paraphrasing without Translation》时发现里边也用到了VQ-VAE。这两件事情表明VQ-VAE应该是一个颇为通用和有意思的模型，所以我决定好好读读它。

个人复现的VQ-VAE在CelebA上的重构效果。可以留意到细节保留得还不错，但稍微放大后能留意到仍有一些模糊感。

点击阅读全文...

分类：信息时代标签：优化, 无监督, 生成模型, 编码阅读全文 145 评论

29 Jun

基于Bert的NL2SQL模型：一个简明的Baseline

By 苏剑林 | 2019-06-29 | 134236位读者 | 引用

在之前的文章《当Bert遇上Keras：这可能是Bert最简单的打开姿势》中，我们介绍了基于微调Bert的三个NLP例子，算是体验了一把Bert的强大和Keras的便捷。而在这篇文章中，我们再添一个例子：基于Bert的NL2SQL模型。

NL2SQL的NL也就是Natural Language，所以NL2SQL的意思就是“自然语言转SQL语句”，近年来也颇多研究，它算是人工智能领域中比较实用的一个任务。而笔者做这个模型的契机，则是今年我司举办的首届“中文NL2SQL挑战赛”：

首届中文NL2SQL挑战赛，使用金融以及通用领域的表格数据作为数据源，提供在此基础上标注的自然语言与SQL语句的匹配对，希望选手可以利用数据训练出可以准确转换自然语言到SQL的模型。

这个NL2SQL比赛算是今年比较大型的NLP赛事了，赛前投入了颇多人力物力进行宣传推广，比赛的奖金也颇丰富，唯一的问题是NL2SQL本身算是偏冷门的研究领域，所以注定不会太火爆，为此主办方也放出了一个Baseline，基于Pytorch写的，希望能降低大家的入门难度。

抱着“Baseline怎么能少得了Keras版”的心态，我抽时间自己用Keras做了做这个比赛，为了简化模型并且提升效果也加载了预训练的Bert模型，最终形成此文。

点击阅读全文...

分类：信息时代标签：语言模型, 比赛, sql, attention 阅读全文 45 评论

6 Jul

你跳绳的时候，想过绳子的形状曲线是怎样的吗？

By 苏剑林 | 2019-07-06 | 47583位读者 | 引用

前几天，好几个数学/物理群都在转发李永乐老师发在他微博里的一道题：

绳子固定在杆上旋转的曲线问题

想起好久没有做数学物理题了，所以我也思考了一下，也搜了一些资料，在此与大家分享一下。

“让Keras更酷一些！”：层中层与mask

By 苏剑林 | 2019-07-16 | 142572位读者 | 引用

这一篇“让Keras更酷一些！”将和读者分享两部分内容：第一部分是“层中层”，顾名思义，是在Keras中自定义层的时候，重用已有的层，这将大大减少自定义层的代码量；另外一部分就是应读者所求，介绍一下序列模型中的mask原理和方法。

层中层

在《“让Keras更酷一些！”：精巧的层与花式的回调》一文中我们已经介绍过Keras自定义层的基本方法，其核心步骤是定义build和call两个函数，其中build负责创建可训练的权重，而call则定义具体的运算。

拒绝重复劳动

经常用到自定义层的读者可能会感觉到，在自定义层的时候我们经常在重复劳动，比如我们想要增加一个线性变换，那就要在build中增加一个kernel和bias变量（还要自定义变量的初始化、正则化等），然后在call里边用K.dot来执行，有时候还需要考虑维度对齐的问题，步骤比较繁琐。但事实上，一个线性变换其实就是一个不加激活函数的Dense层罢了，如果在自定义层时能重用已有的层，那显然就可以大大节省代码量了。

点击阅读全文...

分类：信息时代标签：keras 阅读全文 49 评论

21 Jul

思考：两个椭圆片能粘合成一个立体吗？

By 苏剑林 | 2019-07-21 | 56814位读者 | 引用

前两周又在群里看到一个颇为有趣的问题：两个同样大小的椭圆片可以沿着它们的长轴弯曲，沿着边缘线粘贴，能完美地贴合成一个封闭立体吗？问题来源于知乎《两个椭圆片可否以柱面弯曲边缘完美贴合？》。

两个椭圆片粘合图示（截取自知乎上提问的图示）

问题可以用只言片语表达清楚，甚至普通读者都能理解，而问题本身是有一定难度的，这就符合了一个漂亮的问题的条件，所以也就吸引了笔者陆陆续续思考了好多天，最终在昨天算是给出了这类问题通用的列方程思路和数值求解方案，而今天则完成了理论证明，确认两个相同椭圆片总是可以完美贴合。

点击阅读全文...

分类：数学研究标签：证明, 方程, 曲线阅读全文 12 评论

30 Jul

Keras实现两个优化器：Lookahead和LazyOptimizer

By 苏剑林 | 2019-07-30 | 44810位读者 | 引用

最近用Keras实现了两个优化器，也算是有点实现技巧，遂放在一起写篇文章简介一下（如果只有一个的话我就不写了）。这两个优化器的名字都挺有意思的，一个是look ahead（往前看？），一个是lazy（偷懒？），难道是两个完全不同的优化思路么？非也非也～只能说发明者们起名字太有创意了。

Lookahead

首先登场的是Lookahead优化器，它源于论文《Lookahead Optimizer: k steps forward, 1 step back》，是最近才提出来的优化器，有意思的是大牛Hinton和Adam的作者之一Jimmy Ba也出现在了论文作者列表当中，有这两个大神加持，这个优化器的出现便吸引了不少目光。

点击阅读全文...

分类：信息时代标签：keras, 优化器阅读全文 7 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

“非自回归”也不差：基于MLM的阅读理解问答

6个派生优化器的简单介绍及其实现

基本形式

VQ-VAE的简明介绍：量子化自编码器

基于Bert的NL2SQL模型：一个简明的Baseline

你跳绳的时候，想过绳子的形状曲线是怎样的吗？

相关内容

“让Keras更酷一些！”：层中层与mask

层中层

拒绝重复劳动

思考：两个椭圆片能粘合成一个立体吗？

Keras实现两个优化器：Lookahead和LazyOptimizer

Lookahead

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接