包含关键字明显的文章 - 科学空间|Scientific Spaces

30 Jul

Keras实现两个优化器：Lookahead和LazyOptimizer

By 苏剑林 | 2019-07-30 | 46219位读者 | 引用

最近用Keras实现了两个优化器，也算是有点实现技巧，遂放在一起写篇文章简介一下（如果只有一个的话我就不写了）。这两个优化器的名字都挺有意思的，一个是look ahead（往前看？），一个是lazy（偷懒？），难道是两个完全不同的优化思路么？非也非也～只能说发明者们起名字太有创意了。

Lookahead

首先登场的是Lookahead优化器，它源于论文《Lookahead Optimizer: k steps forward, 1 step back》，是最近才提出来的优化器，有意思的是大牛Hinton和Adam的作者之一Jimmy Ba也出现在了论文作者列表当中，有这两个大神加持，这个优化器的出现便吸引了不少目光。

点击阅读全文...

分类：信息时代标签：keras, 优化器阅读全文 7 评论

20 Aug

开源一版DGCNN阅读理解问答模型（Keras版）

By 苏剑林 | 2019-08-20 | 72296位读者 | 引用

去年写过《基于CNN的阅读理解式问答模型：DGCNN》，介绍了一个纯卷积的简单的问答模型。当时是用Tensorflow实现的，而且没有开源，这几天抽空用Keras复现了一下，决定开源。

模型综述

关于DGCNN的基本介绍，这里不再赘述。本文的模型并不是之前模型的重复实现，而是有所改动，这里只介绍一下被改动的地方。

1、这里放出的模型，线下验证集的分数大概是0.72（之前大约是0.75）；
2、本次模型以字为单位，使用笔者之前探索出来的“字词混合Embedding”（之前是以词为单位）；
3、本次模型完全去掉了人工特征（之前用了8个人工特征）；
4、本次模型去掉了位置Embedding（之前将位置Embedding拼接到输入上）；
5、模型架构和训练细节有所微调。

点击阅读全文...

分类：信息时代标签：模型, 问答阅读全文 16 评论

26 Aug

HSIC简介：一个有意思的判断相关性的思路

By 苏剑林 | 2019-08-26 | 99317位读者 | 引用

前几天，在机器之心看到这样的一个推送《彻底解决梯度爆炸问题，新方法不用反向传播也能训练ResNet》，当然，媒体的标题党作风我们暂且无视，主要看内容即可。机器之心的这篇文章，介绍的是论文《The HSIC Bottleneck: Deep Learning without Back-Propagation》的成果，里边提出了一种通过HSIC Bottleneck来训练神经网络的算法。

坦白说，这篇论文笔者还没有看明白，因为对笔者来说里边的新概念有点多了。不过论文中的“HSIC”这个概念引起了笔者的兴趣。经过学习，终于基本地理解了这个HSIC的含义和来龙去脉，于是就有了本文，试图给出HSIC的一个尽可能通俗（但可能不严谨）的理解。

背景

HSIC全称“Hilbert-Schmidt independence criterion”，中文可以叫做“希尔伯特-施密特独立性指标”吧，跟互信息一样，它也可以用来衡量两个变量之间的独立性。

点击阅读全文...

分类：数学研究标签：概率, 互信息, 核方法阅读全文 29 评论

3 Sep

百度实体链接比赛后记：行为建模和实体链接

By 苏剑林 | 2019-09-03 | 85005位读者 | 引用

前几个月曾参加了百度的实体链接比赛，这是CCKS2019的评测任务之一，官方称之为“实体链指”，比赛于前几个星期完全结束。笔者最终的F1是0.78左右（冠军是0.80），排在第14名，成绩并不突出（唯一的特色是模型很轻量级，GTX1060都可以轻松跑起来），所以本文只是纯粹的记录过程，大牛们请一笑置之～

本文的实体链接模型总图（可以点击查看大图）

赛题介绍

所谓实体链接，主要指的是在已有一个知识库的情况下，预测输入query的某个实体对应知识库id。也就是说，知识库里边记录了很多实体，对于同一个名字的实体可能会有多个解释，每个解释用一个唯一id编号，我们要做的就是预测query中的实体究竟对应哪一个解释（id）。这是基于知识图谱的问答系统的必要步骤。

点击阅读全文...

分类：信息时代标签：模型, NLP, NER 阅读全文 23 评论

9 Sep

重新写了之前的新词发现算法：更快更好的新词发现

By 苏剑林 | 2019-09-09 | 95736位读者 | 引用

新词发现是NLP的基础任务之一，主要是希望通过无监督发掘一些语言特征（主要是统计特征），来判断一批语料中哪些字符片段可能是一个新词。本站也多次围绕“新词发现”这个话题写过文章，比如：

《新词发现的信息熵方法与实现》
《【中文分词系列】 2. 基于切分的新词发现》
《【中文分词系列】 5. 基于语言模型的无监督分词》
《【中文分词系列】 7. 深度学习分词？只需一个词典！》
《【中文分词系列】 8. 更好的新词发现算法》
《分享一次专业领域词汇的无监督挖掘》

在这些文章之中，笔者觉得理论最漂亮的是《基于语言模型的无监督分词》，而作为新词发现算法来说综合性能比较好的应该是《更好的新词发现算法》，本文就是复现这篇文章的新词发现算法。

点击阅读全文...

分类：信息时代标签：分词, 无监督, NLP, 新词发现阅读全文 30 评论

13 Nov

n维空间下两个随机向量的夹角分布

By 苏剑林 | 2019-11-13 | 134194位读者 | 引用

昨天群里大家讨论到了$n$维向量的一些反直觉现象，其中一个话题是“一般$n$维空间下两个随机向量几乎都是垂直的”，这就跟二维/三维空间的认知有明显出入了。要从理论上认识这个结论，我们可以考虑两个随机向量的夹角$\theta$分布，并算算它的均值方差。

概率密度

首先，我们来推导$\theta$的概率密度函数。呃，其实也不用怎么推导，它是$n$维超球坐标的一个直接结论。

要求两个随机向量之间的夹角分布，很显然，由于各向同性，所以我们只需要考虑单位向量，而同样是因为各向同性，我们只需要固定其中一个向量，考虑另一个向量随机变化。不是一般性，考虑随机向量为
\begin{equation}\boldsymbol{x}=(x_1,x_2,\dots,x_n)\end{equation}
而固定向量为
\begin{equation}\boldsymbol{y}=(1,0,\dots,0)\end{equation}

点击阅读全文...

分类：数学研究标签：概率, 分析阅读全文 63 评论

18 Sep

从语言模型到Seq2Seq：Transformer如戏，全靠Mask

By 苏剑林 | 2019-09-18 | 325181位读者 | 引用

相信近一年来（尤其是近半年来），大家都能很频繁地看到各种Transformer相关工作（比如Bert、GPT、XLNet等等）的报导，连同各种基础评测任务的评测指标不断被刷新。同时，也有很多相关的博客、专栏等对这些模型做科普和解读。

单向语言模型图示。每预测一个token，只依赖于前面的token。

俗话说，“外行看热闹，内行看门道”，我们不仅要在“是什么”这个层面去理解这些工作，我们还需要思考“为什么”。这个“为什么”不仅仅是“为什么要这样做”，还包括“为什么可以这样做”。比如，在谈到XLNet的乱序语言模型时，我们或许已经从诸多介绍中明白了乱序语言模型的好处，那不妨更进一步思考一下：

为什么Transformer可以实现乱序语言模型？是怎么实现的？RNN可以实现吗？

本文从对Attention矩阵进行Mask的角度，来分析为什么众多Transformer模型可以玩得如此“出彩”的基本原因，正如标题所述“Transformer如戏，全靠Mask”，这是各种花式Transformer模型的重要“门道”之一。

读完本文，你或许可以了解到：

1、Attention矩阵的Mask方式与各种预训练方案的关系；
2、直接利用预训练的Bert模型来做Seq2Seq任务。

点击阅读全文...

分类：信息时代标签：语言模型, NLP, 文本生成, attention 阅读全文 149 评论

11 Oct

BN究竟起了什么作用？一个闭门造车的分析

By 苏剑林 | 2019-10-11 | 117023位读者 | 引用

BN，也就是Batch Normalization，是当前深度学习模型（尤其是视觉相关模型）的一个相当重要的技巧，它能加速训练，甚至有一定的抗过拟合作用，还允许我们用更大的学习率，总的来说颇多好处（前提是你跑得起较大的batch size）。

那BN究竟是怎么起作用呢？早期的解释主要是基于概率分布的，大概意思是将每一层的输入分布都归一化到$\mathcal{N}(0,1)$上，减少了所谓的Internal Covariate Shift，从而稳定乃至加速了训练。这种解释看上去没什么毛病，但细思之下其实有问题的：不管哪一层的输入都不可能严格满足正态分布，从而单纯地将均值方差标准化无法实现标准分布$\mathcal{N}(0,1)$；其次，就算能做到$\mathcal{N}(0,1)$，这种诠释也无法进一步解释其他归一化手段（如Instance Normalization、Layer Normalization）起作用的原因。

在去年的论文《How Does Batch Normalization Help Optimization?》里边，作者明确地提出了上述质疑，否定了原来的一些观点，并提出了自己关于BN的新理解：他们认为BN主要作用是使得整个损失函数的landscape更为平滑，从而使得我们可以更平稳地进行训练。

本博文主要也是分享这篇论文的结论，但论述方法是笔者“闭门造车”地构思的。窃认为原论文的论述过于晦涩了，尤其是数学部分太不好理解，所以本文试图尽可能直观地表达同样观点。

（注：阅读本文之前，请确保你已经清楚知道BN是什么，本文不再重复介绍BN的概念和流程。）

点击阅读全文...

分类：信息时代标签：模型, 优化, 神经网络阅读全文 40 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

Keras实现两个优化器：Lookahead和LazyOptimizer

Lookahead

开源一版DGCNN阅读理解问答模型（Keras版）

模型综述

HSIC简介：一个有意思的判断相关性的思路

背景

百度实体链接比赛后记：行为建模和实体链接

赛题介绍

重新写了之前的新词发现算法：更快更好的新词发现

n维空间下两个随机向量的夹角分布

概率密度

从语言模型到Seq2Seq：Transformer如戏，全靠Mask

BN究竟起了什么作用？一个闭门造车的分析

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接