包含关键字小样本实体识别的文章 - 科学空间|Scientific Spaces

16 Jul

“让Keras更酷一些！”：层中层与mask

By 苏剑林 | 2019-07-16 | 151487位读者 | 引用

这一篇“让Keras更酷一些！”将和读者分享两部分内容：第一部分是“层中层”，顾名思义，是在Keras中自定义层的时候，重用已有的层，这将大大减少自定义层的代码量；另外一部分就是应读者所求，介绍一下序列模型中的mask原理和方法。

层中层

在《“让Keras更酷一些！”：精巧的层与花式的回调》一文中我们已经介绍过Keras自定义层的基本方法，其核心步骤是定义build和call两个函数，其中build负责创建可训练的权重，而call则定义具体的运算。

拒绝重复劳动

经常用到自定义层的读者可能会感觉到，在自定义层的时候我们经常在重复劳动，比如我们想要增加一个线性变换，那就要在build中增加一个kernel和bias变量（还要自定义变量的初始化、正则化等），然后在call里边用K.dot来执行，有时候还需要考虑维度对齐的问题，步骤比较繁琐。但事实上，一个线性变换其实就是一个不加激活函数的Dense层罢了，如果在自定义层时能重用已有的层，那显然就可以大大节省代码量了。

点击阅读全文...

分类：信息时代标签：keras 阅读全文 49 评论

27 Oct

什么时候多进程的加速比可以大于1？

By 苏剑林 | 2019-10-27 | 60418位读者 | 引用

多进程或者多线程等并行加速目前已经不是什么难事了，相信很多读者都体验过。一般来说，我们会有这样的结论：多进程的加速比很难达到1。换句话说，当你用10进程去并行跑一个任务时，一般只能获得不到10倍的加速，而且进程越多，这个加速比往往就越低。

要注意，我们刚才说“很难达到1”，说明我们的潜意识里就觉得加速比最多也就是1。理论上确实是的，难不成用10进程还能获得20倍的加速？这不是天上掉馅饼吗？不过我前几天确实碰到了一个加速比远大于1的例子，所以在这里跟大家分享一下。

词频统计

我的原始任务是统计词频：我有很多文章，然后我们要对这些文章进行分词，最后汇总出一个词频表出来。一般的写法是这样的：

tokens = {}

for text in read_texts():
    for token in tokenize(text):
        tokens[token] = tokens.get(token, 0) + 1

这种写法在我统计THUCNews全部文章的词频时，大概花了20分钟。

点击阅读全文...

分类：信息时代标签：编程, python 阅读全文 13 评论

9 Aug

seq2seq之双向解码

By 苏剑林 | 2019-08-09 | 47076位读者 | 引用

在文章《玩转Keras之seq2seq自动生成标题》中我们已经基本探讨过seq2seq，并且给出了参考的Keras实现。

本文则将这个seq2seq再往前推一步，引入双向的解码机制，它在一定程度上能提高生成文本的质量（尤其是生成较长文本时）。本文所介绍的双向解码机制参考自《Synchronous Bidirectional Neural Machine Translation》，最后笔者也是用Keras实现的。

Seq2Seq的双向解码机制图示

背景介绍

研究过seq2seq的读者都知道，常见的seq2seq的解码过程是从左往右逐字（词）生成的，即根据encoder的结果先生成第一个字；然后根据encoder的结果以及已经生成的第一个字，来去生成第二个字；再根据encoder的结果和前两个字，来生成第三个词；依此类推。总的来说，就是在建模如下概率分解
\begin{equation}p(Y|X)=p(y_1|X)p(y_2|X,y_1)p(y_3|X,y_1,y_2)\cdots\label{eq:p}\end{equation}

点击阅读全文...

分类：信息时代标签：模型, NLP, keras, 文本生成阅读全文 6 评论

26 Aug

HSIC简介：一个有意思的判断相关性的思路

By 苏剑林 | 2019-08-26 | 101560位读者 | 引用

前几天，在机器之心看到这样的一个推送《彻底解决梯度爆炸问题，新方法不用反向传播也能训练ResNet》，当然，媒体的标题党作风我们暂且无视，主要看内容即可。机器之心的这篇文章，介绍的是论文《The HSIC Bottleneck: Deep Learning without Back-Propagation》的成果，里边提出了一种通过HSIC Bottleneck来训练神经网络的算法。

坦白说，这篇论文笔者还没有看明白，因为对笔者来说里边的新概念有点多了。不过论文中的“HSIC”这个概念引起了笔者的兴趣。经过学习，终于基本地理解了这个HSIC的含义和来龙去脉，于是就有了本文，试图给出HSIC的一个尽可能通俗（但可能不严谨）的理解。

背景

HSIC全称“Hilbert-Schmidt independence criterion”，中文可以叫做“希尔伯特-施密特独立性指标”吧，跟互信息一样，它也可以用来衡量两个变量之间的独立性。

点击阅读全文...

分类：数学研究标签：概率, 互信息, 核方法阅读全文 29 评论

31 Oct

从去噪自编码器到生成模型

By 苏剑林 | 2019-10-31 | 112054位读者 | 引用

在我看来，几大顶会之中，ICLR的论文通常是最有意思的，因为它们的选题和风格基本上都比较轻松活泼、天马行空，让人有脑洞大开之感。所以，ICLR 2020的投稿论文列表出来之后，我也抽时间粗略过了一下这些论文，确实发现了不少有意思的工作。

其中，我发现了两篇利用去噪自编码器的思想做生成模型的论文，分别是《Learning Generative Models using Denoising Density Estimators》和《Annealed Denoising Score Matching: Learning Energy-Based Models in High-Dimensional Spaces》。由于常规做生成模型的思路我基本都有所了解，所以这种“别具一格”的思路就引起了我的兴趣。细读之下，发现两者的出发点是一致的，但是具体做法又有所不同，最终的落脚点又是一样的，颇有“一题多解”的美妙，遂将这两篇论文放在一起，对比分析一翻。

fashion mnist、CelebA、cifar10上的生成效果

点击阅读全文...

分类：信息时代标签：生成模型, 编码, 梯度, 去噪阅读全文 35 评论

11 Oct

BN究竟起了什么作用？一个闭门造车的分析

By 苏剑林 | 2019-10-11 | 121694位读者 | 引用

BN，也就是Batch Normalization，是当前深度学习模型（尤其是视觉相关模型）的一个相当重要的技巧，它能加速训练，甚至有一定的抗过拟合作用，还允许我们用更大的学习率，总的来说颇多好处（前提是你跑得起较大的batch size）。

那BN究竟是怎么起作用呢？早期的解释主要是基于概率分布的，大概意思是将每一层的输入分布都归一化到$\mathcal{N}(0,1)$上，减少了所谓的Internal Covariate Shift，从而稳定乃至加速了训练。这种解释看上去没什么毛病，但细思之下其实有问题的：不管哪一层的输入都不可能严格满足正态分布，从而单纯地将均值方差标准化无法实现标准分布$\mathcal{N}(0,1)$；其次，就算能做到$\mathcal{N}(0,1)$，这种诠释也无法进一步解释其他归一化手段（如Instance Normalization、Layer Normalization）起作用的原因。

在去年的论文《How Does Batch Normalization Help Optimization?》里边，作者明确地提出了上述质疑，否定了原来的一些观点，并提出了自己关于BN的新理解：他们认为BN主要作用是使得整个损失函数的landscape更为平滑，从而使得我们可以更平稳地进行训练。

本博文主要也是分享这篇论文的结论，但论述方法是笔者“闭门造车”地构思的。窃认为原论文的论述过于晦涩了，尤其是数学部分太不好理解，所以本文试图尽可能直观地表达同样观点。

（注：阅读本文之前，请确保你已经清楚知道BN是什么，本文不再重复介绍BN的概念和流程。）

点击阅读全文...

分类：信息时代标签：模型, 优化, 神经网络阅读全文 40 评论

9 Mar

Seq2Seq中Exposure Bias现象的浅析与对策

By 苏剑林 | 2020-03-09 | 97557位读者 | 引用

前些天笔者写了《CRF用过了，不妨再了解下更快的MEMM？》，里边提到了MEMM的局部归一化和CRF的全局归一化的优劣。同时，笔者联想到了Seq2Seq模型，因为Seq2Seq模型的典型训练方案Teacher Forcing就是一个局部归一化模型，所以它也存在着局部归一化所带来的毛病——也就是我们经常说的“Exposure Bias”。带着这个想法，笔者继续思考了一翻，将最后的思考结果记录在此文。

经典的Seq2Seq模型图示

本文算是一篇进阶文章，适合对Seq2Seq模型已经有一定的了解、希望进一步提升模型的理解或表现的读者。关于Seq2Seq的入门文章，可以阅读旧作《玩转Keras之seq2seq自动生成标题》和《从语言模型到Seq2Seq：Transformer如戏，全靠Mask》。

本文的内容大致为：

1、Exposure Bias的成因分析及例子；
2、简单可行的缓解Exposure Bias问题的策略。

点击阅读全文...

分类：信息时代标签：语言模型, 文本生成, 对抗训练阅读全文 33 评论

25 Apr

将“Softmax+交叉熵”推广到多标签分类问题

By 苏剑林 | 2020-04-25 | 354630位读者 | 引用

（注：本文的相关内容已整理成论文《ZLPR: A Novel Loss for Multi-label Classification》，如需引用可以直接引用英文论文，谢谢。）

一般来说，在处理常规的多分类问题时，我们会在模型的最后用一个全连接层输出每个类的分数，然后用softmax激活并用交叉熵作为损失函数。在这篇文章里，我们尝试将“Softmax+交叉熵”方案推广到多标签分类场景，希望能得到用于多标签分类任务的、不需要特别调整类权重和阈值的loss。

类别不平衡

单标签到多标签

一般来说，多分类问题指的就是单标签分类问题，即从$n$个候选类别中选$1$个目标类别。假设各个类的得分分别为$s_1,s_2,
\dots,s_n$，目标类为$t\in\{1,2,\dots,n\}$，那么所用的loss为
\begin{equation}-\log \frac{e^{s_t}}{\sum\limits_{i=1}^n e^{s_i}}= - s_t + \log \sum\limits_{i=1}^n e^{s_i}\label{eq:log-softmax}\end{equation}
这个loss的优化方向是让目标类的得分$s_t$变为$s_1,s_2,\dots,s_t$中的最大值。关于softmax的相关内容，还可以参考《寻求一个光滑的最大值函数》、《函数光滑化杂谈：不可导函数的可导逼近》等文章。

点击阅读全文...

分类：数学研究,信息时代标签：优化, 损失函数, 光滑阅读全文 204 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

“让Keras更酷一些！”：层中层与mask

层中层

拒绝重复劳动

什么时候多进程的加速比可以大于1？

词频统计

seq2seq之双向解码

背景介绍

HSIC简介：一个有意思的判断相关性的思路

背景

从去噪自编码器到生成模型

BN究竟起了什么作用？一个闭门造车的分析

Seq2Seq中Exposure Bias现象的浅析与对策

将“Softmax+交叉熵”推广到多标签分类问题

单标签到多标签

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接