包含关键字多视图学习的文章 - 科学空间|Scientific Spaces

2 Apr

bert4keras在手，baseline我有：百度LIC2020

By 苏剑林 | 2020-04-02 | 89578位读者 | 引用

百度的“2020语言与智能技术竞赛”开赛了，今年有五个赛道，分别是机器阅读理解、推荐任务对话、语义解析、关系抽取、事件抽取。每个赛道中，主办方都给出了基于PaddlePaddle的baseline模型，这里笔者也基于bert4keras给出其中三个赛道的个人baseline，从中我们可以看到用bert4keras搭建baseline模型的方便快捷与简练。

地址：https://github.com/bojone/lic2020_baselines

思路简析

这里简单分析一下这三个赛道的任务特点以及对应的baseline设计。

点击阅读全文...

分类：信息时代标签：模型, keras, attention 阅读全文 34 评论

29 Apr

节省显存的重计算技巧也有了Keras版了

By 苏剑林 | 2020-04-29 | 47331位读者 | 引用

不少读者最近可能留意到了公众号文章《BERT重计算：用22.5%的训练时间节省5倍的显存开销（附代码）》，里边介绍了一个叫做“重计算”的技巧，简单来说就是用来省显存的方法，让平均训练速度慢一点，但batch_size可以增大好几倍。该技巧首先发布于论文《Training Deep Nets with Sublinear Memory Cost》，其实在2016年就已经提出了，只不过似乎还没有特别流行起来。

探索

公众号文章提到该技巧在pytorch和paddlepaddle都有原生实现了，但tensorflow还没有。但事实上从tensorflow 1.8开始，tensorflow就已经自带了该功能了，当时被列入了tf.contrib这个子库中，而从tensorflow 1.15开始，它就被内置为tensorflow的主函数之一，那就是tf.recompute_grad。

找到tf.recompute_grad之后，笔者就琢磨了一下它的用法，经过一番折腾，最终居然真的成功地用起来了，居然成功地让batch_size从48增加到了144！然而，在继续整理测试的过程中，发现这玩意居然在tensorflow 2.x是失效的...于是再折腾了两天，查找了各种资料并反复调试，最终算是成功地补充了这一缺陷。

最后是笔者自己的开源实现：

Github地址：https://github.com/bojone/keras_recompute

该实现已经内置在bert4keras中，使用bert4keras的读者可以升级到最新版本（0.7.5+）来测试该功能。

点击阅读全文...

分类：信息时代标签：模型, 深度学习, keras 阅读全文 11 评论

18 May

鱼与熊掌兼得：融合检索和生成的SimBERT模型

By 苏剑林 | 2020-05-18 | 280727位读者 | 引用

前段时间我们开放了一个名为SimBERT的模型权重，它是以Google开源的BERT模型为基础，基于微软的UniLM思想设计了融检索与生成于一体的任务，来进一步微调后得到的模型，所以它同时具备相似问生成和相似句检索能力。不过当时除了放出一个权重文件和示例脚本之外，未对模型原理和训练过程做进一步说明。在这篇文章里，我们来补充这部分内容。

开源地址：https://github.com/ZhuiyiTechnology/simbert

UniLM

UniLM是一个融合NLU和NLG能力的Transformer模型，由微软在去年5月份提出来的，今年2月份则升级到了v2版本。我们之前的文章《从语言模型到Seq2Seq：Transformer如戏，全靠Mask》就简单介绍过UniLM，并且已经集成到了bert4keras中。

UniLM的核心是通过特殊的Attention Mask来赋予模型具有Seq2Seq的能力。假如输入是“你想吃啥”，目标句子是“白切鸡”，那UNILM将这两个句子拼成一个：[CLS] 你想吃啥 [SEP] 白切鸡 [SEP]，然后接如图的Attention Mask：

UniLM的Mask

点击阅读全文...

分类：信息时代标签：语言模型, 生成模型, 文本生成阅读全文 161 评论

10 Jun

无监督分词和句法分析！原来BERT还可以这样用

By 苏剑林 | 2020-06-10 | 81531位读者 | 引用

BERT的一般用法就是加载其预训练权重，再接一小部分新层，然后在下游任务上进行finetune，换句话说一般的用法都是有监督训练的。基于这个流程，我们可以做中文的分词、NER甚至句法分析，这些想必大家就算没做过也会有所听闻。但如果说直接从预训练的BERT（不finetune）就可以对句子进行分词，甚至析出其句法结构出来，那应该会让人感觉到意外和有趣了。

本文介绍ACL 2020的论文《Perturbed Masking: Parameter-free Probing for Analyzing and Interpreting BERT》，里边提供了直接利用Masked Language Model（MLM）来分析和解释BERT的思路，而利用这种思路，我们可以无监督地做到分词甚至句法分析。

基于BERT的“token-token”相关度计算图示

点击阅读全文...

分类：信息时代标签：无监督, 新词发现阅读全文 21 评论

16 Jun

如何应对Seq2Seq中的“根本停不下来”问题？

By 苏剑林 | 2020-06-16 | 60426位读者 | 引用

在Seq2Seq的解码过程中，我们是逐个token地递归生成的，直到出现<eos>标记为止，这就是所谓的“自回归”生成模型。然而，研究过Seq2Seq的读者应该都能发现，这种自回归的解码偶尔会出现“根本停不下来”的现象，主要是某个片段反复出现，比如“今天天气不错不错不错不错不错...”、“你觉得我说得对不对不对不对不对不对...”等等，但就是死活不出现<eos>标记。ICML 2020的文章《Consistency of a Recurrent Language Model With Respect to Incomplete Decoding》比较系统地讨论了这个现象，并提出了一些对策，本文来简单介绍一下论文的主要内容。

解码算法

对于自回归模型来说，我们建立的是如下的条件语言模型
\begin{equation}p(y_t|y_{\lt t}, x)\label{eq:p}\end{equation}
那么解码算法就是在已知上述模型时，给定$x$来输出对应的$y=(y_1,y_2,\dots,y_T)$来。解码算法大致可以分为两类：确定性解码算法和随机性解码算法，原论文分别针对这两类解码讨论来讨论了“根本停不下来”问题，所以我们需要来了解一下这两类解码算法。

点击阅读全文...

分类：信息时代标签：语言模型, 文本生成, 解码阅读全文 19 评论

4 Jul

线性Attention的探索：Attention必须有个Softmax吗？

By 苏剑林 | 2020-07-04 | 208917位读者 | 引用

众所周知，尽管基于Attention机制的Transformer类模型有着良好的并行性能，但它的空间和时间复杂度都是$\mathcal{O}(n^2)$级别的，$n$是序列长度，所以当$n$比较大时Transformer模型的计算量难以承受。近来，也有不少工作致力于降低Transformer模型的计算量，比如模型剪枝、量化、蒸馏等精简技术，又或者修改Attention结构，使得其复杂度能降低到$\mathcal{O}(n\log n)$甚至$\mathcal{O}(n)$。

前几天笔者读到了论文《Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention》，了解到了线性化Attention（Linear Attention）这个探索点，继而阅读了一些相关文献，有一些不错的收获，最后将自己对线性化Attention的理解汇总在此文中。

Attention

当前最流行的Attention机制当属Scaled-Dot Attention，形式为
\begin{equation}Attention(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V}) = softmax\left(\boldsymbol{Q}\boldsymbol{K}^{\top}\right)\boldsymbol{V}\label{eq:std-att}\end{equation}
这里的$\boldsymbol{Q}\in\mathbb{R}^{n\times d_k}, \boldsymbol{K}\in\mathbb{R}^{m\times d_k}, \boldsymbol{V}\in\mathbb{R}^{m\times d_v}$，简单起见我们就没显式地写出Attention的缩放因子了。本文我们主要关心Self Attention场景，所以为了介绍上的方便统一设$\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V}\in\mathbb{R}^{n\times d}$，一般场景下都有$n > d$甚至$n\gg d$（BERT base里边$d=64$）。

点击阅读全文...

分类：信息时代标签：模型, 文本生成, attention 阅读全文 102 评论

18 Jul

也来扯几句“全国青少年科技创新大赛”

By 苏剑林 | 2020-07-18 | 32879位读者 | 引用

最近，“全国青少年科技创新大赛”火了，原因很简单，因为公开的每一篇获奖作品都几乎是硕士乃至博士水平的，甚至相比很多知名期刊上的文章都不遑多让，但这些作品的作者却只是中学生甚至只是小学生，他们迈过了各种“天堑”般的坎，完成对很多人甚至是对很多专业硕士博士来说都是“天书”般的科研项目。这份获奖清单在网上也算是掀起了一股轩然大波，让我等吃瓜群众深感“后浪”的强大。事情仍然在发酵，逐渐地，有成立调查组的，有发表声明的，有为“过度参与”致歉的，有坚称“没有参与”的，看得瓜友们乐此不疲。

点击阅读全文...

分类：千奇百怪标签：情感, 时事阅读全文 6 评论

25 Jul

学会提问的BERT：端到端地从篇章中构建问答对

By 苏剑林 | 2020-07-25 | 107401位读者 | 引用

机器阅读理解任务，相比不少读者都有所了解了，简单来说就是从给定篇章中寻找给定问题的答案，即“篇章 + 问题 → 答案”这样的流程，笔者之前也写过一些关于阅读理解的文章，比如《基于CNN的阅读理解式问答模型：DGCNN》等。至于问答对构建，则相当于是阅读理解的反任务，即“篇章 → 答案 + 问题”的流程，学术上一般直接叫“问题生成（Question Generation）”，因为大多数情况下，答案可以通过比较规则的随机选择，所以很多文章都只关心“篇章 + 答案 → 问题”这一步。

本文将带来一次全端到端的“篇章 → 答案 + 问题”实践，包括模型介绍以及基于bert4keras的实现代码，欢迎读者尝试。

本文的问答生成模型示意图

点击阅读全文...

分类：信息时代标签：语言模型, 文本生成阅读全文 66 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

bert4keras在手，baseline我有：百度LIC2020

思路简析

节省显存的重计算技巧也有了Keras版了

探索

鱼与熊掌兼得：融合检索和生成的SimBERT模型

UniLM

无监督分词和句法分析！原来BERT还可以这样用

如何应对Seq2Seq中的“根本停不下来”问题？

解码算法

线性Attention的探索：Attention必须有个Softmax吗？

Attention

也来扯几句“全国青少年科技创新大赛”

学会提问的BERT：端到端地从篇章中构建问答对

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接