包含关键字 KL散度的文章 - 科学空间|Scientific Spaces

19 Oct

BERT可以上几年级了？Seq2Seq“硬刚”小学数学应用题

By 苏剑林 | 2020-10-19 | 64090位读者 | 引用

“鸡兔同笼”的那些年

“盈亏问题”、“年龄问题”、“植树问题”、“牛吃草问题”、“利润问题”...，小学阶段你是否曾被各种花样的数学应用题折磨过呢？没关系，现在机器学习模型也可以帮助我们去解答应用题了，来看看它可以上几年级了？

本文将给出一个求解小学数学应用题（Math Word Problem）的baseline，基于ape210k数据集训练，直接用Seq2Seq模型生成可执行的数学表达式，最终Large版本的模型能达到75%的准确率，明显高于ape210k论文所报告的结果。所谓“硬刚”，指的是没有对表达式做特别的转换，也没有通过模板处理，就直接生成跟人类做法相近的可读表达式。

点击阅读全文...

分类：数学研究,信息时代标签：语言模型, 文本生成阅读全文 25 评论

27 Oct

TeaForN：让Teacher Forcing更有“远见”一些

By 苏剑林 | 2020-10-27 | 37852位读者 | 引用

Teacher Forcing是Seq2Seq模型的经典训练方式，而Exposure Bias则是Teacher Forcing的经典缺陷，这对于搞文本生成的同学来说应该是耳熟能详的事实了。笔者之前也曾写过博文《Seq2Seq中Exposure Bias现象的浅析与对策》，初步地分析过Exposure Bias问题。

Teacher Forcing示意图

本文则介绍Google新提出的一种名为“TeaForN”的缓解Exposure Bias现象的方案，来自论文《TeaForN: Teacher-Forcing with N-grams》，它通过嵌套迭代的方式，让模型能提前预估到后$N$个token（而不仅仅是当前要预测的token），其处理思路上颇有可圈可点之处，值得我们学习。

（注：为了尽量跟本博客旧文章保持一致，本文的记号与原论文的记号有所不同，请大家以理解符号含义为主，不要强记符号形式。）

点击阅读全文...

分类：信息时代标签：优化, 语言模型, 文本生成阅读全文 9 评论

6 Nov

那个屠榜的T5模型，现在可以在中文上玩玩了

By 苏剑林 | 2020-11-06 | 123129位读者 | 引用

不知道大家对Google去年的屠榜之作T5还有没有印象？就是那个打着“万事皆可Seq2Seq”的旗号、最大搞了110亿参数、一举刷新了GLUE、SuperGLUE等多个NLP榜单的模型，而且过去一年了，T5仍然是SuperGLUE榜单上的第一，目前还稳妥地拉开着第二名2%的差距。然而，对于中文界的朋友来说，T5可能没有什么存在感，原因很简单：没有中文版T5可用。不过这个现状要改变了，因为Google最近放出了多国语言版的T5（mT5），里边当然是包含了中文语言。虽然不是纯正的中文版，但也能凑合着用一下。

“万事皆可Seq2Seq”的T5

本文将会对T5模型做一个简单的回顾与介绍，然后再介绍一下如何在bert4keras中调用mT5模型来做中文任务。作为一个原生的Seq2Seq预训练模型，mT5在文本生成任务上的表现还是相当不错的，非常值得一试。

点击阅读全文...

分类：信息时代标签：语言模型, 文本生成, attention 阅读全文 50 评论

11 Nov

当GPT遇上中国象棋：写过文章解过题，要不再来下盘棋？

By 苏剑林 | 2020-11-11 | 50198位读者 | 引用

中国象棋

不知道读者有没有看过量子位年初的文章《最强写作AI竟然学会象棋和作曲，语言模型跨界操作引热议，在线求战》，里边提到有网友用GPT2模型训练了一个下国际象棋的模型。笔者一直在想，这么有趣的事情怎么可以没有中文版呢？对于国际象棋来说，其中文版自然就是中国象棋了，于是我一直有想着把它的结果在中国象棋上面复现一下。拖了大半年，在最近几天终于把这个事情完成了，在此跟大家分享一下。

象棋谱式
将军不离九宫内，士止相随不出官。
象飞四方营四角，马行一步一尖冲。
炮须隔子打一子，车行直路任西东。
唯卒只能行一步，过河横进退无踪。

点击阅读全文...

分类：信息时代标签：中国象棋, 语言模型, attention 阅读全文 19 评论

24 Nov

exp(x)在x=0处的偶次泰勒展开式总是正的

By 苏剑林 | 2020-11-24 | 33385位读者 | 引用

刚看到一个有意思的结论：

对于任意实数$x$及偶数$n$，总有$\sum\limits_{k=0}^n \frac{x^k}{k!} > 0$，即$e^x$在$x=0$处的偶次泰勒展开式总是正的。

下面我们来看一下这个结论的证明，以及它在寻找softmax替代品中的应用。

证明过程

看上去这是一个很强的结果，证明会不会很复杂？其实证明非常简单，记
\begin{equation}f_n(x) = \sum\limits_{k=0}^n \frac{x^k}{k!}\end{equation}
当$n$是偶数时，我们有$\lim\limits_{x\to\pm\infty} f_n(x)=+\infty$，即整体是开口向上的，所以我们只需要证明它的最小值大于0就行了，又因为它是一个光滑连续的多项式函数，所以最小值点必然是某个极小值点。那么换个角度想，我们只需要证明它所有的极值点（不管是极大还是极小）所对应的函数值都大于0。

点击阅读全文...

分类：数学研究标签：导数, 概率, 分析阅读全文 5 评论

4 Dec

层次分解位置编码，让BERT可以处理超长文本

By 苏剑林 | 2020-12-04 | 112557位读者 | 引用

大家都知道，目前的主流的BERT模型最多能处理512个token的文本。导致这一瓶颈的根本原因是BERT使用了从随机初始化训练出来的绝对位置编码，一般的最大位置设为了512，因此顶多只能处理512个token，多出来的部分就没有位置编码可用了。当然，还有一个重要的原因是Attention的$\mathcal{O}(n^2)$复杂度，导致长序列时显存用量大大增加，一般显卡也finetune不了。

位置编码的层次分解示意图

本文主要面向前一个原因，即假设有足够多的显存前提下，如何简单修改当前最大长度为512的BERT模型，使得它可以直接处理更长的文本，主要思路是层次分解已经训练好的绝对位置编码，使得它可以延拓到更长的位置。

点击阅读全文...

分类：信息时代标签：模型, 优化, attention 阅读全文 52 评论

1 Jan

SPACES：“抽取-生成”式长文本摘要（法研杯总结）

By 苏剑林 | 2021-01-01 | 222036位读者 | 引用

“法研杯”算是近年来比较知名的NLP赛事之一，今年是第三届，包含四个赛道，其中有一个“司法摘要”赛道引起了我们的兴趣。经过了解，这是面向法律领域裁判文书的长文本摘要生成，这应该是国内第一个公开的长文本生成任务和数据集。过去一年多以来，我们在文本生成方面都有持续的投入和探索，所以决定选择该赛道作为检验我们研究成果的“试金石”。很幸运，我们最终以微弱的优势获得了该赛道的第一名。在此，我们对我们的比赛模型做一个总结和分享。

比赛榜单截图

在该比赛中，我们跳出了纯粹炼丹的过程，通过新型的Copy机制、Sparse Softmax等颇具通用性的新方法提升了模型的性能。整体而言，我们的模型比较简洁有效，而且可以做到端到端运行。窃以为我们的结果对工程和研究都有一定的参考价值。

点击阅读全文...

分类：信息时代标签：文本生成, 稀疏, 文本摘要阅读全文 132 评论

14 Dec

Mitchell近似：乘法变为加法，误差不超过1/9

By 苏剑林 | 2020-12-14 | 36881位读者 | 引用

今天给大家介绍一篇1962年的论文《Computer Multiplication and Division Using Binary Logarithms》，作者是John N. Mitchell，他在里边提出了一个相当有意思的算法：在二进制下，可以完全通过加法来近似完成两个数的相乘，最大误差不超过1/9。整个算法相当巧妙，更有意思的是它还有着非常简洁的编程实现，让人拍案叫绝。然而，笔者发现网上居然找不到介绍这个算法的网页，所以在此介绍一番。

你以为这只是过时的玩意？那你就错了，前不久才有人利用它发了一篇NeurIPS 2020呢！所以，确定不来了解一下吗？

点击阅读全文...

分类：数学研究标签：模型, 算法, 优化阅读全文 8 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

BERT可以上几年级了？Seq2Seq“硬刚”小学数学应用题

TeaForN：让Teacher Forcing更有“远见”一些

那个屠榜的T5模型，现在可以在中文上玩玩了

当GPT遇上中国象棋：写过文章解过题，要不再来下盘棋？

exp(x)在x=0处的偶次泰勒展开式总是正的

证明过程

层次分解位置编码，让BERT可以处理超长文本

SPACES：“抽取-生成”式长文本摘要（法研杯总结）

Mitchell近似：乘法变为加法，误差不超过1/9

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接