包含关键字层级结构的文章 - 科学空间|Scientific Spaces

28 May

ON-LSTM：用有序神经元表达层次结构

By 苏剑林 | 2019-05-28 | 214682位读者 | 引用

今天介绍一个有意思的LSTM变种：ON-LSTM，其中“ON”的全称是“Ordered Neurons”，即有序神经元，换句话说这种LSTM内部的神经元是经过特定排序的，从而能够表达更丰富的信息。ON-LSTM来自文章《Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks》，顾名思义，将神经元经过特定排序是为了将层级结构（树结构）整合到LSTM中去，从而允许LSTM能自动学习到层级结构信息。这篇论文还有另一个身份：ICLR 2019的两篇最佳论文之一，这表明在神经网络中融合层级结构（而不是纯粹简单地全向链接）是很多学者共同感兴趣的课题。

ON-LSTM运算流程示意图。主要是将分段函数用cumax光滑化变成可导。

笔者留意到ON-LSTM是因为机器之心的介绍，里边提到它除了提高了语言模型的效果之外，甚至还可以无监督地学习到句子的句法结构！正是这一点特性深深吸引了我，而它最近获得ICLR 2019最佳论文的认可，更是坚定了我要弄懂它的决心。认真研读、推导了差不多一星期之后，终于有点眉目了，遂写下此文。

在正式介绍ON-LSTM之后，我忍不住要先吐槽一下这篇文章实在是写得太差了，将一个明明很生动形象的设计，讲得异常晦涩难懂，其中的核心是 $\tilde{f}_t$ 和 $\tilde{i}_t$ 的定义，文中几乎没有任何铺垫就贴了出来，也没有多少诠释，开始的读了好几次仍然像天书一样...总之，文章写法实在不敢恭维～

点击阅读全文...

分类：信息时代标签：模型, 深度学习, 无监督, NLP 阅读全文 78 评论

29 Jun

UniVAE：基于Transformer的单模型、多尺度的VAE模型

By 苏剑林 | 2021-06-29 | 83826位读者 | 引用

大家都知道，Transformer的 $\mathcal{O}(n^2)$ 复杂度是它的“硬伤”之一。不过凡事有弊亦有利， $\mathcal{O}(n^2)$ 的复杂度也为Transformer带来很大的折腾空间，我们可以灵活地定制不同的attention mask，来设计出不同用途的Transformer模型来，比如UniLM、K-BERT等。

本文介绍笔者构思的一个能用于文本的UniVAE模型，它沿用类似UniLM的思路，将VAE做到了一个Transformer模型里边，并且还具备多尺度特性～

UniAE式Attention关联示意图

点击阅读全文...

分类：信息时代标签：变分, 无监督, vae, attention 阅读全文 27 评论

30 May

最小熵原理（三）：“飞象过河”之句模版和语言结构

By 苏剑林 | 2018-05-30 | 64384位读者 | 引用

在前一文《最小熵原理（二）：“当机立断”之词库构建》中，我们以最小熵原理为出发点进行了一系列的数学推导，最终得到 $(2.15)$ 和 $(2.17)$ 式，它告诉我们两个互信息比较大的元素我们应该将它们合并起来，这有利于降低“学习难度”。于是利用这一原理，我们通过邻字互信息来实现了词库的无监督生成。

由字到词、由词到词组，考察的是相邻的元素能不能合并成一个好“套路”。可是套路为什么非得要相邻的呢？当然不一定相邻，我们学习语言的时候，不仅仅会学习到词语、词组，还要学习到“固定搭配”，也就是说词语怎么运用才是合理的，这是语法的体现，是本文所要探究的，希望最终能达到一定的无监督句法分析的效果。

由于这次我们考虑的是跨邻词的语言关联，因此我给它起个名字为“飞象过河”，正是

“套路宝典”第二式——“飞象过河”

语言结构

对于大多数人来说，并不会真正知道什么是语法，他们脑海里就只有一些“固定搭配”、“定式”，或者更正式一点可以叫“模版”。大多数情况下，我们是根据模版来说出合理的话来。而不同的人的说话模版可能有所不同，这就是个人的说话风格，甚至是“口头禅”。

点击阅读全文...

分类：信息时代标签：熵, 无监督, NLP, 最小熵阅读全文 10 评论

7 Aug

修改Transformer结构，设计一个更快更好的MLM模型

By 苏剑林 | 2020-08-07 | 63001位读者 | 引用

大家都知道，MLM（Masked Language Model）是BERT、RoBERTa的预训练方式，顾名思义，就是mask掉原始序列的一些token，然后让模型去预测这些被mask掉的token。随着研究的深入，大家发现MLM不单单可以作为预训练方式，还能有很丰富的应用价值，比如笔者之前就发现直接加载BERT的MLM权重就可以当作UniLM来做Seq2Seq任务（参考这里），又比如发表在ACL 2020的《Spelling Error Correction with Soft-Masked BERT》将MLM模型用于文本纠错。

MLM任务示意图

然而，仔细读过BERT的论文或者亲自尝试过的读者应该都知道，原始的MLM的训练效率是比较低的，因为每次只能mask掉一小部分的token来训练。ACL 2020的论文《Fast and Accurate Deep Bidirectional Language Representations for Unsupervised Learning》也思考了这个问题，并且提出了一种新的MLM模型设计，能够有更高的训练效率和更好的效果。

点击阅读全文...

分类：信息时代标签：语言模型, attention 阅读全文 18 评论

6 Jun

通用爬虫探索（二）：落实到论坛爬取上

By 苏剑林 | 2017-06-06 | 26694位读者 | 引用

前述的方案，如果爬取的页面仅仅有单一的有效区域，如博客页、新闻页等，那么基本上来说已经足够了。但是，诸如像论坛这样的具有比较明显的层次划分的网站，我们需要进一步细分。因为经过上述步骤，我们虽然能够把有效文本提取出来，但结果是把所有文本放在一块了。

深度优先

而为了给内容进一步“分块”，我们还需要利用DOM树的位置信息。如上一篇的DOM树图，我们需要给每个节点和叶子都编号，即我们需要一个遍历DOM树的方式。这里我们采用“深度优先”的方案。

深度优先搜索算法（英语：Depth-First-Search，简称DFS）是一种用于遍历或搜索树或图的算法。沿着树的深度遍历树的节点，尽可能深的搜索树的分支。当节点v的所在边都己被探寻过，搜索将回溯到发现节点v的那条边的起始节点。这一过程一直进行到已发现从源节点可达的所有节点为止。如果还存在未被发现的节点，则选择其中一个作为源节点并重复以上过程，整个进程反复进行直到所有节点都被访问为止。

点击阅读全文...

分类：信息时代标签：网站, 爬虫阅读全文抢沙发

11 Oct

BN究竟起了什么作用？一个闭门造车的分析

By 苏剑林 | 2019-10-11 | 136153位读者 | 引用

BN，也就是Batch Normalization，是当前深度学习模型（尤其是视觉相关模型）的一个相当重要的技巧，它能加速训练，甚至有一定的抗过拟合作用，还允许我们用更大的学习率，总的来说颇多好处（前提是你跑得起较大的batch size）。

那BN究竟是怎么起作用呢？早期的解释主要是基于概率分布的，大概意思是将每一层的输入分布都归一化到 $\mathcal{N}(0,1)$ 上，减少了所谓的Internal Covariate Shift，从而稳定乃至加速了训练。这种解释看上去没什么毛病，但细思之下其实有问题的：不管哪一层的输入都不可能严格满足正态分布，从而单纯地将均值方差标准化无法实现标准分布 $\mathcal{N}(0,1)$ ；其次，就算能做到 $\mathcal{N}(0,1)$ ，这种诠释也无法进一步解释其他归一化手段（如Instance Normalization、Layer Normalization）起作用的原因。

在去年的论文《How Does Batch Normalization Help Optimization?》里边，作者明确地提出了上述质疑，否定了原来的一些观点，并提出了自己关于BN的新理解：他们认为BN主要作用是使得整个损失函数的landscape更为平滑，从而使得我们可以更平稳地进行训练。

本博文主要也是分享这篇论文的结论，但论述方法是笔者“闭门造车”地构思的。窃认为原论文的论述过于晦涩了，尤其是数学部分太不好理解，所以本文试图尽可能直观地表达同样观点。

（注：阅读本文之前，请确保你已经清楚知道BN是什么，本文不再重复介绍BN的概念和流程。）

点击阅读全文...

分类：信息时代标签：模型, 优化, 神经网络阅读全文 40 评论

8 Jul

百科翻译：臭氧的性质

By 苏剑林 | 2009-07-08 | 26019位读者 | 引用

臭氧对于我们来说是极为重要的，可以说，没有臭氧，我们都会死于紫外线的强烈照射之下！这里翻译了一些关于臭氧的信息，来源于http://en.wikipedia.org/wiki/Ozone，中文维基为http://zh.wikipedia.org/w/index.php?title=%E8%87%AD%E6%B0%A7&variant=zh-cn

臭氧，英文名为Ozone或trioxygen，化学式 $O_3$ ，每个臭氧分子含有3个氧原子，属于三原子分子。与氧气是同素异形体（组成元素相同，但是结构不同，所表现出来的性质也不同），但比氧气更不稳定。在地表上的臭氧是一种空气污染物，对人和动物的呼吸道系统会产生有害影响。而大气层上部的臭氧层则能够吸收大量的紫外线，使地球的生物不受过量紫外线的侵害。

点击阅读全文...

分类：物理化学标签：翻译, 维基, 臭氧, 性质, 反应阅读全文抢沙发

30 Jul

冥王星呀，你究竟是什么？

By 苏剑林 | 2009-07-30 | 28153位读者 | 引用

Stephen Battersby　文　Shea　编译

太阳系中有多少颗行星？官方的回答是八颗——除非你碰巧住在美国伊利诺斯州。2009年初，“目中无人”的伊利诺斯州政府宣布，为”行星”制定标准的国际天文学联合会（IAU）其实是不公正地剥夺了冥王星的”行星”头衔。

三年前，IAU决定为“行星”一词起草首个科学上的定义。

在捷克首都布拉格召开的IAU大会上经过数天的激烈争论，与会代表投票通过了一个行星的定义。根据这个定义，冥王星被排除在了行星的行列之外，降级为“矮行星”。

[图片说明]：冥王星系统的想象画。

点击阅读全文...

分类：天文探索标签：转载, 冥王星, 矮行星阅读全文 1 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

ON-LSTM：用有序神经元表达层次结构

UniVAE：基于Transformer的单模型、多尺度的VAE模型

最小熵原理（三）：“飞象过河”之句模版和语言结构

语言结构

修改Transformer结构，设计一个更快更好的MLM模型

通用爬虫探索（二）：落实到论坛爬取上

深度优先

BN究竟起了什么作用？一个闭门造车的分析

百科翻译：臭氧的性质

冥王星呀，你究竟是什么？

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接