22 Apr

Transformer升级之路:3、从Performer到线性Attention

看过笔者之前的文章《线性Attention的探索:Attention必须有个Softmax吗?》《Performer:用随机投影将Attention的复杂度线性化》的读者,可能会觉得本文的标题有点不自然,因为是先有线性Attention然后才有Performer的,它们的关系为“Performer是线性Attention的一种实现,在保证线性复杂度的同时保持了对标准Attention的近似”,所以正常来说是“从线性Attention到Performer”才对。

然而,本文并不是打算梳理线性Attention的发展史,而是打算反过来思考Performer给线性Attention所带来的启示,所以是“从Performer到线性Attention”。

激活函数

线性Attention的常见形式是
\begin{equation}Attention(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V})_i = \frac{\sum\limits_{j=1}^n \text{sim}(\boldsymbol{q}_i, \boldsymbol{k}_j)\boldsymbol{v}_j}{\sum\limits_{j=1}^n \text{sim}(\boldsymbol{q}_i, \boldsymbol{k}_j)} = \frac{\sum\limits_{j=1}^n \phi(\boldsymbol{q}_i)^{\top} \varphi(\boldsymbol{k}_j)\boldsymbol{v}_j}{\sum\limits_{j=1}^n \phi(\boldsymbol{q}_i)^{\top} \varphi(\boldsymbol{k}_j)}\end{equation}

点击阅读全文...

17 Dec

Seq2Seq+前缀树:检索任务新范式(以KgCLUE为例)

两年前,在《万能的seq2seq:基于seq2seq的阅读理解问答》《“非自回归”也不差:基于MLM的阅读理解问答》中,我们在尝试过分别利用“Seq2Seq+前缀树”和“MLM+前缀树”的方式做抽取式阅读理解任务,并获得了不错的结果。而在去年的ICLR2021上,Facebook的论文《Autoregressive Entity Retrieval》同样利用“Seq2Seq+前缀树”的组合,在实体链接和文档检索上做到了效果与效率的“双赢”。

事实上,“Seq2Seq+前缀树”的组合理论上可以用到任意检索型任务中,堪称是检索任务的“新范式”。本文将再次回顾“Seq2Seq+前缀树”的思路,并用它来实现最近推出的KgCLUE知识图谱问答榜单的一个baseline。

本文baseline模型示意图

本文baseline模型示意图

点击阅读全文...

8 Jul

古老的火山爆发造成地球冰期?

翻译语录:总的来说,这篇文章的翻译还是比较顺利,不懂的词查一下软件就OK,所以这次要说一下翻译以外的问题:众所周知,二氧化碳会造成温室效应,而二氧化硫能够抑制温室效应。不过糟糕的是,几乎所有大气环境治理手段都将把其它污染性气体转变成二氧化碳为目标,包括处理二氧化硫。这就造成了约治理环境,温室效应越强的问题。这时我们的环境学家也应考虑下两者的均衡问题了

图片说明:俄罗斯Kamtchatka火山爆发

图片说明:俄罗斯Kamtchatka火山爆发

点击阅读全文...

7 Feb

你的CRF层的学习率可能不够大

CRF是做序列标注的经典方法,它理论优雅,实际也很有效,如果还不了解CRF的读者欢迎阅读旧作《简明条件随机场CRF介绍(附带纯Keras实现)》。在BERT模型出来之后,也有不少工作探索了BERT+CRF用于序列标注任务的做法。然而,很多实验结果显示(比如论文《BERT Meets Chinese Word Segmentation》)不管是中文分词还是实体识别任务,相比于简单的BERT+Softmax,BERT+CRF似乎并没有带来什么提升,这跟传统的BiLSTM+CRF或CNN+CRF的模型表现并不一样。

基于CRF的4标签分词模型示意图

基于CRF的4标签分词模型示意图

这两天给bert4keras增加了用CRF做中文分词的例子(task_sequence_labeling_cws_crf.py),在调试过程中发现了CRF层可能存在学习不充分的问题,进一步做了几个对比实验,结果显示这可能是CRF在BERT中没什么提升的主要原因,遂在此记录一下分析过程,与大家分享。

点击阅读全文...

26 Dec

精确自由落体运动定律的讨论

比萨斜塔.jpg

在初中或高中,自由落体试验简单地用这个公式来描述出来:
$$s=1/2 g t^2$$
其中$g=9.8m//s^2$,等于1kg物体在地球表面所受的重力。
但是这个公式很明显有一个问题,就是实际上在地球,g不是恒定的,会随着距离(即海拔高度)的变化而变化,上述公式能够在一定范围内描述自然落体运动。但是当距离很大时,公式便失效了。

点击阅读全文...

3 Feb

[SETI-50周年]茫茫宇宙觅知音

转载自2011年1月的《天文爱好者》 作者:薛国轩

“多萝西计划”再探地外文明

据美国空间网站2010年11月13日报道,在人类“探索地外文明”(英文缩写为SETI)50周年纪念之际,世界多个国家的天文学家从本月起再度展开“且听外星人”的联合行动,以延续开始于1960年的“奥兹玛计划”。新的探索活动被命名为“多萝西计划”(Project Dorothy),已于11月5日正式启动,将持续整整一个月时间,来自澳大利亚、日本、韩国、意大利、荷兰、法国、阿根廷和美国的天文学家参与其中。他们将把大大小小的望远镜指向地球周围的一些星球,以期收听到外星人的“天外来音”。

Allen Telescope Array

Allen Telescope Array

点击阅读全文...

6 Feb

[SETI-50周年]送给外星人的礼物

转载自2011年1月的《天文爱好者》 作者:钟晚晴

生命出现是天体演化的必然结果

探索地外文明

探索地外文明

15世纪时,欧洲的文艺复兴运动引起了人们宇宙观的大革命。哥白尼学说的主要传播者之一,意大利思想家布魯诺毫不含糊地宣扬日心说并且提及“外星人”是否存在问题,他这样写到:“宇宙中存在着无数的太阳,存在着无数绕自己太阳运转的地球,就像我们的七个行星绕着我们的太陌运转似的……。在这些世界上居住着各种生物。”科学大师伽利略率先把望远镜指向星空,继而几百年以来有了一系列天文发现。太空视野的大幵阔常引发人类这样的追问:除了地球之外,茫茫宇宙中还存在别的文明星球吗?如果存在,能否找到人类的知音一智慧生命?

科学家通过研究地球化石发现,早在35亿年前地球上就已有了一种发育得比较高级的单细胞生物,即蓝藻类;根据恒星演化理论以及对地球上古老岩石和陨星物质分析知道,太阳和地球的形成比这种生物的出现至少还要早约十几亿年左右。太阳系自原始星云形成后大约经过50亿年地球上才有人类。此外,科学考察表明,在最近五亿年来(根据化石考查)已经有过五次生命大灭绝,人类是五亿年来最后一次灭绝以后从猿进化而来。天体的环境变化往往决定着许许多多生命的命运,例如6500万年前恐龙的绝灭,据说就是遭遇了寒冷的冰期或地球被一颗直径十几千米的小天体撞击的结果。

从20世纪初以来,天文学的研究成果是显著的,例如关于银河系的许多发现,河外星系及宇宙膨胀的发现,特别是后来发现类星体、星际分子、脉冲星、河外星系超新星爆发等等。在进入空间科学和电子计算机科学时代以来,人们对宇宙天体的研究更加深入,每年都有许多新的天体被发现、探究。

点击阅读全文...

20 Mar

【福岛核电站】“最坏情况”有多坏?

Fukushima

Fukushima

福岛核电站已经好久没给我们带来好消息了,各种稀奇古怪的故障一个接着一个,越来越多的人也在考虑“最坏情况”的可能了,这次的碘盐恐慌似乎就是被所谓的“最坏情况”吓出来的。那么最坏到底能有多坏呢?

完整的评估太过复杂,咱就从比较简单的,也是目前我们很多人最关心的问题说起:放射性物质的泄露对海水最大到底能有多大的影响。这里我们主要拿这个风头正紧的碘 131 来开刀。

点击阅读全文...