包含关键字多视图的文章 - 科学空间|Scientific Spaces

21 Feb

GPLinker：基于GlobalPointer的事件联合抽取

By 苏剑林 | 2022-02-21 | 75245位读者 | 引用

大约两年前，笔者在百度的“2020语言与智能技术竞赛”中首次接触到了事件抽取任务，并在文章《bert4keras在手，baseline我有：百度LIC2020》中分享了一个转化为BERT+CRF做NER的简单baseline。不过，当时的baseline更像是一个用来凑数的半成品，算不上一个完整的事件抽取模型。而这两年来，关系抽取的模型层见迭出，SOTA一个接一个，但事件抽取似乎没有多亮眼的设计。

最近笔者重新尝试了事件抽取任务，在之前的关系抽取模型GPLinker的基础上，结合完全子图搜索，设计一个比较简单但相对完备的事件联合抽取模型，依然称之为GPLinker，在此请大家点评一番。

任务简介

事件抽取是一个比较综合的任务。一个标准的事件抽取样本如下：

标准的事件抽取样本（图片来自百度DuEE的GitHub）

点击阅读全文...

分类：信息时代标签：NLP, 信息抽取, NER 阅读全文 32 评论

25 Feb

FLASH：可能是近来最有意思的高效Transformer设计

By 苏剑林 | 2022-02-25 | 172816位读者 | 引用

高效Transformer，泛指所有概率Transformer效率的工作，笔者算是关注得比较早了，最早的博客可以追溯到2019年的《为节约而生：从标准Attention到稀疏Attention》，当时做这块的工作很少。后来，这类工作逐渐多了，笔者也跟进了一些，比如线性Attention、Performer、Nyströmformer，甚至自己也做了一些探索，比如之前的“Transformer升级之路”。再后来，相关工作越来越多，但大多都很无趣，所以笔者就没怎么关注了。

本文模型脉络图

大抵是“久旱逢甘霖”的感觉，最近终于出现了一个比较有意思的高效Transformer工作——来自Google的《Transformer Quality in Linear Time》，经过细读之后，笔者认为论文里边真算得上是“惊喜满满”了～

点击阅读全文...

分类：信息时代标签：语言模型, 生成模型, attention 阅读全文 81 评论

9 Mar

训练1000层的Transformer究竟有什么困难？

By 苏剑林 | 2022-03-09 | 73547位读者 | 引用

众所周知，现在的Transformer越做越大，但这个“大”通常是“宽”而不是“深”，像GPT-3虽然参数有上千亿，但也只是一个96层的Transformer模型，与我们能想象的深度相差甚远。是什么限制了Transformer往“深”发展呢？可能有的读者认为是算力，但“宽而浅”的模型所需的算力不会比“窄而深”的模型少多少，所以算力并非主要限制，归根结底还是Transformer固有的训练困难。一般的观点是，深模型的训练困难源于梯度消失或者梯度爆炸，然而实践显示，哪怕通过各种手段改良了梯度，深模型依然不容易训练。

近来的一些工作（如Admin）指出，深模型训练的根本困难在于“增量爆炸”，即模型越深对输出的扰动就越大。上周的论文《DeepNet: Scaling Transformers to 1,000 Layers》则沿着这个思路进行尺度分析，根据分析结果调整了模型的归一化和初始化方案，最终成功训练出了1000层的Transformer模型。整个分析过程颇有参考价值，我们不妨来学习一下。

增量爆炸

原论文的完整分析比较长，而且有些假设或者描述细酌之下是不够合理的。所以在本文的分享中，笔者会尽量修正这些问题，试图以一个更合理的方式来得到类似结果。

点击阅读全文...

分类：数学研究,信息时代标签：优化, 梯度, attention 阅读全文 35 评论

11 Mar

门控注意力单元（GAU）还需要Warmup吗？

By 苏剑林 | 2022-03-11 | 42569位读者 | 引用

在文章《训练1000层的Transformer究竟有什么困难？》发布之后，很快就有读者问到如果将其用到《FLASH：可能是近来最有意思的高效Transformer设计》中的“门控注意力单元（GAU）”，那结果是怎样的？跟标准Transformer的结果有何不同？本文就来讨论这个问题。

先说结论

事实上，GAU是非常容易训练的模型，哪怕我们不加调整地直接使用“Post Norm + Xavier初始化”，也能轻松训练个几十层的GAU，并且还不用Warmup。所以关于标准Transformer的很多训练技巧，到了GAU这里可能就无用武之地了...

为什么GAU能做到这些？很简单，因为在默认设置之下，理论上$\text{GAU}(\boldsymbol{x}_l)$相比$\boldsymbol{x}_l$几乎小了两个数量级，所以
\begin{equation}\boldsymbol{x}_{l+1} = \text{LN}(\boldsymbol{x}_l + \text{GAU}(\boldsymbol{x}_l))\approx \boldsymbol{x}_l\end{equation}

点击阅读全文...

分类：信息时代标签：模型, 优化, attention 阅读全文 13 评论

19 Mar

为什么需要残差？一个来自DeepNet的视角

By 苏剑林 | 2022-03-19 | 56672位读者 | 引用

在《训练1000层的Transformer究竟有什么困难？》中我们介绍了微软提出的能训练1000层Transformer的DeepNet技术。而对于DeepNet，读者一般也有两种反应，一是为此感到惊叹而点赞，另一则是觉得新瓶装旧酒没意思。出现后一种反应的读者，往往是因为DeepNet所提出的两个改进点——增大恒等路径权重和降低残差分支初始化——实在过于稀松平常，并且其他工作也出现过类似的结论，因此很难有什么新鲜感。

诚然，单从结论来看，DeepNet实在算不上多有意思，但笔者觉得，DeepNet的过程远比结论更为重要，它有意思的地方在于提供了一个简明有效的梯度量级分析思路，并可以用于分析很多相关问题，比如本文要讨论的“为什么需要残差”，它就可以给出一个比较贴近本质的答案。

增量爆炸

为什么需要残差？答案是有了残差才更好训练深层模型，这里的深层可能是百层、千层甚至万层。那么问题就变成了为什么没有残差就不容易训练深层模型呢？

点击阅读全文...

分类：信息时代标签：模型, 优化, 深度学习, 梯度阅读全文 24 评论

21 Mar

RoFormerV2：自然语言理解的极限探索

By 苏剑林 | 2022-03-21 | 56892位读者 | 引用

大概在1年前，我们提出了旋转位置编码（RoPE），并发布了对应的预训练模型RoFormer。随着时间的推移，RoFormer非常幸运地得到了越来越多的关注和认可，比如EleutherAI新发布的60亿和200亿参数的GPT模型中就用上了RoPE位置编码，Google新提出的FLASH模型论文中则明确指出了RoPE对Transformer效果有明显的提升作用。

与此同时，我们也一直在尝试继续加强RoFormer模型，试图让RoFormer的性能“更上一层楼”。经过近半年的努力，我们自认为取得了还不错的成果，因此将其作为“RoFormerV2”正式发布：

Github：https://github.com/ZhuiyiTechnology/roformer-v2

点击阅读全文...

分类：信息时代标签：语言模型, 预训练阅读全文 23 评论

22 Apr

GAU-α：尝鲜体验快好省的下一代Attention

By 苏剑林 | 2022-04-22 | 45801位读者 | 引用

在《FLASH：可能是近来最有意思的高效Transformer设计》中，我们介绍了GAU（Gated Attention Unit，门控线性单元），在这里笔者愿意称之为“目前最有潜力的下一代Attention设计”，因为它真正达到了“更快（速度）、更好（效果）、更省（显存）”的特点。

然而，有些读者在自己的测试中得到了相反的结果，比如收敛更慢、效果更差等，这与笔者的测试结果大相径庭。本文就来分享一下笔者自己的训练经验，并且放出一个尝鲜版“GAU-α”供大家测试。

开源地址：https://github.com/ZhuiyiTechnology/GAU-alpha

GAU-α

首先介绍一下开源出来的“GAU-α”在CLUE任务上的成绩单：
$$\small{\begin{array}{c|ccccccccccc}
\hline
& \text{iflytek} & \text{tnews} & \text{afqmc} & \text{cmnli} & \text{ocnli} & \text{wsc} & \text{csl} & \text{cmrc2018} & \text{c3} & \text{chid} & \text{cluener}\\
\hline
\text{BERT} & 60.06 & 56.80 & 72.41 & 79.56 & 73.93 & 78.62 & 83.93 & 56.17 & 60.54 & 85.69 & 79.45 \\
\text{RoBERTa} & 60.64 & \textbf{58.06} & 74.05 & 81.24 & 76.00 & \textbf{87.50} & 84.50 & 56.54 & 67.66 & 86.71 & 79.47\\
\text{RoFormer} & 60.91 & 57.54 & 73.52 & 80.92 & \textbf{76.07} & 86.84 & 84.63 & 56.26 & 67.24 & 86.57 & 79.72\\
\text{RoFormerV2}^* & 60.87 & 56.54 & 72.75 & 80.34 & 75.36 & 80.92 & 84.67 & 57.91 & 64.62 & 85.09 & \textbf{81.08}\\
\hline
\text{GAU-}\alpha & \textbf{61.41} & 57.76 & \textbf{74.17} & \textbf{81.82} & 75.86 & 79.93 & \textbf{85.67} & \textbf{58.09} & \textbf{68.24} & \textbf{87.91} & 80.01\\
\hline
\end{array}}$$

点击阅读全文...

分类：信息时代标签：语言模型, attention, 预训练阅读全文 13 评论

28 Apr

在bert4keras中使用混合精度和XLA加速训练

By 苏剑林 | 2022-04-28 | 25724位读者 | 引用

之前笔者一直都是聚焦于模型的构思和实现，鲜有关注模型的训练加速，像混合精度和XLA这些技术，虽然也有听过，但没真正去实践过。这两天折腾了一番，成功在bert4keras中使用了混合精度和XLA来加速训练，在此做个简单的总结，供大家参考。

本文的多数经验结论并不只限于bert4keras中使用，之所以在标题中强调bert4keras，只不过bert4keras中的模型实现相对较为规整，因此启动这些加速技巧所要做的修改相对更少。

实验环境

本文的实验显卡为3090，使用的docker镜像为nvcr.io/nvidia/tensorflow:21.09-tf1-py3，其中自带的tensorflow版本为1.15.5。另外，实验所用的bert4keras版本为0.11.3。其他环境也可以参考着弄，要注意有折腾精神，不要指望着无脑调用。

顺便提一下，3090、A100等卡只能用cuda11，而tensorflow官网的1.15版本是不支持cuda11的，如果还想用tensorflow 1.x，那么只能用nvidia亲自维护的nvidia-tensorflow，或者用其构建的docker镜像。用nvidia而不是google维护的tensorflow，除了能让你在最新的显卡用上1.x版本外，还有nvidia专门做的一些额外优化，具体文档可以参考这里。

点击阅读全文...

分类：信息时代标签：模型, 优化, 梯度阅读全文 6 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

GPLinker：基于GlobalPointer的事件联合抽取

任务简介

FLASH：可能是近来最有意思的高效Transformer设计

训练1000层的Transformer究竟有什么困难？

增量爆炸

门控注意力单元（GAU）还需要Warmup吗？

先说结论

为什么需要残差？一个来自DeepNet的视角

增量爆炸

RoFormerV2：自然语言理解的极限探索

GAU-α：尝鲜体验快好省的下一代Attention

GAU-α

在bert4keras中使用混合精度和XLA加速训练

实验环境

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接