包含关键字模型漫谈的文章 - 科学空间|Scientific Spaces

3 Mar

T5 PEGASUS：开源一个中文生成式预训练模型

By 苏剑林 | 2021-03-03 | 191559位读者 | 引用

去年在文章《那个屠榜的T5模型，现在可以在中文上玩玩了》中我们介绍了Google的多国语言版T5模型（mT5），并给出了用mT5进行中文文本生成任务的例子。诚然，mT5做中文生成任务也是一个可用的方案，但缺乏完全由中文语料训练出来模型总感觉有点别扭，于是决心要搞一个出来。

经过反复斟酌测试，我们决定以mT5为基础架构和初始权重，先结合中文的特点完善Tokenizer，然后模仿PEGASUS来构建预训练任务，从而训练一版新的T5模型，这就是本文所开源的T5 PEGASUS。

T5 PEGASUS的训练数据示例

Github地址：https://github.com/ZhuiyiTechnology/t5-pegasus

点击阅读全文...

分类：信息时代标签：语言模型, 文本生成, attention 阅读全文 107 评论

5 Mar

短文本匹配Baseline：脱敏数据使用预训练模型的尝试

By 苏剑林 | 2021-03-05 | 109293位读者 | 引用

最近凑着热闹玩了玩全球人工智能技术创新大赛中的“小布助手对话短文本语义匹配”赛道，其任务就是常规的短文本句子对二分类任务，这任务在如今各种预训练Transformer“横行”的时代已经没啥什么特别的难度了，但有意思的是，这次比赛脱敏了，也就是每个字都被影射为数字ID了，我们无法得到原始文本。

在这种情况下，还能用BERT等预训练模型吗？用肯定是可以用的，但需要一些技巧，并且可能还需要再预训练一下。本文分享一个baseline，它将分类、预训练和半监督学习都结合在了一起，能够用于脱敏数据任务。

本文模型示意图

点击阅读全文...

分类：信息时代标签：语言模型, 语义, 语义相似度阅读全文 39 评论

3 Apr

在之前的文章《必须要GPT3吗？不，BERT的MLM模型也能小样本学习》中，我们介绍了一种名为Pattern-Exploiting Training（PET）的方法，它通过人工构建的模版与BERT的MLM模型结合，能够起到非常好的零样本、小样本乃至半监督学习效果，而且该思路比较优雅漂亮，因为它将预训练任务和下游任务统一起来了。然而，人工构建这样的模版有时候也是比较困难的，而且不同的模版效果差别也很大，如果能够通过少量样本来自动构建模版，也是非常有价值的。

P-tuning直接使用[unused]来构建模版，不关心模版的自然语言性

最近Arxiv上的论文《GPT Understands, Too》提出了名为P-tuning的方法，成功地实现了模版的自动构建。不仅如此，借助P-tuning，GPT在SuperGLUE上的成绩首次超过了同等级别的BERT模型，这颠覆了一直以来“GPT不擅长NLU”的结论，也是该论文命名的缘由。

点击阅读全文...

分类：信息时代标签：语言模型, NLP 阅读全文 64 评论

2 Jun

我们可以无损放大一个Transformer模型吗（一）

By 苏剑林 | 2021-06-02 | 59481位读者 | 引用

看了标题，可能读者会有疑惑，大家不都想着将大模型缩小吗？怎么你想着将小模型放大了？其实背景是这样的：通常来说更大的模型加更多的数据确实能起得更好的效果，然而算力有限的情况下，从零预训练一个大的模型时间成本太大了，如果还要调试几次参数，那么可能几个月就过去了。

这时候“穷人思维”就冒出来了（土豪可以无视）：能否先训练一个同样层数的小模型，然后放大后继续训练？这样一来，预训练后的小模型权重经过放大后，就是大模型一个起点很高的初始化权重，那么大模型阶段的训练步数就可以减少了，从而缩短整体的训练时间。

那么，小模型可以无损地放大为一个大模型吗？本文就来从理论上分析这个问题。

含义

有的读者可能想到：这肯定可以呀，大模型的拟合能力肯定大于小模型呀。的确，从拟合能力角度来看，这件事肯定是可以办到的，但这还不是本文关心的“无损放大”的全部。

点击阅读全文...

分类：数学研究,信息时代标签：模型, 优化, attention 阅读全文 22 评论

11 Jun

SimBERTv2来了！融合检索和生成的RoFormer-Sim模型

By 苏剑林 | 2021-06-11 | 111363位读者 | 引用

去年我们放出了SimBERT模型，它算是我们开源的比较成功的模型之一，获得了不少读者的认可。简单来说，SimBERT是一个融生成和检索于一体的模型，可以用来作为句向量的一个比较高的baseline，也可以用来实现相似问句的自动生成，可以作为辅助数据扩增工具使用，这一功能是开创性的。

近段时间，我们以RoFormer为基础模型，对SimBERT相关技术进一步整合和优化，最终发布了升级版的RoFormer-Sim模型。

简介

RoFormer-Sim是SimBERT的升级版，我们也可以通俗地称之为“SimBERTv2”，而SimBERT则默认是指旧版。从外部看，除了基础架构换成了RoFormer外，RoFormer-Sim跟SimBERT没什么明显差别，事实上它们主要的区别在于训练的细节上，我们可以用两个公式进行对比：
\begin{array}{c}
\text{SimBERT} = \text{BERT} + \text{UniLM} + \text{对比学习} \\[5pt]
\text{RoFormer-Sim} = \text{RoFormer} + \text{UniLM} + \text{对比学习} + \text{BART} + \text{蒸馏}\\
\end{array}

点击阅读全文...

分类：信息时代标签：语言模型, 生成模型, 文本生成阅读全文 35 评论

29 Jun

UniVAE：基于Transformer的单模型、多尺度的VAE模型

By 苏剑林 | 2021-06-29 | 74237位读者 | 引用

大家都知道，Transformer的$\mathcal{O}(n^2)$复杂度是它的“硬伤”之一。不过凡事有弊亦有利，$\mathcal{O}(n^2)$的复杂度也为Transformer带来很大的折腾空间，我们可以灵活地定制不同的attention mask，来设计出不同用途的Transformer模型来，比如UniLM、K-BERT等。

本文介绍笔者构思的一个能用于文本的UniVAE模型，它沿用类似UniLM的思路，将VAE做到了一个Transformer模型里边，并且还具备多尺度特性～

UniAE式Attention关联示意图

点击阅读全文...

分类：信息时代标签：变分, 无监督, vae, attention 阅读全文 27 评论

22 Jul

概率视角下的线性模型：逻辑回归有解析解吗？

By 苏剑林 | 2021-07-22 | 78802位读者 | 引用

我们知道，线性回归是比较简单的问题，它存在解析解，而它的变体逻辑回归（Logistic Regression）却没有解析解，这不能不说是一个遗憾。因为逻辑回归虽然也叫“回归”，但它实际上是用于分类问题的，而对于很多读者来说分类比回归更加常见。准确来说，我们说逻辑回归没有解析解，说的是“最大似然估计下逻辑回归没有解析解”。那么，这是否意味着，如果我们不用最大似然估计，是否能找到一个可用的解析解呢？

逻辑回归示意图

本文将会从非最大似然的角度，推导逻辑回归的一个解析解，简单的实验表明它效果不逊色于梯度下降求出来的最大似然解。此外，这个解析解还易于推广到单层Softmax多分类模型。

点击阅读全文...

分类：数学研究标签：模型, 概率, 优化阅读全文 26 评论

9 Aug

线性Transformer应该不是你要等的那个模型

By 苏剑林 | 2021-08-09 | 103192位读者 | 引用

在本博客中，我们已经多次讨论过线性Attention的相关内容。介绍线性Attention的逻辑大体上都是：标准Attention具有$\mathcal{O}(n^2)$的平方复杂度，是其主要的“硬伤”之一，于是我们$\mathcal{O}(n)$复杂度的改进模型，也就是线性Attention。有些读者看到线性Attention的介绍后，就一直很期待我们发布基于线性Attention的预训练模型，以缓解他们被BERT的算力消耗所折腾的“死去活来”之苦。

然而，本文要说的是：抱有这种念头的读者可能要失望了，标准Attention到线性Attention的转换应该远远达不到你的预期，而BERT那么慢的原因也并不是因为标准Attention的平方复杂度。

BERT之反思

按照直观理解，平方复杂度换成线性复杂度不应该要“突飞猛进”才对嘛？怎么反而“远远达不到预期”？出现这个疑惑的主要原因，是我们一直以来都没有仔细评估一下常规的Transformer模型（如BERT）的整体计算量。

点击阅读全文...

分类：信息时代标签：模型, 矩阵, attention 阅读全文 40 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

T5 PEGASUS：开源一个中文生成式预训练模型

短文本匹配Baseline：脱敏数据使用预训练模型的尝试

P-tuning：自动构建模版，释放语言模型潜能

我们可以无损放大一个Transformer模型吗（一）

含义

SimBERTv2来了！融合检索和生成的RoFormer-Sim模型

简介

UniVAE：基于Transformer的单模型、多尺度的VAE模型

概率视角下的线性模型：逻辑回归有解析解吗？

线性Transformer应该不是你要等的那个模型

BERT之反思

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接