包含关键字让Keras更酷一些的文章 - 科学空间|Scientific Spaces

18 May

鱼与熊掌兼得：融合检索和生成的SimBERT模型

By 苏剑林 | 2020-05-18 | 293931位读者 | 引用

前段时间我们开放了一个名为SimBERT的模型权重，它是以Google开源的BERT模型为基础，基于微软的UniLM思想设计了融检索与生成于一体的任务，来进一步微调后得到的模型，所以它同时具备相似问生成和相似句检索能力。不过当时除了放出一个权重文件和示例脚本之外，未对模型原理和训练过程做进一步说明。在这篇文章里，我们来补充这部分内容。

开源地址：https://github.com/ZhuiyiTechnology/simbert

UniLM

UniLM是一个融合NLU和NLG能力的Transformer模型，由微软在去年5月份提出来的，今年2月份则升级到了v2版本。我们之前的文章《从语言模型到Seq2Seq：Transformer如戏，全靠Mask》就简单介绍过UniLM，并且已经集成到了bert4keras中。

UniLM的核心是通过特殊的Attention Mask来赋予模型具有Seq2Seq的能力。假如输入是“你想吃啥”，目标句子是“白切鸡”，那UNILM将这两个句子拼成一个：[CLS] 你想吃啥 [SEP] 白切鸡 [SEP]，然后接如图的Attention Mask：

UniLM的Mask

点击阅读全文...

分类：信息时代标签：语言模型, 生成模型, 文本生成阅读全文 161 评论

7 Sep

动手做个DialoGPT：基于LM的生成式多轮对话模型

By 苏剑林 | 2020-09-07 | 104086位读者 | 引用

前段时间刷Arixv的时候，发现清华大学开源了一个大规模的中文闲聊语料库LCCC（论文链接，项目地址），从开源的文件上来看，这可能是目前开源的数量最大、质量最好的闲聊语料库了，而且还包含了部分多轮对话聊天，总的来说可玩性还是蛮强的。笔者也被它吸引到了，尝试着用它来训练了一个闲聊对话模型，结果看上去还是不错的，在此分享一下自己的经验。

利用单向语言模型做多轮对话示意图

点击阅读全文...

分类：信息时代标签：语言模型, 文本生成, attention 阅读全文 55 评论

25 Jul

机器阅读理解任务，相比不少读者都有所了解了，简单来说就是从给定篇章中寻找给定问题的答案，即“篇章 + 问题 → 答案”这样的流程，笔者之前也写过一些关于阅读理解的文章，比如《基于CNN的阅读理解式问答模型：DGCNN》等。至于问答对构建，则相当于是阅读理解的反任务，即“篇章 → 答案 + 问题”的流程，学术上一般直接叫“问题生成（Question Generation）”，因为大多数情况下，答案可以通过比较规则的随机选择，所以很多文章都只关心“篇章 + 答案 → 问题”这一步。

本文将带来一次全端到端的“篇章 → 答案 + 问题”实践，包括模型介绍以及基于bert4keras的实现代码，欢迎读者尝试。

本文的问答生成模型示意图

点击阅读全文...

分类：信息时代标签：语言模型, 文本生成阅读全文 66 评论

10 Oct

从动力学角度看优化算法（五）：为什么学习率不宜过小？

By 苏剑林 | 2020-10-10 | 55309位读者 | 引用

本文的主题是“为什么我们需要有限的学习率”，所谓“有限”，指的是不大也不小，适中即可，太大容易导致算法发散，这不难理解，但为什么太小也不好呢？一个容易理解的答案是，学习率过小需要迭代的步数过多，这是一种没有必要的浪费，因此从“节能”和“加速”的角度来看，我们不用过小的学习率。但如果不考虑算力和时间，那么过小的学习率是否可取呢？Google最近发布在Arxiv上的论文《Implicit Gradient Regularization》试图回答了这个问题，它指出有限的学习率隐式地给优化过程带来了梯度惩罚项，而这个梯度惩罚项对于提高泛化性能是有帮助的，因此哪怕不考虑算力和时间等因素，也不应该用过小的学习率。

对于梯度惩罚，本博客已有过多次讨论，在文章《对抗训练浅谈：意义、方法和思考（附Keras实现）》和《泛化性乱弹：从随机噪声、梯度惩罚到虚拟对抗训练》中，我们就分析了对抗训练一定程度上等价于对输入的梯度惩罚，而文章《我们真的需要把训练集的损失降低到零吗？》介绍的Flooding技巧则相当于对参数的梯度惩罚。总的来说，不管是对输入还是对参数的梯度惩罚，都对提高泛化能力有一定帮助。

点击阅读全文...

分类：信息时代标签：微分方程, 动力学, 梯度, 优化器阅读全文 15 评论

5 Mar

短文本匹配Baseline：脱敏数据使用预训练模型的尝试

By 苏剑林 | 2021-03-05 | 108716位读者 | 引用

最近凑着热闹玩了玩全球人工智能技术创新大赛中的“小布助手对话短文本语义匹配”赛道，其任务就是常规的短文本句子对二分类任务，这任务在如今各种预训练Transformer“横行”的时代已经没啥什么特别的难度了，但有意思的是，这次比赛脱敏了，也就是每个字都被影射为数字ID了，我们无法得到原始文本。

在这种情况下，还能用BERT等预训练模型吗？用肯定是可以用的，但需要一些技巧，并且可能还需要再预训练一下。本文分享一个baseline，它将分类、预训练和半监督学习都结合在了一起，能够用于脱敏数据任务。

本文模型示意图

点击阅读全文...

分类：信息时代标签：语言模型, 语义, 语义相似度阅读全文 39 评论

24 Aug

隐藏在动量中的梯度累积：少更新几步，效果反而更好？

By 苏剑林 | 2021-08-24 | 33245位读者 | 引用

我们知道，梯度累积是在有限显存下实现大batch_size训练的常用技巧。在之前的文章《用时间换取效果：Keras梯度累积优化器》中，我们就简单介绍过梯度累积的实现，大致的思路是新增一组参数来缓存梯度，最后用缓存的梯度来更新模型。美中不足的是，新增一组参数会带来额外的显存占用。

这几天笔者在思考优化器的时候，突然意识到：梯度累积其实可以内置在带动量的优化器中！带着这个思路，笔者对优化了进行了一些推导和实验，最后还得到一个有意思但又有点反直觉的结论：少更新几步参数，模型最终效果可能会变好！

注：本文下面的结果，几乎原封不动且没有引用地出现在Google的论文《Combined Scaling for Zero-shot Transfer Learning》中，在此不做过多评价，请读者自行品评。

SGDM

在正式讨论之前，我们定义函数
\begin{equation}\chi_{t/k} = \left\{ \begin{aligned}&1,\quad t \equiv 0\,(\text{mod}\, k) \\
&0,\quad t \not\equiv 0\,(\text{mod}\, k)
\end{aligned}\right.\end{equation}
也就是说，$t$是一个整数，当它是$k$的倍数时，$\chi_{t/k}=1$，否则$\chi_{t/k}=0$，这其实就是一个$t$能否被$k$整除的示性函数。在后面的讨论中，我们将反复用到这个函数。

点击阅读全文...

分类：信息时代标签：模型, 分析, 梯度, 优化器阅读全文 3 评论

22 Apr

GAU-α：尝鲜体验快好省的下一代Attention

By 苏剑林 | 2022-04-22 | 48511位读者 | 引用

在《FLASH：可能是近来最有意思的高效Transformer设计》中，我们介绍了GAU（Gated Attention Unit，门控线性单元），在这里笔者愿意称之为“目前最有潜力的下一代Attention设计”，因为它真正达到了“更快（速度）、更好（效果）、更省（显存）”的特点。

然而，有些读者在自己的测试中得到了相反的结果，比如收敛更慢、效果更差等，这与笔者的测试结果大相径庭。本文就来分享一下笔者自己的训练经验，并且放出一个尝鲜版“GAU-α”供大家测试。

开源地址：https://github.com/ZhuiyiTechnology/GAU-alpha

GAU-α

首先介绍一下开源出来的“GAU-α”在CLUE任务上的成绩单：
$$\small{\begin{array}{c|ccccccccccc}
\hline
& \text{iflytek} & \text{tnews} & \text{afqmc} & \text{cmnli} & \text{ocnli} & \text{wsc} & \text{csl} & \text{cmrc2018} & \text{c3} & \text{chid} & \text{cluener}\\
\hline
\text{BERT} & 60.06 & 56.80 & 72.41 & 79.56 & 73.93 & 78.62 & 83.93 & 56.17 & 60.54 & 85.69 & 79.45 \\
\text{RoBERTa} & 60.64 & \textbf{58.06} & 74.05 & 81.24 & 76.00 & \textbf{87.50} & 84.50 & 56.54 & 67.66 & 86.71 & 79.47\\
\text{RoFormer} & 60.91 & 57.54 & 73.52 & 80.92 & \textbf{76.07} & 86.84 & 84.63 & 56.26 & 67.24 & 86.57 & 79.72\\
\text{RoFormerV2}^* & 60.87 & 56.54 & 72.75 & 80.34 & 75.36 & 80.92 & 84.67 & 57.91 & 64.62 & 85.09 & \textbf{81.08}\\
\hline
\text{GAU-}\alpha & \textbf{61.41} & 57.76 & \textbf{74.17} & \textbf{81.82} & 75.86 & 79.93 & \textbf{85.67} & \textbf{58.09} & \textbf{68.24} & \textbf{87.91} & 80.01\\
\hline
\end{array}}$$

点击阅读全文...

分类：信息时代标签：语言模型, attention, 预训练阅读全文 13 评论

12 Aug

生成扩散模型漫谈（七）：最优扩散方差估计（上）

By 苏剑林 | 2022-08-12 | 76918位读者 | 引用

对于生成扩散模型来说，一个很关键的问题是生成过程的方差应该怎么选择，因为不同的方差会明显影响生成效果。

在《生成扩散模型漫谈（二）：DDPM = 自回归式VAE》我们提到，DDPM分别假设数据服从两种特殊分布推出了两个可用的结果；《生成扩散模型漫谈（四）：DDIM = 高观点DDPM》中的DDIM则调整了生成过程，将方差变为超参数，甚至允许零方差生成，但方差为0的DDIM的生成效果普遍差于方差非0的DDPM；而《生成扩散模型漫谈（五）：一般框架之SDE篇》显示前、反向SDE的方差应该是一致的，但这原则上在$\Delta t\to 0$时才成立；《Improved Denoising Diffusion Probabilistic Models》则提出将它视为可训练参数来学习，但会增加训练难度。

所以，生成过程的方差究竟该怎么设置呢？今年的两篇论文《Analytic-DPM: an Analytic Estimate of the Optimal Reverse Variance in Diffusion Probabilistic Models》和《Estimating the Optimal Covariance with Imperfect Mean in Diffusion Probabilistic Models》算是给这个问题提供了比较完美的答案。接下来我们一起欣赏一下它们的结果。

点击阅读全文...

分类：信息时代标签：优化, 生成模型, DDPM, 扩散阅读全文 41 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

鱼与熊掌兼得：融合检索和生成的SimBERT模型

UniLM

动手做个DialoGPT：基于LM的生成式多轮对话模型

学会提问的BERT：端到端地从篇章中构建问答对

从动力学角度看优化算法（五）：为什么学习率不宜过小？

短文本匹配Baseline：脱敏数据使用预训练模型的尝试

隐藏在动量中的梯度累积：少更新几步，效果反而更好？

SGDM

GAU-α：尝鲜体验快好省的下一代Attention

GAU-α

生成扩散模型漫谈（七）：最优扩散方差估计（上）

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接