包含关键字分层学习率的文章 - 科学空间|Scientific Spaces

5 Jun

为什么梯度裁剪能加速训练过程？一个简明的分析

By 苏剑林 | 2020-06-05 | 32594位读者 | 引用

本文介绍来自MIT的一篇ICLR 2020满分论文《Why gradient clipping accelerates training: A theoretical justification for adaptivity》，顾名思义，这篇论文就是分析为什么梯度裁剪能加速深度学习的训练过程。原文很长，公式很多，还有不少研究复杂性的概念，说实话对笔者来说里边的大部分内容也是懵的，不过大概能捕捉到它的核心思想：引入了比常用的L约束更宽松的约束条件，从新的条件出发论证了梯度裁剪的必要性。本文就是来简明分析一下这个过程，供读者参考。

梯度裁剪

假设需要最小化的函数为$f(\theta)$，$\theta$就是优化参数，那么梯度下降的更新公式就是
\begin{equation}\theta \leftarrow \theta-\eta \nabla_{\theta} f(\theta)\end{equation}
其中$\eta$就是学习率。而所谓梯度裁剪（gradient clipping），就是根据梯度的模长来对更新量做一个缩放，比如
\begin{equation}\theta \leftarrow \theta- \eta \nabla_{\theta} f(\theta)\times \min\left\{1, \frac{\gamma}{\Vert \nabla_{\theta} f(\theta)\Vert}\right\}\label{eq:clip-1}\end{equation}
或者
\begin{equation}\theta \leftarrow \theta- \eta \nabla_{\theta} f(\theta)\times \frac{\gamma}{\Vert \nabla_{\theta} f(\theta)\Vert+\gamma}\label{eq:clip-2}\end{equation}
其中$\gamma > 0$是一个常数。这两种方式都被视为梯度裁剪，总的来说就是控制更新量的模长不超过一个常数，第二种形式也跟RMSProp等自适应学习率优化器相关。此外，更精确地，我们有下面的不等式
\begin{equation}\frac{1}{2}\min\left\{1, \frac{\gamma}{\Vert \nabla_{\theta} f(\theta)\Vert}\right\}\leq \frac{\gamma}{\Vert \nabla_{\theta} f(\theta)\Vert+\gamma}\leq \min\left\{1, \frac{\gamma}{\Vert \nabla_{\theta} f(\theta)\Vert}\right\}\end{equation}
也就是说两者是可以相互控制的，所以其实两者基本是等价的。

点击阅读全文...

分类：数学研究标签：优化, 梯度阅读全文 2 评论

7 Sep

动手做个DialoGPT：基于LM的生成式多轮对话模型

By 苏剑林 | 2020-09-07 | 101636位读者 | 引用

前段时间刷Arixv的时候，发现清华大学开源了一个大规模的中文闲聊语料库LCCC（论文链接，项目地址），从开源的文件上来看，这可能是目前开源的数量最大、质量最好的闲聊语料库了，而且还包含了部分多轮对话聊天，总的来说可玩性还是蛮强的。笔者也被它吸引到了，尝试着用它来训练了一个闲聊对话模型，结果看上去还是不错的，在此分享一下自己的经验。

利用单向语言模型做多轮对话示意图

点击阅读全文...

分类：信息时代标签：语言模型, 文本生成, attention 阅读全文 55 评论

31 Jul

我们真的需要把训练集的损失降低到零吗？

By 苏剑林 | 2020-07-31 | 66478位读者 | 引用

在训练模型的时候，我们需要损失函数一直训练到0吗？显然不用。一般来说，我们是用训练集来训练模型，但希望的是验证集的损失越小越好，而正常来说训练集的损失降低到一定值后，验证集的损失就会开始上升，因此没必要把训练集的损失降低到0。

既然如此，在已经达到了某个阈值之后，我们可不可以做点别的事情来提升模型性能呢？ICML 2020的论文《Do We Need Zero Training Loss After Achieving Zero Training Error?》回答了这个问题。不过论文的回答也仅局限在“是什么”这个层面上，并没很好地描述“为什么”，另外看了知乎上kid丶大佬的解读，也没找到自己想要的答案。因此自己分析了一下，记录在此。

左图：不加Flooding的训练示意图；右图：加了Flooding的训练示意图

点击阅读全文...

分类：信息时代标签：优化, 深度学习, 损失函数, 泛化阅读全文 20 评论

14 Aug

L2正则没有想象那么好？可能是“权重尺度偏移”惹的祸

By 苏剑林 | 2020-08-14 | 35564位读者 | 引用

L2正则是机器学习常用的一种防止过拟合的方法（应该也是一道经常遇到的面试题）。简单来说，它就是希望权重的模长尽可能小一点，从而能抵御的扰动多一点，最终提高模型的泛化性能。但是读者可能也会发现，L2正则的表现通常没有理论上说的那么好，很多时候加了可能还有负作用。最近的一篇文章《Improve Generalization and Robustness of Neural Networks via Weight Scale Shifting Invariant Regularizations》从“权重尺度偏移”这个角度分析了L2正则的弊端，并提出了新的WEISSI正则项。整个分析过程颇有意思，在这里与大家分享一下。

殊途同归的策略梯度与零阶优化

By 苏剑林 | 2020-09-15 | 55511位读者 | 引用

深度学习如此成功的一个巨大原因就是基于梯度的优化算法（SGD、Adam等）能有效地求解大多数神经网络模型。然而，既然是基于梯度，那么就要求模型是可导的，但随着研究的深入，我们时常会有求解不可导模型的需求，典型的例子就是直接优化准确率、F1、BLEU等评测指标，或者在神经网络里边加入了不可导模块（比如“跳读”操作）。

Gradient

本文将简单介绍两种求解不可导的模型的有效方法：强化学习的重要方法之一策略梯度（Policy Gradient），以及干脆不需要梯度的零阶优化（Zeroth Order Optimization）。表面上来看，这是两种思路完全不一样的优化方法，但本文将进一步证明，在一大类优化问题中，其实两者基本上是等价的。

点击阅读全文...

分类：数学研究标签：优化, 梯度, 优化器, 强化学习阅读全文 15 评论

18 Sep

提速不掉点：基于词颗粒度的中文WoBERT

By 苏剑林 | 2020-09-18 | 109777位读者 | 引用

当前，大部分中文预训练模型都是以字为基本单位的，也就是说中文语句会被拆分为一个个字。中文也有一些多颗粒度的语言模型，比如创新工场的ZEN和字节跳动的AMBERT，但这类模型的基本单位还是字，只不过想办法融合了词信息。目前以词为单位的中文预训练模型很少，据笔者所了解到就只有腾讯UER开源了一个以词为颗粒度的BERT模型，但实测效果并不好。

那么，纯粹以词为单位的中文预训练模型效果究竟如何呢？有没有它的存在价值呢？最近，我们预训练并开源了以词为单位的中文BERT模型，称之为WoBERT（Word-based BERT，我的BERT！），实验显示基于词的WoBERT在不少任务上有它独特的优势，比如速度明显的提升，同时效果基本不降甚至也有提升。在此对我们的工作做一个总结。

开源地址：https://github.com/ZhuiyiTechnology/WoBERT

点击阅读全文...

分类：信息时代标签：语言模型, attention 阅读全文 48 评论

19 Oct

BERT可以上几年级了？Seq2Seq“硬刚”小学数学应用题

By 苏剑林 | 2020-10-19 | 67115位读者 | 引用

“鸡兔同笼”的那些年

“盈亏问题”、“年龄问题”、“植树问题”、“牛吃草问题”、“利润问题”...，小学阶段你是否曾被各种花样的数学应用题折磨过呢？没关系，现在机器学习模型也可以帮助我们去解答应用题了，来看看它可以上几年级了？

本文将给出一个求解小学数学应用题（Math Word Problem）的baseline，基于ape210k数据集训练，直接用Seq2Seq模型生成可执行的数学表达式，最终Large版本的模型能达到75%的准确率，明显高于ape210k论文所报告的结果。所谓“硬刚”，指的是没有对表达式做特别的转换，也没有通过模板处理，就直接生成跟人类做法相近的可读表达式。

点击阅读全文...

分类：数学研究,信息时代标签：语言模型, 文本生成阅读全文 25 评论

6 Nov

那个屠榜的T5模型，现在可以在中文上玩玩了

By 苏剑林 | 2020-11-06 | 128248位读者 | 引用

不知道大家对Google去年的屠榜之作T5还有没有印象？就是那个打着“万事皆可Seq2Seq”的旗号、最大搞了110亿参数、一举刷新了GLUE、SuperGLUE等多个NLP榜单的模型，而且过去一年了，T5仍然是SuperGLUE榜单上的第一，目前还稳妥地拉开着第二名2%的差距。然而，对于中文界的朋友来说，T5可能没有什么存在感，原因很简单：没有中文版T5可用。不过这个现状要改变了，因为Google最近放出了多国语言版的T5（mT5），里边当然是包含了中文语言。虽然不是纯正的中文版，但也能凑合着用一下。

“万事皆可Seq2Seq”的T5

本文将会对T5模型做一个简单的回顾与介绍，然后再介绍一下如何在bert4keras中调用mT5模型来做中文任务。作为一个原生的Seq2Seq预训练模型，mT5在文本生成任务上的表现还是相当不错的，非常值得一试。

点击阅读全文...

分类：信息时代标签：语言模型, 文本生成, attention 阅读全文 50 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

为什么梯度裁剪能加速训练过程？一个简明的分析

梯度裁剪

动手做个DialoGPT：基于LM的生成式多轮对话模型

我们真的需要把训练集的损失降低到零吗？

L2正则没有想象那么好？可能是“权重尺度偏移”惹的祸

相关内容

L2正则的理解

殊途同归的策略梯度与零阶优化

提速不掉点：基于词颗粒度的中文WoBERT

BERT可以上几年级了？Seq2Seq“硬刚”小学数学应用题

那个屠榜的T5模型，现在可以在中文上玩玩了

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接