包含关键字从动力学角度看优化算法的文章

10 Jun

无监督分词和句法分析！原来BERT还可以这样用

By 苏剑林 | 2020-06-10 | 91932位读者 | 引用

BERT的一般用法就是加载其预训练权重，再接一小部分新层，然后在下游任务上进行finetune，换句话说一般的用法都是有监督训练的。基于这个流程，我们可以做中文的分词、NER甚至句法分析，这些想必大家就算没做过也会有所听闻。但如果说直接从预训练的BERT（不finetune）就可以对句子进行分词，甚至析出其句法结构出来，那应该会让人感觉到意外和有趣了。

本文介绍ACL 2020的论文《Perturbed Masking: Parameter-free Probing for Analyzing and Interpreting BERT》，里边提供了直接利用Masked Language Model（MLM）来分析和解释BERT的思路，而利用这种思路，我们可以无监督地做到分词甚至句法分析。

基于BERT的“token-token”相关度计算图示

点击阅读全文...

分类：信息时代标签：无监督, 新词发现阅读全文 23 评论

17 Jul

最近了解到一种称为“BERT-of-Theseus”的BERT模型压缩方法，来自论文《BERT-of-Theseus: Compressing BERT by Progressive Module Replacing》。这是一种以“可替换性”为出发点所构建的模型压缩方案，相比常规的剪枝、蒸馏等手段，它整个流程显得更为优雅、简洁。本文将对该方法做一个简要的介绍，给出一个基于bert4keras的实现，并验证它的有效性。

BERT-of-Theseus，原作配图

模型压缩

首先，我们简要介绍一下模型压缩。不过由于笔者并非专门做模型压缩的，也没有经过特别系统的调研，所以该介绍可能显得不专业，请读者理解。

点击阅读全文...

分类：信息时代标签：模型, attention, 模型压缩阅读全文 36 评论

16 Apr

搜狐文本匹配：基于条件LayerNorm的多任务baseline

By 苏剑林 | 2021-04-16 | 98482位读者 | 引用

前段时间看到了“2021搜狐校园文本匹配算法大赛”，觉得赛题颇有意思，便尝试了一下，不过由于比赛本身只是面向在校学生，所以笔者是不能作为正式参赛人员参赛的，因此把自己的做法开源出来，作为比赛baseline供大家参考。

Github链接：https://github.com/bojone/sohu2021-baseline

赛题介绍

顾名思义，比赛的任务是文本匹配，即判断两个文本是否相似，本来是比较常规的任务，但有意思的是它分了多个子任务。具体来说，它分A、B两大类，A类匹配标准宽松一些，B类匹配标准严格一些，然后每个大类下又分为“短短匹配”、“短长匹配”、“长长匹配”3个小类，因此，虽然任务类型相同，但严格来看它是六个不同的子任务。

点击阅读全文...

分类：信息时代标签：语言模型, 比赛, 语义相似度阅读全文 39 评论

14 Dec

Mitchell近似：乘法变为加法，误差不超过1/9

By 苏剑林 | 2020-12-14 | 44390位读者 | 引用

今天给大家介绍一篇1962年的论文《Computer Multiplication and Division Using Binary Logarithms》，作者是John N. Mitchell，他在里边提出了一个相当有意思的算法：在二进制下，可以完全通过加法来近似完成两个数的相乘，最大误差不超过1/9。整个算法相当巧妙，更有意思的是它还有着非常简洁的编程实现，让人拍案叫绝。然而，笔者发现网上居然找不到介绍这个算法的网页，所以在此介绍一番。

你以为这只是过时的玩意？那你就错了，前不久才有人利用它发了一篇NeurIPS 2020呢！所以，确定不来了解一下吗？

点击阅读全文...

分类：数学研究标签：模型, 算法, 优化阅读全文 11 评论

9 Feb

一个二值化词向量模型，是怎么跟果蝇搭上关系的？

By 苏剑林 | 2021-02-09 | 29131位读者 | 引用

果蝇（图片来自Google搜索）

可能有些读者最近会留意到ICLR 2021的论文《Can a Fruit Fly Learn Word Embeddings?》，文中写到它是基于仿生思想（仿果蝇的嗅觉回路）做出来的一个二值化词向量模型。其实论文的算法部分并不算难读，可能整篇论文读下来大家的最主要疑惑就是“这东西跟果蝇有什么关系？”、“作者真是从果蝇里边受到启发的？”等等。本文就让我们来追寻一下该算法的来龙去脉，试图回答一下这个词向量模型是怎么跟果蝇搭上关系的。

BioWord

原论文并没有给该词向量模型起个名字，为了称呼上的方便，这里笔者就自作主张将其称为“BioWord”了。总的来说，论文内容大体上有三部分：

1、给每个n-gram构建了一个词袋表示向量；
2、对这些n-gram向量执行BioHash算法，得到所谓的（二值化的）静态/动态词向量；
3、“拼命”讲了一个故事。

点击阅读全文...

分类：信息时代,生物自然标签：自然语言处理, 词向量, NLP 阅读全文 3 评论

3 Mar

T5 PEGASUS：开源一个中文生成式预训练模型

By 苏剑林 | 2021-03-03 | 211573位读者 | 引用

去年在文章《那个屠榜的T5模型，现在可以在中文上玩玩了》中我们介绍了Google的多国语言版T5模型（mT5），并给出了用mT5进行中文文本生成任务的例子。诚然，mT5做中文生成任务也是一个可用的方案，但缺乏完全由中文语料训练出来模型总感觉有点别扭，于是决心要搞一个出来。

经过反复斟酌测试，我们决定以mT5为基础架构和初始权重，先结合中文的特点完善Tokenizer，然后模仿PEGASUS来构建预训练任务，从而训练一版新的T5模型，这就是本文所开源的T5 PEGASUS。

T5 PEGASUS的训练数据示例

Github地址：https://github.com/ZhuiyiTechnology/t5-pegasus

点击阅读全文...

分类：信息时代标签：语言模型, 文本生成, attention 阅读全文 107 评论

12 Jan

CoSENT（二）：特征式匹配与交互式匹配有多大差距？

By 苏剑林 | 2022-01-12 | 99608位读者 | 引用

一般来说，文本匹配有交互式（Interaction-based）和特征式（Representation-based）两种实现方案，其中交互式是指将两个文本拼接在一起当成单文本进行分类，而特征式则是指两个句子分别由编码器编码为句向量后再做简单的融合处理（算cos值或者接一个浅层网络）。通常的结论是，交互式由于使得两个文本能够进行充分的比较，所以它准确性通常较好，但明显的缺点是在检索场景的效率较差；而特征式则可以提前计算并缓存好句向量，所以它有着较高的效率，但由于句子间的交互程度较浅，所以通常效果不如交互式。

上一篇文章笔者介绍了CoSENT，它本质上也是一种特征式方案，并且相比以往的特征式方案效果有所提高。于是笔者的好胜心就上来了：CoSENT能比得过交互式吗？特征式相比交互式的差距有多远呢？本文就来做个比较。

自动阈值

在文章《CoSENT（一）：比Sentence-BERT更有效的句向量方案》中，我们评测CoSENT所用的指标是Spearman系数，它是一个只依赖于预测结果相对顺序的指标，不依赖于阈值，比较适合检索场景的评测。但如果评测指标是accuracy或者F1这些分类指标，则必须确定一个阈值，将预测结果大于这个数的预测结果视为正、小于则为负，然后才能计算指标。在二分类的场景，我们用二分法就可以有效地确定这个阈值。

点击阅读全文...

分类：信息时代标签：语义, 语义相似度, 对比学习阅读全文 40 评论

3 Mar

指数梯度下降 + 元学习 = 自适应学习率

By 苏剑林 | 2022-03-03 | 34410位读者 | 引用

前两天刷到了Google的一篇论文《Step-size Adaptation Using Exponentiated Gradient Updates》，在其中学到了一些新的概念，所以在此记录分享一下。主要的内容有两个，一是非负优化的指数梯度下降，二是基于元学习思想的学习率调整算法，两者都颇有意思，有兴趣的读者也可以了解一下。

指数梯度下降

梯度下降大家可能听说得多了，指的是对于无约束函数 $\mathcal{L}(\boldsymbol{\theta})$ 的最小化，我们用如下格式进行更新：
$\begin{equation}\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_t - \eta\nabla_{\boldsymbol{\theta}}\mathcal{L}(\boldsymbol{\theta}_t)\end{equation}$
其中 $\eta$ 是学习率。然而很多任务并非总是无约束的，对于最简单的非负约束，我们可以改为如下格式更新：
$\begin{equation}\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_t \odot \exp\left(- \eta\nabla_{\boldsymbol{\theta}}\mathcal{L}(\boldsymbol{\theta}_t)\right)\label{eq:egd}\end{equation}$
这里的 $\odot$ 是逐位对应相乘（Hadamard积）。容易看到，只要初始化的 $\boldsymbol{\theta}_0$ 是非负的，那么在整个更新过程中 $\boldsymbol{\theta}_t$ 都会保持非负，这就是用于非负约束优化的“指数梯度下降”。

点击阅读全文...

分类：数学研究标签：优化, 梯度, 优化器阅读全文 9 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

无监督分词和句法分析！原来BERT还可以这样用

BERT-of-Theseus：基于模块替换的模型压缩方法

模型压缩

搜狐文本匹配：基于条件LayerNorm的多任务baseline

赛题介绍

Mitchell近似：乘法变为加法，误差不超过1/9

一个二值化词向量模型，是怎么跟果蝇搭上关系的？

BioWord

T5 PEGASUS：开源一个中文生成式预训练模型

CoSENT（二）：特征式匹配与交互式匹配有多大差距？

自动阈值

指数梯度下降 + 元学习 = 自适应学习率

指数梯度下降

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接