包含关键字位置编码的文章 - 科学空间|Scientific Spaces

5 Mar

短文本匹配Baseline：脱敏数据使用预训练模型的尝试

By 苏剑林 | 2021-03-05 | 104451位读者 | 引用

最近凑着热闹玩了玩全球人工智能技术创新大赛中的“小布助手对话短文本语义匹配”赛道，其任务就是常规的短文本句子对二分类任务，这任务在如今各种预训练Transformer“横行”的时代已经没啥什么特别的难度了，但有意思的是，这次比赛脱敏了，也就是每个字都被影射为数字ID了，我们无法得到原始文本。

在这种情况下，还能用BERT等预训练模型吗？用肯定是可以用的，但需要一些技巧，并且可能还需要再预训练一下。本文分享一个baseline，它将分类、预训练和半监督学习都结合在了一起，能够用于脱敏数据任务。

本文模型示意图

点击阅读全文...

分类：信息时代标签：语言模型, 语义, 语义相似度阅读全文 39 评论

22 Apr

Transformer升级之路：3、从Performer到线性Attention

By 苏剑林 | 2021-04-22 | 53860位读者 | 引用

看过笔者之前的文章《线性Attention的探索：Attention必须有个Softmax吗？》和《Performer：用随机投影将Attention的复杂度线性化》的读者，可能会觉得本文的标题有点不自然，因为是先有线性Attention然后才有Performer的，它们的关系为“Performer是线性Attention的一种实现，在保证线性复杂度的同时保持了对标准Attention的近似”，所以正常来说是“从线性Attention到Performer”才对。

然而，本文并不是打算梳理线性Attention的发展史，而是打算反过来思考Performer给线性Attention所带来的启示，所以是“从Performer到线性Attention”。

激活函数

线性Attention的常见形式是
\begin{equation}Attention(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V})_i = \frac{\sum\limits_{j=1}^n \text{sim}(\boldsymbol{q}_i, \boldsymbol{k}_j)\boldsymbol{v}_j}{\sum\limits_{j=1}^n \text{sim}(\boldsymbol{q}_i, \boldsymbol{k}_j)} = \frac{\sum\limits_{j=1}^n \phi(\boldsymbol{q}_i)^{\top} \varphi(\boldsymbol{k}_j)\boldsymbol{v}_j}{\sum\limits_{j=1}^n \phi(\boldsymbol{q}_i)^{\top} \varphi(\boldsymbol{k}_j)}\end{equation}

点击阅读全文...

分类：信息时代标签：语言模型, attention 阅读全文 13 评论

31 Oct

bert4keras在手，baseline我有：CLUE基准代码

By 苏剑林 | 2021-10-31 | 73870位读者 | 引用

CLUE（Chinese GLUE）是中文自然语言处理的一个评价基准，目前也已经得到了较多团队的认可。CLUE官方Github提供了tensorflow和pytorch的baseline，但并不易读，而且也不方便调试。事实上，不管是tensorflow还是pytorch，不管是CLUE还是GLUE，笔者认为能找到的baseline代码，都很难称得上人性化，试图去理解它们是一件相当痛苦的事情。

所以，笔者决定基于bert4keras实现一套CLUE的baseline。经过一段时间的测试，基本上复现了官方宣称的基准成绩，并且有些任务还更优。最重要的是，所有代码尽量保持了清晰易读的特点，真·“Deep Learning for Humans”。

代码链接：https://github.com/bojone/CLUE-bert4keras

代码简介

下面简单介绍一下该代码中各个任务baseline的构建思路。在阅读文章和代码之前，请读者自行先观察一下每个任务的数据格式，这里不对任务数据进行详细介绍。

点击阅读全文...

分类：信息时代标签：模型, 代码, keras 阅读全文 28 评论

24 Dec

概率分布的熵归一化（Entropy Normalization）

By 苏剑林 | 2021-12-24 | 46810位读者 | 引用

在上一篇文章《从熵不变性看Attention的Scale操作》中，我们从熵不变性的角度推导了一个新的Attention Scale，并且实验显示具有熵不变性的新Scale确实能使得Attention的外推性能更好。这时候笔者就有一个很自然的疑问：

有没有类似L2 Normalization之类的操作，可以直接对概率分布进行变换，使得保持原始分布主要特性的同时，让它的熵为指定值？

笔者带着疑问搜索了一番，发现没有类似的研究，于是自己尝试推导了一下，算是得到了一个基本满意的结果，暂称为“熵归一化（Entropy Normalization）”，记录在此，供有需要的读者参考。

幂次变换

首先，假设$n$元分布$(p_1,p_2,\cdots,p_n)$，它的熵定义为
\begin{equation}\mathcal{H} = -\sum_i p_i \log p_i = \mathbb{E}[-\log p_i]\end{equation}

点击阅读全文...

分类：数学研究标签：概率, 熵阅读全文 9 评论

30 Jan

GPLinker：基于GlobalPointer的实体关系联合抽取

By 苏剑林 | 2022-01-30 | 116357位读者 | 引用

在将近三年前的百度“2019语言与智能技术竞赛”（下称LIC2019）中，笔者提出了一个新的关系抽取模型（参考《基于DGCNN和概率图的轻量级信息抽取模型》），后被进一步发表和命名为“CasRel”，算是当时关系抽取的SOTA。然而，CasRel提出时笔者其实也是首次接触该领域，所以现在看来CasRel仍有诸多不完善之处，笔者后面也有想过要进一步完善它，但也没想到特别好的设计。

后来，笔者提出了GlobalPointer以及近日的Efficient GlobalPointer，感觉有足够的“材料”来构建新的关系抽取模型了。于是笔者从概率图思想出发，参考了CasRel之后的一些SOTA设计，最终得到了一版类似TPLinker的模型。

基础思路

关系抽取乍看之下是三元组$(s,p,o)$（即subject, predicate, object)的抽取，但落到具体实现上，它实际是“五元组”$(s_h,s_t,p,o_h,o_t)$的抽取，其中$s_h,s_t$分别是$s$的首、尾位置，而$o_h,o_t$则分别是$o$的首、尾位置。

点击阅读全文...

分类：信息时代标签：NLP, 信息抽取, NER 阅读全文 52 评论

9 Oct

“十字架”组合计数问题浅试

By 苏剑林 | 2022-10-09 | 19107位读者 | 引用

昨天在这个公众号文章看到了一道据说答案有争议的“十字架”组合计数问题：

一个正方形中，如果四条边有两条是$i$色，另外两条是其他两种不同颜色，那么称这个正方形是“$i$色主导”的。考虑如下由16条线段、5个正方形组成的“十字架”图形，每条边染上红、黄、蓝三色之一，使得横向和竖向三个正方形的主导色均不相同，问有多少种不同的染色方法。
“十字架”示意图

链接的文章有两个答案：吴康老师的54432，以及王慧兴老师的27216。本文先通过编程确认王慧兴老师的27216是正确答案，然后给出自己的理论分析过程。

点击阅读全文...

分类：数学研究标签：证明, 数学, 组合数学阅读全文 4 评论

30 Nov

用热传导方程来指导自监督学习

By 苏剑林 | 2022-11-30 | 28827位读者 | 引用

用理论物理来卷机器学习已经不是什么新鲜事了，比如上个月介绍的《生成扩散模型漫谈（十三）：从万有引力到扩散模型》就是经典一例。最近一篇新出的论文《Self-Supervised Learning based on Heat Equation》，顾名思义，用热传导方程来做（图像领域的）自监督学习，引起了笔者的兴趣。这种物理方程如何在机器学习中发挥作用？同样的思路能否迁移到NLP中？让我们一起来读读论文。

基本方程

如下图，左边是物理中热传导方程的解，右端则是CAM、积分梯度等显著性方法得到的归因热力图，可以看到两者有一定的相似之处，于是作者认为热传导方程可以作为好的视觉特征的一个重要先验。

热方程的热力图（左）和视觉模型的热力图（右）

点击阅读全文...

分类：信息时代标签：物理, 无监督阅读全文 9 评论

28 Mar

Google新作试图“复活”RNN：RNN能否再次辉煌？

By 苏剑林 | 2023-03-28 | 56438位读者 | 引用

当前，像ChatGPT之类的LLM可谓是“风靡全球”。有读者留意到，几乎所有LLM都还是用最初的Multi-Head Scaled-Dot Attention，近年来大量的Efficient工作如线性Attention、FLASH等均未被采用。是它们版本效果太差，还是根本没有必要考虑效率？其实答案笔者在《线性Transformer应该不是你要等的那个模型》已经分析过了，只有序列长度明显超过hidden size时，标准Attention才呈现出二次复杂度，在此之前它还是接近线性的，它的速度比很多Efficient改进都快，而像GPT3用到了上万的hidden size，这意味着只要你的LLM不是面向数万长度的文本生成，那么用Efficient改进是没有必要的，很多时候速度没提上去，效果还降低了。

那么，真有数万甚至数十万长度的序列处理需求时，我们又该用什么模型呢？近日，Google的一篇论文《Resurrecting Recurrent Neural Networks for Long Sequences》重新优化了RNN模型，特别指出了RNN在处理超长序列场景下的优势。那么，RNN能否再次辉煌？

点击阅读全文...

分类：信息时代标签：语言模型, RNN, 生成模型, attention 阅读全文 28 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

短文本匹配Baseline：脱敏数据使用预训练模型的尝试

Transformer升级之路：3、从Performer到线性Attention

激活函数

bert4keras在手，baseline我有：CLUE基准代码

代码简介

概率分布的熵归一化（Entropy Normalization）

幂次变换

GPLinker：基于GlobalPointer的实体关系联合抽取

基础思路

“十字架”组合计数问题浅试

用热传导方程来指导自监督学习

基本方程

Google新作试图“复活”RNN：RNN能否再次辉煌？

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接