你的语言模型有没有“无法预测的词”?
By 苏剑林 | 2022-04-20 | 21125位读者 | 引用众所周知,分类模型通常都是先得到编码向量,然后接一个Dense层预测每个类别的概率,而预测时则是输出概率最大的类别。但大家是否想过这样一种可能:训练好的分类模型可能存在“无法预测的类别”,即不管输入是什么,都不可能预测出某个类别$k$,类别$k$永远不可能成为概率最大的那个。
当然,这种情况一般只出现在类别数远远超过编码向量维度的场景,常规的分类问题很少这么极端的。然而,我们知道语言模型本质上也是一个分类模型,它的类别数也就是词表的总大小,往往是远超过向量维度的,那么我们的语言模型是否有“无法预测的词”?(只考虑Greedy解码)
是否存在
ACL2022的论文《Low-Rank Softmax Can Have Unargmaxable Classes in Theory but Rarely in Practice》首先探究了这个问题,正如其标题所言,答案是“理论上存在但实际出现概率很小”。
注意力和Softmax的两点有趣发现:鲁棒性和信息量
By 苏剑林 | 2023-04-25 | 30598位读者 | 引用最近几周笔者一直都在思考注意力机制的相关性质,在这个过程中对注意力及Softmax有了更深刻的理解。在这篇文章中,笔者简单分享其中的两点:
1、Softmax注意力天然能够抵御一定的噪声扰动;
2、从信息熵角度也可以对初始化问题形成直观理解。
鲁棒性
基于Softmax归一化的注意力机制,可以写为
\begin{equation}o = \frac{\sum\limits_{i=1}^n e^{s_i} v_i}{\sum\limits_{i=1}^n e^{s_i}}\end{equation}
有一天笔者突然想到一个问题:如果往$s_i$中加入独立同分布的噪声会怎样?
Transformer升级之路:9、一种全局长度外推的新思路
By 苏剑林 | 2023-05-12 | 58306位读者 | 引用说到Transformer无法处理超长序列的原因,大家的第一反应通常都是Self Attention的二次复杂度。但事实上,即便忽略算力限制,常规的Transformer也无法处理超长序列,因为它们的长度外推性(Length Extrapolation)并不好,具体表现为当输入序列明显超过训练长度时,模型的效果通常会严重下降。
尽管已有一些相关工作,但长度外推问题离实际解决还比较远。本文介绍笔者构思的一种参考方案,它可能是目前唯一一种可以用在生成模型上、具备全局依赖能力的长度外推方法。
方法回顾
长度外推,也称为长度泛化(Length Generalization),此前我们在《Transformer升级之路:7、长度外推性与局部注意力》、《Transformer升级之路:8、长度外推性与位置鲁棒性》已经介绍过部分工作。然而,它们各有各的问题。
2009.7.22日全食各地区模拟(Flash)
By 苏剑林 | 2009-07-14 | 17804位读者 | 引用科学家计划研制造云船对抗全球变暖(图)
By 苏剑林 | 2009-08-12 | 24039位读者 | 引用《科学》:我们发现了磁单极子
By 苏剑林 | 2009-10-02 | 27043位读者 | 引用电与磁具有很多相似性,那么,自然界允许只带有单一电荷的电子存在,那允不允许只有一个磁极的物体存在呢?也许会有的,英国物理学家保罗·狄拉克(Paul Dirac)早在1931年利用数学公式预言了这种物质的存在,并且把它叫做“磁单极子”。而今天,我们已经发现了它们的足迹! 磁单极子是理论物理学弦理论中指一些仅带有北极或南极单一磁极的磁性物质,它们的磁感线分布类似于点电荷的电场线分布。这种物质的存在性在科学界時有纷争,截至2008年尚未发现这种物体。可以说是21世纪物理学界重要的研究主题之一。在2009年9月3日的《科学》杂志上刊载了一篇记录人类首次观测到磁单极子的论文。
最近评论