CoSENT(二):特征式匹配与交互式匹配有多大差距?
By 苏剑林 | 2022-01-12 | 87718位读者 | 引用一般来说,文本匹配有交互式(Interaction-based)和特征式(Representation-based)两种实现方案,其中交互式是指将两个文本拼接在一起当成单文本进行分类,而特征式则是指两个句子分别由编码器编码为句向量后再做简单的融合处理(算cos值或者接一个浅层网络)。通常的结论是,交互式由于使得两个文本能够进行充分的比较,所以它准确性通常较好,但明显的缺点是在检索场景的效率较差;而特征式则可以提前计算并缓存好句向量,所以它有着较高的效率,但由于句子间的交互程度较浅,所以通常效果不如交互式。
上一篇文章笔者介绍了CoSENT,它本质上也是一种特征式方案,并且相比以往的特征式方案效果有所提高。于是笔者的好胜心就上来了:CoSENT能比得过交互式吗?特征式相比交互式的差距有多远呢?本文就来做个比较。
自动阈值
在文章《CoSENT(一):比Sentence-BERT更有效的句向量方案》中,我们评测CoSENT所用的指标是Spearman系数,它是一个只依赖于预测结果相对顺序的指标,不依赖于阈值,比较适合检索场景的评测。但如果评测指标是accuracy或者F1这些分类指标,则必须确定一个阈值,将预测结果大于这个数的预测结果视为正、小于则为负,然后才能计算指标。在二分类的场景,我们用二分法就可以有效地确定这个阈值。
Transformer升级之路:6、旋转位置编码的完备性分析
By 苏剑林 | 2022-12-28 | 38107位读者 | 引用在去年的文章《Transformer升级之路:2、博采众长的旋转式位置编码》中,笔者提出了旋转位置编码(RoPE),当时的出发点只是觉得用绝对位置来实现相对位置是一件“很好玩的事情”,并没料到其实际效果还相当不错,并为大家所接受,不得不说这真是一个意外之喜。后来,在《Transformer升级之路:4、二维位置的旋转式位置编码》中,笔者讨论了二维形式的RoPE,并研究了用矩阵指数表示的RoPE的一般解。
既然有了一般解,那么自然就会引出一个问题:我们常用的RoPE,只是一个以二维旋转矩阵为基本单元的分块对角矩阵,如果换成一般解,理论上效果会不会更好呢?本文就来回答这个问题。
指数通解
在《Transformer升级之路:4、二维位置的旋转式位置编码》中,我们将RoPE抽象地定义为任意满足下式的方阵
\begin{equation}\boldsymbol{\mathcal{R}}_m^{\top}\boldsymbol{\mathcal{R}}_n=\boldsymbol{\mathcal{R}}_{n-m}\label{eq:re}\end{equation}
[更新]将向量乘法“退化”到复数
By 苏剑林 | 2011-02-04 | 57241位读者 | 引用向量有两个乘法:点乘和叉乘,其结果又分别叫做数量积和向量积。在很多情况下,用这两个定义的乘法运算都能够给我们带来很大的方便(其实它就是在实际问题中抽象出来的)。不过,也有相当一部分的二维问题用复数来描述更为简洁。于是,为了整合两者的巧妙之处,有必要把向量的两个乘法运算“退化”到复数中去(为什么用“退化”?因为向量是多维的,可以是3维、4维等,而复数运算只是二维的,很明显这是一种“退化”而不是“拓展”^_^)
运算法则:
点乘:
总法则:$Z_1 \cdot Z_2=|Z_1||Z_2|\cos(arg\frac{Z_2}{Z_1})$
$$\begin{aligned}1\cdot i=0 \\ i\cdot i=1 \\ \exp(i\theta)\cdot \exp(i\varphi)=\cos(\varphi -\theta) \\ iexp(i\theta)\cdot \exp(i\varphi)=-\sin(\theta-\varphi ) \\ Z_1 \cdot Z_2=Z_1 \bar{Z}_2+Z_2 \bar{Z}_1\end{aligned}$$
喜迎新春!兔年快乐!2011~
By 苏剑林 | 2011-02-02 | 36775位读者 | 引用关于无理数及其和的证明
By 苏剑林 | 2009-07-31 | 23308位读者 | 引用在中学,有理数的定义为整数和分数的集合,统一来说就是能够写成两个整数之比的数。那相对地,无理数自然就是不能写成两个整数之比的数了,也就是无限不循环小数,比如$\pi,\sqrt{2}$等等。历史上无理数的发现带来了第一次数学危机,并生下了一颗“金蛋”,不过发现者却因此丢掉了生命。让我们永远铭记——希帕索斯(Hippasus)。
历史:
http://baike.baidu.com/view/1167.htm#2
在这里对无理数就不多说些什么了,主要是谈谈相关的证明而已。
先说明,以下是我自己的证明方法,当然我相信有一种方法是通用的,但是我没有找出来。
【奥赛之行】非同一般的天文奥赛
By 苏剑林 | 2010-04-18 | 22991位读者 | 引用(原创)切抛物线法解方程
By 苏剑林 | 2010-03-06 | 32559位读者 | 引用牛顿法使用的是函数切线的方程的零点来逼近原函数的零点,他所使用的是“切直线”,要是改为同曲率的“切抛物线”,则有更稳定的收敛效果以及更快的收敛速度
设函数$y=f(x)$在$(x_0,y_0)$处有一条“切抛物线”$y=ax^2+bx+c$,则应该有
$a(x_0+\Delta x)^2+b(x_0+\Delta x)+c=f(x_0+\Delta x)$-------(A)
$ax_0^2+bx_0+c=f(x_0)$-------(B)
$a(x_0-\Delta x)^2+b(x_0-\Delta x)+c=f(x_0-\Delta x)$-------(C)
其中$lim_{\Delta x->0}$
最近评论