Processing math: 100%
9 Nov

CoSENT(三):作为交互式相似度的损失函数

《CoSENT(一):比Sentence-BERT更有效的句向量方案》中,笔者提出了名为“CoSENT”的有监督句向量方案,由于它是直接训练cos相似度的,跟评测目标更相关,因此通常能有着比Sentence-BERT更好的效果以及更快的收敛速度。在《CoSENT(二):特征式匹配与交互式匹配有多大差距?》中我们还比较过它跟交互式相似度模型的差异,显示它在某些任务上的效果还能直逼交互式相似度模型。

然而,当时笔者是一心想找一个更接近评测目标的Sentence-BERT替代品,所以结果都是面向有监督句向量的,即特征式相似度模型。最近笔者突然反应过来,CoSENT其实也能作为交互式相似度模型的损失函数。那么它跟标准选择交叉熵相比孰优孰劣呢?本文来补充这部分实验。

点击阅读全文...

23 May

NBCE:使用朴素贝叶斯扩展LLM的Context处理长度

在LLM时代还玩朴素贝叶斯(Naive Bayes)?

这可能是许多读者在看到标题后的首个想法。确实如此,当古老的朴素贝叶斯与前沿的LLM相遇时,产生了令人惊讶的效果——我们可以直接扩展现有LLM模型的Context处理长度,无需对模型进行微调,也不依赖于模型架构,具有线性效率,而且效果看起来还不错——这就是本文所提出的NBCENaive Bayes-based Context Extension)方法。

摸石过河

假设T为要生成的token序列,S1,S2,,Sn是给定的若干个相对独立的Context集合(比如n个不同的段落,至少不是一个句子被分割为两个片段那种),假设它们的总长度已经超过了训练长度,而单个SkT还在训练长度内。我们需要根据S1,S2,,Sn生成T,即估计p(T|S1,S2,,Sn)

点击阅读全文...

8 Oct

预训练一下,Transformer的长序列成绩还能涨不少!

作为LLM的主流模型架构,Transformer在各类任务上的总体表现都出色,大多数情况下,Transformer的槽点只是它的平方复杂度,而不是效果——除了一个名为Long Range Arena(下面简称LRA)的Benchmark。一直以来,LRA一直是线性RNN类模型的“主场”,与之相比Transformer在上面有明显的差距,以至于让人怀疑这是否就是Transformer的固有缺陷。

不过,近日论文《Never Train from Scratch: Fair Comparison of Long-Sequence Models Requires Data-Driven Priors》将这“缺失的一环”给补齐了。论文指出,缺乏预训练是Transformer在LRA上效果较差的主要原因,而所有架构都可以通过预训练获得一定的提升,Transformer的提升则更为明显。

旧背景

Long Range Arena(LRA)是长序列建模的一个Benchmark,提出自论文《Long Range Arena: A Benchmark for Efficient Transformers》,从论文标题就可以看出,LRA是为了测试各种Efficient版的Transformer而构建的,里边包含了多种类型的数据,序列长度从1k到16k不等,此前不少Efficient Transformer的工作也都在LRA进行了测试。虽然在代表性方面有些争议,但LRA依然不失为一个测试Efficient Transformer的长序列能力的经典Benchmark。

点击阅读全文...

8 Jul

百科翻译:盐酸的历史(氯化氢,HCl)

氯化氢(HCl),一种无色气体,当它溶于水后变成为了我们常用的盐酸(hydrochloric acid),学名“氢氯酸”。这是一种具有高强度腐蚀性的无机酸,在工业上具有重要的用途。我们胃中的酸也是胃酸。气态的HCl被称为海洋酸性气体。

盐酸是一种一元酸,在水中会发生以下反应:
HCl+H2O=H3O++Cl

因此,盐酸可以用来制作其他氯化物(如NaCl)。盐酸是一种强酸,它在水中基本上能够完全解离。

点击阅读全文...

8 Jul

古老的火山爆发造成地球冰期?

翻译语录:总的来说,这篇文章的翻译还是比较顺利,不懂的词查一下软件就OK,所以这次要说一下翻译以外的问题:众所周知,二氧化碳会造成温室效应,而二氧化硫能够抑制温室效应。不过糟糕的是,几乎所有大气环境治理手段都将把其它污染性气体转变成二氧化碳为目标,包括处理二氧化硫。这就造成了约治理环境,温室效应越强的问题。这时我们的环境学家也应考虑下两者的均衡问题了

图片说明:俄罗斯Kamtchatka火山爆发

图片说明:俄罗斯Kamtchatka火山爆发

点击阅读全文...

19 Jul

三次方程的根式求解(通俗版本)

(说明:由于本文章含有较多的根号,推荐使用IE直接阅读,或者使用IE+MathPlayer。火狐浏览器对根号的显示是相当的差。)

大家知道,1到4次的代数方程都有求根公式(尽管未必是最简单的方法),对于1次和2次方程的求根,大家可能滚瓜烂熟了。但是你了解三次方程的解法吗?
ax3+bx2+cx+d=0(a0)

网上有不少关于这方面的资料,但是却有着两个缺点:一是缺乏描述专业数学公式的相关程序(很多网站都是这样);二是语言过于专业,不能大众化(如维基百科)。

点击阅读全文...

1 Aug

新的一个月:8月了

七月流逝,八月悄来。又迎来新的一个月,今天是第一天,也是建军节。 回味过去的一个月,我学会了很多,也体验了很多,自己似乎更加成熟了。 一切都会过去,一切都会流逝,惟有不变的,是人的情感。

——仅以此记

点击阅读全文...

11 Aug

广东珠海之旅(图片)

一直呆在老家,很少出去到外面,这个暑假到了珠海玩了一下。
珠海离我们很近,坐车,3小时左右的路程(大约209公里)。不过也把我们累得,这是我目前来说走得最远的路程。

落脚点为“翠微香山花园”:

图片说明:香山花园,不过GE的图片已经很久了,现在已经有很大变化了

图片说明:香山花园,不过GE的图片已经很久了,现在已经有很大变化了

随后,到了一些地方游玩:地下商场、渔女、圆明新园......

点击阅读全文...