包含关键字变分信息瓶颈的文章 - 科学空间|Scientific Spaces

9 Nov

CoSENT（三）：作为交互式相似度的损失函数

By 苏剑林 | 2022-11-09 | 38415位读者 | 引用

在《CoSENT（一）：比Sentence-BERT更有效的句向量方案》中，笔者提出了名为“CoSENT”的有监督句向量方案，由于它是直接训练cos相似度的，跟评测目标更相关，因此通常能有着比Sentence-BERT更好的效果以及更快的收敛速度。在《CoSENT（二）：特征式匹配与交互式匹配有多大差距？》中我们还比较过它跟交互式相似度模型的差异，显示它在某些任务上的效果还能直逼交互式相似度模型。

然而，当时笔者是一心想找一个更接近评测目标的Sentence-BERT替代品，所以结果都是面向有监督句向量的，即特征式相似度模型。最近笔者突然反应过来，CoSENT其实也能作为交互式相似度模型的损失函数。那么它跟标准选择交叉熵相比孰优孰劣呢？本文来补充这部分实验。

点击阅读全文...

分类：信息时代标签：语义, 语义相似度, 对比学习阅读全文 10 评论

23 May

NBCE：使用朴素贝叶斯扩展LLM的Context处理长度

By 苏剑林 | 2023-05-23 | 99374位读者 | 引用

在LLM时代还玩朴素贝叶斯（Naive Bayes）？

这可能是许多读者在看到标题后的首个想法。确实如此，当古老的朴素贝叶斯与前沿的LLM相遇时，产生了令人惊讶的效果——我们可以直接扩展现有LLM模型的Context处理长度，无需对模型进行微调，也不依赖于模型架构，具有线性效率，而且效果看起来还不错——这就是本文所提出的NBCE（Naive Bayes-based Context Extension）方法。

摸石过河

假设 $T$ 为要生成的token序列， $S_1,S_2,\cdots,S_n$ 是给定的若干个相对独立的Context集合（比如 $n$ 个不同的段落，至少不是一个句子被分割为两个片段那种），假设它们的总长度已经超过了训练长度，而单个 $S_k$ 加 $T$ 还在训练长度内。我们需要根据 $S_1,S_2,\cdots,S_n$ 生成 $T$ ，即估计 $p(T|S_1, S_2,\cdots,S_n)$ 。

点击阅读全文...

分类：信息时代标签：语言模型, 外推, LLM, 贝叶斯阅读全文 62 评论

8 Oct

预训练一下，Transformer的长序列成绩还能涨不少！

By 苏剑林 | 2023-10-08 | 41839位读者 | 引用

作为LLM的主流模型架构，Transformer在各类任务上的总体表现都出色，大多数情况下，Transformer的槽点只是它的平方复杂度，而不是效果——除了一个名为Long Range Arena（下面简称LRA）的Benchmark。一直以来，LRA一直是线性RNN类模型的“主场”，与之相比Transformer在上面有明显的差距，以至于让人怀疑这是否就是Transformer的固有缺陷。

不过，近日论文《Never Train from Scratch: Fair Comparison of Long-Sequence Models Requires Data-Driven Priors》将这“缺失的一环”给补齐了。论文指出，缺乏预训练是Transformer在LRA上效果较差的主要原因，而所有架构都可以通过预训练获得一定的提升，Transformer的提升则更为明显。

旧背景

Long Range Arena（LRA）是长序列建模的一个Benchmark，提出自论文《Long Range Arena: A Benchmark for Efficient Transformers》，从论文标题就可以看出，LRA是为了测试各种Efficient版的Transformer而构建的，里边包含了多种类型的数据，序列长度从1k到16k不等，此前不少Efficient Transformer的工作也都在LRA进行了测试。虽然在代表性方面有些争议，但LRA依然不失为一个测试Efficient Transformer的长序列能力的经典Benchmark。

点击阅读全文...

分类：信息时代标签：语言模型, attention 阅读全文 4 评论

8 Jul

百科翻译：盐酸的历史（氯化氢，HCl）

By 苏剑林 | 2009-07-08 | 40678位读者 | 引用

氯化氢（HCl），一种无色气体，当它溶于水后变成为了我们常用的盐酸（hydrochloric acid），学名“氢氯酸”。这是一种具有高强度腐蚀性的无机酸，在工业上具有重要的用途。我们胃中的酸也是胃酸。气态的HCl被称为海洋酸性气体。

盐酸是一种一元酸，在水中会发生以下反应：
$HCl + H_2O=H_3O^+ + Cl^-$

因此，盐酸可以用来制作其他氯化物（如NaCl）。盐酸是一种强酸，它在水中基本上能够完全解离。

点击阅读全文...

分类：物理化学标签：翻译, 历史, 盐酸, 维基阅读全文抢沙发

8 Jul

古老的火山爆发造成地球冰期？

By 苏剑林 | 2009-07-08 | 34339位读者 | 引用

翻译语录：总的来说，这篇文章的翻译还是比较顺利，不懂的词查一下软件就OK，所以这次要说一下翻译以外的问题：众所周知，二氧化碳会造成温室效应，而二氧化硫能够抑制温室效应。不过糟糕的是，几乎所有大气环境治理手段都将把其它污染性气体转变成二氧化碳为目标，包括处理二氧化硫。这就造成了约治理环境，温室效应越强的问题。这时我们的环境学家也应考虑下两者的均衡问题了。