标签 LLM 下的文章 - 科学空间|Scientific Spaces

8 Jun

Naive Bayes is all you need ?

By 苏剑林 | 2023-06-08 | 57575位读者 | 引用

很抱歉，起了这么个具有标题党特征的题目。在写完《NBCE：使用朴素贝叶斯扩展LLM的Context处理长度》之后，笔者就觉得朴素贝叶斯（Naive Bayes）跟Attention机制有很多相同的特征，后来再推导了一下发现，Attention机制其实可以看成是一种广义的、参数化的朴素贝叶斯。既然如此，“Attention is All You Need”不也就意味着“Naive Bayes is all you need”了？这就是本文标题的缘由。

接下来笔者将介绍自己的思考过程，分析如何从朴素贝叶斯角度来理解Attention机制。

朴素贝叶斯

本文主要考虑语言模型，它要建模的是 $p(x_t|x_1,\cdots,x_{t-1})$ 。根据贝叶斯公式，我们有
$\begin{equation}p(x_t|x_1,\cdots,x_{t-1}) = \frac{p(x_1,\cdots,x_{t-1}|x_t)p(x_t)}{p(x_1,\cdots,x_{t-1})}\propto p(x_1,\cdots,x_{t-1}|x_t)p(x_t)\end{equation}$

点击阅读全文...

分类：信息时代标签：语言模型, attention, LLM, 贝叶斯阅读全文 27 评论

31 May

关于NBCE方法的一些补充说明和分析

By 苏剑林 | 2023-05-31 | 31677位读者 | 引用

上周在《NBCE：使用朴素贝叶斯扩展LLM的Context处理长度》中，我们介绍了一种基于朴素贝叶斯来扩展LLM的Context长度的方案NBCE（Naive Bayes-based Context Extension）。由于它有着即插即用、模型无关、不用微调等优点，也获得了一些读者的认可，总的来说目前大家反馈的测试效果还算可以。

当然，部分读者在使用的时候也提出了一些问题。本文就结合读者的疑问和笔者的后续思考，对NBCE方法做一些补充说明和分析。

方法回顾

假设 $T$ 为要生成的token序列， $S_1,S_2,\cdots,S_n$ 是给定的若干个Context，我们需要根据 $S_1,S_2,\cdots,S_n$ 生成 $T$ ，那么就需要估计 $p(T|S_1, S_2,\cdots,S_n)$ 。根据朴素贝叶斯思想，我们得到
$\begin{equation}\log p(T|S_1, S_2,\cdots,S_n) = \color{red}{(\beta + 1)\overline{\log p(T|S)}} - \color{green}{\beta\log p(T)} + \color{skyblue}{\text{常数}}\label{eq:nbce-2}\end{equation}$

点击阅读全文...

分类：信息时代标签：语言模型, 外推, LLM, 贝叶斯阅读全文 10 评论

23 May

NBCE：使用朴素贝叶斯扩展LLM的Context处理长度

By 苏剑林 | 2023-05-23 | 97501位读者 | 引用

在LLM时代还玩朴素贝叶斯（Naive Bayes）？

这可能是许多读者在看到标题后的首个想法。确实如此，当古老的朴素贝叶斯与前沿的LLM相遇时，产生了令人惊讶的效果——我们可以直接扩展现有LLM模型的Context处理长度，无需对模型进行微调，也不依赖于模型架构，具有线性效率，而且效果看起来还不错——这就是本文所提出的NBCE（Naive Bayes-based Context Extension）方法。

摸石过河

假设 $T$ 为要生成的token序列， $S_1,S_2,\cdots,S_n$ 是给定的若干个相对独立的Context集合（比如 $n$ 个不同的段落，至少不是一个句子被分割为两个片段那种），假设它们的总长度已经超过了训练长度，而单个 $S_k$ 加 $T$ 还在训练长度内。我们需要根据 $S_1,S_2,\cdots,S_n$ 生成 $T$ ，即估计 $p(T|S_1, S_2,\cdots,S_n)$ 。

点击阅读全文...

分类：信息时代标签：语言模型, 外推, LLM, 贝叶斯阅读全文 62 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

Naive Bayes is all you need ?

朴素贝叶斯

关于NBCE方法的一些补充说明和分析

方法回顾

NBCE：使用朴素贝叶斯扩展LLM的Context处理长度

摸石过河

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接