标签量子化下的文章 - 科学空间|Scientific Spaces

29 Nov

我在Performer中发现了Transformer-VQ的踪迹

By 苏剑林 | 2023-11-29 | 72001位读者 | 引用

前些天我们在《VQ一下Key，Transformer的复杂度就变成线性了》介绍了“Transformer-VQ”，这是通过将Key序列做VQ（Vector Quantize）变换来实现Attention复杂度线性化的方案。诚然，Transformer-VQ提供了标准Attention到线性Attentino的一个非常漂亮的过渡，给人一种“大道至简”的美感，但熟悉VQ的读者应该能感觉到，当编码表大小或者模型参数量进一步增加时，VQ很可能会成为效果提升的瓶颈，因为它通过STE（Straight-Through Estimator）估计的梯度大概率是次优的（FSQ的实验结果也算是提供了一些佐证）。此外，Transformer-VQ为了使训练效率也线性化所做的梯度截断，也可能成为将来的效果瓶颈之一。

为此，笔者花了一些时间思考可以替代掉VQ的线性化思路。从Transformer-VQ的$\exp\left(QC^{\top}\right)$形式中，笔者联想到了Performer，继而“顺藤摸瓜”地发现原来Performer可以视为Soft版的Transformer-VQ。进一步地，笔者尝试类比Performer的推导方法来重新导出Transformer-VQ，为其后的优化提供一些参考结果。

点击阅读全文...

分类：信息时代标签：量子化, 语言模型, attention 阅读全文 13 评论

9 Nov

VQ一下Key，Transformer的复杂度就变成线性了

By 苏剑林 | 2023-11-09 | 111046位读者 | 引用

Efficient Transformer，泛指一切致力于降低Transformer的二次复杂度的工作，开始特指针对Attention的改进，后来更一般的思路，如傅里叶变换、线性RNN等，也被归入这个范畴。不得不说，为了降低Transformer的二次复杂度，各路大牛可谓是“八仙过海，各显神通”，各种神奇的思路“百花齐放”，笔者也从中学习到了不少理论知识。然而，尽管Efficient Transformer在理论上是精彩的，但实际上该领域一直都是不愠不火的状态，并没有实际表现十分出色的模型，在LLM火爆的今天，甚至已经逐渐淡出了大家的视野，也淡出了笔者的兴趣范围。

不过，最近有一篇论文《Transformer-VQ: Linear-Time Transformers via Vector Quantization》，却让笔者为之拍案叫绝。作者非常高明地洞察到，只需要对标准Attention的Key做一下VQ（Vector Quantize），复杂度就会自动降低为线性！这种线性化思路保留了标准Attention的形式，是标准Attention到线性Attention的一个完美过渡，同时最大程度上保留了标准Attention的能力。

高效难题

说起来，本站也算是比较早关注Efficient Transformer相关工作了，最早可以追溯到2019年解读Sparse Transformer的一篇博客《为节约而生：从标准Attention到稀疏Attention》。此后，陆续写的关于Efficient Transformer的其他博文还有

点击阅读全文...

分类：数学研究,信息时代标签：量子化, 编码, 梯度, attention 阅读全文 26 评论

12 Feb

漫谈几何量子化

By 苏剑林 | 2014-02-12 | 43983位读者 | 引用

在查找量子化有关资料的时候，笔者查找到了一系列名为《漫谈几何量子化》的文章，并进一步查询得知，作者为季候风，原来发表在繁星客栈（顺便提一下，繁星客栈是最早的理论物理论坛之一，现在已经不能发帖了，但是上面很多资料都弥足珍贵），据说这是除正则量子化和路径积分量子化外的第三种量子化方法。网上鲜有几何量子化的资料，更不用说是中文资料了，于是季候风前辈的这一十五篇文章便显得格外有意义了。

然而，虽然不少网站都转载了这系列文章，但是无一例外地，文章中的公式图片已经失效了，后来笔者在百度网盘那找到其中的十四篇pdf格式的（估计是网友在公式图片失效前保存下来的），笔者通过替换公式服务器的方式找回了第十五篇，把第十五篇也补充进去了。（见漫谈几何量子化（原文档）.zip）

虽然这样已经面前能够阅读了，但是总感觉美中不足，虽然笔者花了三天时间把文章重新用$\LaTeX$录入了，主要是把公式重新录入了，简单地排版了一下。现放出来与大家分享。

点击阅读全文...

分类：物理化学,资源共享标签：转载, 几何, 量子, 量子化阅读全文 2 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前33岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

我在Performer中发现了Transformer-VQ的踪迹

VQ一下Key，Transformer的复杂度就变成线性了

高效难题

漫谈几何量子化

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接