包含关键字推荐系统解耦的文章 - 科学空间|Scientific Spaces

7 Dec

生成扩散模型漫谈（二十一）：中值定理加速ODE采样

By 苏剑林 | 2023-12-07 | 75884位读者 | 引用

在生成扩散模型的发展史上，DDIM和同期Song Yang的扩散SDE都称得上是里程碑式的工作，因为它们建立起了扩散模型与随机微分方程（SDE）、常微分方程（ODE）这两个数学领域的紧密联系，从而允许我们可以利用SDE、ODE已有的各种数学工具来对分析、求解和拓展扩散模型，比如后续大量的加速采样工作都以此为基础，可以说这打开了生成扩散模型的一个全新视角。

本文我们聚焦于ODE。在本系列的（六）、（十二）、（十四）、（十五）、（十七）等博客中，我们已经推导过ODE与扩散模型的联系，本文则对扩散ODE的采样加速做简单介绍，并重点介绍一种巧妙地利用“中值定理”思想的新颖采样加速方案“AMED”。

欧拉方法

正如前面所说，我们已经有多篇文章推导过扩散模型与ODE的联系，所以这里不重复介绍，而是直接将扩散ODE的采样定义为如下ODE的求解：
\begin{equation}\frac{d\boldsymbol{x}_t}{dt} = \boldsymbol{v}_{\boldsymbol{\theta}}(\boldsymbol{x}_t, t)\label{eq:dm-ode}\end{equation}

点击阅读全文...

分类：数学研究,信息时代标签：微分方程, 生成模型, 扩散阅读全文 52 评论

12 Dec

注意力机制真的可以“集中注意力”吗？

By 苏剑林 | 2023-12-12 | 45438位读者 | 引用

之前在《Transformer升级之路：3、从Performer到线性Attention》、《为什么现在的LLM都是Decoder-only的架构？》等文章中，我们从Attention矩阵的“秩”的角度探讨了Attention机制，并曾经判断线性Attention不如标准Attention的关键原因正是“低秩瓶颈”。然而，这一解释对于双向的Encoder模型或许成立，但却难以适用于单向的Decoder模型，因为Decoder的Attention矩阵的上三角部分是被mask掉的，留下的下三角矩阵必然是满秩的，而既然都是满秩了，那么低秩瓶颈问题似乎就不复存在了。

所以，“低秩瓶颈”并不能完全解释线性Attention的能力缺陷。在这篇文章中，笔者试图寻求另一个角度的解释。简单来说，与标准Attention相比，线性Attention更难“集中注意力”，从而难以准确地定位到关键token，这大概是它效果稍逊一筹的主要原因。

点击阅读全文...

分类：信息时代标签：熵, 稀疏, attention, 秩阅读全文 8 评论

25 Dec

写了个刷论文的辅助网站：Cool Papers

By 苏剑林 | 2023-12-25 | 95237位读者 | 引用

写在开头

一直以来，笔者都有日刷Arxiv的习惯，以求尽可能跟上领域内最新成果，并告诫自己“不进则退”。之前也有不少读者问我是怎么刷Arxiv的、有什么辅助工具等，但事实上，在很长的时间里，笔者都是直接刷Arxiv官网，并且没有用任何算法过滤，都是自己一篇篇过的。这个过程很枯燥，但并非不能接受，之所以不用算法初筛，主要还是担心算法漏召，毕竟“刷”就是为了追新，一旦算法漏召就“错失先机”了。

自从Kimi Chat发布后，笔者就一直计划着写一个辅助网站结合Kimi来加速刷论文的过程。最近几个星期稍微闲了一点，于是在GPT4、Kimi的帮助下，初步写成了这个网站，并且经过几天的测试和优化后，已经逐步趋于稳定，于是正式邀请读者试用。

Cool Papers：https://papers.cool

点击阅读全文...

分类：信息时代标签：网站, 论文阅读全文 64 评论

19 Dec

让炼丹更科学一些（一）：SGD的平均损失收敛

By 苏剑林 | 2023-12-19 | 36597位读者 | 引用

很多时候我们将深度学习模型的训练过程戏称为“炼丹”，因为整个过程跟古代的炼丹术一样，看上去有一定的科学依据，但整体却给人一种“玄之又玄”的感觉。尽管本站之前也关注过一些优化器相关的工作，甚至也写过《从动力学角度看优化算法》系列，但都是比较表面的介绍，并没有涉及到更深入的理论。为了让以后的炼丹更科学一些，笔者决定去补习一些优化相关的理论结果，争取让炼丹之路多点理论支撑。

在本文中，我们将学习随机梯度下降（SGD）的一个非常基础的收敛结论。虽然现在看来，该结论显得很粗糙且不实用，但它是优化器收敛性证明的一次非常重要的尝试，特别是它考虑了我们实际使用的是随机梯度下降（SGD）而不是全量梯度下降（GD）这一特性，使得结论更加具有参考意义。

问题设置

设损失函数是$L(\boldsymbol{x},\boldsymbol{\theta})$，其实$\boldsymbol{x}$是训练集，而$\boldsymbol{\theta}\in\mathbb{R}^d$是训练参数。受限于算力，我们通常只能执行随机梯度下降（SGD），即每步只能采样一个训练子集来计算损失函数并更新参数，假设采样是独立同分布的，第$t$步采样到的子集为$\boldsymbol{x}_t$，那么我们可以合理地认为实际优化的最终目标是
\begin{equation}L(\boldsymbol{\theta}) = \lim_{T\to\infty}\frac{1}{T}\sum_{t=1}^T L(\boldsymbol{x}_t,\boldsymbol{\theta})\label{eq:loss}\end{equation}

点击阅读全文...

分类：信息时代标签：不等式, 优化器, sgd, 炼丹阅读全文 6 评论

2 Feb

更便捷的Cool Papers打开方式：Chrome重定向扩展

By 苏剑林 | 2024-02-02 | 46851位读者 | 引用

一些铺垫

自Cool Papers上线以来，很多用户就建议笔者加入搜索功能，后面也确实在前端用JS简单做了个页面内搜索，解决了部分用户的需求，但仍有读者希望引入更完整的全局搜索。诚然，笔者理解这个需求确实是存在，但Cool Papers的数据是逐天累积的，目前才上线一个月，论文数并不多，建立一个大而全的搜索引擎意义不大，其次做搜索也不是笔者的强项，以及并没有很好的利用LLM优化搜索的思路，等等。总而言之，暂时没有条件实现一个全面而又有特色的搜索，所以不如不做（也欢迎大家在评论区集思广益）。

后来，经过和同事讨论，想出了一个“借花献佛”的思路——写一个Chrome的重定向扩展，可以从任意页面重定向到Cool Papers。这样我们可以用任意方式（如Google搜索或者直接Arxiv官方搜索）找到Arxiv上的论文，然后右击一下就转到Cool Papers了。前两周这个扩展已经在Chrome应用商店上线，上周服务器配合做了一些调整，如今大家可以尝试使用了。

扩展地址：Cool Papers Redirector

点击阅读全文...

分类：信息时代标签：网站, 论文, 酷论文阅读全文 20 评论

21 Feb

“闭门造车”之多模态思路浅谈（一）：无损输入

By 苏剑林 | 2024-02-21 | 148881位读者 | 引用

这篇文章分享一下笔者关于多模态模型架构的一些闭门造车的想法，或者说一些猜测。

最近Google的Gemini 1.5和OpenAI的Sora再次点燃了不少人对多模态的热情，只言片语的技术报告也引起了大家对其背后模型架构的热烈猜测。不过，本文并非是为了凑这个热闹才发出来的，事实上其中的一些思考由来已久，最近才勉强捋顺了一下，遂想写出来跟大家交流一波，刚好碰上了两者的发布。

事先声明，“闭门造车”一词并非自谦，笔者的大模型实践本就“乏善可陈”，而多模态实践更是几乎“一片空白”，本文确实只是根据以往文本生成和图像生成的一些经验所做的“主观臆测”。

问题背景

首先简化一下问题，本文所讨论的多模态，主要指图文混合的双模态，即输入和输出都可以是图文。可能有不少读者的第一感觉是：多模态模型难道不也是烧钱堆显卡，Transformer“一把梭”，最终“大力出奇迹”吗？

点击阅读全文...

分类：信息时代标签：生成模型, attention, 扩散, 多模态阅读全文 72 评论

7 Mar

用傅里叶级数拟合一维概率密度函数

By 苏剑林 | 2024-03-07 | 32995位读者 | 引用

在《“闭门造车”之多模态思路浅谈（一）：无损输入》中我们曾提到，图像生成的本质困难是没有一个连续型概率密度的万能拟合器。当然，也不能说完全没有，比如高斯混合模型（GMM）理论上就是可以拟合任意概率密度，就连GAN本质上也可以理解为混合了无限个高斯模型的GMM。然而，GMM尽管理论上的能力是足够的，但它的最大似然估计会很困难，尤其是通常不适用基于梯度的优化器，这限制了它的使用场景。

近日，Google的一篇新论文《Fourier Basis Density Model》针对一维情形，提出了一个新的解决方案——用傅里叶级数来拟合。论文的分析过程颇为有趣，构造形式也很是巧妙，值得学习一番。

问题简述

可能有读者质疑：只研究一维情形有什么价值？确实，如果只考虑图像生成场景，那可能真的价值有限，但一维概率密度估计本身有它的应用价值，如数据的有损压缩，所以它依然是一个值得研究的主题。再者，即便我们需要研究多维的概率密度，也可以通过自回归的方式转化为多个一维的条件概率密度来估计。最后，这个分析和构造过程本身就很值得回味，所以哪怕是仅仅作为一道数学分析题来练习也是相当有益的。

点击阅读全文...

分类：数学研究标签：级数, 概率, 分析, 逼近阅读全文 13 评论

13 May

缓存与效果的极限拉扯：从MHA、MQA、GQA到MLA

By 苏剑林 | 2024-05-13 | 73604位读者 | 引用

前几天，幻方发布的DeepSeek-V2引起了大家的热烈讨论。首先，最让人哗然的是1块钱100万token的价格，普遍比现有的各种竞品API便宜了两个数量级，以至于有人调侃“这个价格哪怕它输出乱码，我也会认为这个乱码是一种艺术”；其次，从模型的技术报告看，如此便宜的价格背后的关键技术之一是它新提出的MLA（Multi-head Latent Attention），这是对GQA的改进，据说能比GQA更省更好，也引起了读者的广泛关注。

接下来，本文将跟大家一起梳理一下从MHA、MQA、GQA到MLA的演变历程，并着重介绍一下MLA的设计思路。

MHA

MHA（Multi-Head Attention），也就是多头注意力，是开山之作《Attention is all you need》所提出的一种Attention形式，可以说它是当前主流LLM的基础工作。在数学上，多头注意力MHA等价于多个独立的单头注意力的拼接，假设输入的（行）向量序列为$\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_l$，其中$\boldsymbol{x}_i\in\mathbb{R}^d$，那么MHA可以形式地记为

点击阅读全文...

分类：信息时代标签：优化, 语言模型, 生成模型, attention 阅读全文 75 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

生成扩散模型漫谈（二十一）：中值定理加速ODE采样

欧拉方法

注意力机制真的可以“集中注意力”吗？

写了个刷论文的辅助网站：Cool Papers

写在开头

让炼丹更科学一些（一）：SGD的平均损失收敛

问题设置

更便捷的Cool Papers打开方式：Chrome重定向扩展

一些铺垫

“闭门造车”之多模态思路浅谈（一）：无损输入

问题背景

用傅里叶级数拟合一维概率密度函数

问题简述

缓存与效果的极限拉扯：从MHA、MQA、GQA到MLA

MHA

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接