包含关键字位置编码的文章 - 科学空间|Scientific Spaces

22 Oct

从梯度最大化看Attention的Scale操作

By 苏剑林 | 2023-10-22 | 86263位读者 | 引用

我们知道，Scaled Dot-Product Attention的Scale因子是 $\frac{1}{\sqrt{d}}$ ，其中 $d$ 是 $\boldsymbol{q},\boldsymbol{k}$ 的维度。这个Scale因子的一般解释是：如果不除以 $\sqrt{d}$ ，那么初始的Attention就会很接近one hot分布，这会造成梯度消失，导致模型训练不起来。然而，可以证明的是，当Scale等于0时同样也会有梯度消失问题，这也就是说Scale太大太小都不行。

那么多大的Scale才适合呢？ $\frac{1}{\sqrt{d}}$ 是最佳的Scale了吗？本文试图从梯度角度来回答这个问题。

已有结果

在《浅谈Transformer的初始化、参数化与标准化》中，我们已经推导过标准的Scale因子 $\frac{1}{\sqrt{d}}$ ，推导的思路很简单，假设初始阶段 $\boldsymbol{q},\boldsymbol{k}\in\mathbb{R}^d$ 都采样自“均值为0、方差为1”的分布，那么可以算得
$\begin{equation}\mathbb{V}ar[\boldsymbol{q}\cdot\boldsymbol{k}] = d\end{equation}$

点击阅读全文...

分类：数学研究,信息时代标签：优化, 梯度, attention 阅读全文 30 评论

16 Oct

随机分词再探：从Viterbi Sampling到完美采样算法

By 苏剑林 | 2023-10-16 | 35903位读者 | 引用

在文章《随机分词浅探：从Viterbi Decoding到Viterbi Sampling》中，笔者提出了一种名为“Viterbi Sampling”的随机分词算法，它只是在求最优解的Viterbi Decoding基础上进行小修改，保留了Viterbi算法的简单快速的特点，相比于已有的Subword Regularization明显更加高效。不过，知乎上的读者 @鶴舞指出，当前的采样算法可能会在多次二选一“稀释”了部分方案的出现概率，直接后果是原本分数最高的切分并不是以最高概率出现。

经过仔细思考后，笔者发现相应的问题确实存在，当时为了尽快得到一种新的采样算法，在细节上的思考和处理确实比较粗糙。为此，本文将进一步完善Viterbi Sampling算法，并证明完善后的算法在效果上可以跟Subword Regularization等价的。

问题分析

首先，我们来看一下评论原话：

点击阅读全文...

分类：信息时代标签：概率, 随机, 优化, 分词, 采样阅读全文 1 评论

27 Feb

配置不同的学习率，LoRA还能再涨一点？

By 苏剑林 | 2024-02-27 | 59263位读者 | 引用

LoRA（Low-Rank Adaptation）是当前LLM的参数高效微调手段之一，此前我们在《梯度视角下的LoRA：简介、分析、猜测及推广》也有过简单讨论。这篇文章我们来学习LoRA的一个新结论：

给LoRA的两个矩阵分配不同的学习率，LoRA的效果还能进一步提升。

该结论出自最近的论文《LoRA+: Efficient Low Rank Adaptation of Large Models》（下称“LoRA+”）。咋看之下，该结论似乎没有什么特别的，因为配置不同的学习率相当于引入了新的超参数，通常来说只要引入并精调超参数都会有提升。“LoRA+”的特别之处在于，它从理论角度肯定了这个必要性，并且断定最优解必然是右矩阵的学习率大于左矩阵的学习率。简而言之，“LoRA+”称得上是理论指导训练并且在实践中确实有效的经典例子，值得仔细学习一番。

结论简析

假设预训练参数为 $W_0 \in \mathbb{R}^{n\times m}$ ，如果使用全量参数微调，那么增量也是一个 $n\times m$ 矩阵。为了降低参数量，LoRA将更新量约束为低秩矩阵，即设 $W=W_0 + AB$ ，其中 $A\in\mathbb{R}^{n\times r},B\in\mathbb{R}^{r\times m}$ 以及有 $r\ll \min(n,m)$ ，用新的 $W$ 替换模型原有参数，然后固定 $W_0$ 不变，训练的时候只更新 $A,B$ ，如下图所示：
$\style{display: inline-block; width: 24ex; padding: 10ex 0; border: 1px solid #6C8EBF; background-color: #DAE8FC}{W_0\in\mathbb{R}^{n\times m}} \quad + \quad \style{display: inline-block; width: 8ex; padding: 10ex 0; border: 1px solid #D79B00; background-color: #FFE6CC}{A\in\mathbb{R}^{n\times r}}\quad\times\quad \style{display: inline-block; width: 24ex; padding: 3ex 0; border: 1px solid #D79B00; background-color: #FFE6CC}{B\in\mathbb{R}^{r\times m}}$

点击阅读全文...

分类：数学研究,信息时代标签：梯度, 优化器, 低秩, lora 阅读全文 27 评论

17 Apr

生成扩散模型漫谈（二十三）：信噪比与大图生成（下）

By 苏剑林 | 2024-04-17 | 41237位读者 | 引用

上一篇文章《生成扩散模型漫谈（二十二）：信噪比与大图生成（上）》中，我们介绍了通过对齐低分辨率的信噪比来改进noise schedule，从而改善直接在像素空间训练的高分辨率图像生成（大图生成）的扩散模型效果。而这篇文章的主角同样是信噪比和大图生成，但做到了更加让人惊叹的事情——直接将训练好低分辨率图像的扩散模型用于高分辨率图像生成，不用额外的训练，并且效果和推理成本都媲美直接训练的大图模型！

这个工作出自最近的论文《Upsample Guidance: Scale Up Diffusion Models without Training》，它巧妙地将低分辨率模型上采样作为引导信号，并结合了CNN对纹理细节的平移不变性，成功实现了免训练高分辨率图像生成。

思想探讨

我们知道，扩散模型的训练目标是去噪（Denoise，也是DDPM的第一个D）。按我们的直觉，去噪这个任务应该是分辨率无关的，换句话说，理想情况下低分辨率图像训练的去噪模型应该也能用于高分辨率图像去噪，从而低分辨率的扩散模型应该也能直接用于高分辨率图像生成。

点击阅读全文...

分类：信息时代标签：无监督, 生成模型, 扩散, 信噪比阅读全文 16 评论

6 Aug

通向最优分布之路：概率空间的最小化

By 苏剑林 | 2024-08-06 | 25382位读者 | 引用

当要求函数的最小值时，我们通常会先求导函数然后寻找其零点，比较幸运的情况下，这些零点之一正好是原函数的最小值点。如果是向量函数，则将导数改为梯度并求其零点。当梯度零点不易求得时，我们可以使用梯度下降来逐渐逼近最小值点。

以上这些都是无约束优化的基础结果，相信不少读者都有所了解。然而，本文的主题是概率空间中的优化，即目标函数的输入是一个概率分布，这类目标的优化更为复杂，因为它的搜索空间不再是无约束的，如果我们依旧去求解梯度零点或者执行梯度下降，所得结果未必能保证是一个概率分布。因此，我们需要寻找一种新的分析和计算方法，以确保优化结果能够符合概率分布的特性。

对此，笔者一直以来也感到颇为头疼，所以近来决定”痛定思痛“，针对概率分布的优化问题系统学习了一番，最后将学习所得整理在此，供大家参考。

点击阅读全文...

分类：数学研究标签：概率, 优化, 梯度, 扩散阅读全文 6 评论

19 Sep

Softmax后传：寻找Top-K的光滑近似

By 苏剑林 | 2024-09-19 | 40137位读者 | 引用

Softmax，顾名思义是“soft的max”，是 $\max$ 算子（准确来说是 $\text{argmax}$ ）的光滑近似，它通过指数归一化将任意向量 $\boldsymbol{x}\in\mathbb{R}^n$ 转化为分量非负且和为1的新向量，并允许我们通过温度参数来调节它与 $\text{argmax}$ （的one hot形式）的近似程度。除了指数归一化外，我们此前在《通向概率分布之路：盘点Softmax及其替代品》也介绍过其他一些能实现相同效果的方案。

我们知道，最大值通常又称Top-1，它的光滑近似方案看起来已经相当成熟，那读者有没有思考过，一般的Top- $k$ 的光滑近似又是怎么样的呢？下面让我们一起来探讨一下这个问题。

问题描述

设向量 $\boldsymbol{x}=(x_1,x_2,\cdots,x_n)\in\mathbb{R}^n$ ，简单起见我们假设它们两两不相等，即 $i\neq j \Leftrightarrow x_i\neq x_j$ 。记 $\Omega_k(\boldsymbol{x})$ 为 $\boldsymbol{x}$ 最大的 $k$ 个分量的下标集合，即 $|\Omega_k(\boldsymbol{x})|=k$ 以及 $\forall i\in \Omega_k(\boldsymbol{x}), j \not\in \Omega_k(\boldsymbol{x})\Rightarrow x_i > x_j$ 。我们定义Top- $k$ 算子 $\mathcal{T}_k$ 为 $\mathbb{R}^n\mapsto\{0,1\}^n$ 的映射：
$\begin{equation} [\mathcal{T}_k(\boldsymbol{x})]_i = \left\{\begin{aligned}1,\,\, i\in \Omega_k(\boldsymbol{x}) \\ 0,\,\, i \not\in \Omega_k(\boldsymbol{x})\end{aligned}\right. \end{equation}$
说白了，如果 $x_i$ 属于最大的 $k$ 个元素之一，那么对应的位置变成1，否则变成0，最终结果是一个Multi-Hot向量，比如 $\mathcal{T}_2([3,2,1,4]) = [1,0,0,1]$ 。

点击阅读全文...

分类：数学研究标签：概率, 近似, 梯度, 光滑阅读全文 30 评论

30 Oct

低秩近似之路（四）：ID

By 苏剑林 | 2024-10-30 | 24308位读者 | 引用

这篇文章的主角是ID（Interpolative Decomposition），中文可以称之为“插值分解”，它同样可以理解为是一种具有特定结构的低秩分解，其中的一侧是该矩阵的若干列（当然如果你偏好于行，那么选择行也没什么问题），换句话说，ID试图从一个矩阵中找出若干关键列作为“骨架”（通常也称作“草图”）来逼近原始矩阵。

可能很多读者都未曾听说过ID，即便维基百科也只有几句语焉不详的介绍（链接），但事实上，ID跟SVD一样早已内置在SciPy之中（参考scipy.linalg.interpolative），这侧面印证了ID的实用价值。

基本定义

前三篇文章我们分别介绍了伪逆、SVD、CR近似，它们都可以视为寻找特定结构的低秩近似：
$\begin{equation}\mathop{\text{argmin}}_{\text{rank}(\tilde{\boldsymbol{M}})\leq r}\Vert \tilde{\boldsymbol{M}} - \boldsymbol{M}\Vert_F^2\end{equation}$

点击阅读全文...

分类：数学研究标签：近似, 最优, 矩阵, 低秩阅读全文 4 评论

16 Oct

Cool Papers浏览器扩展升级至v0.2.0

By 苏剑林 | 2024-10-16 | 25105位读者 | 引用

年初，我们在《更便捷的Cool Papers打开方式：Chrome重定向扩展》中发布了一个Chrome浏览器插件（Cool Papers Redirector v0.1.0），可以通过右击菜单从任意页面中重定向到Cool Papers中，让大家更方便地获取Kimi对论文的理解。前几天我们把该插件升级到了v0.2.0，并顺利上架到了Chrome应用商店中，遂在此向大家推送一下。

更新汇总

相比旧版v0.1.0，当前版v0.2.0的主要更新内容如下：

1、右键菜单跳转改为在新标签页打开；
2、右键菜单支持同时访问多个论文ID；
3、右键菜单支持PDF页面；
4、右键菜单新增更多论文源（arXiv、OpenReview、ACL、IJCAI、PMLR）；
5、右键菜单在搜索不到论文ID时，转入站内搜索（即划词搜索）；
6、在某些网站的适当位置插入快捷跳转链接（arXiv、OpenReview，ACL）。

点击阅读全文...

分类：信息时代标签：网站, 论文, 酷论文阅读全文 10 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

从梯度最大化看Attention的Scale操作

已有结果

随机分词再探：从Viterbi Sampling到完美采样算法

问题分析

配置不同的学习率，LoRA还能再涨一点？

结论简析

生成扩散模型漫谈（二十三）：信噪比与大图生成（下）

思想探讨

通向最优分布之路：概率空间的最小化

Softmax后传：寻找Top-K的光滑近似

问题描述

低秩近似之路（四）：ID

基本定义

Cool Papers浏览器扩展升级至v0.2.0

更新汇总

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接