包含关键字不平衡的文章 - 科学空间|Scientific Spaces

10 May

logsumexp运算的几个不等式

By 苏剑林 | 2022-05-10 | 21944位读者 | 引用

$\text{logsumexp}$是机器学习经常遇到的运算，尤其是交叉熵的相关实现和推导中都会经常出现，同时它还是$\max$的光滑近似（参考《寻求一个光滑的最大值函数》）。设$x=(x_1,x_2,\cdots,x_n)$，$\text{logsumexp}$定义为
\begin{equation}\text{logsumexp}(x)=\log\sum_{i=1}^n e^{x_i}\end{equation}
本文来介绍$\text{logsumexp}$的几个在理论推导中可能用得到的不等式。

基本界

记$x_{\max} = \max(x_1,x_2,\cdots,x_n)$，那么显然有
\begin{equation}e^{x_{\max}} < \sum_{i=1}^n e^{x_i} \leq \sum_{i=1}^n e^{x_{\max}} = ne^{x_{\max}}\end{equation}
各端取对数即得
\begin{equation}x_{\max} < \text{logsumexp}(x) \leq x_{\max} + \log n\end{equation}

点击阅读全文...

分类：数学研究标签：不等式, 函数阅读全文 5 评论

10 Apr

从JL引理看熵不变性Attention

By 苏剑林 | 2023-04-10 | 29078位读者 | 引用

在《从熵不变性看Attention的Scale操作》、《熵不变性Softmax的一个快速推导》中笔者提出了熵不变性Softmax，简单来说就是往Softmax之前的Attention矩阵多乘上一个$\log n$，理论上有助于增强长度外推性，其中$n$是序列长度。$\log n$这个因子让笔者联系到了JL引理（Johnson-Lindenstrauss引理），因为JL引理告诉我们编码$n$个向量只需要$\mathcal{O}(\log n)$的维度就行了，大家都是$\log n$，这两者有没有什么关联呢？

熵不变性

我们知道，熵是不确定性的度量，用在注意力机制中，我们将它作为“集中注意力的程度”。所谓熵不变性，指的是不管序列长度$n$是多少，我们都要将注意力集中在关键的几个token上，而不要太过分散。为此，我们提出的熵不变性Attention形式为
\begin{equation}Attention(Q,K,V) = softmax\left(\frac{\log_{512} n}{\sqrt{d}}QK^{\top}\right)V\label{eq:core}\end{equation}

点击阅读全文...

分类：数学研究,信息时代标签：熵, attention 阅读全文 14 评论

8 Oct

预训练一下，Transformer的长序列成绩还能涨不少！

By 苏剑林 | 2023-10-08 | 36584位读者 | 引用

作为LLM的主流模型架构，Transformer在各类任务上的总体表现都出色，大多数情况下，Transformer的槽点只是它的平方复杂度，而不是效果——除了一个名为Long Range Arena（下面简称LRA）的Benchmark。一直以来，LRA一直是线性RNN类模型的“主场”，与之相比Transformer在上面有明显的差距，以至于让人怀疑这是否就是Transformer的固有缺陷。

不过，近日论文《Never Train from Scratch: Fair Comparison of Long-Sequence Models Requires Data-Driven Priors》将这“缺失的一环”给补齐了。论文指出，缺乏预训练是Transformer在LRA上效果较差的主要原因，而所有架构都可以通过预训练获得一定的提升，Transformer的提升则更为明显。

旧背景

Long Range Arena（LRA）是长序列建模的一个Benchmark，提出自论文《Long Range Arena: A Benchmark for Efficient Transformers》，从论文标题就可以看出，LRA是为了测试各种Efficient版的Transformer而构建的，里边包含了多种类型的数据，序列长度从1k到16k不等，此前不少Efficient Transformer的工作也都在LRA进行了测试。虽然在代表性方面有些争议，但LRA依然不失为一个测试Efficient Transformer的长序列能力的经典Benchmark。

点击阅读全文...

分类：信息时代标签：语言模型, attention 阅读全文 4 评论

27 Feb

配置不同的学习率，LoRA还能再涨一点？

By 苏剑林 | 2024-02-27 | 44005位读者 | 引用

LoRA（Low-Rank Adaptation）是当前LLM的参数高效微调手段之一，此前我们在《梯度视角下的LoRA：简介、分析、猜测及推广》也有过简单讨论。这篇文章我们来学习LoRA的一个新结论：

给LoRA的两个矩阵分配不同的学习率，LoRA的效果还能进一步提升。

该结论出自最近的论文《LoRA+: Efficient Low Rank Adaptation of Large Models》（下称“LoRA+”）。咋看之下，该结论似乎没有什么特别的，因为配置不同的学习率相当于引入了新的超参数，通常来说只要引入并精调超参数都会有提升。“LoRA+”的特别之处在于，它从理论角度肯定了这个必要性，并且断定最优解必然是右矩阵的学习率大于左矩阵的学习率。简而言之，“LoRA+”称得上是理论指导训练并且在实践中确实有效的经典例子，值得仔细学习一番。

结论简析

假设预训练参数为$W_0 \in \mathbb{R}^{n\times m}$，如果使用全量参数微调，那么增量也是一个$n\times m$矩阵。为了降低参数量，LoRA将更新量约束为低秩矩阵，即设$W=W_0 + AB$，其中$A\in\mathbb{R}^{n\times r},B\in\mathbb{R}^{r\times m}$以及有$r\ll \min(n,m)$，用新的$W$替换模型原有参数，然后固定$W_0$不变，训练的时候只更新$A,B$，如下图所示：
$$\style{display: inline-block; width: 24ex; padding: 10ex 0; border: 1px solid #6C8EBF; background-color: #DAE8FC}{W_0\in\mathbb{R}^{n\times m}} \quad + \quad \style{display: inline-block; width: 8ex; padding: 10ex 0; border: 1px solid #D79B00; background-color: #FFE6CC}{A\in\mathbb{R}^{n\times r}}\quad\times\quad \style{display: inline-block; width: 24ex; padding: 3ex 0; border: 1px solid #D79B00; background-color: #FFE6CC}{B\in\mathbb{R}^{r\times m}}$$

点击阅读全文...

分类：数学研究,信息时代标签：梯度, 优化器, 低秩, lora 阅读全文 27 评论

27 Jun

哈哈，我的“《圣经》”到了

By 苏剑林 | 2013-06-27 | 54279位读者 | 引用

之前已经稍微提及到了MTW的《引力论》，这本由C.W.麦思纳（Charles W.Misner）、K.S.索恩（Kip S.Thorne）、J.A.惠勒（John Archibald Wheeler）联合编写的广义相对论教材，被誉为引力中的“《圣经》”。自从我看到它的信息开始，我就一直对它念念不忘，一直希望能找到那本台湾翻译的中文版。无奈天朝的各种因素，让我难以如愿。通过翻墙到PChome的全球购物，结合各种手段，我终于买到了这本《圣经》！

引力论1

点击阅读全文...

分类：生活/情感标签：引力, 书籍阅读全文 7 评论

7 Jul

百科翻译：草原上的狐狸（Swift Fox）

By 苏剑林 | 2009-07-07 | 36417位读者 | 引用

“维基百科”翻译又开始了，这次我们来关注下北美洲的一种珍贵动物——草原狐。
这个条目在中文的维基上没有出现过，但英文上有，现在我把它翻译过来了。由于只有两年的初中生物学习经验，所以一定有很多翻译不当的地方，请大家多提意见！谢谢

图片说明：草原狐，来自“维击百科”

点击阅读全文...

分类：生物自然标签：翻译, 动物, 维基, 狐狸, 草原阅读全文 2 评论

8 Jul

计算：每年夏至的精确时刻

By 苏剑林 | 2009-07-08 | 25934位读者 | 引用

发表一下我得出的一条公式，可以计算每一年的夏至的精确时间（太阳直射北回归线的北京时间）

公元Y年的夏至日期为该年的6月
$$21.9938+0.2422Y-\lfloor Y/4 \rfloor-\lfloor Y/400 \rfloor+\lfloor Y/100 \rfloor$$
其中$\lfloor x \rfloor$表示整数部分。

理论上该公式可以精确到分（min），时间为北京时间。

点击阅读全文...

分类：天文探索标签：节气, 精确, 夏至, 计算阅读全文 2 评论

8 Jul

百科翻译：氢氧化钠（NaOH）的详细介绍

By 苏剑林 | 2009-07-08 | 63230位读者 | 引用

对于我们来说，维基百科是一个难得的资料库，但是与其英文版相比，中文版就相形见绌了，就好像本文中所讲的氢氧化钠，在中文版的资料为http://zh.wikipedia.org/w/index.php?title=NaOH&variant=zh-cn；而在英文版的资料为http://en.wikipedia.org/wiki/NaOH 可见英文版本是多么丰富。为了使大家能够更多地了解到科学，笔者特地翻译了一些英文版的维基百科中一些资料。

点击阅读全文...

分类：物理化学标签：翻译, 维基, 氢氧化钠阅读全文 4 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

logsumexp运算的几个不等式

基本界

从JL引理看熵不变性Attention

熵不变性

预训练一下，Transformer的长序列成绩还能涨不少！

旧背景

配置不同的学习率，LoRA还能再涨一点？

结论简析

哈哈，我的“《圣经》”到了

百科翻译：草原上的狐狸（Swift Fox）

计算：每年夏至的精确时刻

百科翻译：氢氧化钠（NaOH）的详细介绍

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接