包含关键字从动力学角度看优化算法的文章

26 Jan

Transformer升级之路：16、“复盘”长度外推技术

By 苏剑林 | 2024-01-26 | 93621位读者 | 引用

回过头来看，才发现从第7篇《Transformer升级之路：7、长度外推性与局部注意力》开始，“Transformer升级之路”这个系列就跟长度外推“杠”上了，接连9篇文章（不算本文）都是围绕长度外推展开的。如今，距离第7篇文章刚好是一年多一点，在这一年间，开源社区关于长度外推的研究有了显著进展，笔者也逐渐有了一些自己的理解，比如其实这个问题远不像一开始想象那么简单，以往很多基于局部注意力的工作也不总是有效，这暗示着很多旧的分析工作并没触及问题的核心。

在这篇文章中，笔者尝试结合自己的发现和认识，去“复盘”一下主流的长度外推结果，并试图从中发现免训练长度外推的关键之处。

问题定义

顾名思义，免训练长度外推，就是不需要用长序列数据进行额外的训练，只用短序列语料对模型进行训练，就可以得到一个能够处理和预测长序列的模型，即“Train Short, Test Long”。那么如何判断一个模型能否用于长序列呢？最基本的指标就是模型的长序列Loss或者PPL不会爆炸，更加符合实践的评测则是输入足够长的Context，让模型去预测答案，然后跟真实答案做对比，算BLEU、ROUGE等，LongBench就是就属于这类榜单。

点击阅读全文...

分类：信息时代标签：attention, 位置编码, 泛化, 外推, rope 阅读全文 55 评论

29 Mar

Transformer升级之路：17、多模态位置编码的简单思考

By 苏剑林 | 2024-03-29 | 76461位读者 | 引用

在这个系列的第二篇文章《Transformer升级之路：2、博采众长的旋转式位置编码》中，笔者提出了旋转位置编码（RoPE）——通过绝对位置的形式实现相对位置编码的方案。一开始RoPE是针对一维序列如文本、音频等设计的（RoPE-1D），后来在《Transformer升级之路：4、二维位置的旋转式位置编码》中我们将它推广到了二维序列（RoPE-2D），这适用于图像的ViT。然而，不管是RoPE-1D还是RoPE-2D，它们的共同特点都是单一模态，即纯文本或者纯图像输入场景，那么对于多模态如图文混合输入场景，RoPE该做如何调整呢？

笔者搜了一下，发现鲜有工作讨论这个问题，主流的做法似乎都是直接展平所有输入，然后当作一维输入来应用RoPE-1D，因此连RoPE-2D都很少见。且不说这种做法会不会成为图像分辨率进一步提高时的效果瓶颈，它终究是显得不够优雅。所以，接下来我们试图探寻两者的一个自然结合。

旋转位置

RoPE名称中的“旋转”一词，来源于旋转矩阵 $\boldsymbol{\mathcal{R}}_n=\begin{pmatrix}\cos n\theta & -\sin n\theta\\ \sin n\theta & \cos n\theta\end{pmatrix}$ ，它满足
$\begin{equation}\boldsymbol{\mathcal{R}}_m^{\top}\boldsymbol{\mathcal{R}}_n=\boldsymbol{\mathcal{R}}_{n-m}\end{equation}$

点击阅读全文...

分类：信息时代标签：attention, 位置编码, rope, 多模态阅读全文 35 评论

21 Feb

MoE环游记：2、不患寡而患不均

By 苏剑林 | 2025-02-21 | 14910位读者 | 引用

在上一篇文章《MoE环游记：1、从几何意义出发》中，我们介绍了MoE的一个几何诠释，旨在通过Dense模型的最佳逼近出发来推导和理解MoE。同时在文末我们也说了，给出MoE的计算公式仅仅是开始，训练一个实际有效的MoE模型还有很多细节补，比如本文要讨论的负载均衡（Load Balance）问题。

负载均衡，即“不患寡而患不均”，说白了就是让每个Expert都在干活，并且都在干尽可能一样多的活，避免某些Expert浪费算力。负载均衡既是充分利用训练算力的需求，也是尽可能发挥MoE大参数量潜力的需求。

需求分析

我们知道，MoE的基本形式是
$\begin{equation}\boldsymbol{y} = \sum_{i\in \mathop{\text{argtop}}_k \boldsymbol{\rho}} \rho_i \boldsymbol{e}_i\end{equation}$

点击阅读全文...

分类：数学研究,信息时代标签：损失函数, 梯度, 稀疏, moe 阅读全文 26 评论

26 Dec

《自然极值》系列——8.极值分析

By 苏剑林 | 2010-12-26 | 49914位读者 | 引用

《非线性泛函分析及其应用,第3卷,变分法及最优化》

本篇文章是《自然极值》系列最后一篇文章，估计也是2010年最后一篇文章了。在这个美好的2010年，想必大家一定收获匪浅，BoJone也在2010年成长了很多。在2010年的尾声，BoJone和科学空间都祝大家在新的一年里更加开心快乐，在科学的道路上更快速地前行。

在本文，BoJone将与大家讨论求极值的最基本原理。这一探讨思路受到了天才的费恩曼所著《费恩曼物理讲义》的启迪。我们分别对函数求极值（求导）和泛函数极值（变分）进行一些简略的分析。

一、函数求极值

对于一个函数 $y=f(x)$ ，设想它在 $x=x_0$ 处取到最大值，那么显然对于很小的增量 $\Delta x$ ，有
$f(x_0+\Delta x) \leq f(x_0)\tag{3}$ 根据泰勒级数，我们有
$f(x_0+\Delta x)=f(x_0)+f'(x_0)\Delta x$ ————(4)

点击阅读全文...

分类：数学研究标签：2010, 极值, 分析, 变分, 2011 阅读全文 8 评论

2 Jul

[追溯]封装界传奇人物

By 苏剑林 | 2014-07-02 | 20305位读者 | 引用

转载理由：现在的deepin和ylmf（已经改为StartOs）都已经在制作自己的Linux，而当初它们都是制作GhostXp的大家。我的初中，即2009年以前，是GhostXP流行的时代，而我当时也加入了这一行列中，发表过一些GhostXP的作品。后来随着时代的发展，XP也就慢慢退出了舞台。我也就随之退出了这个舞台，也因此得以专注科学。但是，几乎所有我的电脑知识，都积累于那个时期，因为为了完成一个系统的制作和推广，需要懂得的电脑技术很多很多，我也得到了充分的锻炼。下面列举的一些人，都是当年GhostXP界的神话人物，有些我并不认识，但其名在当时就如雷贯耳；有些人在当时还十分幸运地加上了他们的QQ。这篇文章实际上已经是很久已经的了，但还是值得回味过去的时间，以此为我的初中时代留下一些回忆。

点击阅读全文...

分类：千奇百怪标签：转载, 电脑, 追溯阅读全文抢沙发

13 Feb

Designing GANs：又一个GAN生产车间

By 苏剑林 | 2020-02-13 | 36309位读者 | 引用

在2018年的文章里《f-GAN简介：GAN模型的生产车间》笔者介绍了f-GAN，并评价其为GAN模型的“生产车间”，顾名思义，这是指它能按照固定的流程构造出很多不同形式的GAN模型来。前几天在arxiv上看到了新出的一篇论文《Designing GANs: A Likelihood Ratio Approach》（后面简称Designing GANs或原论文），发现它在做跟f-GAN同样的事情，但走的是一条截然不同的路（不过最后其实是殊途同归），整篇论文颇有意思，遂在此分享一番。

f-GAN回顾

从《f-GAN简介：GAN模型的生产车间》中我们可以知道，f-GAN的首要步骤是找到满足如下条件的函数 $f$ ：

1、 $f$ 是非负实数到实数的映射（ $\mathbb{R}^* \to \mathbb{R}$ ）；
2、 $f(1)=0$ ；
3、 $f$ 是凸函数。

点击阅读全文...

分类：数学研究,信息时代标签：微积分, GAN, 生成模型阅读全文 4 评论

2 May

寻求一个光滑的最大值函数

By 苏剑林 | 2015-05-02 | 145737位读者 | 引用

在最优化问题中，求一个函数的最大值或最小值，最直接的方法是求导，然后比较各阶极值的大小。然而，我们所要优化的函数往往不一定可导，比如函数中含有最大值函数 $\max(x,y)$ 的。这时候就得求助于其他思路了。有一个很巧妙的思路是，将这些不可导函数用一个可导的函数来近似它，从而我们用求极值的方法来求出它近似的最优值。本文的任务，就是探究一个简单而有用的函数，它能够作为最大值函数的近似，并且具有多阶导数。下面是笔者给出的一个推导过程。

在数学分析中，笔者已经学习过一个关于最大值函数的公式，即当 $x \geq 0, y \geq 0$ 时，我们有
$\max(x,y)=\frac{1}{2}\left(|x+y|+|x-y|\right)\tag{1}$
那么，为了寻求一个最大值的函数，我们首先可以考虑寻找一个能够近似表示绝对值 $|x|$ 的函数，这样我们就把问题从二维降低到一维了。那么，哪个函数可以使用呢？

点击阅读全文...

分类：数学研究标签：函数, 极值, 光滑阅读全文 46 评论

19 Oct

【理解黎曼几何】6. 曲率的计数与计算(Python)

By 苏剑林 | 2016-10-19 | 56772位读者 | 引用

曲率的独立分量

黎曼曲率张量是一个非常重要的张量，当且仅当它全部分量为0时，空间才是平直的。它也出现在爱因斯坦的场方程中。总而言之，只要涉及到黎曼几何，黎曼曲率张量就必然是核心内容。

已经看到，黎曼曲率张量有4个指标，这也意味着它有 $n^4$ 个分量， $n$ 是空间的维数。那么在2、3、4维空间中，它就有16、81、256个分量了，可见，要计算它，是一件相当痛苦的事情。幸好，这个张量有很多的对称性质，使得独立分量的数目大大减少，我们来分析这一点。

首先我们来导出黎曼曲率张量的一些对称性质，这部分内容是跟经典教科书是一致的。定义
$R_{\mu\alpha\beta\gamma}=g_{\mu\nu}R^{\nu}_{\alpha\beta\gamma} \tag{50}$
定义这个量的原因，要谈及逆变张量和协变张量的区别，我们这里主要关心几何观，因此略过对张量的详细分析。这个量被称为完全协变的黎曼曲率张量，有时候也直接叫做黎曼曲率张量，只要不至于混淆，一般不做区分。通过略微冗长的代数运算（在一般的微分几何、黎曼几何或者广义相对论教材中都有），可以得到
$\begin{aligned}&R_{\mu\alpha\beta\gamma}=-R_{\mu\alpha\gamma\beta}\\ &R_{\mu\alpha\beta\gamma}=-R_{\alpha\mu\beta\gamma}\\ &R_{\mu\alpha\beta\gamma}=R_{\beta\gamma\mu\alpha}\\ &R_{\mu\alpha\beta\gamma}+R_{\mu\beta\gamma\alpha}+R_{\mu\gamma\alpha\beta}=0 \end{aligned} \tag{51}$

点击阅读全文...

分类：数学研究标签：几何, 曲率, python, 黎曼几何, 排列组合阅读全文 3 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

Transformer升级之路：16、“复盘”长度外推技术

问题定义

Transformer升级之路：17、多模态位置编码的简单思考

旋转位置

MoE环游记：2、不患寡而患不均

需求分析

《自然极值》系列——8.极值分析

[追溯]封装界传奇人物

Designing GANs：又一个GAN生产车间

f-GAN回顾

寻求一个光滑的最大值函数

【理解黎曼几何】6. 曲率的计数与计算(Python)

曲率的独立分量

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接