包含关键字从动力学角度看优化算法的文章

13 Sep

大词表语言模型在续写任务上的一个问题及对策

By 苏剑林 | 2023-09-13 | 30187位读者 | 引用

对于LLM来说，通过增大Tokenizer的词表来提高压缩率，从而缩短序列长度、降低解码成本，是大家都喜闻乐见的事情。毕竟增大词表只需要增大Embedding层和输出的Dense层，这部分增加的计算量几乎不可感知，但缩短序列长度之后带来的解码速度提升却是实打实的。当然，增加词表大小也可能会对模型效果带来一些负面影响，所以也不能无节制地增加词表大小。本文就来分析增大词表后语言模型在续写任务上会出现的一个问题，并提出参考的解决方案。

优劣分析

增加词表大小的好处是显而易见的。一方面，由于LLM是自回归的，它的解码会越来越慢，而“增大词表 → 提高压缩率 → 缩短序列长度”，换言之相同文本对应的tokens数变少了，也就是解码步数变少了，从而解码速度提升了；另一方面，语言模型的训练方式是Teacher Forcing，缩短序列长度能够缓解Teacher Forcing带来的Exposure Bias问题，从而可能提升模型效果。

点击阅读全文...

分类：信息时代标签：概率, 问题, 语言模型阅读全文 13 评论

20 Sep

自然数集中 N = ab + c 时 a + b + c 的最小值

By 苏剑林 | 2023-09-20 | 37894位读者 | 引用

前天晚上微信群里有群友提出了一个问题：

对于一个任意整数$N > 100$，求一个近似算法，使得$N=a\times b+c$（其中$a,b,c$都是非负整数），并且令$a+b+c$尽量地小。

初看这道题，笔者第一感觉就是“这还需要算法？”，因为看上去自由度太大了，应该能求出个解析解才对，于是简单分析了一下之后就给出了个“答案”，结果很快就有群友给出了反例。这时，笔者才意识到这题并非那么平凡，随后正式推导了一番，总算得到了一个可行的算法。正当笔者以为这个问题已经结束时，另一个数学群的群友精妙地构造了新的参数化，证明了算法的复杂度还可以进一步下降！

整个过程波澜起伏，让笔者获益匪浅，遂将过程记录在此，与大家分享。

点击阅读全文...

分类：数学研究,问题百科标签：最优, 问题阅读全文 14 评论

23 Apr

生成扩散模型漫谈（二十四）：少走捷径，更快到达

By 苏剑林 | 2024-04-23 | 29611位读者 | 引用

如何减少采样步数同时保证生成质量，是扩散模型应用层面的一个关键问题。其中，《生成扩散模型漫谈（四）：DDIM = 高观点DDPM》介绍的DDIM可谓是加速采样的第一次尝试。后来，《生成扩散模型漫谈（五）：一般框架之SDE篇》、《生成扩散模型漫谈（五）：一般框架之ODE篇》等所介绍的工作将扩散模型与SDE、ODE联系了起来，于是相应的数值积分技术也被直接用于扩散模型的采样加速，其中又以相对简单的ODE加速技术最为丰富，我们在《生成扩散模型漫谈（二十一）：中值定理加速ODE采样》也介绍过一例。

这篇文章我们介绍另一个特别简单有效的加速技巧——Skip Tuning，出自论文《The Surprising Effectiveness of Skip-Tuning in Diffusion Sampling》，准确来说它是配合已有的加速技巧使用，来一步提高采样质量，这就意味着在保持相同采样质量的情况下，它可以进一步压缩采样步数，从而实现加速。

点击阅读全文...

分类：信息时代标签：微分方程, 生成模型, 扩散阅读全文 13 评论

19 Sep

Softmax后传：寻找Top-K的光滑近似

By 苏剑林 | 2024-09-19 | 22119位读者 | 引用

Softmax，顾名思义是“soft的max”，是$\max$算子（准确来说是$\text{argmax}$）的光滑近似，它通过指数归一化将任意向量$\boldsymbol{x}\in\mathbb{R}^n$转化为分量非负且和为1的新向量，并允许我们通过温度参数来调节它与$\text{argmax}$（的one hot形式）的近似程度。除了指数归一化外，我们此前在《通向概率分布之路：盘点Softmax及其替代品》也介绍过其他一些能实现相同效果的方案。

我们知道，最大值通常又称Top-1，它的光滑近似方案看起来已经相当成熟，那读者有没有思考过，一般的Top-$k$的光滑近似又是怎么样的呢？下面让我们一起来探讨一下这个问题。

问题描述

设向量$\boldsymbol{x}=(x_1,x_2,\cdots,x_n)\in\mathbb{R}^n$，简单起见我们假设它们两两不相等，即$i\neq j \Leftrightarrow x_i\neq x_j$。记$\Omega_k(\boldsymbol{x})$为$\boldsymbol{x}$最大的$k$个分量的下标集合，即$|\Omega_k(\boldsymbol{x})|=k$以及$\forall i\in \Omega_k(\boldsymbol{x}), j \not\in \Omega_k(\boldsymbol{x})\Rightarrow x_i > x_j$。我们定义Top-$k$算子$\mathcal{T}_k$为$\mathbb{R}^n\mapsto\{0,1\}^n$的映射：
\begin{equation}
[\mathcal{T}_k(\boldsymbol{x})]_i = \left\{\begin{aligned}1,\,\, i\in \Omega_k(\boldsymbol{x}) \\ 0,\,\, i \not\in \Omega_k(\boldsymbol{x})\end{aligned}\right.
\end{equation}
说白了，如果$x_i$属于最大的$k$个元素之一，那么对应的位置变成1，否则变成0，最终结果是一个Multi-Hot向量，比如$\mathcal{T}_2([3,2,1,4]) = [1,0,0,1]$。

点击阅读全文...

分类：数学研究标签：概率, 近似, 梯度, 光滑阅读全文 21 评论

1 Oct

【NASA每日一图】春分时刻的土星

By 苏剑林 | 2009-10-01 | 19556位读者 | 引用

图片说明：春分点的土星，版权:Cassini Imaging Team, ISS, JPL, ESA, NASA

点击阅读全文...

分类：图片摄影标签：节气, 土星阅读全文抢沙发

31 Oct

钱学森：人生书写时代

By 苏剑林 | 2009-10-31 | 18057位读者 | 引用

钱学森资料图片

一、基本资料

中文名:钱学森性别:男

出生年:1911出生地:上海

职业:物理学家

点击阅读全文...

分类：千奇百怪标签：钱学森阅读全文抢沙发

19 Dec

太阳系是稳定的吗？

By 苏剑林 | 2010-12-19 | 25592位读者 | 引用

Greg Laughlin　文　Shea　译
转载自科学松鼠会。

当牛顿遇上“混沌”，行星的轨道会失控吗？

UnstableSS_Pendulum

点击阅读全文...

分类：天文探索标签：转载, 力学, 天体, N体问题阅读全文 1 评论

1 May

相对论、对称和第四维

By 苏剑林 | 2012-05-01 | 78618位读者 | 引用

这篇文章其实在年初就完成了。

众所周知，我们生活在一个平坦的世界中。正如我们能够感受到的那样，在这个被称为“欧几里得平直空间”的世界里，空间里两点间的最短曲线是两点间的直线段，空间里的任意直角三角形都满足勾股定理，每个物体都有着自己的长、宽、高，它们都随着时间的流逝而运动着。这种世界观把时间独立于空间之外，作为一个独特的研究对象。但是自爱因斯坦在1905年发表狭义相对论以来，我们的宇宙就被描述成为了由三维空间和一维时间组成的“四维时空”，在这里，时间和空间的地位是等价的。不少同好们也许会感到非常困惑：即使证明了时间与空间的确存在着某种联系，也不必要把时间描述成是世界的一维吧？在我们的感官里，时间明明就和空间的三维差别甚大，时间和空间怎么能够等同起来呢？其实答案很简单：为了美。把时间看成与空间等价的一维之后，整个力学体系体现出一种前所未有的对称美，这种美不仅让人赏心悦目，而且极大地方便了我们进一步处理问题。

对称

点击阅读全文...

分类：天文探索,物理化学标签：引力, 相对论, 守恒, 对称, 维度阅读全文 22 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

大词表语言模型在续写任务上的一个问题及对策

优劣分析

自然数集中 N = ab + c 时 a + b + c 的最小值

生成扩散模型漫谈（二十四）：少走捷径，更快到达

Softmax后传：寻找Top-K的光滑近似

问题描述

【NASA每日一图】春分时刻的土星

钱学森：人生书写时代

太阳系是稳定的吗？

相对论、对称和第四维

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接