包含关键字回归问题的文章 - 科学空间|Scientific Spaces

16 Feb

Google新搜出的优化器Lion：效率与效果兼得的“训练狮”

By 苏剑林 | 2023-02-16 | 47496位读者 | 引用

昨天在Arixv上发现了Google新发的一篇论文《Symbolic Discovery of Optimization Algorithms》，主要是讲自动搜索优化器的，咋看上去没啥意思，因为类似的工作也有不少，大多数结果都索然无味。然而，细读之下才发现别有洞天，原来作者们通过数千TPU小时的算力搜索并结合人工干预，得到了一个速度更快、显存更省的优化器Lion（EvoLved Sign Momentum，不得不吐槽这名字起得真勉强），并在图像分类、图文匹配、扩散模型、语言模型预训练和微调等诸多任务上做了充分的实验，多数任务都显示Lion比目前主流的AdamW等优化器有着更好的效果。

更省显存还更好效果，真可谓是鱼与熊掌都兼得了，什么样的优化器能有这么强悍的性能？本文一起来欣赏一下论文的成果。

先说结果

本文主要关心搜索出来的优化器本身，所以关于搜索过程的细节就不讨论了，对此有兴趣读者自行看原论文就好。Lion优化器的更新过程为
\begin{equation}\text{Lion}:=\left\{\begin{aligned}
&\boldsymbol{u}_t = \text{sign}\big(\beta_1 \boldsymbol{m}_{t-1} + \left(1 - \beta_1\right) \boldsymbol{g}_t\big) \\
&\boldsymbol{\theta}_t = \boldsymbol{\theta}_{t-1} - \eta_t (\boldsymbol{u}_t \color{skyblue}{ + \lambda_t \boldsymbol{\theta}_{t-1}}) \\
&\boldsymbol{m}_t = \beta_2 \boldsymbol{m}_{t-1} + \left(1 - \beta_2\right) \boldsymbol{g}_t
\end{aligned}\right.\end{equation}

点击阅读全文...

分类：信息时代标签：分析, 优化, 优化器阅读全文 19 评论

8 Jun

Naive Bayes is all you need ?

By 苏剑林 | 2023-06-08 | 42880位读者 | 引用

很抱歉，起了这么个具有标题党特征的题目。在写完《NBCE：使用朴素贝叶斯扩展LLM的Context处理长度》之后，笔者就觉得朴素贝叶斯（Naive Bayes）跟Attention机制有很多相同的特征，后来再推导了一下发现，Attention机制其实可以看成是一种广义的、参数化的朴素贝叶斯。既然如此，“Attention is All You Need”不也就意味着“Naive Bayes is all you need”了？这就是本文标题的缘由。

接下来笔者将介绍自己的思考过程，分析如何从朴素贝叶斯角度来理解Attention机制。

朴素贝叶斯

本文主要考虑语言模型，它要建模的是$p(x_t|x_1,\cdots,x_{t-1})$。根据贝叶斯公式，我们有
\begin{equation}p(x_t|x_1,\cdots,x_{t-1}) = \frac{p(x_1,\cdots,x_{t-1}|x_t)p(x_t)}{p(x_1,\cdots,x_{t-1})}\propto p(x_1,\cdots,x_{t-1}|x_t)p(x_t)\end{equation}

点击阅读全文...

分类：信息时代标签：语言模型, attention, LLM, 贝叶斯阅读全文 27 评论

7 Aug

Transformer升级之路：12、无限外推的ReRoPE？

By 苏剑林 | 2023-08-07 | 60693位读者 | 引用

自从在《Transformer升级之路：11、将β进制位置进行到底》中引入混合进制的思路进一步推广了NTK-aware Scaled RoPE后，笔者感觉类似思路的效果已经达到了上限，想要更大幅度的提升就必须另辟蹊径了。这时候笔者想起了此前构思过的一个思路，该思路由于复杂度较高所以被搁置下了，既然现在已经遇到了瓶颈，那么“唯一的办法就是最好的办法”，于是便将它重拾起来。

万万没想到的是，尽管该方法增加了一些推理复杂度，但它的实验效果却惊人地好——甚至隐约有无限的长度外推能力！因此，笔者迫不及待地撰写了本文来分享该方法。由于形式上跟ReLU激活函数的相似性，所以笔者将该方法命名为“ReRoPE (Rectified Rotary Position Embeddings)”。

重温

我们知道，RoPE形式上是一种绝对位置编码，但实际上给Attention带来的是相对位置信息，即如下的Toeplitz矩阵：

点击阅读全文...

分类：信息时代标签：attention, 位置编码, 泛化, 外推, rope 阅读全文 47 评论

17 Jul

【生活杂记】用电饭锅来煮米汤

By 苏剑林 | 2024-07-17 | 14035位读者 | 引用

前段时间，笔者无意看到了一个“低糖电饭锅”的概念（也叫“低淀粉电饭锅”），开始以为是什么新科技产物，再仔细一看之后才发现，原来就是煮饭的同时沥出一点米汤，米汤中包含了一点淀粉，如果把米汤倒掉，那么就等于少吃了一点淀粉，即所谓的低糖/低淀粉。虽然这种产品看起来就一副智商税的模样（靠这个减糖还不如少吃半口饭），但它却勾起了笔者童年时做饭的回忆，以及对米汤的怀念。

经典柴火灶（来源于网络）

点击阅读全文...

分类：生活/情感标签：生活, 情感, 怀念阅读全文 2 评论

3 Oct

不在家的国庆

By 苏剑林 | 2013-10-03 | 14843位读者 | 引用

在生活上，我是一个比较传统的人，因此每到节日我都会尽量回家跟家人团聚。也许会让大家比较吃惊的是，今年的国庆是我第一个不在家的国庆。的确，从小学到高中，上学的地方离家都比较近，每周回去一次都是不成问题的。现在来到了广州，就不能太随心了。虽然跟很多同学相比，我离家还是比较近的，但是来回也要考虑车费、时间等等。国庆假期时间虽然很长，但是中秋已经回去一趟了，所以我决定国庆就不再回去了。

对我来说，中秋跟国庆相比，中秋的意义更大些。所以我选择了国庆不回家。对家人而言，看到自己平安就好，因此哪一天回去他们都会很高兴，当然，对于农村人来说，中秋的味道更浓，更希望团聚。

点击阅读全文...

分类：生活/情感标签：生活, 珍惜阅读全文抢沙发

21 Jul

中山大学力学网络教程

By 苏剑林 | 2010-07-21 | 19046位读者 | 引用

内容来源于中山大学物理科学与工程技术学院（理工学院）

中山大学力学教程-目录图

为了避免以后出现资源无法访问的问题，BoJone把这部分内容拷贝到了科学空间的服务器上。

您现在所看到的版本，是位于“科学空间”服务器上的。

点击访问：http://kexue.fm/sci/mechanics/

分类：资源共享标签：书籍, 力学阅读全文抢沙发

8 Jul

科学空间：一种有趣的平方数

By 苏剑林 | 2009-07-08 | 20683位读者 | 引用

数字是美丽的、极具魅力的，正如——
有这样的一种数，将其拆开成为两个数，这两个数的和的平方等于原数。例如：
$$\begin{aligned}2025=&(20+25)^2\\88209=&(88+209)^2\\152344237969=&(152344+237969)^2\\ &...\end{aligned}$$

下面是关于这类数的一些研究：

1、这类数的实质是：$(A+B)^2=10^nA+B$，而对于$(A+B)^2=kA+B$，有
$A=k/2-B\pm\sqrt{{k^2}/{4}-(k-1)B}$
因此，一般地，对于一个适合的B，可以找到两个对应的A。

点击阅读全文...

分类：数学研究标签：平方, 趣味, 数字阅读全文抢沙发

28 Jan

【理科生读小说】来谈谈“四两拨千斤”

By 苏剑林 | 2018-01-28 | 33919位读者 | 引用

多彩金庸

在金庸笔下（其实很多武侠小说都如此），武功可以分三种：第一种是实打实的猛，如洪七公的降龙十八掌、金轮法王的龙象般若功等，它们的特点是主要特点是刚猛，比如

乔峰的降龙二十八掌是丐帮前任帮主汪剑通所传，但乔峰生俱异禀，于武功上得天独厚，他这降龙二十八掌摧枯拉朽，无坚不破，较之汪帮主尤有胜过。乔峰见对方双掌齐推，自己如以单掌相抵，倘若拼成平手，自己似乎稍占上风，不免有失恭敬，于是也双掌齐出。他左右双掌中所使掌力，也仍都是外三内七，将大部分掌力留劲不发。
——出自《天龙八部》世纪新修版

第二种是以虚招为主，也就是说你不能比对手猛，你骗倒对手也行，比如桃花岛的落英神剑掌：

这套掌法是黄药师观赏桃花岛中桃花落英缤纷而创制，出招变化多端，还讲究姿势之美。她双臂挥动，四方八面都是掌影，或五虚一实，或八虚一实，直似桃林中狂风忽起、万花齐落，妙在手足飘逸，宛若翩翩起舞，但她一来功力尚浅，二来心存顾惜，未能出掌凌厉如剑。郭靖眼花缭乱，哪里还守得住门户，不提防啪啪啪啪，左肩右肩、前胸后背，接连中了四掌，黄蓉全未使力，郭靖自也不觉疼痛。
——出自《射雕英雄传》世纪新修版

第三种是以巧招为主，它不求一味刚猛，也不一味虚虚实实，而且讲究用力恰到好处，起到“以柔克刚”、“四两拨千斤”之效。显然，这种武功的代表作是太极，另外打狗棒法、乾坤大挪移、还有全真教和古墓派的武功也暗含了这个道理，比如：

点击阅读全文...

分类：物理化学,生活/情感标签：物理, 文学, 金庸阅读全文 3 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

Google新搜出的优化器Lion：效率与效果兼得的“训练狮”

先说结果

Naive Bayes is all you need ?

朴素贝叶斯

Transformer升级之路：12、无限外推的ReRoPE？

重温

【生活杂记】用电饭锅来煮米汤

不在家的国庆

中山大学力学网络教程

科学空间：一种有趣的平方数

【理科生读小说】来谈谈“四两拨千斤”

多彩金庸

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接