包含关键字经验分布函数的分布的文章

20 Jun

Ladder Side-Tuning：预训练模型的“过墙梯”

By 苏剑林 | 2022-06-20 | 70079位读者 | 引用

如果说大型的预训练模型是自然语言处理的“张良计”，那么对应的“过墙梯”是什么呢？笔者认为是高效地微调这些大模型到特定任务上的各种技巧。除了直接微调全部参数外，还有像Adapter、P-Tuning等很多参数高效的微调技巧，它们能够通过只微调很少的参数来达到接近全量参数微调的效果。然而，这些技巧通常只是“参数高效”而并非“训练高效”，因为它们依旧需要在整个模型中反向传播来获得少部分可训练参数的梯度，说白了，就是可训练的参数确实是少了很多，但是训练速度并没有明显提升。

最近的一篇论文《LST: Ladder Side-Tuning for Parameter and Memory Efficient Transfer Learning》则提出了一个新的名为“Ladder Side-Tuning（LST）”的训练技巧，它号称同时达到了参数高效和训练高效。是否真有这么理想的“过墙梯”？本来就让我们一起来学习一下。

点击阅读全文...

分类：信息时代标签：语言模型, 预训练阅读全文 34 评论

17 Mar

为什么现在的LLM都是Decoder-only的架构？

By 苏剑林 | 2023-03-17 | 108689位读者 | 引用

LLM是“Large Language Model”的简写，目前一般指百亿参数以上的语言模型，主要面向文本生成任务。跟小尺度模型（10亿或以内量级）的“百花齐放”不同，目前LLM的一个现状是Decoder-only架构的研究居多，像OpenAI一直坚持Decoder-only的GPT系列就不说了，即便是Google这样的并非全部押注在Decoder-only的公司，也确实投入了不少的精力去研究Decoder-only的模型，如PaLM就是其中之一。那么，为什么Decoder-only架构会成为LLM的主流选择呢？

知乎上也有同款问题《为什么现在的LLM都是Decoder only的架构？》，上面的回答大多数聚焦于Decoder-only在训练效率和工程实现上的优势，那么它有没有理论上的优势呢？本文试图从这个角度进行简单的分析。

统一视角

需要指出的是，笔者目前训练过的模型，最大也就是10亿级别的，所以从LLM的一般概念来看是没资格回答这个问题的，下面的内容只是笔者根据一些研究经验，从偏理论的角度强行回答一波。文章多数推论以自己的实验结果为引，某些地方可能会跟某些文献的结果冲突，请读者自行取舍。

点击阅读全文...

分类：信息时代标签：分析, 语言模型, 文本生成, attention 阅读全文 35 评论

30 Jun

简单做了个Logo~

By 苏剑林 | 2014-06-30 | 26417位读者 | 引用

科学空间Logo

简单为blog设计了个Logo，虽说是设计，其实也就是简单地把量子力学中路径积分的被积函数$e^{\frac{i}{\hbar}S}$拿过来了。

Logo的主体是一个“S”，含义有那么几个。第一，$S$是科学空间域名的开头，也是英文名称Scientific Spaces的开头；第二，$S$是物理中的作用量的习惯简写，而作用量是我非常喜欢的物理表述形式；同时也就是路径积分的相位函数了。特别地，S还是我姓氏“苏”的首字母。

点击阅读全文...

分类：生活/情感标签：网站阅读全文 3 评论

28 Jan

【理科生读小说】来谈谈“四两拨千斤”

By 苏剑林 | 2018-01-28 | 34932位读者 | 引用

多彩金庸

在金庸笔下（其实很多武侠小说都如此），武功可以分三种：第一种是实打实的猛，如洪七公的降龙十八掌、金轮法王的龙象般若功等，它们的特点是主要特点是刚猛，比如

乔峰的降龙二十八掌是丐帮前任帮主汪剑通所传，但乔峰生俱异禀，于武功上得天独厚，他这降龙二十八掌摧枯拉朽，无坚不破，较之汪帮主尤有胜过。乔峰见对方双掌齐推，自己如以单掌相抵，倘若拼成平手，自己似乎稍占上风，不免有失恭敬，于是也双掌齐出。他左右双掌中所使掌力，也仍都是外三内七，将大部分掌力留劲不发。
——出自《天龙八部》世纪新修版

第二种是以虚招为主，也就是说你不能比对手猛，你骗倒对手也行，比如桃花岛的落英神剑掌：

这套掌法是黄药师观赏桃花岛中桃花落英缤纷而创制，出招变化多端，还讲究姿势之美。她双臂挥动，四方八面都是掌影，或五虚一实，或八虚一实，直似桃林中狂风忽起、万花齐落，妙在手足飘逸，宛若翩翩起舞，但她一来功力尚浅，二来心存顾惜，未能出掌凌厉如剑。郭靖眼花缭乱，哪里还守得住门户，不提防啪啪啪啪，左肩右肩、前胸后背，接连中了四掌，黄蓉全未使力，郭靖自也不觉疼痛。
——出自《射雕英雄传》世纪新修版

第三种是以巧招为主，它不求一味刚猛，也不一味虚虚实实，而且讲究用力恰到好处，起到“以柔克刚”、“四两拨千斤”之效。显然，这种武功的代表作是太极，另外打狗棒法、乾坤大挪移、还有全真教和古墓派的武功也暗含了这个道理，比如：

点击阅读全文...

分类：物理化学,生活/情感标签：物理, 文学, 金庸阅读全文 3 评论

16 Aug

微积分学习（一）：极限

By 苏剑林 | 2009-08-16 | 27063位读者 | 引用

本文不是微积分教程，而是发表自己学习中的一些看法，以及与同好们讨论相关问题。

拿起任何一本“微积分”教程，都可以看见那专业而严格的数学语言，因此很多人望而生畏。的确，由于牛顿和莱布尼茨创立的微积分是不严格的，因此引发了第二次数学危机。经过法国数学家柯西和德国数学家魏尔斯特拉斯的努力，使得微积分有了前所未有的严密化，克服了第二次数学危机。加之后来的第三次数学危机，数学就更加严密了。

但是对于初学者，严密化的微积分令人十分费解。因此，我们不妨按照微积分的创立顺序，即“不严密——严密”的顺序来学习。这样不仅能够让我们更高效率地学习，而且增加学习数学的兴趣。

点击阅读全文...

分类：数学研究标签：学习, 微积分, 极限阅读全文抢沙发

3 Apr

《方程与宇宙》:抛物线与双曲线轨道(三)

By 苏剑林 | 2010-04-03 | 51650位读者 | 引用

圆锥曲线

经过上两回的讨论，我们已经基本摸清了二体问题的运动情况。我们已经找到了二体问题在轨道为椭圆的时候的所有积分，给出了“活力公式”等常用公式的证明，并且留下了一些没有解答的问题。那就是在轨道为抛物线和双曲线时的最后一个积分还没有找出来，现在我们解决这两个问题。其中的关键积分依旧是
$\dot{r}^2={2\mu}/r-{\mu a(1-e^2)}/r^2-\frac{\mu}{a}$——(12)

点击阅读全文...

分类：天文探索标签：方程, 力学, 曲线, 二体问题, 轨道阅读全文 6 评论

21 Feb