包含关键字 sin求导的文章 - 科学空间|Scientific Spaces

10 Dec

Muon优化器赏析：从向量到矩阵的本质跨越

By 苏剑林 | 2024-12-10 | 29851位读者 | 引用

随着LLM时代的到来，学术界对于优化器的研究热情似乎有所减退。这主要是因为目前主流的AdamW已经能够满足大多数需求，而如果对优化器“大动干戈”，那么需要巨大的验证成本。因此，当前优化器的变化，多数都只是工业界根据自己的训练经验来对AdamW打的一些小补丁。

不过，最近推特上一个名为“Muon”的优化器颇为热闹，它声称比AdamW更为高效，且并不只是在Adam基础上的“小打小闹”，而是体现了关于向量与矩阵差异的一些值得深思的原理。本文让我们一起赏析一番。

Muon与AdamW效果对比（来源：推特@Yuchenj_UW）

点击阅读全文...

分类：数学研究,信息时代标签：矩阵, 优化, 梯度, 优化器阅读全文 26 评论

15 Dec

生成扩散模型漫谈（二十七）：将步长作为条件输入

By 苏剑林 | 2024-12-15 | 24606位读者 | 引用

这篇文章我们再次聚焦于扩散模型的采样加速。众所周知，扩散模型的采样加速主要有两种思路，一是开发更高效的求解器，二是事后蒸馏。然而，据笔者观察，除了上两篇文章介绍过的SiD外，这两种方案都鲜有能将生成步数降低到一步的结果。虽然SiD能做到单步生成，但它需要额外的蒸馏成本，并且蒸馏过程中用到了类似GAN的交替训练过程，总让人感觉差点意思。

本文要介绍的是《One Step Diffusion via Shortcut Models》，其突破性思想是将生成步长也作为扩散模型的条件输入，然后往训练目标中加入了一个直观的正则项，这样就能直接稳定训练出可以单步生成模型，可谓简单有效的经典之作。

ODE扩散

原论文的结论是基于ODE式扩散模型的，而对于ODE式扩散的理论基础，我们在本系列的（六）、（十二）、（十四）、（十五）、（十七）等博客中已经多次介绍，其中最简单的一种理解方式大概是（十七）中的ReFlow视角，下面我们简单重复一下。

点击阅读全文...

分类：信息时代标签：微分方程, 生成模型, 采样, 扩散阅读全文 15 评论

28 Jan

【理科生读小说】来谈谈“四两拨千斤”

By 苏剑林 | 2018-01-28 | 36782位读者 | 引用

多彩金庸

在金庸笔下（其实很多武侠小说都如此），武功可以分三种：第一种是实打实的猛，如洪七公的降龙十八掌、金轮法王的龙象般若功等，它们的特点是主要特点是刚猛，比如

乔峰的降龙二十八掌是丐帮前任帮主汪剑通所传，但乔峰生俱异禀，于武功上得天独厚，他这降龙二十八掌摧枯拉朽，无坚不破，较之汪帮主尤有胜过。乔峰见对方双掌齐推，自己如以单掌相抵，倘若拼成平手，自己似乎稍占上风，不免有失恭敬，于是也双掌齐出。他左右双掌中所使掌力，也仍都是外三内七，将大部分掌力留劲不发。
——出自《天龙八部》世纪新修版

第二种是以虚招为主，也就是说你不能比对手猛，你骗倒对手也行，比如桃花岛的落英神剑掌：

这套掌法是黄药师观赏桃花岛中桃花落英缤纷而创制，出招变化多端，还讲究姿势之美。她双臂挥动，四方八面都是掌影，或五虚一实，或八虚一实，直似桃林中狂风忽起、万花齐落，妙在手足飘逸，宛若翩翩起舞，但她一来功力尚浅，二来心存顾惜，未能出掌凌厉如剑。郭靖眼花缭乱，哪里还守得住门户，不提防啪啪啪啪，左肩右肩、前胸后背，接连中了四掌，黄蓉全未使力，郭靖自也不觉疼痛。
——出自《射雕英雄传》世纪新修版

第三种是以巧招为主，它不求一味刚猛，也不一味虚虚实实，而且讲究用力恰到好处，起到“以柔克刚”、“四两拨千斤”之效。显然，这种武功的代表作是太极，另外打狗棒法、乾坤大挪移、还有全真教和古墓派的武功也暗含了这个道理，比如：

点击阅读全文...

分类：物理化学,生活/情感标签：物理, 文学, 金庸阅读全文 3 评论

12 Jul

预报日食——当一回天文学家

By 苏剑林 | 2009-07-12 | 19367位读者 | 引用

预报天象，一般只是专业的天文研究人员的事情，我们这些业余的一般只是查找相关信息而已。但是，自从有了计算机(PC)以后，个人预报天象是完全可能的。现在，就发布我在1个多月前写好的一篇关于“日全食”的文章，教大家如何使用Stellarium来精确地预报自己所在地的天象情况。现在，就让我们当一回天文学家。