SquarePlus:可能是运算最简单的ReLU光滑近似
By 苏剑林 | 2021-12-29 | 39370位读者 | 引用ReLU函数,也就是$\max(x,0)$,是最常见的激活函数之一,然而它在$x=0$处的不可导通常也被视为一个“槽点”。为此,有诸多的光滑近似被提出,比如SoftPlus、GeLU、Swish等,不过这些光滑近似无一例外地至少都使用了指数运算$e^x$(SoftPlus还用到了对数),从“精打细算”的角度来看,计算量还是不小的(虽然当前在GPU加速之下,我们很少去感知这点计算量了)。最近有一篇论文《Squareplus: A Softplus-Like Algebraic Rectifier》提了一个更简单的近似,称为SquarePlus,我们也来讨论讨论。
需要事先指出的是,笔者是不建议大家花太多时间在激活函数的选择和设计上的,所以虽然分享了这篇论文,但主要是提供一个参考结果,并充当一道练习题来给大家“练练手”。
定义
SquarePlus的形式很简单,只用到了加、乘、除和开方:
\begin{equation}\text{SquarePlus}(x)=\frac{x+\sqrt{x^2+b}}{2}\end{equation}
冥王星呀,你究竟是什么?
By 苏剑林 | 2009-07-30 | 25366位读者 | 引用《新理解矩阵2》:矩阵是什么?
By 苏剑林 | 2012-10-31 | 38093位读者 | 引用上一篇文章中我从纯代数运算的角度来讲述了我对矩阵的一个理解,可以看到,我们赋予了矩阵相应的运算法则,它就在代数、分析等领域显示出了巨大作用。但是纯粹的代数是不足够的,要想更加完美,最好是找到相应的几何对象能够与之对应,只有这样,我们才能够直观地理解它,以达到得心应手的效果。
几何理解
我假设读者已经看过孟岩的《理解矩阵》三篇文章,所以更多的细节我就不重复了。我们知道,矩阵A
$$\begin{pmatrix}a_{11} & a_{12} \\ a_{21} & a_{22}\end{pmatrix}$$
事实上由两个向量$[a_{11},a_{21}]^T$和$[a_{12},a_{22}]^T$(这里的向量都是列向量)组成,它描述了一个平面(仿射)坐标系。换句话说,这两个向量其实是这个坐标系的两个基,而运算$y=Ax$则是告诉我们,在$A$这个坐标系下的x向量,在$I$坐标系下是怎样的。这里的$I$坐标系就是我们最常用的直角坐标系,也就是说,任何向量(包括矩阵里边的向量),只要它前面没有矩阵作用于它,那么它都是在直角坐标系下度量出来的。
世界各国能否联手应对气候变化?
By 苏剑林 | 2009-08-18 | 24908位读者 | 引用《自然极值》系列——3.平衡态公理
By 苏剑林 | 2010-11-28 | 19074位读者 | 引用今天傍晚看到了彩虹!当然这算不上什么奇观,但还是一道美丽的风景。
人说“不经历风雨,怎么见彩虹”,我发现彩虹不一定是在雨后的,今天我看彩虹的时候,就是暴风雨前夕。彩虹是在18点10分左右出现的,持续了5分钟左右吧,看着看着,雨越下越大,我被迫停止欣赏了,不过彩虹也随之消失了。
用一个老相机简单记录了一下这道亮丽的风景!这是我第一次拍摄彩虹^_^
不知道是相机问题还是真有其事,在照片上发现有两条彩虹。难道这次的彩虹是”双彩虹“?那可真是奇观了!
很老的家用数码相机,没有广角,不能拍摄全景,这是用photoshop把两张图片拼凑起来的,效果不好
相对运动的一道妙题!
By 苏剑林 | 2012-12-02 | 19325位读者 | 引用费曼路径积分思想的发展(四)
By 苏剑林 | 2012-12-27 | 39523位读者 | 引用4、量子场论中的泛函方法
路径积分出现之初,大多数物理学家反映都很冷淡,甚至怀疑它的正确性。这一方面是对路径积分方法的陌生与误解所致。在泊珂淖会议上,玻尔就把费曼图误解成粒子运动的轨迹,并对之进行了尖锐的批评。([19],P.459)另一方面,费曼并没有用公理化的方法,从作用量或拉格朗日量出发系统地推导出费曼规则,他是靠经验、猜测、检验和比较来给出与各种图相应的规则的。尽管如此,费曼却能把他的方法推广到当时热门的介子理论,并且只需一个晚上就可解决他人用正则哈密顿方法要用几个月的时间才能解决的问题。费曼方法的有效性,使戴逊大为惊讶,并促使他相信路径积分“必定是根本上正确的”([1],P.54)理论。随之,戴逊便决定把“理解费曼(的思想)并用一种他人能理解的语言来加以阐述”([1],p.54)作为自己的主要工作。1948年,戴逊成功地证明了朝永振一朗、施温格和费曼三人的理论“在其共同适用领域内”[25]的等价性。费曼的粒子图像的路径积分方法由此改头换面,变成了场论形式的泛函积分方法。
最近评论