通过梯度近似寻找Normalization的替代品
By 苏剑林 | 2025-04-02 | 1513位读者 | 引用不知道大家有没有留意到前段时间的《Transformers without Normalization》?这篇论文试图将Transformer模型中的Normalization层用一个Element-wise的运算DyT替代,以期能提高速度并保持效果。这种基础架构的主题本身自带一点吸引力,加之Kaiming He和Yann LeCun两位大佬挂名,所以这篇论文发布之时就引起了不少围观,评价也是有褒有贬。
无独有偶,上周的一篇新论文《The Mathematical Relationship Between Layer Normalization and Dynamic Activation Functions》从梯度分析和微分方程的视角解读了DyT,并提出了新的替代品。个人感觉这个理解角度非常本质,遂学习和分享一波。
写在前面
DyT全称是Dynamic Tanh,它通过如下运算来替代Normalization层:
\begin{equation}\mathop{\text{DyT}}(\boldsymbol{x}) = \boldsymbol{\gamma} \odot \tanh(\alpha \boldsymbol{x}) + \boldsymbol{\beta}\end{equation}
【NASA每日一图】射向银河中心的激光
By 苏剑林 | 2009-08-16 | 19009位读者 | 引用关于a,b的极限证明题目
By 苏剑林 | 2009-08-24 | 29979位读者 | 引用400年前的今天,望远镜诞生了
By 苏剑林 | 2009-08-25 | 20595位读者 | 引用夏已去,秋踏来,天转凉,多添衣,今天处暑,轻声问候,让友情为你暖心;诚挚祝福,传我情谊:处暑快乐,七夕同乐!
科学空间在此祝所有的人七夕快乐,天天快乐!愿天下有情人终成眷属!
七夕寻星:http://kexue.fm/archives/93/
同时,在这个美好的节日,请大家聆听美妙的童话旋律——《樱花草》:
http://m1.6621.cn/m/200909/bojone/5f311cfa11b248dc.mp3
哥本哈根气候大会召开情况
By 苏剑林 | 2009-12-08 | 17183位读者 | 引用开始了,成与否,期待吧!
我们能够做的,也只有期待......
简介
12月7日起,192个国家的环境部长和其他官员们将在哥本哈根召开联合国气候会议,商讨《京都议定书》一期承诺到期后的后续方案,就未来应对气候变化的全球行动签署新的协议。这是继《京都议定书》后又一具有划时代意义的全球气候协议书,毫无疑问,对地球今后的气候变化走向产生决定性的影响。这是一次被喻为“拯救人类的最后一次机会”的会议。会议将在现代化的Bella中心举行,为期两周。联合国气候会议一年召开一次,其前身为1992年在里约热内卢召开的地球峰会,地球峰会的目的是协调应对气候变化而采取的国际行动。
最近评论