包含关键字自回归的文章 - 科学空间|Scientific Spaces

19 Mar

为什么需要残差？一个来自DeepNet的视角

By 苏剑林 | 2022-03-19 | 56689位读者 | 引用

在《训练1000层的Transformer究竟有什么困难？》中我们介绍了微软提出的能训练1000层Transformer的DeepNet技术。而对于DeepNet，读者一般也有两种反应，一是为此感到惊叹而点赞，另一则是觉得新瓶装旧酒没意思。出现后一种反应的读者，往往是因为DeepNet所提出的两个改进点——增大恒等路径权重和降低残差分支初始化——实在过于稀松平常，并且其他工作也出现过类似的结论，因此很难有什么新鲜感。

诚然，单从结论来看，DeepNet实在算不上多有意思，但笔者觉得，DeepNet的过程远比结论更为重要，它有意思的地方在于提供了一个简明有效的梯度量级分析思路，并可以用于分析很多相关问题，比如本文要讨论的“为什么需要残差”，它就可以给出一个比较贴近本质的答案。

增量爆炸

为什么需要残差？答案是有了残差才更好训练深层模型，这里的深层可能是百层、千层甚至万层。那么问题就变成了为什么没有残差就不容易训练深层模型呢？

点击阅读全文...

分类：信息时代标签：模型, 优化, 深度学习, 梯度阅读全文 24 评论

21 Mar

RoFormerV2：自然语言理解的极限探索

By 苏剑林 | 2022-03-21 | 56904位读者 | 引用

大概在1年前，我们提出了旋转位置编码（RoPE），并发布了对应的预训练模型RoFormer。随着时间的推移，RoFormer非常幸运地得到了越来越多的关注和认可，比如EleutherAI新发布的60亿和200亿参数的GPT模型中就用上了RoPE位置编码，Google新提出的FLASH模型论文中则明确指出了RoPE对Transformer效果有明显的提升作用。

与此同时，我们也一直在尝试继续加强RoFormer模型，试图让RoFormer的性能“更上一层楼”。经过近半年的努力，我们自认为取得了还不错的成果，因此将其作为“RoFormerV2”正式发布：

Github：https://github.com/ZhuiyiTechnology/roformer-v2

点击阅读全文...

分类：信息时代标签：语言模型, 预训练阅读全文 23 评论

30 Nov

用热传导方程来指导自监督学习

By 苏剑林 | 2022-11-30 | 28827位读者 | 引用

用理论物理来卷机器学习已经不是什么新鲜事了，比如上个月介绍的《生成扩散模型漫谈（十三）：从万有引力到扩散模型》就是经典一例。最近一篇新出的论文《Self-Supervised Learning based on Heat Equation》，顾名思义，用热传导方程来做（图像领域的）自监督学习，引起了笔者的兴趣。这种物理方程如何在机器学习中发挥作用？同样的思路能否迁移到NLP中？让我们一起来读读论文。

基本方程

如下图，左边是物理中热传导方程的解，右端则是CAM、积分梯度等显著性方法得到的归因热力图，可以看到两者有一定的相似之处，于是作者认为热传导方程可以作为好的视觉特征的一个重要先验。

热方程的热力图（左）和视觉模型的热力图（右）

点击阅读全文...

分类：信息时代标签：物理, 无监督阅读全文 9 评论

14 Mar

缓解交叉熵过度自信的一个简明方案

By 苏剑林 | 2023-03-14 | 30618位读者 | 引用

众所周知，分类问题的常规评估指标是正确率，而标准的损失函数则是交叉熵，交叉熵有着收敛快的优点，但它并非是正确率的光滑近似，这就带来了训练和预测的不一致性问题。另一方面，当训练样本的预测概率很低时，交叉熵会给出一个非常巨大的损失（趋于$-\log 0^{+}=\infty$），这意味着交叉熵会特别关注预测概率低的样本——哪怕这个样本可能是“脏数据”。所以，交叉熵训练出来的模型往往有过度自信现象，即每个样本都给出较高的预测概率，这会带来两个副作用：一是对脏数据的过度拟合带来的效果下降，二是预测的概率值无法作为不确定性的良好指标。

围绕交叉熵的改进，学术界一直都有持续输出，目前这方面的研究仍处于“八仙过海，各显神通”的状态，没有标准答案。在这篇文章中，我们来学习一下论文《Tailoring Language Generation Models under Total Variation Distance》给出的该问题的又一种简明的候选方案。

点击阅读全文...

分类：信息时代标签：优化, 损失函数, 光滑阅读全文 14 评论

20 Sep

自然数集中 N = ab + c 时 a + b + c 的最小值

By 苏剑林 | 2023-09-20 | 37424位读者 | 引用

前天晚上微信群里有群友提出了一个问题：

对于一个任意整数$N > 100$，求一个近似算法，使得$N=a\times b+c$（其中$a,b,c$都是非负整数），并且令$a+b+c$尽量地小。

初看这道题，笔者第一感觉就是“这还需要算法？”，因为看上去自由度太大了，应该能求出个解析解才对，于是简单分析了一下之后就给出了个“答案”，结果很快就有群友给出了反例。这时，笔者才意识到这题并非那么平凡，随后正式推导了一番，总算得到了一个可行的算法。正当笔者以为这个问题已经结束时，另一个数学群的群友精妙地构造了新的参数化，证明了算法的复杂度还可以进一步下降！

整个过程波澜起伏，让笔者获益匪浅，遂将过程记录在此，与大家分享。

点击阅读全文...

分类：数学研究,问题百科标签：最优, 问题阅读全文 14 评论

15 Oct

让MathJax的数学公式随窗口大小自动缩放

By 苏剑林 | 2024-10-15 | 6348位读者 | 引用

随着MathJax的出现和流行，在网页上显示数学公式便逐渐有了标准答案。然而，MathJax（包括其竞品KaTeX）只是负责将网页LaTeX代码转化为数学公式，对于自适应分辨率方面依然没有太好的办法。像本站一些数学文章，因为是在PC端排版好的，所以在PC端浏览效果尚可，但转到手机上看就可能有点难以入目了。

经过测试，笔者得到了一个方案，让MathJax的数学公式也能像图片一样，随着窗口大小而自适应缩放，从而尽量保证移动端的显示效果，在此跟大家分享一波。

背景思路

这个问题的起源是，即便在PC端进行排版，有时候也会遇到一些单行公式的长度超出了网页宽度，但又不大好换行的情况，这时候一个解决方案是用HTML代码手动调整一下公式的字体大小，比如

<span style="font-size:90%">
    \begin{equation}一个超长的数学公式\end{equation}
</span>

点击阅读全文...

分类：信息时代,问题百科标签：网站, latex 阅读全文抢沙发

1 Mar

科学空间|Scientific Spaces 介绍

By 苏剑林 | 2009-03-01 | 393678位读者 | 引用

中山大学基础数学研究生，本科为华南师范大学。93年从奥尔特星云移民地球，因忘记回家路线，遂仰望星空，希望找到时空之路。同时兼爱各种科学，热衷钻牛角尖，因此经常碰壁，但偶然把牛角钻穿，也乐在其中。偏爱物理、天文、计算机，喜欢思考，虽擅长理性分析，但也容易感情用事，崇拜Feynman。爱好阅读，没事偷懒玩玩象棋，闲时爱好进入厨房做几道小菜，偶尔也开开数据“挖掘机”。明明要学基础数学，偏偏不务正业，沉溺神经网络，妄想人工智能，曾未在ACL、AAAI、COLING等会议上发表一篇文章。近期还挣扎在NLP大坑，在科学空间（https://kexue.fm）期待大家的拯救。

历史内容

华南师范大学数学系学生。93年从奥尔特星云移民地球，因忘记回家路线，遂仰望星空，希望找到时空之路。同时兼爱各种科学，热衷钻牛角尖，因此经常碰壁，但偶然把牛角钻穿，也乐在其中。偏爱物理、天文，喜欢思考，虽擅长理性分析，但也容易感情用事，崇拜费曼。长期阅读《天文爱好者》和《环球科学》，没事偷懒玩玩象棋，闲时爱好进入厨房做几道小菜，偶尔也当当电工。近期主要学习理论物理，在科学空间期待大家的指教。

名称：科学空间|Scientific Spaces
网址：http://kexue.fm

站长：苏剑林
信念：探索我们的世界，聆听我们的自然

网站历史

2009.03.01 网站初步建立，刚开始的时候使用的是BoBlog以及宇宙驿站的空间，内容定位：科学转载。

2009.03.28 开始进行大规模推广，访问量开始提高

2009.03-05 期间进行过多次改变，特别是Blog程序的转换，内容上的改革等

点击阅读全文...

分类：生活/情感标签：网站阅读全文 114 评论

29 Jul

科学空间：2009年8月重要天象

By 苏剑林 | 2009-07-29 | 29778位读者 | 引用

日食之后的八月，精彩天象仍将不断上演。英仙座流星雨将在本月出现极大，这同时也拉开了下半年流星雨季的大幕。木星和海王星冲日以及水星东大距等天象，将使行星观测再次成为热点。

观测关注：

太阳由巨蟹座运行到狮子座
01日月掩心宿二
06日南宝瓶座ι流星雨极大（ZHR=2）
07日木星合月
11日土星环消失（从太阳的方向看倾角为0）
12日北宝瓶座δ流星雨极大（ZHR=5-10）
13日英仙座流星雨极大（01:30-04:00, ZHR=100）
15日木星冲日
16日火星合月
17日天鹅座κ流星雨极大（ZHR=3）
18日金星合月；海王星冲日
20日北宝瓶座ι流星雨极大
25日水星东大距
28日月掩心宿二

点击阅读全文...

分类：天文探索标签：天象, 2009, 观测阅读全文 2 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

为什么需要残差？一个来自DeepNet的视角

增量爆炸

RoFormerV2：自然语言理解的极限探索

用热传导方程来指导自监督学习

基本方程

缓解交叉熵过度自信的一个简明方案

自然数集中 N = ab + c 时 a + b + c 的最小值

让MathJax的数学公式随窗口大小自动缩放

背景思路

科学空间|Scientific Spaces 介绍

历史内容

网站历史

科学空间：2009年8月重要天象

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接