包含关键字自注意力的文章 - 科学空间|Scientific Spaces

29 Nov

从Hessian近似看自适应学习率优化器

By 苏剑林 | 2024-11-29 | 13335位读者 | 引用

这几天在重温去年的Meta的一篇论文《A Theory on Adam Instability in Large-Scale Machine Learning》，里边给出了看待Adam等自适应学习率优化器的新视角：它指出梯度平方的滑动平均某种程度上近似于在估计Hessian矩阵的平方，从而Adam、RMSprop等优化器实际上近似于二阶的Newton法。

这个角度颇为新颖，而且表面上跟以往的一些Hessian近似有明显的差异，因此值得我们去学习和思考一番。

牛顿下降

设损失函数为$\mathcal{L}(\boldsymbol{\theta})$，其中待优化参数为$\boldsymbol{\theta}$，我们的优化目标是
\begin{equation}\boldsymbol{\theta}^* = \mathop{\text{argmin}}_{\boldsymbol{\theta}} \mathcal{L}(\boldsymbol{\theta})\label{eq:loss}\end{equation}
假设$\boldsymbol{\theta}$的当前值是$\boldsymbol{\theta}_t$，Newton法通过将损失函数展开到二阶来寻求$\boldsymbol{\theta}_{t+1}$：
\begin{equation}\mathcal{L}(\boldsymbol{\theta})\approx \mathcal{L}(\boldsymbol{\theta}_t) + \boldsymbol{g}_t^{\top}(\boldsymbol{\theta} - \boldsymbol{\theta}_t) + \frac{1}{2}(\boldsymbol{\theta} - \boldsymbol{\theta}_t)^{\top}\boldsymbol{\mathcal{H}}_t(\boldsymbol{\theta} - \boldsymbol{\theta}_t)\end{equation}

点击阅读全文...

分类：数学研究标签：优化, 梯度, 学习率, 优化器阅读全文抢沙发

7 Aug

2009年英仙座流星雨观测

By 苏剑林 | 2009-08-07 | 20188位读者 | 引用

首先感谢Shea和叶泉志的努力，文章中引用了他们俩的内容。还有“科学松鼠会”、“中国彗星与流星资讯网”、“牧夫天文论坛”等网站。

注意！！地球正在进入斯威夫特-塔特尔彗星所留下的尘埃带中，这里正是一年一度英仙座流星雨的发源地。虽然英仙座流星雨要到8月11-12日才会达到顶峰，但是好戏已经开始上演了。

之前在8月天象预报中已经介绍过8月的这一场盛大流星雨了。现在我们针对性地来看下！英仙座流星雨被称为“三大”之一。今年英仙座流星雨的传统峰值预计落在8月13日1:30-4:00（北京时间）。全球最佳观测位置是美国的芝加哥和华盛顿等地区。

点击阅读全文...

分类：天文探索标签：流星, 观测, 英仙座阅读全文抢沙发

30 May

科学空间：2010年6月重要天象

By 苏剑林 | 2010-05-30 | 28725位读者 | 引用

20100626月球模拟

进入六月，除除了水星外肉眼可见的几颗大行星观测条件还不错。前半夜的主要观测目标是金星、火星和土星，他们之间的角距离也在逐渐缩小。后半夜木星升起，我们又有机会一睹这颗太阳系内最大行星的风采了。6月21日是夏至节气，当天北半球白昼是一年中最长的，而夜晚最短，且越往北越短。在北极圈以内地区当天太阳将不会落到地平线以下18度之内时，辉光都会影响到我们目视的极限星等，因此夏至前后一段时间北纬50度以上地区不太适合进行天文观测了。而对于北纬30至40度左右的观测者来说，这期间适合开展人造天体，特别是国际空间站的观测活动。

点击阅读全文...

分类：天文探索标签：天象, 流星, 牧夫, 月食阅读全文 2 评论

7 Aug

一篇费曼的介绍

By 苏剑林 | 2012-08-07 | 30663位读者 | 引用

站长注：这篇文章来源于网络，原文是繁体中文版本，我经过修改整理而成。它原来是《费曼的6堂Easy物理课》这本书的解说，但是由于内容上的详细和扼要，我更愿意把它当做物理学家费曼的解说，与大家分享。

伟哉！费曼

社会上普遍有种错误的想法，总以为科学是完全客观的，不但不会因人而异，更不会感情用事。对比之下，科学以外的各种人类活动，则多多少少会受到一般潮流动向、突发的时尚风潮，以及当事人的性格、偏好所左右。唯有科学，得受制于科学社群都同意的规则、步骤，与严密的测试、检验。科学仅着重于得到的结论，而不在乎谁是做研究、做实验的人。

以上说法显然是无稽之谈，科学既然靠人推动，就跟其他人类活动相同，都会受到大环境趋势及个人意念的影响。在科学领域，研究潮流的趋向受到主题素材选择的影响并不大，却相当取决于当时科学家对整个世界的看法。

点击阅读全文...

分类：资源共享标签：转载, 科学家, 费曼阅读全文 2 评论

16 Nov

天体力学巨匠——拉普拉斯

By 苏剑林 | 2012-11-16 | 47600位读者 | 引用

本文其实好几个月前就已经写好了，讲的是我最感兴趣的天体力学领域的故事，已经发表在2012年11月的《天文爱好者》上。

天体力学巨匠——拉普拉斯

作为一本天文科普杂志，《天文爱好者》着眼于普及天文，内容偏向于有趣的天体物理等，比较少涉及到天体力学。事实上，在天文发展史中，天体力学——研究天体纯粹在万有引力作用下演化的科学——占据了相当重要的地位。过去，天文就被划分为天体力学、天体物理以及天体测量学三个大块。只是在近现代，由于电子计算机的飞速发展，天体力学的多数问题都交给了计算机数值计算解决，因此这一领域逐渐淡出了人们视野。不过，回味当初那段天体力学史，依然让我们觉得激动人心。

首先引入“天体力学（Celestial mechanics）”这一术语的是法国著名数学家、天文巨匠拉普拉斯。他的全名为皮埃尔?西蒙?拉普拉斯（Pierre?Simon marquis de Laplace），因研究太阳系稳定性的动力学问题被誉为法国的牛顿和天体力学之父。他和生活在同一时代的法国著名数学家拉格朗日以及勒让德（Adrien-Marie Legendre）并称为“三L”。

神秘的少年时期

由于1925年的一场大火，很多拉普拉斯的生活细节资料都丢失了。根据W. W. Rouse Ball的说法，他可能是一个普通农民或农场工人的儿子，1749年3月23日出生于诺曼底卡尔瓦多斯省的伯蒙特恩奥格。少年时期，拉普拉斯凭借着自己的才能和热情，在富人邻居的帮助下完成了学业。他父亲希望这能使他将来以宗教为业，16岁时，他被送往卡昂大学读神学。但他很快在数学上显露头角。

点击阅读全文...

分类：天文探索标签：力学, 天体, 三体问题, 故事阅读全文 4 评论

18 Jul

欢聚兴隆，畅言科普

By 苏剑林 | 2013-07-18 | 37306位读者 | 引用

欢聚兴隆，畅言科普
记信息时代的天文科普研讨会暨第三届宇宙驿站站长联谊会

在信息时代的今天，利用互联网相互交流以及查找各种资讯已经成为了许多天文爱好者的必经之道。同好们也许都浏览过牧夫天文论坛、星友空间站、空间天文网等天文科学网站，事实上，它们都源于一个共同的科普网站群体——宇宙驿站。正如她的名字所言，宇宙驿站是我们一大群天文爱好者在互联网上的“家”，她为我们这群热衷于网络科普的站长免费提供了稳定的网站空间。

宇宙驿站发起于2002年，是国家天文台LAMOST项目之一，迄今已经有近百位站长在上面“安家”。2013年6月28日到6月30日，我们这群站长齐聚兴隆，开展了一次别开生面的会议——“信息时代的天文科普研讨会暨第三届站长联谊会”。

点击阅读全文...

分类：生活/情感标签：竞赛, 经历, 网络, 联谊, 研讨阅读全文 5 评论

25 Dec

从loss的硬截断、软化到focal loss

By 苏剑林 | 2017-12-25 | 201507位读者 | 引用

前言

今天在QQ群里的讨论中看到了focal loss，经搜索它是Kaiming大神团队在他们的论文《Focal Loss for Dense Object Detection》提出来的损失函数，利用它改善了图像物体检测的效果。不过我很少做图像任务，不怎么关心图像方面的应用。本质上讲，focal loss就是一个解决分类问题中类别不平衡、分类难度差异的一个loss，总之这个工作一片好评就是了。大家还可以看知乎的讨论：
《如何评价kaiming的Focal Loss for Dense Object Detection？》

看到这个loss，开始感觉很神奇，感觉大有用途。因为在NLP中，也存在大量的类别不平衡的任务。最经典的就是序列标注任务中类别是严重不平衡的，比如在命名实体识别中，显然一句话里边实体是比非实体要少得多，这就是一个类别严重不平衡的情况。我尝试把它用在我的基于序列标注的问答模型中，也有微小提升。嗯，这的确是一个好loss。

接着我再仔细对比了一下，我发现这个loss跟我昨晚构思的一个loss具有异曲同工之理！这就促使我写这篇博文了。我将从我自己的思考角度出发，来分析这个问题，最后得到focal loss，也给出我昨晚得到的类似的loss。

点击阅读全文...

分类：信息时代标签：模型, 深度学习, 损失函数阅读全文 64 评论

15 Apr

基于CNN的阅读理解式问答模型：DGCNN

By 苏剑林 | 2018-04-15 | 443058位读者 | 引用

2019.08.20更新：开源了一个Keras版（https://kexue.fm/archives/6906）

早在年初的《Attention is All You Need》的介绍文章中就已经承诺过会分享CNN在NLP中的使用心得，然而一直不得其便。这几天终于下定决心来整理一下相关的内容了。

背景

事不宜迟，先来介绍一下模型的基本情况。

模型特点

本模型——我称之为DGCNN——是基于CNN和简单的Attention的模型，由于没有用到RNN结构，因此速度相当快，而且是专门为这种WebQA式的任务定制的，因此也相当轻量级。SQUAD排行榜前面的模型，如AoA、R-Net等，都用到了RNN，并且还伴有比较复杂的注意力交互机制，而这些东西在DGCNN中基本都没有出现。

这是一个在GTX1060上都可以几个小时训练完成的模型！

截止到2018.04.14的排行榜

DGCNN，全名为Dilate Gated Convolutional Neural Network，即“膨胀门卷积神经网络”，顾名思义，融合了两个比较新的卷积用法：膨胀卷积、门卷积，并增加了一些人工特征和trick，最终使得模型在轻、快的基础上达到最佳的效果。在本文撰写之时，本文要介绍的模型还位于榜首，得分（得分是准确率与F1的平均）为0.7583，而且是到目前为止唯一一个一直没有跌出前三名、并且获得周冠军次数最多的模型。

点击阅读全文...

分类：信息时代标签：模型, 问答, 深度学习阅读全文 106 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

从Hessian近似看自适应学习率优化器

牛顿下降

2009年英仙座流星雨观测

科学空间：2010年6月重要天象

一篇费曼的介绍

天体力学巨匠——拉普拉斯

欢聚兴隆，畅言科普

从loss的硬截断、软化到focal loss

前言

基于CNN的阅读理解式问答模型：DGCNN

背景

模型特点

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接