包含关键字多任务学习的文章 - 科学空间|Scientific Spaces

3 Mar

指数梯度下降 + 元学习 = 自适应学习率

By 苏剑林 | 2022-03-03 | 33000位读者 | 引用

前两天刷到了Google的一篇论文《Step-size Adaptation Using Exponentiated Gradient Updates》，在其中学到了一些新的概念，所以在此记录分享一下。主要的内容有两个，一是非负优化的指数梯度下降，二是基于元学习思想的学习率调整算法，两者都颇有意思，有兴趣的读者也可以了解一下。

指数梯度下降

梯度下降大家可能听说得多了，指的是对于无约束函数$\mathcal{L}(\boldsymbol{\theta})$的最小化，我们用如下格式进行更新：
\begin{equation}\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_t - \eta\nabla_{\boldsymbol{\theta}}\mathcal{L}(\boldsymbol{\theta}_t)\end{equation}
其中$\eta$是学习率。然而很多任务并非总是无约束的，对于最简单的非负约束，我们可以改为如下格式更新：
\begin{equation}\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_t \odot \exp\left(- \eta\nabla_{\boldsymbol{\theta}}\mathcal{L}(\boldsymbol{\theta}_t)\right)\label{eq:egd}\end{equation}
这里的$\odot$是逐位对应相乘（Hadamard积）。容易看到，只要初始化的$\boldsymbol{\theta}_0$是非负的，那么在整个更新过程中$\boldsymbol{\theta}_t$都会保持非负，这就是用于非负约束优化的“指数梯度下降”。

点击阅读全文...

分类：数学研究标签：优化, 梯度, 优化器阅读全文 9 评论

30 Nov

用热传导方程来指导自监督学习

By 苏剑林 | 2022-11-30 | 33216位读者 | 引用

用理论物理来卷机器学习已经不是什么新鲜事了，比如上个月介绍的《生成扩散模型漫谈（十三）：从万有引力到扩散模型》就是经典一例。最近一篇新出的论文《Self-Supervised Learning based on Heat Equation》，顾名思义，用热传导方程来做（图像领域的）自监督学习，引起了笔者的兴趣。这种物理方程如何在机器学习中发挥作用？同样的思路能否迁移到NLP中？让我们一起来读读论文。

基本方程

如下图，左边是物理中热传导方程的解，右端则是CAM、积分梯度等显著性方法得到的归因热力图，可以看到两者有一定的相似之处，于是作者认为热传导方程可以作为好的视觉特征的一个重要先验。

热方程的热力图（左）和视觉模型的热力图（右）

点击阅读全文...

分类：信息时代标签：物理, 无监督阅读全文 9 评论

16 Aug

微积分学习（一）：极限

By 苏剑林 | 2009-08-16 | 27731位读者 | 引用

本文不是微积分教程，而是发表自己学习中的一些看法，以及与同好们讨论相关问题。

拿起任何一本“微积分”教程，都可以看见那专业而严格的数学语言，因此很多人望而生畏。的确，由于牛顿和莱布尼茨创立的微积分是不严格的，因此引发了第二次数学危机。经过法国数学家柯西和德国数学家魏尔斯特拉斯的努力，使得微积分有了前所未有的严密化，克服了第二次数学危机。加之后来的第三次数学危机，数学就更加严密了。

但是对于初学者，严密化的微积分令人十分费解。因此，我们不妨按照微积分的创立顺序，即“不严密——严密”的顺序来学习。这样不仅能够让我们更高效率地学习，而且增加学习数学的兴趣。

点击阅读全文...

分类：数学研究标签：学习, 微积分, 极限阅读全文抢沙发

12 Sep

微积分学习（二）：导数

By 苏剑林 | 2009-09-12 | 21539位读者 | 引用

自从上次写了关于微积分中的极限学习后，就很长的时间没有与大家探讨微积分的学习了（估计有20多天了吧）。启事，我自己也是从今年的9月下旬才开始系统地学习微积分的，到现在也就一个月的时间吧。学习的内容有：集合、函数、极限、导数、微分、积分。不过都是一元微积分，多元的微积分正在紧张地进修中......

现在不妨和大家探讨一下关于微积分中的最基本内容——“导数”的学习。

其实，用最简单的说法，如果存在函数$f(x)$，那么它的导数（一阶导数）为
$$\lim_{\Delta x->0} f'(x)=\frac{f(x+\Delta x)-f(x)}{\Delta x}$$

点击阅读全文...

分类：数学研究标签：微积分, 导数, 极限阅读全文抢沙发

2 Aug

复分析学习1：揭示微分与积分的联系

By 苏剑林 | 2012-08-02 | 36637位读者 | 引用

笔者这段时间对复数尤其感兴趣，当然，严格来讲应该是复变函数内容，其中一个原因是通过它，我们可以把一些看似毫不相关的内容联系了起来，体现了数学的简洁美和统一美。我相当有兴趣的其中一个内容是实分析中的泰勒级数和傅里叶级数。这两者都是关于某个函数的级数展开式，其中泰勒级数是用于一般函数展开的，其各项系数通过求n阶导数得到；傅里叶级数的对象是周期函数，其各项系数是通过定积分求得的。在实数世界里，两者毫不相关，但是，复分析却告诉我们：它们只是同一个东西！只是将其在不同的角度“投影”到实数世界里，就产生了不同的“物像”，以至于我们认为它们是不同东西而已。

我们直接来看一个变魔术般的运算：
我们知道，在实数世界里头，我们有
$ln(1+x)=x-\frac{x^2}{2}+\frac{x^3}{3}-\frac{x^4}{4}+...$，其中$|x| < 1$

点击阅读全文...

分类：数学研究标签：复数, 分析, 复分析阅读全文 4 评论

28 Sep

开始学习数学软件Scilab

By 苏剑林 | 2012-09-28 | 41600位读者 | 引用

其实很早之前我就想学习一款数学软件的使用，以前很感兴趣的是mathematica，也玩弄过一阵子，但毕竟在高中没有多大需要，也就没有坚持下来。更重要的是，这些软件都是要收费的。上了大学后，听了师兄姐对数学建模的讲述，发现他们基本上也是用mathematica或者matlab的，但这两个软件都是要收费的，我不大想用破解版本。既然我都已经用上了ubuntu了，那么我就该好好利用它。据说命令跟matlab很相似的软件是scilab，还有octave，不同的是这些都是开源免费的。

出于熟悉代码操作和数学软件编程的目的，我选择了学习scilab。虽然网上说octave与matlab的相似程度更高，但是我感觉scilab比octave用的更广一些，所以就用它。所谓“一理通百理明”，先专心学好一个。

下面是我编写的第一个scialb程序，利用威尔逊方法来进行素性测试。这个代码的主要目的是练习条件语句和循环语句，以及一些输出输入的技巧而已。程序本身比较丑陋。

//我的第一个scilab程序
//完成于2012.09.27

label1=['p:';];  //定义标签
B=x_mdialog(['本程序使用威尔逊方法判断进行素数测试。';'请输入要判断的数'],label1,['127';]);  //输入框
p=evstr(B(1));  //提取输入框里边的数字进行赋值
i=1;
j=1;
q=p-1;
while i<q
    j=j*i;
    j=modulo(j,p);//这个是模函数。
    i=i+1;
end
if j==1
    messagebox(['这是一个素数';],['测试结果']);  //输出，其中后边的“测试结果”是输入框的标题
else
    messagebox(['这是一个合数';],['测试结果']);
end

点击阅读全文...

分类：数学研究标签：编程, 代码, 数学软件, 开发, scilab 阅读全文 6 评论

25 Apr

学习场论（电磁场、重力场）

By 苏剑林 | 2013-04-25 | 43141位读者 | 引用

本博客的文章其实一定程度上反映了我在该时期的学习研究，所以我觉得写blog是一件很惬意的事情，它记录着我的成长历程。读者可能留意到，我上学期说对量子力学很感兴趣，也算是入了一点点门。这学期开学初表示对摄动理论方面的知识很感兴趣，也研究了一两个星期。再后来就将学习重点放在了相对论上面了。现在呢？我在学习朗道的《场论》，主要先学习电磁场（电动力学）。

有的读者可能比较无语：你怎么变来变去，学习不是贵在精而不在多吗？

点击阅读全文...

分类：生活/情感标签：学习, 场论阅读全文 6 评论

6 Jun

闲聊：神经网络与深度学习

By 苏剑林 | 2015-06-06 | 73447位读者 | 引用

神经网络

在所有机器学习模型之中，也许最有趣、最深刻的便是神经网络模型了。笔者也想献丑一番，说一次神经网络。当然，本文并不打算从头开始介绍神经网络，只是谈谈我对神经网络的个人理解。如果希望进一步了解神经网络与深度学习的朋友，请移步阅读下面的教程：
http://deeplearning.stanford.edu/wiki/index.php/UFLDL教程

http://blog.csdn.net/zouxy09/article/details/8775360

机器分类

这里以分类工作为例，数据挖掘或机器学习中，有很多分类的问题，比如讲一句话的情况进行分类，粗略点可以分类为“积极”或“消极”，精细点分为开心、生气、忧伤等；另外一个典型的分类问题是手写数字识别，也就是将图片分为10类（0,1,2,3,4,5,6,7,8,9）。因此，也产生了很多分类的模型。

点击阅读全文...

分类：信息时代标签：神经网络, 深度学习, 机器学习阅读全文 17 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

指数梯度下降 + 元学习 = 自适应学习率

指数梯度下降

用热传导方程来指导自监督学习

基本方程

微积分学习（一）：极限

微积分学习（二）：导数

复分析学习1：揭示微分与积分的联系

开始学习数学软件Scilab

学习场论（电磁场、重力场）

闲聊：神经网络与深度学习

机器分类

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接