包含关键字 adam优化器的文章 - 科学空间|Scientific Spaces

26 Sep

脑洞大开：非线性RNN居然也可以并行计算？

By 苏剑林 | 2023-09-26 | 57336位读者 | 引用

近年来，线性RNN由于其可并行训练以及常数推理成本等特性，吸引了一定研究人员的关注（例如笔者之前写的《Google新作试图“复活”RNN：RNN能否再次辉煌？》），这让RNN在Transformer遍地开花的潮流中仍有“一席之地”。然而，目前看来这“一席之地”只属于线性RNN，因为非线性RNN无法高效地并行训练，所以在架构之争中是“心有余而力不足”。

不过，一篇名为《Parallelizing Non-Linear Sequential Models over the Sequence Length》的论文有不同的看法，它提出了一种迭代算法，宣传可以实现非线性RNN的并行训练！真有如此神奇？接下来我们一探究竟。

求不动点

原论文对其方法做了非常一般的介绍，而且其侧重点是PDE和ODE，这里我们直接从RNN入手。考虑常见的简单非线性RNN：
\begin{equation}x_t = \tanh(Ax_{t-1} + u_t)\label{eq:rnn}\end{equation}

点击阅读全文...

分类：数学研究,信息时代标签：方程, 迭代, 语言模型, RNN 阅读全文 27 评论

11 Oct

低秩近似之路（三）：CR

By 苏剑林 | 2024-10-11 | 17583位读者 | 引用

在《低秩近似之路（二）：SVD》中，我们证明了SVD可以给出任意矩阵的最优低秩近似。那里的最优近似是无约束的，也就是说SVD给出的结果只管误差上的最小，不在乎矩阵的具体结构，而在很多应用场景中，出于可解释性或者非线性处理等需求，我们往往希望得到具有某些特殊结构的近似分解。

因此，从这篇文章开始，我们将探究一些具有特定结构的低秩近似，而本文将聚焦于其中的CR近似（Column-Row Approximation），它提供了加速矩阵乘法运算的一种简单方案。

问题背景

矩阵的最优$r$秩近似的一般提法是
\begin{equation}\mathop{\text{argmin}}_{\text{rank}(\tilde{\boldsymbol{M}})\leq r}\Vert \tilde{\boldsymbol{M}} - \boldsymbol{M}\Vert_F^2\label{eq:loss-m2}\end{equation}

点击阅读全文...

分类：数学研究标签：近似, 最优, 矩阵, 低秩阅读全文 2 评论

11 Jun

用PyPy提高Python脚本执行效率

By 苏剑林 | 2014-06-11 | 23806位读者 | 引用

在《两百万前素数之和与前两百万素数之和》中，我们用Python求了前两百万的素数和以及两百万前的素数和，并且得到了在Python 3.3中的执行时间如下：

两百万前的素数之和：
142913828922
time: 2.4048174478605646
前两百万的素数之和：
31381137530481
time: 46.75734807838953

于是想办法提高python脚本的执行效率，我觉得在算法方面，优化空间已经比较小了，于是考虑执行器上的优化。在搜索的无意间我看到了一个名词——Psyco！这是python的一个外部模块，导入后可以加快.py脚本的执行。网上也有《用 Psyco 让 Python 运行得像 C一样快》、《利用 psyco 让 Python 程序执行更快》之类的文章，说明Psyco确实是一个可行的选择，于是就跃跃欲试了，后来了解到Psyco在2012年已经停止开发，只支持到Python 2.4版本，目前它由 PyPy所接替。于是我就下载了PyPy。

点击阅读全文...

分类：数学研究,生活/情感标签：素数, python 阅读全文抢沙发

10 Jun

两百万前素数之和与前两百万素数之和

By 苏剑林 | 2014-06-10 | 71549位读者 | 引用

标题说了两道比较好玩的编程题，如果读者觉得标题绕的让人眩晕的话，那么让我再说得清晰一点：

两百万前素数之和指的是所有不超过两百万的素数的和；
前两百万素数之和指的是前两百万个素数的和。

我是从子谋的blog中看到这道题目的，前一道题目是Project Euler的第10题，后一道则是我跟子谋探索着玩的。关于子谋的研究和代码，大家可以去他的blog上学习。本文分享一下我自己的想法。

点击阅读全文...

分类：数学研究标签：素数, 数论, python 阅读全文 15 评论

2 Jul

[追溯]封装界传奇人物

By 苏剑林 | 2014-07-02 | 19501位读者 | 引用

转载理由：现在的deepin和ylmf（已经改为StartOs）都已经在制作自己的Linux，而当初它们都是制作GhostXp的大家。我的初中，即2009年以前，是GhostXP流行的时代，而我当时也加入了这一行列中，发表过一些GhostXP的作品。后来随着时代的发展，XP也就慢慢退出了舞台。我也就随之退出了这个舞台，也因此得以专注科学。但是，几乎所有我的电脑知识，都积累于那个时期，因为为了完成一个系统的制作和推广，需要懂得的电脑技术很多很多，我也得到了充分的锻炼。下面列举的一些人，都是当年GhostXP界的神话人物，有些我并不认识，但其名在当时就如雷贯耳；有些人在当时还十分幸运地加上了他们的QQ。这篇文章实际上已经是很久已经的了，但还是值得回味过去的时间，以此为我的初中时代留下一些回忆。

点击阅读全文...

分类：千奇百怪标签：转载, 电脑, 追溯阅读全文抢沙发

13 Feb

Designing GANs：又一个GAN生产车间

By 苏剑林 | 2020-02-13 | 34366位读者 | 引用

在2018年的文章里《f-GAN简介：GAN模型的生产车间》笔者介绍了f-GAN，并评价其为GAN模型的“生产车间”，顾名思义，这是指它能按照固定的流程构造出很多不同形式的GAN模型来。前几天在arxiv上看到了新出的一篇论文《Designing GANs: A Likelihood Ratio Approach》（后面简称Designing GANs或原论文），发现它在做跟f-GAN同样的事情，但走的是一条截然不同的路（不过最后其实是殊途同归），整篇论文颇有意思，遂在此分享一番。

f-GAN回顾

从《f-GAN简介：GAN模型的生产车间》中我们可以知道，f-GAN的首要步骤是找到满足如下条件的函数$f$：

1、$f$是非负实数到实数的映射（$\mathbb{R}^* \to \mathbb{R}$）；
2、$f(1)=0$；
3、$f$是凸函数。

点击阅读全文...

分类：数学研究,信息时代标签：微积分, GAN, 生成模型阅读全文 4 评论

6 Jun

闲聊：神经网络与深度学习

By 苏剑林 | 2015-06-06 | 70666位读者 | 引用

神经网络

在所有机器学习模型之中，也许最有趣、最深刻的便是神经网络模型了。笔者也想献丑一番，说一次神经网络。当然，本文并不打算从头开始介绍神经网络，只是谈谈我对神经网络的个人理解。如果希望进一步了解神经网络与深度学习的朋友，请移步阅读下面的教程：
http://deeplearning.stanford.edu/wiki/index.php/UFLDL教程

http://blog.csdn.net/zouxy09/article/details/8775360

机器分类

这里以分类工作为例，数据挖掘或机器学习中，有很多分类的问题，比如讲一句话的情况进行分类，粗略点可以分类为“积极”或“消极”，精细点分为开心、生气、忧伤等；另外一个典型的分类问题是手写数字识别，也就是将图片分为10类（0,1,2,3,4,5,6,7,8,9）。因此，也产生了很多分类的模型。

点击阅读全文...

分类：信息时代标签：神经网络, 深度学习, 机器学习阅读全文 17 评论

22 Jun

文本情感分类（一）：传统模型

By 苏剑林 | 2015-06-22 | 229725位读者 | 引用

前言：四五月份的时候，我参加了两个数据挖掘相关的竞赛，分别是物电学院举办的“亮剑杯”，以及第三届 “泰迪杯”全国大学生数据挖掘竞赛。很碰巧的是，两个比赛中，都有一题主要涉及到中文情感分类工作。在做“亮剑杯”的时候，由于我还是初涉，水平有限，仅仅是基于传统的思路实现了一个简单的文本情感分类模型。而在后续的“泰迪杯”中，由于学习的深入，我已经基本了解深度学习的思想，并且用深度学习的算法实现了文本情感分类模型。因此，我打算将两个不同的模型都放到博客中，供读者参考。刚入门的读者，可以从中比较两者的不同，并且了解相关思路。高手请一笑置之。

基于情感词典

人的最简单的判断思维

点击阅读全文...

分类：信息时代标签：python, 机器学习, 数据挖掘, 文本挖掘阅读全文 59 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

脑洞大开：非线性RNN居然也可以并行计算？

求不动点

低秩近似之路（三）：CR

问题背景

用PyPy提高Python脚本执行效率

两百万前素数之和与前两百万素数之和

[追溯]封装界传奇人物

Designing GANs：又一个GAN生产车间

f-GAN回顾

闲聊：神经网络与深度学习

机器分类

文本情感分类（一）：传统模型

基于情感词典

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接