包含关键字变分信息瓶颈的文章 - 科学空间|Scientific Spaces

13 Nov

ARXIV数学论文分布：偏微分方程最热门！

By 苏剑林 | 2015-11-13 | 35041位读者 | 引用

笔者成功地保研到了中山大学的基础数学专业，这个专业自然是比较理论性的，虽然如此，我还会保持着我对数据分析、计算机等方面的兴趣。这几天兴致来了，想做一下结合我的专业跟数据挖掘相结合的研究，所以就爬取了ARXIV上面近五年（2010年到2014年）的数学论文（包含的数据有：标题、分类、年份、月份），想对这几年来数学的“行情”做一下简单的分析。个人认为，ARVIX作为目前全球最大的论文预印本的电子数据库，对它的数据进行分析，所得到的结论是能够具有一定的代表性的。

当然，本文只是用来练手爬虫和基本数据分析的文章，并没有挖掘出特别有价值的信息。文末附录了笔者爬取到的数据，供有兴趣的读者进一步分析研究。

整体情况

这五年来，ARXIV的数学论文总数为135009篇，平均每年27000篇，或者每天74篇。

点击阅读全文...

分类：信息时代标签：python, 数据挖掘阅读全文 2 评论

6 Nov

这个星期对微分方程的认识

By 苏剑林 | 2010-11-06 | 38875位读者 | 引用

这个星期研究了两道微分方程问题：“导弹跟踪”以及“太阳炉”问题。从中我加深了对微分方程的理解，也熟悉了微分方程的相关运算。仅此记录，权当抛砖引玉。

一、微分方程的本质

很多读者都知道，自从牛顿和莱布尼兹发明微积分之后，微积分就迅速地渗透到了几乎所有的学科，后来发展出许多出色的分支，如变分、微分方程等。众所周知，微分方程是解决很多重要问题的工具。不知道各位读者对微分及微分方程的认识如何？其实对于常微分方程而言，它的本质和我们已经学习过的代数方程一样，只不过相互之间的对应运算关系除了常规的加减乘除幂等之外，还多了两个相互关系：微分和积分。例如对于一阶微分方程 $\dot{y}=f(x,y)$ ，也许大家都认为它是一个二元方程，其实不然，这是一个“四个未知数、三道方程”所组成的方程组，我们可以将它写成

$dy=f(x,y)dx,y=\int dy,x=\int dx$

点击阅读全文...

分类：数学研究标签：微分方程阅读全文 5 评论

26 Dec

《自然极值》系列——8.极值分析

By 苏剑林 | 2010-12-26 | 51344位读者 | 引用

《非线性泛函分析及其应用,第3卷,变分法及最优化》

本篇文章是《自然极值》系列最后一篇文章，估计也是2010年最后一篇文章了。在这个美好的2010年，想必大家一定收获匪浅，BoJone也在2010年成长了很多。在2010年的尾声，BoJone和科学空间都祝大家在新的一年里更加开心快乐，在科学的道路上更快速地前行。

在本文，BoJone将与大家讨论求极值的最基本原理。这一探讨思路受到了天才的费恩曼所著《费恩曼物理讲义》的启迪。我们分别对函数求极值（求导）和泛函数极值（变分）进行一些简略的分析。

一、函数求极值

对于一个函数 $y=f(x)$ ，设想它在 $x=x_0$ 处取到最大值，那么显然对于很小的增量 $\Delta x$ ，有
$f(x_0+\Delta x) \leq f(x_0)\tag{3}$ 根据泰勒级数，我们有
$f(x_0+\Delta x)=f(x_0)+f'(x_0)\Delta x$ ————(4)

点击阅读全文...

分类：数学研究标签：2010, 极值, 分析, 变分, 2011 阅读全文 8 评论

1 Apr

《量子力学与路径积分》习题解答V0.5

By 苏剑林 | 2016-04-01 | 38688位读者 | 引用

习题解答继续艰难推进中，目前是0.5版本，相比0.4版，跳过了8、9章，先做了第10、11章统计力学部分的习题。

第10章有10道习题，第11章其实没有习题。看上去很少，但其实每一道习题的难度都很大。这两章的主要内容都是在用路径积分方法算统计力学中的配分函数，这本来就是一个很艰辛的课题。加上费曼在书中那形象的描述，容易让读者能够认识到大概，但是却很难算下去。事实上，这一章的习题，我参考了相当多的资料，中文的、英文的都有，才勉强完成了。

虽说是完成，但10道题目中，我只完成了9道，其中问题10-3是有困惑的，我感觉的结果跟费曼给出的不一样，因此就算不下去了。在这里提出来，希望了解的读者赐教。

点击阅读全文...

分类：数学研究标签：路径积分, 费曼阅读全文 4 评论

2 Jun

路径积分系列：3.路径积分

By 苏剑林 | 2016-06-02 | 80851位读者 | 引用

路径积分是量子力学的一种描述方法，源于物理学家费曼[5]，它是一种泛函积分，它已经成为现代量子理论的主流形式. 近年来，研究人员对它的兴趣愈发增加，尤其是它在量子领域以外的应用，出现了一些著作，如[7]. 但在国内了解路径积分的人并不多，很多量子物理专业的学生可能并没有听说过路径积分.

从数学角度来看，路径积分是求偏微分方程的Green函数的一种方法. 我们知道，在偏微分方程的研究中，如果能够求出对应的Green函数，那么对偏微分方程的研究会大有帮助，而通常情况下Green函数并不容易求解. 但构建路径积分只需要无穷小时刻的Green函数，因此形式和概念上都相当简单.

本章并没有新的内容，只是做了一个尝试：从随机游走问题出发，给出路径积分的一个简明而直接的介绍，展示了如何将抛物型的偏微分方程问题转化为路径积分形式.

从点的概率到路径的概率

在上一章对随机游走的研究中，我们得出从 $x_0$ 出发， $t$ 时间后，走到 $x_n$ 处的概率密度为
$\frac{1}{\sqrt{2\pi \alpha T}}\exp\left(-\frac{(x_n-x_0)^2}{2\alpha t}\right).\tag{22}$
这是某时刻某点到另一个时刻另一点的概率，在数学上，我们称之为扩散方程 $(21)$ 的传播子，或者Green函数.

点击阅读全文...

分类：数学研究标签：微分方程, 路径积分, 费曼阅读全文 8 评论

14 Nov

当Batch Size增大时，学习率该如何随之变化？

By 苏剑林 | 2024-11-14 | 45382位读者 | 引用

随着算力的飞速进步，有越多越多的场景希望能够实现“算力换时间”，即通过堆砌算力来缩短模型训练时间。理想情况下，我们希望投入 $n$ 倍的算力，那么达到同样效果的时间则缩短为 $1/n$ ，此时总的算力成本是一致的。这个“希望”看上去很合理和自然，但实际上并不平凡，即便我们不考虑通信之类的瓶颈，当算力超过一定规模或者模型小于一定规模时，增加算力往往只能增大Batch Size。然而，增大Batch Size一定可以缩短训练时间并保持效果不变吗？

这就是接下来我们要讨论的话题：当Batch Size增大时，各种超参数尤其是学习率该如何调整，才能保持原本的训练效果并最大化训练效率？我们也可以称之为Batch Size与学习率之间的Scaling Law。

方差视角

直觉上，当Batch Size增大时，每个Batch的梯度将会更准，所以步子就可以迈大一点，也就是增大学习率，以求更快达到终点，缩短训练时间，这一点大体上都能想到。问题就是，增大多少才是最合适的呢？

点击阅读全文...

分类：数学研究,信息时代标签：梯度, 学习率, 优化器, 尺度定律阅读全文 18 评论

13 Jun

生成扩散模型漫谈（一）：DDPM = 拆楼 + 建楼

By 苏剑林 | 2022-06-13 | 538153位读者 | 引用

说到生成模型，VAE、GAN可谓是“如雷贯耳”，本站也有过多次分享。此外，还有一些比较小众的选择，如flow模型、VQ-VAE等，也颇有人气，尤其是VQ-VAE及其变体VQ-GAN，近期已经逐渐发展到“图像的Tokenizer”的地位，用来直接调用NLP的各种预训练方法。除了这些之外，还有一个本来更小众的选择——扩散模型（Diffusion Models）——正在生成模型领域“异军突起”，当前最先进的两个文本生成图像——OpenAI的DALL·E 2和Google的Imagen，都是基于扩散模型来完成的。

Imagen“文本-图片”的部分例子

从本文开始，我们开一个新坑，逐渐介绍一下近两年关于生成扩散模型的一些进展。据说生成扩散模型以数学复杂闻名，似乎比VAE、GAN要难理解得多，是否真的如此？扩散模型真的做不到一个“大白话”的理解？让我们拭目以待。

点击阅读全文...

分类：信息时代标签：概率, 生成模型, DDPM, 扩散阅读全文 369 评论

6 Mar

【中文分词系列】 7. 深度学习分词？只需一个词典！

By 苏剑林 | 2017-03-06 | 126297位读者 | 引用

这个系列慢慢写到第7篇，基本上也把分词的各种模型理清楚了，除了一些细微的调整（比如最后的分类器换成CRF）外，剩下的就看怎么玩了。基本上来说，要速度，就用基于词典的分词，要较好地解决组合歧义何和新词识别，则用复杂模型，比如之前介绍的LSTM、FCN都可以。但问题是，用深度学习训练分词器，需要标注语料，这费时费力，仅有的公开的几个标注语料，又不可能赶得上时效，比如，几乎没有哪几个公开的分词系统能够正确切分出“扫描二维码，关注微信号”来。

本文就是做了这样的一个实验，仅用一个词典，就完成了一个深度学习分词器的训练，居然效果还不错！这种方案可以称得上是半监督的，甚至是无监督的。

点击阅读全文...

分类：信息时代标签：分词, 自然语言处理, 无监督, 新词发现阅读全文 22 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

ARXIV数学论文分布：偏微分方程最热门！

整体情况

这个星期对微分方程的认识

《自然极值》系列——8.极值分析

《量子力学与路径积分》习题解答V0.5

路径积分系列：3.路径积分

从点的概率到路径的概率

当Batch Size增大时，学习率该如何随之变化？

方差视角

生成扩散模型漫谈（一）：DDPM = 拆楼 + 建楼

【中文分词系列】 7. 深度学习分词？只需一个词典！

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接