包含关键字 TransformerTransformer升级之路的文章

14 Feb

高斯型积分的微扰展开（一）

By 苏剑林 | 2015-02-14 | 33529位读者 | 引用

前段时间在研究费曼的路径积分理论，看到路径积分的微扰方法，也就是通过小参数展开的方式逐步逼近传播子。这样的技巧具有非常清晰的物理意义，有兴趣了解路径积分以及量子力学的读者，请去阅读费曼的《量子力学与路径积分》。然而从数学角度看来，这种逼近的技巧实际上非常粗糙，收敛范围和速度难以得到保证。事实上，数学上发展了各种各样的摄动技巧，来应对不同情况的微扰。下面我们研究积分
$$\int_{-\infty}^{+\infty} e^{-ax^2-\varepsilon x^4} dx\tag{1}$$
或者更一般地
$$\int_{-\infty}^{+\infty} e^{-ax^2-\varepsilon V(x)} dx\tag{2}$$
路径积分的级数展开比它稍微复杂一些，但是仍然是类似的形式。

点击阅读全文...

分类：数学研究标签：积分, 摄动, 微扰, 渐近级数阅读全文 2 评论

28 Oct

朋友们，来瓶汽水吧！有趣的换汽水问题

By 苏剑林 | 2015-10-28 | 33498位读者 | 引用

————怀念我曾经参加过的小学数学竞赛。

从一道小学竞赛题谈起

笔者小学五年级时参加了第一次数学竞赛，叫“育苗杯”，大多数题目都记不清楚了，唯一记得很清楚的是如下这道题目（不完全相同，意思类似）：

假设汽水一块钱一瓶，而且4个空瓶子可以换一瓶汽水喝。如果我有30块钱，我最多可以喝到多少瓶汽水？

来瓶汽水吧

当然，上面的情况可能太理想了，但是必须承认，类似的案例在生活中大量存在。比如买草龟吃时，草龟壳由于可以入药，所以有人回收龟壳，这也意味着若干个龟壳就可以换一只龟，等等。读者能不能很快就算出来呢？

当然，这道题并不困难，30块钱能买30瓶汽水，然后留下30个空瓶子，这30个空瓶子可以换来7瓶汽水，剩下2个空瓶子；喝完汽水后，剩下9个空瓶子，可以换来2瓶汽水，剩下1个空瓶子；喝完汽水后，剩下3个空瓶子。算算看，这时候我们已经喝了30+7+2=39瓶汽水了。（不考虑撑着啊，也可以分给别人喝^_^）整个过程如下表：
$$\begin{array}{c|cccc}
\hline
\text{空瓶子数} & 30 & 2+7 & 1+2 & ? \\
\hline
\text{已喝汽水数} & 30 & 7 & 2 & ? \\
\hline \end{array}$$

点击阅读全文...

分类：数学研究标签：趣味, 竞赛阅读全文 3 评论

7 Nov

【外微分浅谈】6. 微分几何

By 苏剑林 | 2016-11-07 | 45910位读者 | 引用

终于开始谈到重点了，就是这部分内容促使我学习外微分的。用外微分可以方便地推导微分几何的一些内容，有时候还能方便计算。其主要根源在于：外微分本身在形式上是微分的推广，因此微分几何的东西能够使用外微分来描述并不出奇；然后，最重要的原因是，外微分把$dx^{\mu}$看成一组基，因此相当于在几何中引入了两组基，一组是本身的向量基（用张量的语言，就是逆变向量的基），这组基可以做对称的内积，另外一组基就是$dx^{\mu}$，这组基可以做反对称的外积。因此，当外微分引入几何时，微分几何就拥有了微分、积分、对称积、反对称积等各种“理想装备”，这就是外微分能够加速微分几何推导的主要原因。

标架的运动

前面已经得到
$$\begin{aligned}&\omega^{\mu}=h_{\alpha}^{\mu}dx^{\alpha}\\
&d\boldsymbol{r}=\hat{\boldsymbol{e}}_{\mu} \omega^{\mu}\\
&ds^2 = \eta_{\mu\nu} \omega^{\mu}\omega^{\nu}\\
&\langle \hat{\boldsymbol{e}}_{\mu}, \hat{\boldsymbol{e}}_{\nu}\rangle = \eta_{\mu\nu}\end{aligned} \tag{45} $$

点击阅读全文...

分类：数学研究标签：几何, 黎曼几何, 外微分阅读全文 4 评论

27 Aug

fashion mnist的一个baseline (MobileNet 95%)

By 苏剑林 | 2017-08-27 | 80976位读者 | 引用

浅尝

昨天简单试了一下在fashion mnist的gan模型，发现还能work，当然那个尝试也没什么技术水平，就是把原来的脚本改一下路径跑了就完事。今天回到fashion mnist本身的主要任务——10分类，用Keras测了一下一些模型在上面的分类效果，最后得到了94.5%左右的准确率，加上随机翻转的数据扩增能做到95%。

首先随便手写了一些模型的组合，测试发现准确率都不大好，看来对于这个数据集来说，自己构思模型是比较困难的了，于是想着用现成的模型结构。一说到现成的cnn模型，基本上我们都会想到VGG、ResNet、inception、Xception等，但这些模型为解决imagenet的1000分类问题而设计，用到这个入门级别的数据集上似乎过于庞大了，而且也容易过拟合。后来突然想起，Keras好像自带了个叫MobileNet的模型，查看了一下模型权重，发现参数量不大，但是容量应该还是可以的，故选用MobileNet做实验。

深究

点击阅读全文...

分类：信息时代标签：神经网络, 深度学习阅读全文 12 评论

21 May

厨房，菜市场，其实都是武林

By 苏剑林 | 2018-05-21 | 40181位读者 | 引用

蒜蓉蒸虾-准备-20180520

蒜蓉蒸虾-出锅-20180520

我喜欢吃东西，不过我一般是怀着欣赏的眼光来吃，并不是特别吃货的那种。我更喜欢的是做吃的，喜欢食物“从菜市场到出炉”的华丽变身的那种过程，我认为这是生活必备的一部分。

点击阅读全文...

分类：图片摄影,生活/情感标签：生活, 厨房, 美食阅读全文 5 评论

20 Dec

从动力学角度看优化算法（二）：自适应学习率算法

By 苏剑林 | 2018-12-20 | 47997位读者 | 引用

在《从动力学角度看优化算法（一）：从SGD到动量加速》一文中，我们提出SGD优化算法跟常微分方程（ODE）的数值解法其实是对应的，由此还可以很自然地分析SGD算法的收敛性质、动量加速的原理等等内容。

在这篇文章中，我们继续沿着这个思路，去理解优化算法中的自适应学习率算法。

RMSprop

首先，我们看一个非常经典的自适应学习率优化算法：RMSprop。RMSprop虽然不是最早提出的自适应学习率的优化算法，但是它却是相当实用的一种，它是诸如Adam这样的更综合的算法的基石，通过它我们可以观察自适应学习率的优化算法是怎么做的。

算法概览

一般的梯度下降是这样的：
$$\begin{equation}\boldsymbol{\theta}_{n+1}=\boldsymbol{\theta}_{n} - \gamma \nabla_{\boldsymbol{\theta}} L(\boldsymbol{\theta}_{n})\end{equation}$$
很明显，这里的$\gamma$是一个超参数，便是学习率，它可能需要在不同阶段做不同的调整。

而RMSprop则是
$$\begin{equation}\begin{aligned}\boldsymbol{g}_{n+1} =& \nabla_{\boldsymbol{\theta}} L(\boldsymbol{\theta}_{n})\\
\boldsymbol{G}_{n+1}=&\lambda \boldsymbol{G}_{n} + (1 - \lambda) \boldsymbol{g}_{n+1}\otimes \boldsymbol{g}_{n+1}\\
\boldsymbol{\theta}_{n+1}=&\boldsymbol{\theta}_{n} - \frac{\tilde{\gamma}}{\sqrt{\boldsymbol{G}_{n+1} + \epsilon}}\otimes \boldsymbol{g}_{n+1}
\end{aligned}\end{equation}$$

点击阅读全文...

分类：数学研究标签：微分方程, 动力学, 数值计算, 优化器阅读全文 11 评论

1 Mar

构造一个显式的、总是可逆的矩阵

By 苏剑林 | 2019-03-01 | 42978位读者 | 引用

从《恒等式 det(exp(A)) = exp(Tr(A)) 赏析》一文我们得到矩阵$\exp(\boldsymbol{A})$总是可逆的，它的逆就是$\exp(-\boldsymbol{A})$。问题是$\exp(\boldsymbol{A})$只是一个理论定义，单纯这样写没有什么价值，因为它要把每个$\boldsymbol{A}^n$都算出来。

有没有什么具体的例子呢？有，本文来构造一个显式的、总是可逆的矩阵。

其实思路非常简单，假设$\boldsymbol{x},\boldsymbol{y}$是两个$k$维列向量，那么$\boldsymbol{x}\boldsymbol{y}^{\top}$就是一个$k\times k$的矩阵，我们就来考虑
\begin{equation}\begin{aligned}\exp\left(\boldsymbol{x}\boldsymbol{y}^{\top}\right)=&\sum_{n=0}^{\infty}\frac{\left(\boldsymbol{x}\boldsymbol{y}^{\top}\right)^n}{n!}\\
=&\boldsymbol{I}+\boldsymbol{x}\boldsymbol{y}^{\top}+\frac{\boldsymbol{x}\boldsymbol{y}^{\top}\boldsymbol{x}\boldsymbol{y}^{\top}}{2}+\frac{\boldsymbol{x}\boldsymbol{y}^{\top}\boldsymbol{x}\boldsymbol{y}^{\top}\boldsymbol{x}\boldsymbol{y}^{\top}}{6}+\dots\end{aligned}\end{equation}

点击阅读全文...

分类：数学研究标签：矩阵, 行列式阅读全文 8 评论

5 Jun

从一个单位向量变换到另一个单位向量的正交矩阵

By 苏剑林 | 2021-06-05 | 43482位读者 | 引用

这篇文章我们来讨论一个比较实用的线性代数问题：

给定两个$d$维单位（列）向量$\boldsymbol{a},\boldsymbol{b}$，求一个正交矩阵$\boldsymbol{T}$，使得$\boldsymbol{b}=\boldsymbol{T}\boldsymbol{a}$。

由于两个向量模长相同，所以很显然这样的正交矩阵必然存在，那么，我们怎么把它找出来呢？

二维

不难想象，这本质上就是$\boldsymbol{a},\boldsymbol{b}$构成的二维子平面下的向量变换（比如旋转或者镜面反射）问题，所以我们先考虑$d=2$的情形。

正交分解示意图

点击阅读全文...

分类：数学研究标签：变换, 向量, 矩阵阅读全文 11 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

高斯型积分的微扰展开（一）

朋友们，来瓶汽水吧！有趣的换汽水问题

从一道小学竞赛题谈起

【外微分浅谈】6. 微分几何

标架的运动

fashion mnist的一个baseline (MobileNet 95%)

浅尝

深究

厨房，菜市场，其实都是武林

从动力学角度看优化算法（二）：自适应学习率算法

RMSprop

算法概览

构造一个显式的、总是可逆的矩阵

从一个单位向量变换到另一个单位向量的正交矩阵

二维

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接